Что такое RLHF — обучение с обратной связью от людей
RLHF (Reinforcement Learning from Human Feedback) — метод обучения языковых моделей с использованием обратной связи от людей. Люди оценивают ответы модели, и она учится генерировать более полезные и безопасные ответы.
RLHF — ключевой этап, превращающий базовую языковую модель в полезного ассистента. Процесс включает три шага: 1) предобучение модели на текстах, 2) обучение модели вознаграждения на основе человеческих оценок, 3) оптимизация генерации с помощью обучения с подкреплением (PPO). Благодаря RLHF модели стали следовать инструкциям, отказываться от вредных запросов и давать структурированные ответы. Anthropic предложила улучшение — RLAIF и Constitutional AI, где AI помогает AI становиться лучше.
Примеры использования
- •ChatGPT научился отказывать в создании вредного контента через RLHF
- •Модель предпочитает развёрнутый ответ с примерами, а не короткий
- •AI объясняет свои ограничения вместо генерации опасного контента
Связанные термины
Попробуйте RLHF в Stone AI
Открыть AI-чат →