Что такое RLHF — обучение с обратной связью от людей

RLHF (Reinforcement Learning from Human Feedback) — метод обучения языковых моделей с использованием обратной связи от людей. Люди оценивают ответы модели, и она учится генерировать более полезные и безопасные ответы.

RLHF — ключевой этап, превращающий базовую языковую модель в полезного ассистента. Процесс включает три шага: 1) предобучение модели на текстах, 2) обучение модели вознаграждения на основе человеческих оценок, 3) оптимизация генерации с помощью обучения с подкреплением (PPO). Благодаря RLHF модели стали следовать инструкциям, отказываться от вредных запросов и давать структурированные ответы. Anthropic предложила улучшение — RLAIF и Constitutional AI, где AI помогает AI становиться лучше.

Примеры использования

  • ChatGPT научился отказывать в создании вредного контента через RLHF
  • Модель предпочитает развёрнутый ответ с примерами, а не короткий
  • AI объясняет свои ограничения вместо генерации опасного контента

Связанные термины

Попробуйте RLHF в Stone AI

Открыть AI-чат →