Что такое механизм внимания (attention) в нейросетях

Attention (механизм внимания) — ключевой компонент архитектуры Transformer, позволяющий модели определять, какие части входных данных наиболее важны для текущей задачи.

Механизм внимания позволяет модели при обработке каждого слова «смотреть» на все остальные слова и определять их важность. Например, в предложении «Кот сидел на коврике, он мурлыкал» модель через attention понимает, что «он» относится к «кот». Self-attention вычисляет матрицу весов внимания между всеми парами токенов. Multi-head attention использует несколько «голов» внимания параллельно для захвата разных типов связей. Вычислительная сложность attention растёт квадратично с длиной контекста, что ограничивает размер контекстного окна.

Примеры использования

•Разрешение местоимений: модель понимает, что «он» = «кот»
•Перевод: attention связывает соответствующие слова в исходном и целевом языках
•Суммаризация: модель выделяет ключевые предложения в тексте

Связанные термины

Transformer LLM Контекстное окно Токен

Попробуйте Attention в Stone AI

Открыть AI-чат →