Что такое Transformer — архитектура нейросетей

Transformer — архитектура нейронных сетей, предложенная Google в 2017 году. Стала основой для всех современных языковых моделей: GPT, Claude, Gemini, LLaMA и других.

Transformer был представлен в статье «Attention Is All You Need» и произвёл революцию в обработке естественного языка. Ключевая инновация — механизм внимания (self-attention), позволяющий модели учитывать связи между всеми словами в тексте одновременно, а не последовательно. Это дало огромный выигрыш в скорости обучения и качестве. До Transformer использовались рекуррентные сети (RNN, LSTM), которые обрабатывали текст последовательно. Transformer позволяет параллельную обработку, что идеально подходит для современных GPU.

Примеры использования

  • GPT — использует декодер Transformer для генерации текста
  • BERT — использует энкодер Transformer для понимания текста
  • Vision Transformer (ViT) — адаптация для обработки изображений

Связанные термины

Попробуйте Transformer в Stone AI

Открыть AI-чат →