Что такое токен в AI — единица текста

Токен — минимальная единица текста, с которой работает языковая модель. Это может быть слово, часть слова или знак препинания. В среднем один токен — это 3–4 символа для английского и 1–2 символа для русского языка.

Языковые модели не работают с текстом напрямую — они разбивают его на токены с помощью токенизатора (tokenizer). Разные модели используют разные токенизаторы, поэтому количество токенов может отличаться. Токены определяют стоимость API-запросов и ограничения контекстного окна. Например, GPT-4 Turbo поддерживает 128 000 токенов контекста. Для русского языка токенизация менее эффективна: одно слово может занимать 2–4 токена, тогда как английское слово — обычно 1 токен. В Stone AI стоимость отображается в токенах для прозрачности.

Примеры использования

  • Слово «привет» = 2–3 токена, «hello» = 1 токен
  • GPT-4: вход ~$30 за 1M токенов, выход ~$60 за 1M токенов
  • Контекстное окно Claude 3.5 = 200 000 токенов ≈ 150 000 слов

Связанные термины

Попробуйте Токен в Stone AI

Открыть AI-чат →