Что такое токен в AI — единица текста
Токен — минимальная единица текста, с которой работает языковая модель. Это может быть слово, часть слова или знак препинания. В среднем один токен — это 3–4 символа для английского и 1–2 символа для русского языка.
Языковые модели не работают с текстом напрямую — они разбивают его на токены с помощью токенизатора (tokenizer). Разные модели используют разные токенизаторы, поэтому количество токенов может отличаться. Токены определяют стоимость API-запросов и ограничения контекстного окна. Например, GPT-4 Turbo поддерживает 128 000 токенов контекста. Для русского языка токенизация менее эффективна: одно слово может занимать 2–4 токена, тогда как английское слово — обычно 1 токен. В Stone AI стоимость отображается в токенах для прозрачности.
Примеры использования
- •Слово «привет» = 2–3 токена, «hello» = 1 токен
- •GPT-4: вход ~$30 за 1M токенов, выход ~$60 за 1M токенов
- •Контекстное окно Claude 3.5 = 200 000 токенов ≈ 150 000 слов
Связанные термины
Попробуйте Токен в Stone AI
Открыть AI-чат →