AI-глоссарий
50+ терминов про нейросети и искусственный интеллект. Простые объяснения на русском языке.
🤖 Модели
GPT
GPT (Generative Pre-trained Transformer) — семейство больших языковых моделей, разработанных OpenAI. Модели обучены на огромных объёмах текста и способны генерировать связный текст, отвечать на вопросы, писать код.
Claude
Claude — семейство больших языковых моделей от компании Anthropic. Модели отличаются высоким качеством рассуждений, большим контекстным окном и акцентом на безопасность. Считается одним из главных конкурентов GPT.
Gemini
Gemini — семейство мультимодальных моделей искусственного интеллекта от Google DeepMind. Модели изначально обучены работать с текстом, изображениями, аудио и видео одновременно.
LLaMA
LLaMA (Large Language Model Meta AI) — семейство открытых языковых моделей от компании Meta (Facebook). Модели распространяются с открытыми весами, что позволяет запускать их локально и дообучать.
DeepSeek
DeepSeek — серия больших языковых моделей от китайской компании DeepSeek AI. Модели отличаются высокой эффективностью и конкурентным качеством при значительно меньших затратах на обучение.
Stable Diffusion
Stable Diffusion — открытая модель генерации изображений на основе диффузионного процесса. Создана компанией Stability AI и позволяет генерировать высококачественные изображения по текстовому описанию.
Midjourney
Midjourney — коммерческая модель генерации изображений по текстовому описанию. Известна высочайшим художественным качеством и фотореалистичностью результатов.
DALL-E
DALL-E — семейство моделей генерации изображений от OpenAI. DALL-E 3 интегрирован с ChatGPT и отличается точным следованием текстовым описаниям, включая надписи на изображениях.
Sora
Sora — модель генерации видео от OpenAI, способная создавать реалистичные видеоролики длительностью до минуты по текстовому описанию. Использует архитектуру диффузионного трансформера.
Flux
Flux — семейство моделей генерации изображений от Black Forest Labs, созданной бывшими разработчиками Stable Diffusion. Модели отличаются высоким качеством и скоростью генерации.
Mistral
Mistral — семейство языковых моделей от французской компании Mistral AI. Компания известна созданием компактных, но мощных моделей, конкурирующих с гораздо более крупными решениями.
Grok
Grok — большая языковая модель от компании xAI, основанной Илоном Маском. Отличается доступом к данным из X (Twitter) в реальном времени и менее строгими ограничениями в ответах.
Perplexity
Perplexity — AI-поисковая система, которая отвечает на вопросы с цитированием реальных источников. Сочетает возможности поиска в интернете и языковой модели.
ChatGPT
ChatGPT — чат-бот на основе языковых моделей GPT от OpenAI. Стал самым быстрорастущим приложением в истории, набрав 100 миллионов пользователей за 2 месяца после запуска в ноябре 2022 года.
OpenAI
OpenAI — американская компания, занимающаяся исследованиями и разработкой искусственного интеллекта. Создатели ChatGPT, GPT-4, DALL-E, Whisper и Sora.
💡 Концепции
LLM
LLM (Large Language Model) — большая языковая модель, обученная на огромных объёмах текстовых данных. Модели содержат миллиарды параметров и способны генерировать текст, понимать контекст и решать разнообразные задачи.
Transformer
Transformer — архитектура нейронных сетей, предложенная Google в 2017 году. Стала основой для всех современных языковых моделей: GPT, Claude, Gemini, LLaMA и других.
Нейросеть
Нейросеть (нейронная сеть) — математическая модель, вдохновлённая работой человеческого мозга. Состоит из слоёв искусственных нейронов, которые обрабатывают данные и обучаются на примерах.
Промпт
Промпт (prompt) — текстовый запрос или инструкция, которую пользователь отправляет нейросети. От качества промпта напрямую зависит качество ответа AI.
Токен
Токен — минимальная единица текста, с которой работает языковая модель. Это может быть слово, часть слова или знак препинания. В среднем один токен — это 3–4 символа для английского и 1–2 символа для русского языка.
Fine-tuning
Fine-tuning (дообучение) — процесс дополнительного обучения предварительно обученной модели на специализированном наборе данных для адаптации к конкретной задаче или домену.
RAG
RAG (Retrieval Augmented Generation) — архитектурный паттерн, при котором языковая модель дополняется поиском по внешней базе знаний перед генерацией ответа. Это позволяет давать актуальные и точные ответы.
Галлюцинация
Галлюцинация AI — явление, при котором языковая модель генерирует уверенный, но фактически неверный или полностью выдуманный ответ. Модель «галлюцинирует» несуществующие факты, цитаты или ссылки.
Контекстное окно
Контекстное окно (context window) — максимальное количество токенов, которое языковая модель может обработать в одном запросе. Включает и входной промпт, и сгенерированный ответ.
Эмбеддинг
Эмбеддинг (embedding) — представление текста, слова или другого объекта в виде числового вектора в многомерном пространстве. Близкие по смыслу тексты получают близкие векторы.
Attention
Attention (механизм внимания) — ключевой компонент архитектуры Transformer, позволяющий модели определять, какие части входных данных наиболее важны для текущей задачи.
Мультимодальность
Мультимодальность — способность AI-модели обрабатывать и генерировать несколько типов данных: текст, изображения, аудио и видео. Мультимодальные модели понимают связи между разными форматами.
RLHF
RLHF (Reinforcement Learning from Human Feedback) — метод обучения языковых моделей с использованием обратной связи от людей. Люди оценивают ответы модели, и она учится генерировать более полезные и безопасные ответы.
Диффузия
Диффузионная модель — тип генеративной модели, которая создаёт данные (изображения, аудио) путём постепенного удаления шума. Обучается на процессе добавления и удаления шума из реальных данных.
Генеративный AI
Генеративный AI (Generative AI) — класс систем искусственного интеллекта, способных создавать новый контент: текст, изображения, музыку, видео, код. В отличие от аналитического AI, генеративный AI создаёт, а не просто классифицирует данные.
⚙️ Техники
Prompt Engineering
Промпт-инжиниринг (Prompt Engineering) — дисциплина, изучающая методы составления эффективных запросов к языковым моделям для получения максимально качественных результатов.
Chain of Thought
Chain of Thought (CoT) — техника промпт-инжиниринга, при которой модель рассуждает пошагово перед тем, как дать финальный ответ. Значительно повышает точность в задачах, требующих логики и рассуждений.
Few-shot learning
Few-shot learning — техника, при которой модели предоставляют несколько примеров (обычно 2–5) желаемого поведения прямо в промпте. Модель учится на этих примерах и применяет паттерн к новому запросу.
Zero-shot
Zero-shot — способность языковой модели выполнять задачу без единого примера, только на основе инструкции. Модель опирается на знания, полученные при предобучении.
Temperature
Temperature — параметр, контролирующий степень случайности в ответах языковой модели. Низкая температура (0–0.3) даёт предсказуемые ответы, высокая (0.7–1.5) — более креативные и разнообразные.
Top-p
Top-p (nucleus sampling) — параметр генерации, ограничивающий выбор следующего токена определённой долей наиболее вероятных вариантов. При top-p = 0.9 модель рассматривает только токены, суммарная вероятность которых составляет 90%.
Системный промпт
Системный промпт (system prompt) — специальная инструкция, задающая роль, стиль и ограничения поведения языковой модели. Устанавливается перед диалогом и обычно скрыт от пользователя.
img2img
img2img (image-to-image) — техника генерации нового изображения на основе исходного с помощью текстового описания изменений. Сохраняет структуру и композицию оригинала, меняя стиль или детали.
Inpainting
Inpainting — техника AI-редактирования, при которой модель заполняет выбранную область изображения новым содержимым на основе текстового описания или окружающего контекста.
Text-to-Video
Text-to-Video — технология генерации видеороликов по текстовому описанию с помощью AI. Модели создают движущееся изображение с учётом описанной сцены, действий и стиля.
🛠️ Инструменты
API
API (Application Programming Interface) — программный интерфейс, позволяющий приложениям взаимодействовать с AI-моделями. Через API можно отправлять запросы и получать ответы от GPT, Claude, Stable Diffusion и других моделей.
OpenRouter
OpenRouter — сервис-агрегатор, предоставляющий единый API для доступа к сотням AI-моделей от разных провайдеров: OpenAI, Anthropic, Google, Meta и других.
BYOK
BYOK (Bring Your Own Key) — модель использования AI-сервисов, при которой пользователь подключает свой собственный API-ключ от провайдера (OpenAI, Anthropic и др.) и оплачивает только фактическое потребление.
Webhook
Webhook (вебхук) — механизм автоматической отправки данных между сервисами при наступлении события. Вместо постоянных запросов сервис сам отправляет уведомление, когда что-то происходит.
Telegram бот
Telegram бот для AI — автоматизированный аккаунт в мессенджере Telegram, предоставляющий доступ к нейросетям. Позволяет общаться с GPT, Claude и генерировать изображения прямо в чате.
📄 Форматы
Markdown
Markdown — легковесный язык разметки текста с помощью специальных символов. Используется для форматирования ответов AI-моделей, документации, README-файлов и заметок.
JSON
JSON (JavaScript Object Notation) — текстовый формат обмена данными, используемый практически во всех AI API. Запросы и ответы AI-моделей передаются в формате JSON.
Base64
Base64 — метод кодирования бинарных данных (изображений, файлов) в текстовую строку из ASCII-символов. Широко используется для передачи изображений в AI API.
WebP
WebP — формат изображений, разработанный Google. Обеспечивает лучшее сжатие по сравнению с JPEG и PNG при сохранении качества. Поддерживает прозрачность и анимацию.
SSE
SSE (Server-Sent Events) — технология однонаправленной потоковой передачи данных от сервера к клиенту. Используется для стриминга ответов AI-моделей — текст появляется по мере генерации, а не после завершения.