AI-глоссарий

50+ терминов про нейросети и искусственный интеллект. Простые объяснения на русском языке.

🤖 Модели

GPT

GPT (Generative Pre-trained Transformer) — семейство больших языковых моделей, разработанных OpenAI. Модели обучены на огромных объёмах текста и способны генерировать связный текст, отвечать на вопросы, писать код.

Claude

Claude — семейство больших языковых моделей от компании Anthropic. Модели отличаются высоким качеством рассуждений, большим контекстным окном и акцентом на безопасность. Считается одним из главных конкурентов GPT.

Gemini

Gemini — семейство мультимодальных моделей искусственного интеллекта от Google DeepMind. Модели изначально обучены работать с текстом, изображениями, аудио и видео одновременно.

LLaMA

LLaMA (Large Language Model Meta AI) — семейство открытых языковых моделей от компании Meta (Facebook). Модели распространяются с открытыми весами, что позволяет запускать их локально и дообучать.

DeepSeek

DeepSeek — серия больших языковых моделей от китайской компании DeepSeek AI. Модели отличаются высокой эффективностью и конкурентным качеством при значительно меньших затратах на обучение.

Stable Diffusion

Stable Diffusion — открытая модель генерации изображений на основе диффузионного процесса. Создана компанией Stability AI и позволяет генерировать высококачественные изображения по текстовому описанию.

Midjourney

Midjourney — коммерческая модель генерации изображений по текстовому описанию. Известна высочайшим художественным качеством и фотореалистичностью результатов.

DALL-E

DALL-E — семейство моделей генерации изображений от OpenAI. DALL-E 3 интегрирован с ChatGPT и отличается точным следованием текстовым описаниям, включая надписи на изображениях.

Sora

Sora — модель генерации видео от OpenAI, способная создавать реалистичные видеоролики длительностью до минуты по текстовому описанию. Использует архитектуру диффузионного трансформера.

Flux

Flux — семейство моделей генерации изображений от Black Forest Labs, созданной бывшими разработчиками Stable Diffusion. Модели отличаются высоким качеством и скоростью генерации.

Mistral

Mistral — семейство языковых моделей от французской компании Mistral AI. Компания известна созданием компактных, но мощных моделей, конкурирующих с гораздо более крупными решениями.

Grok

Grok — большая языковая модель от компании xAI, основанной Илоном Маском. Отличается доступом к данным из X (Twitter) в реальном времени и менее строгими ограничениями в ответах.

Perplexity

Perplexity — AI-поисковая система, которая отвечает на вопросы с цитированием реальных источников. Сочетает возможности поиска в интернете и языковой модели.

ChatGPT

ChatGPT — чат-бот на основе языковых моделей GPT от OpenAI. Стал самым быстрорастущим приложением в истории, набрав 100 миллионов пользователей за 2 месяца после запуска в ноябре 2022 года.

OpenAI

OpenAI — американская компания, занимающаяся исследованиями и разработкой искусственного интеллекта. Создатели ChatGPT, GPT-4, DALL-E, Whisper и Sora.

💡 Концепции

LLM

LLM (Large Language Model) — большая языковая модель, обученная на огромных объёмах текстовых данных. Модели содержат миллиарды параметров и способны генерировать текст, понимать контекст и решать разнообразные задачи.

Transformer

Transformer — архитектура нейронных сетей, предложенная Google в 2017 году. Стала основой для всех современных языковых моделей: GPT, Claude, Gemini, LLaMA и других.

Нейросеть

Нейросеть (нейронная сеть) — математическая модель, вдохновлённая работой человеческого мозга. Состоит из слоёв искусственных нейронов, которые обрабатывают данные и обучаются на примерах.

Промпт

Промпт (prompt) — текстовый запрос или инструкция, которую пользователь отправляет нейросети. От качества промпта напрямую зависит качество ответа AI.

Токен

Токен — минимальная единица текста, с которой работает языковая модель. Это может быть слово, часть слова или знак препинания. В среднем один токен — это 3–4 символа для английского и 1–2 символа для русского языка.

Fine-tuning

Fine-tuning (дообучение) — процесс дополнительного обучения предварительно обученной модели на специализированном наборе данных для адаптации к конкретной задаче или домену.

RAG

RAG (Retrieval Augmented Generation) — архитектурный паттерн, при котором языковая модель дополняется поиском по внешней базе знаний перед генерацией ответа. Это позволяет давать актуальные и точные ответы.

Галлюцинация

Галлюцинация AI — явление, при котором языковая модель генерирует уверенный, но фактически неверный или полностью выдуманный ответ. Модель «галлюцинирует» несуществующие факты, цитаты или ссылки.

Контекстное окно

Контекстное окно (context window) — максимальное количество токенов, которое языковая модель может обработать в одном запросе. Включает и входной промпт, и сгенерированный ответ.

Эмбеддинг

Эмбеддинг (embedding) — представление текста, слова или другого объекта в виде числового вектора в многомерном пространстве. Близкие по смыслу тексты получают близкие векторы.

Attention

Attention (механизм внимания) — ключевой компонент архитектуры Transformer, позволяющий модели определять, какие части входных данных наиболее важны для текущей задачи.

Мультимодальность

Мультимодальность — способность AI-модели обрабатывать и генерировать несколько типов данных: текст, изображения, аудио и видео. Мультимодальные модели понимают связи между разными форматами.

RLHF

RLHF (Reinforcement Learning from Human Feedback) — метод обучения языковых моделей с использованием обратной связи от людей. Люди оценивают ответы модели, и она учится генерировать более полезные и безопасные ответы.

Диффузия

Диффузионная модель — тип генеративной модели, которая создаёт данные (изображения, аудио) путём постепенного удаления шума. Обучается на процессе добавления и удаления шума из реальных данных.

Генеративный AI

Генеративный AI (Generative AI) — класс систем искусственного интеллекта, способных создавать новый контент: текст, изображения, музыку, видео, код. В отличие от аналитического AI, генеративный AI создаёт, а не просто классифицирует данные.

⚙️ Техники

Prompt Engineering

Промпт-инжиниринг (Prompt Engineering) — дисциплина, изучающая методы составления эффективных запросов к языковым моделям для получения максимально качественных результатов.

Chain of Thought

Chain of Thought (CoT) — техника промпт-инжиниринга, при которой модель рассуждает пошагово перед тем, как дать финальный ответ. Значительно повышает точность в задачах, требующих логики и рассуждений.

Few-shot learning

Few-shot learning — техника, при которой модели предоставляют несколько примеров (обычно 2–5) желаемого поведения прямо в промпте. Модель учится на этих примерах и применяет паттерн к новому запросу.

Zero-shot

Zero-shot — способность языковой модели выполнять задачу без единого примера, только на основе инструкции. Модель опирается на знания, полученные при предобучении.

Temperature

Temperature — параметр, контролирующий степень случайности в ответах языковой модели. Низкая температура (0–0.3) даёт предсказуемые ответы, высокая (0.7–1.5) — более креативные и разнообразные.

Top-p

Top-p (nucleus sampling) — параметр генерации, ограничивающий выбор следующего токена определённой долей наиболее вероятных вариантов. При top-p = 0.9 модель рассматривает только токены, суммарная вероятность которых составляет 90%.

Системный промпт

Системный промпт (system prompt) — специальная инструкция, задающая роль, стиль и ограничения поведения языковой модели. Устанавливается перед диалогом и обычно скрыт от пользователя.

img2img

img2img (image-to-image) — техника генерации нового изображения на основе исходного с помощью текстового описания изменений. Сохраняет структуру и композицию оригинала, меняя стиль или детали.

Inpainting

Inpainting — техника AI-редактирования, при которой модель заполняет выбранную область изображения новым содержимым на основе текстового описания или окружающего контекста.

Text-to-Video

Text-to-Video — технология генерации видеороликов по текстовому описанию с помощью AI. Модели создают движущееся изображение с учётом описанной сцены, действий и стиля.

🛠️ Инструменты

API

API (Application Programming Interface) — программный интерфейс, позволяющий приложениям взаимодействовать с AI-моделями. Через API можно отправлять запросы и получать ответы от GPT, Claude, Stable Diffusion и других моделей.

OpenRouter

OpenRouter — сервис-агрегатор, предоставляющий единый API для доступа к сотням AI-моделей от разных провайдеров: OpenAI, Anthropic, Google, Meta и других.

BYOK

BYOK (Bring Your Own Key) — модель использования AI-сервисов, при которой пользователь подключает свой собственный API-ключ от провайдера (OpenAI, Anthropic и др.) и оплачивает только фактическое потребление.

Webhook

Webhook (вебхук) — механизм автоматической отправки данных между сервисами при наступлении события. Вместо постоянных запросов сервис сам отправляет уведомление, когда что-то происходит.

Telegram бот

Telegram бот для AI — автоматизированный аккаунт в мессенджере Telegram, предоставляющий доступ к нейросетям. Позволяет общаться с GPT, Claude и генерировать изображения прямо в чате.

📄 Форматы

Markdown

Markdown — легковесный язык разметки текста с помощью специальных символов. Используется для форматирования ответов AI-моделей, документации, README-файлов и заметок.

JSON

JSON (JavaScript Object Notation) — текстовый формат обмена данными, используемый практически во всех AI API. Запросы и ответы AI-моделей передаются в формате JSON.

Base64

Base64 — метод кодирования бинарных данных (изображений, файлов) в текстовую строку из ASCII-символов. Широко используется для передачи изображений в AI API.

WebP

WebP — формат изображений, разработанный Google. Обеспечивает лучшее сжатие по сравнению с JPEG и PNG при сохранении качества. Поддерживает прозрачность и анимацию.

SSE

SSE (Server-Sent Events) — технология однонаправленной потоковой передачи данных от сервера к клиенту. Используется для стриминга ответов AI-моделей — текст появляется по мере генерации, а не после завершения.