Что такое эмбеддинг — векторное представление текста

Эмбеддинг (embedding) — представление текста, слова или другого объекта в виде числового вектора в многомерном пространстве. Близкие по смыслу тексты получают близкие векторы.

Эмбеддинги позволяют компьютеру «понимать» смысловую близость текстов. Например, векторы слов «кот» и «кошка» будут расположены близко, а «кот» и «автомобиль» — далеко. Эмбеддинги — основа семантического поиска и RAG-систем. Популярные модели эмбеддингов: OpenAI text-embedding-3, Cohere Embed, BGE. Вектора хранятся в специализированных базах данных (Pinecone, Weaviate, pgvector). Размерность современных эмбеддингов — от 768 до 3072 измерений.

Примеры использования

  • Семантический поиск: находить документы по смыслу, а не по ключевым словам
  • Кластеризация текстов по тематике для анализа обратной связи
  • Поиск дубликатов и похожих товаров в каталоге

Связанные термины

Попробуйте Эмбеддинг в Stone AI

Открыть AI-чат →