Что такое text-to-video — генерация видео из текста

Text-to-Video — технология генерации видеороликов по текстовому описанию с помощью AI. Модели создают движущееся изображение с учётом описанной сцены, действий и стиля.

Text-to-Video — одно из самых сложных направлений генеративного AI, требующее понимания пространства, времени и физики. Ключевые модели: Sora (OpenAI), Veo 3 (Google), Kling (Kuaishou), Pika, Luma Dream Machine. Современные модели генерируют видео длительностью 5–60 секунд с разрешением до 1080p. Модели используют диффузионную архитектуру, адаптированную для пространственно-временных данных. Качество растёт стремительно: если в 2023 году видео выглядели нереалистично, к 2026 году результаты трудно отличить от реальных съёмок.

Примеры использования

•Генерация рекламного ролика продукта по сценарию
•Создание B-roll вставок для YouTube-видео
•Анимация статичных фотографий с реалистичным движением

Связанные термины

Sora Диффузия Генеративный AI DALL-E

Попробуйте Text-to-Video в Stone AI

Открыть AI-чат →