Что такое text-to-video — генерация видео из текста
Text-to-Video — технология генерации видеороликов по текстовому описанию с помощью AI. Модели создают движущееся изображение с учётом описанной сцены, действий и стиля.
Text-to-Video — одно из самых сложных направлений генеративного AI, требующее понимания пространства, времени и физики. Ключевые модели: Sora (OpenAI), Veo 3 (Google), Kling (Kuaishou), Pika, Luma Dream Machine. Современные модели генерируют видео длительностью 5–60 секунд с разрешением до 1080p. Модели используют диффузионную архитектуру, адаптированную для пространственно-временных данных. Качество растёт стремительно: если в 2023 году видео выглядели нереалистично, к 2026 году результаты трудно отличить от реальных съёмок.
Примеры использования
- •Генерация рекламного ролика продукта по сценарию
- •Создание B-roll вставок для YouTube-видео
- •Анимация статичных фотографий с реалистичным движением
Связанные термины
Попробуйте Text-to-Video в Stone AI
Открыть AI-чат →