Что такое диффузионные модели — генерация изображений
Диффузионная модель — тип генеративной модели, которая создаёт данные (изображения, аудио) путём постепенного удаления шума. Обучается на процессе добавления и удаления шума из реальных данных.
Диффузионные модели работают в два этапа: прямой процесс (добавление шума к изображению до полного разрушения) и обратный процесс (модель учится восстанавливать изображение из шума). При генерации модель начинает со случайного шума и постепенно «очищает» его, руководствуясь текстовым описанием. Latent Diffusion (используется в Stable Diffusion) работает в сжатом латентном пространстве, что значительно ускоряет генерацию. Диффузионные модели вытеснили GAN в генерации изображений благодаря лучшей стабильности обучения и качеству.
Примеры использования
- •Stable Diffusion генерирует изображение за 20–50 шагов денойзинга
- •DALL-E 3 использует диффузию для создания изображений по описанию
- •Аудио-диффузия: генерация музыки и звуковых эффектов
Связанные термины
Попробуйте Диффузия в Stone AI
Открыть AI-чат →