Что такое диффузионные модели — генерация изображений

Диффузионная модель — тип генеративной модели, которая создаёт данные (изображения, аудио) путём постепенного удаления шума. Обучается на процессе добавления и удаления шума из реальных данных.

Диффузионные модели работают в два этапа: прямой процесс (добавление шума к изображению до полного разрушения) и обратный процесс (модель учится восстанавливать изображение из шума). При генерации модель начинает со случайного шума и постепенно «очищает» его, руководствуясь текстовым описанием. Latent Diffusion (используется в Stable Diffusion) работает в сжатом латентном пространстве, что значительно ускоряет генерацию. Диффузионные модели вытеснили GAN в генерации изображений благодаря лучшей стабильности обучения и качеству.

Примеры использования

  • Stable Diffusion генерирует изображение за 20–50 шагов денойзинга
  • DALL-E 3 использует диффузию для создания изображений по описанию
  • Аудио-диффузия: генерация музыки и звуковых эффектов

Связанные термины

Попробуйте Диффузия в Stone AI

Открыть AI-чат →