ElasticDiffusion решает эти проблемы, разделяя локальные и глобальные сигналы в процессе генерации. Локальный сигнал отвечает за детали, такие как форма глаза или текстура шерсти, в то время как глобальный сигнал формирует общую структуру изображения. Этот подход позволяет создавать более точные изображения без повторений и визуальных искажений.
Метод ElasticDiffusion требует больше времени для генерации изображений — до 6−9 раз больше по сравнению с традиционными моделями. Однако ученые надеются сократить это время и сделать процесс генерации более эффективным, что откроет новые возможности для применения ИИ в создании изображений.