DiffThinker: Диффузионная модель для генеративного мультимодального мышления и решения визуальных головоломок

Seeallochnaya 02.01.2026 — 20:20

Ключевые факты

1 DiffThinker использует модель генерации изображений Qwen-Image-Edit для решения визуальных головоломок.
2 В отличие от Gemini и ChatGPT, DiffThinker генерирует визуальное решение (путь, перестановку) прямо на исходном изображении, минуя текстовое рассуждение.
3 Генерация и перебор решений происходят в латентном пространстве (после сжатия VAE Encoder), что оптимизирует процесс.
4 Подход не является полностью сквозным (end-to-end), так как отсутствует текстовое рассуждение, а результат парсится отдельным кодом.
5 Модель показала значительное превосходство в метриках над существующими мультимодальными моделями на задачах типа лабиринтов, судоку и восстановления изображений.
6 Авторы предлагают объединять DiffThinker с моделью-критиком (например, Gemini 3 Flash) для выбора наиболее точного из нескольких сгенерированных вариантов решения.

DiffThinker представляет новую парадигму в мультимодальном мышлении, используя модель генерации изображений (Qwen-Image-Edit) для прямого визуального решения задач, таких как поиск пути в лабиринте, судоку или соединение точек. В отличие от Gemini App, который смотрит на изображение целиком и выдает текстовый ответ, или ChatGPT (O-серии), который использует инструмент обрезки, DiffThinker генерирует решение в виде пути или перестановки прямо на самой картинке. Процесс генерации и перебора решений происходит в латентном пространстве, что повышает эффективность. Несмотря на высокую производительность, подход не является полностью сквозным (end-to-end): результат со сгенерированной картинки парсится отдельным кодом, а сама модель не проводит текстовых рассуждений, используя только специальный промпт для каждой задачи. Модель демонстрирует значительное превосходство в метриках над существующими моделями с сильным восприятием и может быть дополнена моделью-критиком (например, Gemini 3 Flash) для выбора лучшего из нескольких сгенерированных вариантов. 💡 Фактчекинг: Подтверждено. DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models — это исследовательская работа, демонстрирующая применение генеративных моделей для визуального решения задач. Заявленное время обучения составляет 3 часа на 8 GPU H200.

Источник