Превью DeepSeek v4: новые модели и архитектурные особенности

Seeallochnaya 24.04.2026 — 10:00

Ключевые факты

1 Выпущены превью моделей DeepSeek-V4-Pro и DeepSeek-V4-Flash.
2 DeepSeek-V4-Pro имеет 1.6T общих и 49B активных параметров.
3 DeepSeek-V4-Flash имеет 284B общих и 13B активных параметров.
4 Введены новые механизмы внимания: CSA и HCA для длинных контекстов.
5 Используется mHC (multi-head chunked attention).
6 Модели претрейнированы на 32Т токенов с использованием Muon.

Компания DeepSeek выпустила превью двух новых моделей: DeepSeek-V4-Pro с 1.6 триллионами общих параметров и 49 миллиардами активных, а также DeepSeek-V4-Flash с 284 миллиардами общих и 13 миллиардами активных параметров. Эти модели включают в себя ряд архитектурных инноваций, направленных на улучшение обработки длинных контекстов. Среди ключевых особенностей — новые виды механизмов внимания, такие как CSA (Contextual Sparse Attention) и HCA (Hybrid Contextual Attention), а также mHC (multi-head chunked attention). Модели были предварительно обучены на значительном объеме данных, составляющем 32 триллиона токенов, используя набор данных Muon.

Источник