Превью DeepSeek v4: новые модели и архитектурные особенности
Ключевые факты
- 1 Выпущены превью моделей DeepSeek-V4-Pro и DeepSeek-V4-Flash.
- 2 DeepSeek-V4-Pro имеет 1.6T общих и 49B активных параметров.
- 3 DeepSeek-V4-Flash имеет 284B общих и 13B активных параметров.
- 4 Введены новые механизмы внимания: CSA и HCA для длинных контекстов.
- 5 Используется mHC (multi-head chunked attention).
- 6 Модели претрейнированы на 32Т токенов с использованием Muon.
Компания DeepSeek выпустила превью двух новых моделей: DeepSeek-V4-Pro с 1.6 триллионами общих параметров и 49 миллиардами активных, а также DeepSeek-V4-Flash с 284 миллиардами общих и 13 миллиардами активных параметров. Эти модели включают в себя ряд архитектурных инноваций, направленных на улучшение обработки длинных контекстов. Среди ключевых особенностей — новые виды механизмов внимания, такие как CSA (Contextual Sparse Attention) и HCA (Hybrid Contextual Attention), а также mHC (multi-head chunked attention). Модели были предварительно обучены на значительном объеме данных, составляющем 32 триллиона токенов, используя набор данных Muon.