Превью DeepSeek v4: DeepSeek-V4-Pro и DeepSeek-V4-Flash
Ключевые факты
- 1 DeepSeek-V4-Pro имеет 1.6 триллиона общих и 49 миллиардов активных параметров.
- 2 DeepSeek-V4-Flash имеет 284 миллиарда общих и 13 миллиардов активных параметров.
- 3 Введены новые механизмы внимания: CSA (Contextual Sparse Attention) и HCA (Hierarchical Contextual Attention).
- 4 Новые механизмы внимания предназначены для поддержки длинных контекстов.
DeepSeek AI представила превью своих новых больших языковых моделей DeepSeek v4. В линейку вошли две модели: DeepSeek-V4-Pro, обладающая 1.6 триллионами общих параметров и 49 миллиардами активных параметров, и DeepSeek-V4-Flash, с 284 миллиардами общих и 13 миллиардами активных параметров. Среди архитектурных особенностей моделей выделяются новые виды механизмов внимания, такие как CSA (Contextual Sparse Attention) и HCA (Hierarchical Contextual Attention), разработанные для эффективной поддержки длинных контекстов.