DeepSeek представил превью моделей v4
Ключевые факты
- 1 DeepSeek представил превью моделей DeepSeek-V4-Pro и DeepSeek-V4-Flash.
- 2 DeepSeek-V4-Pro имеет 49 миллиардов активных параметров и обучена на 1.6 триллионах токенов.
- 3 DeepSeek-V4-Flash имеет 13 миллиардов активных параметров и обучена на 284 миллиардах токенов.
- 4 Введены новые механизмы внимания CSA и HCA для поддержки длинных контекстов.
DeepSeek представил предварительные версии своих последних больших языковых моделей: DeepSeek-V4-Pro и DeepSeek-V4-Flash. Модель DeepSeek-V4-Pro имеет 49 миллиардов активных параметров и обучена на 1.6 триллионах токенов. DeepSeek-V4-Flash, более легкая версия, включает 13 миллиардов активных параметров и обучена на 284 миллиардах токенов. Ключевые архитектурные нововведения включают новые виды механизмов внимания, такие как Contextual Sparse Attention (CSA) и Hybrid Contextual Attention (HCA). Эти механизмы разработаны для эффективной поддержки обработки очень длинных контекстов, что является важным шагом в развитии возможностей больших языковых моделей.