DeepSeek представил превью моделей v4

Seeallochnaya 29.04.2026 — 16:50

Ключевые факты

1 DeepSeek представил превью моделей DeepSeek-V4-Pro и DeepSeek-V4-Flash.
2 DeepSeek-V4-Pro имеет 49 миллиардов активных параметров и обучена на 1.6 триллионах токенов.
3 DeepSeek-V4-Flash имеет 13 миллиардов активных параметров и обучена на 284 миллиардах токенов.
4 Введены новые механизмы внимания CSA и HCA для поддержки длинных контекстов.

DeepSeek представил предварительные версии своих последних больших языковых моделей: DeepSeek-V4-Pro и DeepSeek-V4-Flash. Модель DeepSeek-V4-Pro имеет 49 миллиардов активных параметров и обучена на 1.6 триллионах токенов. DeepSeek-V4-Flash, более легкая версия, включает 13 миллиардов активных параметров и обучена на 284 миллиардах токенов. Ключевые архитектурные нововведения включают новые виды механизмов внимания, такие как Contextual Sparse Attention (CSA) и Hybrid Contextual Attention (HCA). Эти механизмы разработаны для эффективной поддержки обработки очень длинных контекстов, что является важным шагом в развитии возможностей больших языковых моделей.

Источник