Epoch.AI выявили проблемы с качеством задач в бенчмарках

Seeallochnaya 12.06.2026 — 17:59

Ключевые факты

1 Epoch.AI провела вычитку задач в бенчмарках.
2 Около трети задач содержат неправильные ответы или решения.
3 Это ставит под сомнение точность оценки ИИ-моделей.

Компания Epoch.AI, известная своими исследованиями в области прогнозирования развития искусственного интеллекта и анализа его возможностей, провела тщательную проверку ответов и решений, используемых в бенчмарках. В результате этой вычитки было обнаружено, что примерно одна треть всех задач содержит некорректные данные или ошибочные эталонные решения. Это открытие поднимает серьезные вопросы о надежности существующих методов оценки ИИ и может существенно повлиять на интерпретацию результатов тестирования моделей, указывая на необходимость более строгой валидации данных в оценочных наборах.

Источник