Epoch.AI выявили проблемы с качеством задач в бенчмарках
Ключевые факты
- 1 Epoch.AI провела вычитку задач в бенчмарках.
- 2 Около трети задач содержат неправильные ответы или решения.
- 3 Это ставит под сомнение точность оценки ИИ-моделей.
Компания Epoch.AI, известная своими исследованиями в области прогнозирования развития искусственного интеллекта и анализа его возможностей, провела тщательную проверку ответов и решений, используемых в бенчмарках. В результате этой вычитки было обнаружено, что примерно одна треть всех задач содержит некорректные данные или ошибочные эталонные решения. Это открытие поднимает серьезные вопросы о надежности существующих методов оценки ИИ и может существенно повлиять на интерпретацию результатов тестирования моделей, указывая на необходимость более строгой валидации данных в оценочных наборах.