Оценка Epoch.AI: Гипотетический GPT-5.2 Pro решил 14 из 48 задач FrontierMath Tier 4
Ключевые факты
- 1 Epoch.AI опубликовала оценку потенциала будущих LLM в области математики.
- 2 Гипотетическая модель GPT-5.2 Pro, по прогнозам, решает 14 из 48 задач FrontierMath Tier 4.
- 3 FrontierMath Tier 4 включает задачи исследовательского уровня, некоторые из которых не опубликованы.
- 4 Tier 4 был введен из-за быстрого освоения моделями предыдущих трех уровней.
- 5 Прогресс LLM в математике за год приблизил их к порогу «значимого вклада» в исследовательские задачи.
Epoch.AI, известная своими прогнозами в области масштабирования и возможностей ИИ, представила оценку потенциала будущих больших языковых моделей в решении сложных математических задач. Согласно их расчетам, модель уровня GPT-5.2 Pro (которая является гипотетической) может справиться с 14 из 48 задач, представленных в Tier 4 бенчмарка FrontierMath. Этот бенчмарк был создан, поскольку предыдущие уровни (Tier 1-3) быстро устарели из-за прогресса моделей. Tier 4 включает задачи, с которыми сталкиваются профессиональные математики, включая неопубликованные проблемы, что исключает возможность обучения модели на них. Этот результат, хотя и является прогнозом, подчеркивает колоссальный прорыв LLM в математике за последний год, приближая их к границе «значимого вклада» в исследовательские задачи. 💡 Фактчекинг: Информация подтверждена как прогноз или оценка, опубликованная исследовательской организацией Epoch.AI. GPT-5.2 Pro является гипотетической моделью, а не выпущенным продуктом. FrontierMath Tier 4 — это бенчмарк, разработанный для оценки способностей LLM решать задачи исследовательского уровня, не доступные в открытом доступе.