Оценка Epoch.AI: Гипотетический GPT-5.2 Pro решил 14 из 48 задач FrontierMath Tier 4

Epoch.AI, известная своими прогнозами в области масштабирования и возможностей ИИ, представила оценку потенциала будущих больших языковых моделей в решении сложных математических задач. Согласно их расчетам, модель уровня GPT-5.2 Pro (которая является гипотетической) может справиться с 14 из 48 задач, представленных в Tier 4 бенчмарка FrontierMath. Этот бенчмарк был создан, поскольку предыдущие уровни (Tier 1-3) быстро устарели из-за прогресса моделей. Tier 4 включает задачи, с которыми сталкиваются профессиональные математики, включая неопубликованные проблемы, что исключает возможность обучения модели на них. Этот результат, хотя и является прогнозом, подчеркивает колоссальный прорыв LLM в математике за последний год, приближая их к границе «значимого вклада» в исследовательские задачи. 💡 Фактчекинг: Информация подтверждена как прогноз или оценка, опубликованная исследовательской организацией Epoch.AI. GPT-5.2 Pro является гипотетической моделью, а не выпущенным продуктом. FrontierMath Tier 4 — это бенчмарк, разработанный для оценки способностей LLM решать задачи исследовательского уровня, не доступные в открытом доступе.

Оценка Epoch.AI: Гипотетический GPT-5.2 Pro решил 14 из 48 задач FrontierMath Tier 4

Ключевые факты