ИИ предсказывает результаты A/B тестов: точность 48-62.5%
Ключевые факты
- 1 ИИ-модели (Claude, ChatGPT, Gemini) предсказали результаты 48 A/B тестов с точностью 48-62.5%.
- 2 ИИ не смогли просмотреть скриншоты/дизайны по ссылкам, что ограничило их анализ.
- 3 Точность предсказаний находится в пределах статистического шума для данной выборки (доверительный интервал 35.9-64.1%).
- 4 Предсказательная сила ИИ в этом эксперименте ограничена размером выборки, а не только возможностями модели.
Люсия ван ден Бринк провела личный эксперимент, чтобы оценить способность искусственного интеллекта предсказывать исходы A/B тестов. Она использовала 48 тестов с данными из Airtable, включая гипотезы, исследования и приоритезацию, а также ссылки на скриншоты контрольных и вариативных дизайнов. В эксперименте участвовали три ИИ-модели: Claude, ChatGPT и Gemini. Их точность предсказаний составила 62.5%, 58% и 48% соответственно. Ключевым ограничением для всех моделей стало отсутствие возможности просматривать скриншоты и дизайны по предоставленным ссылкам, что потенциально повлияло на их производительность. Сообщество отметило, что прогнозы результатов тестов от ИИ на малых выборках (48 тестов) находятся в пределах статистического шума. Точность в диапазоне 48-62.5% попадает в 95%-й доверительный интервал 35.9-64.1% для случайного угадывания. Это указывает на то, что предсказательная сила в данном случае ограничена размером выборки, а не исключительно возможностями самой модели ИИ.