Анализ активности GPTBot на сайте из 60 000 страниц за $10
Ключевые факты
- 1 Метехан Ешильюрт создал сайт из 60 000 страниц, сгенерированных ИИ, за $10.
- 2 GPTBot сделал более 29 000 запросов к сайту за 12 часов.
- 3 Googlebot за тот же период сделал всего 11 запросов.
- 4 Интенсивность краулинга GPTBot в 470 раз выше, чем у Googlebot для нового сайта.
- 5 GPTBot находит сайты через XML-сайтмап и активно индексирует их.
- 6 OpenAI пока не имеет механизмов оптимизации краулингового бюджета, в отличие от Google.
- 7 Рекомендуется блокировать GPTBot в robots.txt или использовать серверный трекинг для мониторинга его активности.
Метехан Ешильюрт провел эксперимент, запустив сайт из 60 000 страниц, сгенерированных искусственным интеллектом, с затратами всего в $10. Целью было мониторинг активности краулеров, в частности GPTBot и Googlebot. За первые 12 часов GPTBot отправил более 29 000 запросов к сайту, что составляет примерно один запрос в секунду. Для сравнения, Googlebot за тот же период сделал только 11 запросов. Эта интенсивность краулинга GPTBot значительно выше, чем у Googlebot для нового сайта без обратных ссылок, социальных сигналов и без добавления в Google Search Console. GPTBot обнаружил сайт через XML-сайтмап и начал активно индексировать его содержимое. Результаты эксперимента показывают, что текущая инфраструктура краулинга OpenAI еще не имеет механизмов оптимизации, которые Google разрабатывал на протяжении 25 лет для эффективного распределения краулингового бюджета. Googlebot умеет определять, какие страницы заслуживают внимания и как часто их переобходить, избегая перегрузки серверов. GPTBot, напротив, демонстрирует поведение "безлимитного бюджета", активно потребляя ресурсы без видимой оптимизации. Практический вывод для владельцев сайтов заключается в том, что если GPTBot явно не заблокирован в файле robots.txt, он будет обходить сайт с высокой интенсивностью. Многие владельцы сайтов могут не подозревать об этом, так как стандартная клиентская аналитика часто упускает такие детали. Рекомендуется использовать серверный трекинг с парсингом user agent для мониторинга активности GPTBot.