Методы индексации контента LLM-ботами и манипуляция рекомендациями
Ключевые факты
- 1 Разработана панель для отслеживания LLM-ботов на сайте.
- 2 Предложены методы отслеживания: CloudFlare Worker, скрипт для VPS, "пиксель".
- 3 Утверждается, что массовые визиты первичных ботов (ChatGPT-User, Perplexity-User) вызывают приход специализированных ботов (OAI-SearchBot, GPTBot, PerplexityBot).
- 4 Цель — манипуляция индексацией контента LLM для влияния на рекомендации и обучение моделей.
- 5 Планируется запуск сервиса для коммерческого использования этой методики.
Автор разработал панель для отслеживания LLM-ботов, посещающих веб-сайты, с целью изучения способов манипуляции их индексацией и влиянием на рекомендации. Предложено три метода реализации: интеграция кода в CloudFlare Worker для перехвата трафика, скрипт для VPS, анализирующий логи сервера каждые 5 минут, и стандартный "пиксель" с заявленной точностью 70-80%. Согласно проведенным тестам, если на сайт привлечь более 1000 визитов от первичных ботов ChatGPT-User и Perplexity-User с разных IP-адресов, то через 3-4 дня на сайт приходят специализированные боты: OAI-SearchBot (для рекомендаций и источников в ChatGPT), GPTBot (для обучения модели ChatGPT) и PerplexityBot (для обучения и рекомендаций Perplexity). Автор планирует запустить сервис для использования этой методики в коммерческих целях, позволяя пользователям продвигать свой контент или "спам" в LLM.