SEO
24
Вес: Значительный

Common Crawl и Harmonic Centrality: Скрытый фактор авторитетности доменов в обучении LLM

Mikeblazerx 26.01.2026 — 07:15

Ключевые факты

  • 1 Common Crawl является основным источником данных для большинства LLM.
  • 2 Приоритет краулинга CC определяется метрикой Harmonic Centrality (HC) из датасета WebGraph.
  • 3 Высокий HC обеспечивает доминирование домена в обучающей выборке LLM.
  • 4 Старые медиа и агрегаторы (Wikipedia, Reddit) доминируют в ответах LLM из-за высокого HC.
  • 5 Мониторинг HC становится обязательным для AEO (AI Engine Optimization).

Common Crawl (CC) выступает в роли основного гейткипера, формируя базовое представление нейросетей о веб-источниках. Исследования показывают, что большинство LLM, созданных в период 2019–2023 годов, используют данные CC, а для GPT-3 эта доля превышает 80% токенов. Ключевым механизмом приоритизации является метрика Harmonic Centrality (HC), которая измеряет «близость» домена ко всем остальным узлам ссылочного графа. Высокий HC обеспечивает глубокий и частый краулинг, что гарантирует доминирование источника в обучающей выборке. Системный перекос, вызванный этим механизмом, приводит к тому, что старые медиа и агрегаторы (например, Wikipedia) доминируют в ответах LLM. Журналистские расследования подтверждают, что скраперы CC могут обходить JS-пейволлы, включая закрытый контент крупных изданий в веса моделей. Для SEO-специалистов мониторинг HC (например, через CC Rank Checker) становится обязательным, так как низкий HC (Long Tail Risk) означает, что домен статистически «забыт» моделью, требуя более сильных сигналов live-retrieval для компенсации.

Источник