Как добавить бренд в LLM через Common Crawl
Ключевые факты
- 1 Common Crawl предоставляет открытые веб-данные, используемые для обучения LLM.
- 2 Крупные ИИ-компании, включая OpenAI, Google, Meta, используют Common Crawl.
- 3 Common Crawl использует алгоритм Гармонической Центральности для определения важности сайтов.
- 4 Размещение ссылок на сайтах с высоким показателем Гармонической Центральности может помочь попасть в индекс Common Crawl.
- 5 Список ТОП-доменов по Гармонической Центральности доступен в репозитории Common Crawl на GitHub.
Common Crawl — это некоммерческая организация, которая ежедневно сканирует интернет и предоставляет свои огромные архивы веб-данных (более 250 миллиардов страниц) в открытый доступ. Эти данные активно используются ведущими ИИ-компаниями, включая OpenAI (для GPT-3), Google, Anthropic (для Claude), Meta (для LLaMA), Cohere, Adept, Midjourney и Stability AI, для обучения своих больших языковых моделей. Автор предлагает стратегию по попаданию в индекс Common Crawl, что, по его утверждению, позволит вашему контенту быть включенным в обучающие датасеты LLM. Ключевым моментом является использование алгоритма Гармонической Центральности (Harmonical Centrality), который, согласно посту, Common Crawl применяет для выбора сайтов для индексации вместо PageRank. Чем ближе сайт к узлам с высоким показателем Гармонической Центральности (Seeds), тем чаще робот Common Crawl будет его краулить. Для реализации этой стратегии предлагается найти сайты с самым высоким рейтингом Гармонической Центральности, которые Common Crawl публикует в своем репозитории на GitHub. Затем на этих сайтах (например, Gravatar.com, Wordpress.com, WIX, Github, социальные сети, блоговые платформы, форумы) необходимо размещать ссылки на свой сайт или специально подготовленную страницу (например, Sitemap / for-llm). Автор рекомендует спамить ссылками максимально близко к главной странице, используя автоматизированных агентов для массового размещения.