SEO
11
Вес: Значительный

Патент Google US8909628B1: Механизм выявления скопированного контента

Seobloggers 06.05.2026 — 07:30

Ключевые факты

  • 1 Патент US8909628B1 описывает метод выявления скопированного контента.
  • 2 Оценка оригинальности сайта влияет на ранжирование в Google.
  • 3 Система использует n-граммы и хеширование (MinHash) для анализа текста.
  • 4 Первоисточник определяется по самой ранней временной метке сканирования.
  • 5 Механизм наследования оригинальности позволяет другому сайту стать первоисточником при удалении контента.
  • 6 Оценка может применяться к домену, поддомену или подкаталогу.
  • 7 Копирование неуникального текста может привести к каноникалу на другую страницу.

Патент Google US8909628B1 описывает технологию для автоматического обнаружения неоригинального контента в интернете. Система оценивает уникальность контента, анализируя небольшие текстовые фрагменты (n-граммы) со страниц сайта. Алгоритм подсчитывает общее количество проверенных фрагментов и количество фрагментов, впервые опубликованных на данном ресурсе. Итоговая оценка оригинальности рассчитывается как математическое отношение этих показателей (F/T), с возможной корректировкой константами. Для повышения стабильности проверки и обнаружения плагиата даже при частичном изменении текста, система использует хеширование (например, MinHash), переводя каждую n-грамму в уникальное числовое значение. Первоисточником текста признается сайт с самой ранней меткой времени сканирования. Эта оценка может применяться как ко всему домену, так и к отдельным поддоменам или подкаталогам. Важный аспект патента — механизм наследования: если оригинальный ресурс удаляет контент, право считаться первоисточником переходит к следующему сайту с самой ранней меткой времени. Это объясняет проблемы с индексацией и ранжированием контента на восстановленных доменах, если первоисточником был признан другой ресурс. Также на основе этой уникальности Google может применять канонические ссылки к источнику, что может привести к нежелательному каноникалу на другую страницу при копировании неуникального текста, как описывал Евгений Калинский.

Источник