Патент Google US8909628B1: Механизм выявления скопированного контента
Ключевые факты
- 1 Патент US8909628B1 описывает метод выявления скопированного контента.
- 2 Оценка оригинальности сайта влияет на ранжирование в Google.
- 3 Система использует n-граммы и хеширование (MinHash) для анализа текста.
- 4 Первоисточник определяется по самой ранней временной метке сканирования.
- 5 Механизм наследования оригинальности позволяет другому сайту стать первоисточником при удалении контента.
- 6 Оценка может применяться к домену, поддомену или подкаталогу.
- 7 Копирование неуникального текста может привести к каноникалу на другую страницу.
Патент Google US8909628B1 описывает технологию для автоматического обнаружения неоригинального контента в интернете. Система оценивает уникальность контента, анализируя небольшие текстовые фрагменты (n-граммы) со страниц сайта. Алгоритм подсчитывает общее количество проверенных фрагментов и количество фрагментов, впервые опубликованных на данном ресурсе. Итоговая оценка оригинальности рассчитывается как математическое отношение этих показателей (F/T), с возможной корректировкой константами. Для повышения стабильности проверки и обнаружения плагиата даже при частичном изменении текста, система использует хеширование (например, MinHash), переводя каждую n-грамму в уникальное числовое значение. Первоисточником текста признается сайт с самой ранней меткой времени сканирования. Эта оценка может применяться как ко всему домену, так и к отдельным поддоменам или подкаталогам. Важный аспект патента — механизм наследования: если оригинальный ресурс удаляет контент, право считаться первоисточником переходит к следующему сайту с самой ранней меткой времени. Это объясняет проблемы с индексацией и ранжированием контента на восстановленных доменах, если первоисточником был признан другой ресурс. Также на основе этой уникальности Google может применять канонические ссылки к источнику, что может привести к нежелательному каноникалу на другую страницу при копировании неуникального текста, как описывал Евгений Калинский.