Вскрытие Google SearchGuard (BotGuard): Как работает анти-скрапинг система и метод обхода SerpAPI
Ключевые факты
- 1 Google использует систему SearchGuard (BotGuard) для анализа поведенческой биометрии, а не только IP-репутации.
- 2 Система работает внутри кастомной VM с 512 регистрами, мониторящей физику курсора и ритм нажатия клавиш.
- 3 Человеческий ввод имеет дисперсию 80–150 мс, а боты палятся на стабильности тайминга (<10 мс).
- 4 SerpAPI обходила защиту через «Синдикацию Токенов» — переиспользование валидных токенов, сгенерированных на реальных браузерах.
Система SearchGuard (внутреннее название BotGuard или WAA) от Google больше не полагается на простые проверки IP-репутации или HTTP-заголовков. Вместо этого она создает статистический профиль пользователя в реальном времени, чтобы отличить естественный «человеческий хаос» от алгоритмической точности. Ключевой элемент защиты — кастомная виртуальная машина (VM) с 512 регистрами, которая исполняет обфусцированный байт-код. VM мониторит более 120 DOM-элементов и анализирует физику взаимодействия: движение курсора (люди следуют кривым Безье с естественным ускорением, боты — линейным векторам), инерцию скролла и ритм нажатия клавиш. Человеческий ввод характеризуется дисперсией тайминга в диапазоне 80–150 миллисекунд. Боты, демонстрирующие робо-стабильность менее 10 миллисекунд, не проходят проверку. Google не хранит эти данные, а использует алгоритмы Уэлфорда для дисперсии и Reservoir sampling для оценки энтропии в реальном времени. Если активность соответствует Гауссовскому распределению, генерируется токен «proof of humanity», запечатанный шифром ARX. Согласно судебным документам, SerpAPI не пыталась декомпилировать VM, а использовала метод «Синдикации Токенов». Они генерировали валидные токены на реальных или стелс-браузерах с подлинной биометрией, а затем передавали эти зашифрованные токены на свои высокоскоростные скрапинговые машины, отвязывая генерацию токена от выполнения запроса.