Обход фильтров Google HCU и песочницы через Vertex AI
Ключевые факты
- 1 Предлагается использовать Vertex AI для обхода фильтров Google HCU и песочницы.
- 2 Упоминаются API ModerateText и EvaluateInstances для пре-валидации контента.
- 3 Заявлено, что HCU использует порог 0.8 для индексации.
- 4 Кейсы включают обход фильтра 'Affiliate Aggression' для гемблинга и SafeSearch для адалта.
- 5 Для работы с API требуются специфические заголовки и ротация ProjectID для обхода антифрод-систем.
В посте утверждается, что статус страниц 'Обнаружено, не проиндексировано' является следствием работы фильтра пре-индекса, который отсеивает документы с прогнозируемым Helpful Content Score ниже 0.8. Для решения этой проблемы предлагается использовать инструменты Google Cloud для пре-валидации контента и подгонки семантических векторов под эталонные значения. В качестве архитектурных точек входа упоминаются ModerateText API (2.4), который классифицирует токсичность и спам, и EvaluateInstances — метод для реверс-инжиниринга метрик HCU. Приводятся два кейса: индексация 500 гемблинг-доменов, где проблема 'Affiliate Aggression' была решена снижением плотности сущности 'Bonus' и добавлением 'Психологии риска', что привело к индексации 420 доменов. Второй кейс описывает вывод адалт-страниц из-под фильтра SafeSearch путем семантической маскировки и замены прямых триггеров на технические описания, что сместило категорию в 'Arts & Entertainment' и привело к пятикратному росту трафика. Также приводится фрагмент кода для отправки контента на пре-валидацию в кастомный эндпоинт Vertex AI, требующий специфических заголовков и ротации ProjectID для обхода антифрод-систем. Отмечается, что для достижения высокого скора необходимо насыщать текст авторитетными сущностями из базы знаний Google.