Технические детали ранжирования Google: PCTR, Gecko и архитектура AI-поиска
Ключевые факты
- 1 Ранжирование Google жестко зависит от сигналов вовлеченности пользователей, измеряемых моделями Predicted CTR (PCTR) и PCVR.
- 2 Финальная позиция документа формируется многоуровневым стеком скоринга, включающим базовый ранг и несколько слоев корректировок.
- 3 Модель Gecko корректирует скоры на основе семантической близости, а Jetstream использует cross-attention для повышения семантической релевантности.
- 4 Персонализированный PCTR, уточняющий прогноз клика через историю пользователя, активируется после обработки 100 000 запросов через систему VAIS.
- 5 Генеративные ответы Google (AI Overview/Answers) критически зависят от контента, извлеченного из топ-5 результатов стандартного поиска.
- 6 Система использует традиционные алгоритмы частотности (BM25) для соответствия ключей, а также корректировки на свежесть и ручные бизнес-правила (Boost/Bury).
Современная система ранжирования Google представляет собой сложный стек скоринга, начинающийся с базового алгоритма и дополняющийся несколькими слоями корректировок. Вовлеченность пользователей измеряется через модели прогнозируемого CTR (PCTR) и прогнозируемой конверсии (PCVR), которые обеспечивают сильный буст популярным документам. Персонализированный PCTR, уточняющий прогноз клика через историю пользователя, активируется после обработки 100 000 запросов через систему VAIS. В стеке скоринга используются модели Gecko для корректировки эмбеддингов на основе семантической близости и Jetstream, применяющая cross-attention для более точной обработки контекста и отрицаний, превосходя традиционные методы, такие как BM25. Google выделяет три режима поиска: стандартные списки, генеративные саммари (AI Answers) и разговорный поиск. Для генерации ответов в AI Overview критически используются данные, извлеченные из топ-5 результатов стандартного поиска. Производительность системы постоянно контролируется по метрикам Search Count, CTR и No Results Rate, а безопасность обеспечивается механизмами, игнорирующими состязательные (вредоносные) запросы. 💡 Фактчекинг: Технические детали, касающиеся многоуровневого стека скоринга, использования PCTR/PCVR, а также кодовых названий Gecko и Jetstream, подтверждены через анализ технических публикаций Google о своей поисковой архитектуре.