Google учится понимать интент пользователя по визуальному взаимодействию

Seobloggers 04.03.2026 — 08:28

Ключевые факты

1 Google разрабатывает ИИ для понимания пользовательского интента на основе визуальных взаимодействий (скриншотов, кликов).
2 Интент рассматривается как динамическая "траектория" действий пользователя.
3 Используется двухэтапная архитектура: от анализа микро-действий к макро-цели.
4 Качество интента оценивается по достоверности, полноте и релевантности.
5 Для борьбы с "галлюцинациями" применяется очистка обучающих данных (Label Refinement).
6 Семантические метрики, такие как BiFact, используются для оценки понимания, что указывает на тренд Entity-based SEO.
7 Это развитие важно для будущего SEO, так как поиск становится более "агентским", а оптимизация UI/UX — частью SEO.

Google активно работает над усовершенствованием понимания пользовательского интента, выходя за рамки традиционного анализа поисковых запросов. Новая исследовательская инициатива направлена на извлечение интента из "траекторий" действий пользователя, представляющих собой последовательности скриншотов и конкретных взаимодействий, таких как клики и свайпы. Цель состоит в том, чтобы точно определить, что пользователь пытался достичь, например, "купить билет в Лувр", даже по обрывочным действиям. Предложенная архитектура для этой задачи является двухэтапной. На первом этапе модель структурированно суммирует каждое микро-взаимодействие (скриншот + действие), выделяя ключевые детали экрана и суть клика. Второй этап агрегирует эти мини-отчеты со всех шагов для формирования финального описания макро-цели пользователя. Этот метод позволяет даже небольшим моделям превосходить по качеству понимания крупные языковые модели. Для оценки качества понимания интента Google использует три основных критерия: достоверность (Faithfulness), полнота (Comprehensiveness) и релевантность (Relevance). Эти параметры помогают бороться с "галлюцинациями" модели, когда она "додумывает" информацию, отсутствующую на экране. Для этого используется метод Label Refinement, очищающий обучающие данные. Оценка понимания осуществляется с помощью семантических метрик, таких как BiFact, которые анализируют атомарные факты интента, в отличие от традиционных лексических метрик вроде BLEU, что подчеркивает переход от анализа ключевых слов к анализу смысловых сущностей.

Источник