Архитектура LLM опровергает мифы SaaS-вендоров о микроразметке
Ключевые факты
- 1 LLM токенизируют текст, а не метаданные, что означает, что микроразметка не улучшает их понимание контента напрямую.
- 2 Schema.org и другая микроразметка влияют на рич-сниппеты и Граф Знаний в классическом поиске, но не проникают внутрь моделей-трансформеров.
- 3 Научное исследование (Aggarwal et al., KDD 2024) показало, что улучшение контента (ссылки, эксперты, статистика, читабельность) повышает видимость, в то время как микроразметка не является поверхностью оптимизации для LLM.
- 4 SaaS-вендоры продают ложные предпосылки об эффективности микроразметки для LLM, основываясь на устаревших моделях поиска.
- 5 Поведение генеративных систем недетерминировано, и прямая атрибуция влияния микроразметки на ответы LLM невозможна.
Пост критикует индустрию оптимизации, созданную SaaS-вендорами вокруг мифа о том, что микроразметка (например, Schema.org) гарантирует лучшее понимание контента поисковыми ИИ. Автор утверждает, что архитектура LLM доказывает обратное: модели токенизируют исключительно текст, а не метаданные. Сигналы Schema.org используются для формирования рич-сниппетов и Графа Знаний в классической поисковой выдаче, но не проникают внутрь модели-трансформера для улучшения понимания текста. Трансформеры обрабатывают язык как последовательности токенов, и внутри модели отсутствует парсер для тегов <schema> или приоритет для FAQ-разметки. Весь процесс извлечения информации происходит до генерации ответа: документы собираются, разбиваются на чанки по правилам вендора и отправляются в контекстное окно LLM. Эти правила (длина чанков, перекрытие, модели эмбеддингов) скрыты от паблишеров. В качестве доказательства приводится научная работа Аггарвала и соавторов (KDD 2024), которая протестировала девять методов оптимизации на бенчмарке из 10 000 запросов. Исследование показало, что максимальный рост видимости обеспечивают такие факторы, как добавление ссылок на авторитетные источники, цитирование релевантных экспертов, использование статистики, улучшение читабельности и упрощение восприятия текста. При этом Schema, микроразметка, разметка FAQ и иерархия заголовков не тестировались как поверхности оптимизации, поскольку они не влияют на текстовое понимание LLM. Автор заключает, что SaaS-индустрия продает ложные предпосылки, опираясь на устаревшие представления о детерминированности поисковых систем.