Векторная математика опровергает Google: Почему 'чанкинг' контента критически важен для RAG
Ключевые факты
- 1 Официальные советы Google против чанкинга противоречат математике векторного поиска.
- 2 Чанкинг (разбиение контента) увеличивает косинусное сходство и релевантность в RAG-системах.
- 3 Эксперимент Майка Кинга показал прирост релевантности на 19.24% при атомарном чанкинге.
- 4 Passage Indexing Google использует Dense Retrieval (векторный поиск), что требует дискретной структуры контента.
- 5 Контент должен быть структурирован как 'API смыслов' для видимости в вебе, управляемом AI-агентами.
Google, через Дэнни Салливана, рекомендовал создателям контента не адаптировать его специально под LLM, включая отказ от 'чанкинга'. Однако технический анализ показывает, что эта рекомендация противоречит принципам работы современных систем информационного поиска. Поисковые системы и LLM используют модель векторного пространства (Vector Space Model, VSM), где релевантность определяется косинусным сходством между вектором запроса и вектором контента. Длинный, монолитный текст размывает свой векторный сигнал, тогда как короткий, сфокусированный 'чанк' создает более плотный и извлекаемый сигнал. Майк Кинг продемонстрировал, что разбиение параграфа, охватывающего две темы, на два атомарных чанка, увеличило косинусное сходство для целевого запроса на 19.24%. Добавление специфических заголовков дало дополнительный прирост в 17.54%. Это соответствует архитектуре Google: их Passage Indexing — это форма Dense Retrieval, использующая поиск ближайшего соседа (Approximate Nearest Neighbor - ANN). Если контент не структурирован в дискретные, извлекаемые объекты, он становится невидимым для слоя ретривала (retrieval layer). В условиях 'веба под Агентов' контент должен быть форматирован как 'API смыслов', а не как линейная статья для человека.