Эксперимент: Слабости косинусной близости эмбеддингов в SEO
Ключевые факты
- 1 Косинусная близость эмбеддингов может быть неэффективна для тонких смысловых различий в небольших текстах.
- 2 Cross-Encoder алгоритмы показывают значительно лучшую точность в определении релевантности.
- 3 Для улучшения работы косинусных алгоритмов рекомендуется делить текст на смысловые фрагменты (абзацы, предложения).
- 4 Косинусная близость эффективна для предварительной векторизации и быстрого поиска в RAG-системах.
- 5 RAG-системы и их компоненты (включая косинусную близость) используются в алгоритмах поисковых систем.
В ходе эксперимента были проанализированы результаты поиска по запросу «как выбрать ноут для удаленки» с использованием двух почти идентичных текстов. Разница заключалась в одном абзаце, который кардинально менял смысл текста с «офисной работы» на «удаленную». Лексические алгоритмы не смогли уловить разницу из-за синонимов («удаленка» против «удаленная работа»). Однако, что более примечательно, косинусная близость эмбеддингов также показала низкую эффективность, демонстрируя дельту релевантности в 0,0085, что значительно хуже, чем у Cross-Encoder. Это указывает на слабость косинусного подхода при работе с относительно небольшими текстами, где один абзац создает сильный смысловой контраст. Для повышения эффективности косинусных алгоритмов предлагается делить текст на более мелкие фрагменты, такие как абзацы или предложения. Это позволяет улучшить смысловое сходство на уровне отдельных частей текста. Несмотря на выявленные недостатки, косинусная близость остается ценным инструментом. Ее главное преимущество — возможность предварительной векторизации и хранения данных в базах, что делает ее удобной для систем типа RAG (Retrieval-Augmented Generation). В таких системах косинусная близость используется для быстрого поиска релевантных фрагментов по запросу пользователя, а затем результаты могут быть доранжированы более точными, но ресурсоемкими алгоритмами, такими как Cross-Encoder. Подобные подходы применяются в алгоритмах крупных поисковых систем, таких как Яндекс и Google.