Zilliz выпустила модель для семантической подсветки: локальный симулятор Passage Indexing
Ключевые факты
- 1 Модель `semantic-highlight-bilingual-v1` от Zilliz симулирует Google Passage Indexing.
- 2 Она скорит каждое предложение в тексте по его семантическому вкладу в запрос.
- 3 Поддерживает контекст до 8192 токенов, позволяя анализировать лонгриды (до 5000 слов).
- 4 Помогает оптимизировать сниппеты и извлекать семантическое ядро для AI-рерайта, сокращая токены на 70-80%.
Модель "Semantic Highlighting" решает проблему неточности традиционной суммаризации и простого матчинга ключевых слов, оценивая семантический вклад каждого предложения в лонгриде. Она построена на базе `BGE-M3 Reranker v2` и поддерживает окно контекста до 8192 токенов, что позволяет анализировать документы объемом до 5000 слов. Основное применение в SEO — это симуляция Google Passage Indexing, где модель изолирует «иглу в стоге сена», отвечающую интенту пользователя. Это позволяет оптимизировать сниппеты, выявлять дистракторы (нерелевантные предложения, которые сбивают алгоритм) и получать чистое семантическое ядро для дальнейшей обработки другими AI-моделями, сокращая входные токены на 70-80%. Высокая точность достигается благодаря обучению на 5 миллионах билингвальных сэмплов, размеченных с использованием Reasoning Traces (Chain of Thought), что исключает «ленивые» аннотации. Модель является Encoder-only (0.6B параметров) и может быть запущена локально.