Microsoft выпустила Markitdown — Python-утилиту для конвертации любых документов в Markdown
Ключевые факты
- 1 Markitdown — это Python-утилита с открытым исходным кодом, разработанная Microsoft для подготовки данных к обработке LLM.
- 2 Основная цель — преобразование "шумных" документов (HTML, PDF) в чистый Markdown для оптимизации работы LLM (меньше токенов, выше скорость).
- 3 Утилита поддерживает конвертацию более 10 форматов, включая PDF, Word, Excel, HTML, EPubs и ZIP-архивы.
- 4 Markitdown может обрабатывать медиафайлы и YouTube-ссылки, извлекая текст через OCR, EXIF и транскрипцию речи.
- 5 Инструмент предлагает три интерфейса: CLI, Python API и Markitdown Content Processor (MCP) сервер для интеграции с AI-агентами.
Markitdown — это новый инструмент с открытым исходным кодом от Microsoft, предназначенный для решения критической проблемы подготовки данных для больших языковых моделей (LLM). Традиционные форматы, такие как HTML или PDF, содержат много "шума" (ненужных тегов, стилей), который снижает эффективность и увеличивает стоимость обработки токенов. Markitdown автоматизирует процесс извлечения контента и его очистки, конвертируя его в Markdown — формат, который LLM обрабатывают наиболее эффективно. Утилита поддерживает широкий спектр входных данных, включая структурированные (CSV, JSON, XML), офисные документы (Word, Excel, PowerPoint), медиафайлы (извлекая данные EXIF, OCR и транскрипцию речи из видео), а также контент по прямым URL, включая YouTube. Инструмент доступен через командную строку (CLI), Python API и специальный Markitdown Content Processor (MCP) сервер, что позволяет легко интегрировать его в рабочие процессы AI-агентов. 💡 Фактчекинг: Подтверждено через официальный репозиторий Microsoft на GitHub (microsoft/markitdown). Перечисленные форматы и функционал (CLI, API, MCP) соответствуют документации проекта.