MarkItDown
- утилита написанная на Python
для преобразования различных файлов в формат Markdown
для использования с LLM
и связанными с ними конвейерами анализа текста. В этом отношении она наиболее близка к
textract
, но с акцентом на сохранение важной структуры и содержимого документа в формате Markdown
(включая заголовки, списки, таблицы, ссылки и т. д.). Хотя вывод зачастую достаточно презентабелен и удобен для восприятия, он предназначен для использования инструментами анализа текста и может быть не лучшим вариантом для высококачественного преобразования документов для восприятия человеком.В настоящее время
MarkItDown
поддерживает конвертацию из:- PowerPoint
- Word
- Exel
- Изображения (метаданные
EXIF
и OCR
)- Аудио (метаданные
и транскрипция речи)- HTML
- Текстовые форматы (
CSV
, JSON
, XML
)- ZIP-файлы (перебирает содержимое)
- URL-адреса YouTube
- EPubs
- и многое другое!
https://github.com/microsoft/markitdown
опубликовано в @gitgate
#markdown #pdf #xls #doc #ppt #html #zip #epub #converter
🔥11👍7