Заметки LLM-энтузиаста
518 subscribers
144 photos
17 videos
1 file
175 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
#ocr #pdf #model #opensource

SmolDocling: Опенсорс инструмент для OCR документов 📄

Коллеги, добрый день! 👋

Обычно первым шагом при построении ИИ-ассистентов является обработка/распознавание существующей документации.
Поэтому многие ищут хорошие решения для распознавания PDF-файлов, особенно когда речь идет о больших документах.
В связи с этим хочу поделиться интересной находкой.

SmolDocling — это новая мультимодальная визуально-языковая модель для полноценного OCR документов. Несмотря на компактный размер (всего 256M параметров), она обрабатывает страницу за 0.35 секунды! 🚀

Что умеет? 💪

• Распознает сложные макеты документов
• Корректно обрабатывает код
• Понимает математические формулы
• Распознает графики и диаграммы
• Работает с таблицами
• Классифицирует графические элементы
• Сохраняет структуру заголовков
• Группирует списки

Где пригодится? 📚

• Научные статьи
• Бизнес-документы
• Патенты
• Таблицы и отчеты

Удобные фишки ⚙️

• Пакетная обработка документов
• Экспорт в Markdown, HTML и JSON

Попробовать можно здесь: https://huggingface.co/ds4sd/SmolDocling-256M-preview

Кто уже тестировал? Делитесь впечатлениями в комментариях! 💬
🔥8❤‍🔥3