📌 Mistral AI показала OCR 4 — модель, которая не просто вытаскивает текст из документа, а превращает страницу в понятную структуру.
Что умеет:
• размечает блоки через
• различает типы элементов: заголовки, таблицы, формулы, подписи
• показывает
• поддерживает 170 языков
Главный плюс — не само распознавание, а то, что такие документы потом удобно использовать в RAG, корпоративном поиске, ручной проверке, редактировании и агентных пайплайнах. По данным Mistral, OCR 4 обошла конкурентов в слепом тесте на 600+ реальных документах и набрала 85.20 на OlmOCRBench. Есть и self-hosted запуск в одном контейнере — полезно там, где важен контроль над данными.
#OCR #Mistral #RAG
Что умеет:
• размечает блоки через
bounding boxes• различает типы элементов: заголовки, таблицы, формулы, подписи
• показывает
confidence score по словам и страницам• поддерживает 170 языков
Главный плюс — не само распознавание, а то, что такие документы потом удобно использовать в RAG, корпоративном поиске, ручной проверке, редактировании и агентных пайплайнах. По данным Mistral, OCR 4 обошла конкурентов в слепом тесте на 600+ реальных документах и набрала 85.20 на OlmOCRBench. Есть и self-hosted запуск в одном контейнере — полезно там, где важен контроль над данными.
#OCR #Mistral #RAG
❤1😁1