Media is too big
VIEW IN TELEGRAM
OpenContracts
Когда работаешь с юридическими документами и договорами, боль обычно не в самом чтении, а в том, чтобы из сотен и тысяч файлов вытащить ключевую инфу, разметить важные пункты и при этом привести данные к единому формату, чтобы потом нормально анализировать.
Недавно на GitHub попался OpenContracts, опенсорсная платформа для анализа документов, заточенная под knowledge-intensive задачи, чтобы управление документами и извлечение данных было проще и быстрее.
Поддерживает загрузку, разметку и анализ PDF и текстовых документов. Внутри есть плагинный движок парсинга, который может автоматически извлекать признаки лейаута документа и строить векторные эмбеддинги для дальнейшего поиска/ретривала.
Главная фича это пакетное извлечение данных: можно одновременно задавать вопросы по сотням документов и вытаскивать структурированные данные, а результаты сразу подсвечиваются прямо в исходнике. Ещё есть поддержка кастомных схем метаданных, совместной разметки, управления доступами и прочих enterprise-историй.
Платформа построена на фреймворке PydanticAI: там собрана полноценная LLM-система с управлением диалогом и стримингом ответов в реальном времени. Разворачивается быстро через Docker.
Если у тебя много контрактов, юрдоков или другой “тяжёлой” по знаниям документации, и хочется превратить анализ из ручной рутины в более системный воркфлоу, платформу стоит попробовать.
📁 Language: #Python 52.0%
⭐️ Stars: 1.1k
➡️ Cсылка на GitHub
📱 @git_developer
Когда работаешь с юридическими документами и договорами, боль обычно не в самом чтении, а в том, чтобы из сотен и тысяч файлов вытащить ключевую инфу, разметить важные пункты и при этом привести данные к единому формату, чтобы потом нормально анализировать.
Недавно на GitHub попался OpenContracts, опенсорсная платформа для анализа документов, заточенная под knowledge-intensive задачи, чтобы управление документами и извлечение данных было проще и быстрее.
Поддерживает загрузку, разметку и анализ PDF и текстовых документов. Внутри есть плагинный движок парсинга, который может автоматически извлекать признаки лейаута документа и строить векторные эмбеддинги для дальнейшего поиска/ретривала.
Главная фича это пакетное извлечение данных: можно одновременно задавать вопросы по сотням документов и вытаскивать структурированные данные, а результаты сразу подсвечиваются прямо в исходнике. Ещё есть поддержка кастомных схем метаданных, совместной разметки, управления доступами и прочих enterprise-историй.
Платформа построена на фреймворке PydanticAI: там собрана полноценная LLM-система с управлением диалогом и стримингом ответов в реальном времени. Разворачивается быстро через Docker.
Если у тебя много контрактов, юрдоков или другой “тяжёлой” по знаниям документации, и хочется превратить анализ из ручной рутины в более системный воркфлоу, платформу стоит попробовать.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1