inksight
Когда фотографируешь рукописные заметки и хочешь превратить их в редактируемый цифровой документ, обычный OCR распознаёт только текст и теряет сами штрихи письма. А профессиональные планшеты для рукописного ввода требуют отдельного оборудования.
Недавно на GitHub появился InkSight — это опенсорсный проект от Google для преобразования рукописных заметок. Он умеет превращать фото рукописного текста в векторные штрихи, сохраняя траекторию письма, с поддержкой редактирования и поиска.
Система построена на архитектуре ViT + mT5 (encoder–decoder). Модель проходит двойное обучение через этапы «чтения» и «письма», благодаря чему она не только понимает рукописный текст, но и умеет восстанавливать сам процесс письма.
Поддерживается многоязычное распознавание, разные фоны и стили письма. Есть два режима конвертации:
на уровне слов,
и на уровне всей страницы.
На выходе получается векторный цифровой почерк, который можно напрямую редактировать, искать по нему или импортировать в заметочные приложения.
Также есть онлайн-демо на Hugging Face, выложен полный датасет и примеры кода в Jupyter для локального запуска.
📁 Language: #Python 13.2%
⭐️ Stars: 759
➡️ Cсылка на GitHub
📱 @git_developer
Когда фотографируешь рукописные заметки и хочешь превратить их в редактируемый цифровой документ, обычный OCR распознаёт только текст и теряет сами штрихи письма. А профессиональные планшеты для рукописного ввода требуют отдельного оборудования.
Недавно на GitHub появился InkSight — это опенсорсный проект от Google для преобразования рукописных заметок. Он умеет превращать фото рукописного текста в векторные штрихи, сохраняя траекторию письма, с поддержкой редактирования и поиска.
Система построена на архитектуре ViT + mT5 (encoder–decoder). Модель проходит двойное обучение через этапы «чтения» и «письма», благодаря чему она не только понимает рукописный текст, но и умеет восстанавливать сам процесс письма.
Поддерживается многоязычное распознавание, разные фоны и стили письма. Есть два режима конвертации:
на уровне слов,
и на уровне всей страницы.
На выходе получается векторный цифровой почерк, который можно напрямую редактировать, искать по нему или импортировать в заметочные приложения.
Также есть онлайн-демо на Hugging Face, выложен полный датасет и примеры кода в Jupyter для локального запуска.
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤8👍7🔥3
shapash
Обучить модель машинного обучения — это только первый шаг. Самая болезненная часть начинается, когда нужно объяснить начальству или бизнес-команде, почему модель выдала именно такой прогноз. В случае с «черными ящиками» обычно просто нечего сказать.
Недавно я нашел на GitHub библиотеку Shapash — Python-инструмент, который как раз помогает сделать модель «понятной», превращая сложную алгоритмическую логику в наглядные визуализации.
Библиотека умеет генерировать интерактивную веб-панель, где наглядно показано, какие признаки и как влияют на работу модели. Поддерживается детальный разбор от глобального уровня до отдельных предсказаний. И самое важное — все графики сопровождаются понятными бизнес-лейблами, так что даже люди без техбэкграунда смогут быстро разобраться.
Работает с CatBoost, XGBoost, LightGBM и Sklearn — то есть покрывает основные ML-фреймворки.
Помимо визуализации, библиотека может одним вызовом собрать отдельный HTML-отчет для аудита. Есть даже легковесный предиктор для продакшена, который ставится через pip и сразу готов к использованию.
Если ты регулярно показываешь результаты моделей нетехническим командам или тебе нужна прозрачность для регуляторных проверок, этот проект реально экономит кучу времени на объяснениях.
📁 Language: #Python 14.3%
⭐️ Stars: 3.1k
➡️ Cсылка на GitHub
📱 @git_developer
Обучить модель машинного обучения — это только первый шаг. Самая болезненная часть начинается, когда нужно объяснить начальству или бизнес-команде, почему модель выдала именно такой прогноз. В случае с «черными ящиками» обычно просто нечего сказать.
Недавно я нашел на GitHub библиотеку Shapash — Python-инструмент, который как раз помогает сделать модель «понятной», превращая сложную алгоритмическую логику в наглядные визуализации.
Библиотека умеет генерировать интерактивную веб-панель, где наглядно показано, какие признаки и как влияют на работу модели. Поддерживается детальный разбор от глобального уровня до отдельных предсказаний. И самое важное — все графики сопровождаются понятными бизнес-лейблами, так что даже люди без техбэкграунда смогут быстро разобраться.
Работает с CatBoost, XGBoost, LightGBM и Sklearn — то есть покрывает основные ML-фреймворки.
Помимо визуализации, библиотека может одним вызовом собрать отдельный HTML-отчет для аудита. Есть даже легковесный предиктор для продакшена, который ставится через pip и сразу готов к использованию.
Если ты регулярно показываешь результаты моделей нетехническим командам или тебе нужна прозрачность для регуляторных проверок, этот проект реально экономит кучу времени на объяснениях.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍5