Код в мешке
249 subscribers
9.1K photos
1.6K videos
2.11K files
42.7K links
Код в мешке - про кодинг, и не только...
Это личная записная книжка

https://t.me/joinchat/AAAAAEIy6oGlr8oxqTMS5w
Download Telegram
Forwarded from BritLab
Как автоматизировать распознавание текста с изображений?

В открытых источниках часто встречаются изображения с ценным текстом — скриншоты рабочих столов и приложений, фотографии таблиц, чеков, рукописных заметок и т.д. Сбор обычного текста автоматизировать легко, но с текстом на картинках начинаются сложности.

Раньше в моём арсенале был только pytesseract (Python-библиотека для распознавания текста). Она работала, но с серьёзными ограничениями:
Плохо справлялась с разными шрифтами
Теряла точность на низкокачественных изображениях
Путала языки, если текст был мультиязычным

Сейчас появились LLM-модели, которые справляются с этой задачей гораздо лучше, но если у вас нет мощного железа, запустить их локально не получится.

В профильных каналах регулярно пишут: «Вышла модель Х, которая показывает отличные результаты. OSINT-еры больше не нужны!», но никто не дает гайдов, как с этими моделями работать. Сегодня я это исправлю.

Обзор моделей для OCR
Прошерстив не один десяток источников, я выделил две наиболее популярные на текущий момент модели:
1️⃣ GPT-4 mini — высокая точность, но платная.
2️⃣ Google Gemini 2.0 Flash — высокая точность + бесплатный лимит.

Выбор без раздумий пал на Gemini. На момент публикации бесплатные лимиты от Google следующие:
✔️ 15 запросов в минуту
✔️ 1 млн токенов в минуту (ввод + вывод)
✔️ 1 500 запросов в сутки

Но есть важный нюанс: сервис не работает с российскими IP

Как взаимодействовать с Gemini?
1️⃣ Получаем API-ключ в Google AI Studio
2️⃣ Через API отправляем изображение в base64 + промпт
3️⃣ Получаем распознанный текст в ответе

Что делать, если Gemini недоступна?
Если у вас по какой-то причине нет возможности получить доступ к серверам Google AI Studio, то можно воспользоваться сервисами, которые предоставляют доступ к различным open-source моделям. Например, DeepInfra.
Плюсы:
✔️ Нет блокировок по геолокации
✔️ Гибкая тарификация
Минусы:
✖️ Нет бесплатного тарифа

Как заведено в BritLab, к посту прилагаю репозиторий с примерами скриптов для работы с Gemini и DeepInfra. Результаты работы скриптов — скриншот с исходным изображением и распознанным текстом — можно увидеть в заголовке поста (оба метода показали отличные результаты).

Разбор реального кейса
Представьте, что у вас есть PDF с текстом на иностранном языке. Вам нужно извлечь текст и перевести его на другой язык. Как это сделать?
1️⃣ Разбиваем PDF на страницы и конвертируем каждую в изображение
2️⃣ С помощью Gemini извлекаем весь текст с изображений
3️⃣ Загружаем текст в другую модель, которая заточена на перевод
4️⃣ Получаем текст на нужном языке
5️⃣ Загружаем результат в БД
6️⃣ PROFIT

Связка OCR + LLM открывает огромные возможности. Экспериментируйте)

#AI #Automation #LLM #Python #OCR
ЦБ сделал веб-сервис для получения по API данных о компаниях с выявленными признаками нелегальной деятельности на финансовом рынке.
Сервис предоставляет данные в структурированном виде (JSON).
Детальная информация по составу и структуре сервиса описана в Open API 3.0.

Банки, например, смогут автоматизировать отказ в платежах в адрес структур, которые есть в списке.

Подробнее:
↘️ https://cbr.ru/development/warning-list/
...
Иммутабельность в ООП — что ты такое? #habr
https://habr.com/ru/articles/909228/
Tags: иммутабельность, ооп
Author: apolon13
Как научить ИИ обслуживать клиентов не хуже человека? #habr
https://habr.com/ru/companies/alfa/articles/904028/
Tags: искусственный интеллект, поддержка клиентов, машинное+обучение
Author: smirnovevgeny (Альфа-Банк)
Выпуск Nobara 42, редакции Fedora с патчами для игр и обработки контента #opennet
https://www.opennet.ru/opennews/art.shtml?num=63234

Опубликован выпуск дистрибутива Nobara 42, основанного на пакетной базе Fedora Linux 42 и включающего дополнительные исправления для решения проблем с запуском компьютерных игр, потоковым вещанием и выполнением задач, связанных с созданием контента. Для загрузки подготовлены девять установочных образов: официальный со стилизованным KDE, дополнительные с чистыми окружениями GNOME и KDE, Steam-HTPC для Steam Deck на базе KDE и Steam-Handheld для носимых устройств, а также отдельные сборки первых четырёх образов с проприетарными драйверами NVIDIA.