Highload — медіа для розробників
4.17K subscribers
5.59K photos
277 videos
18 files
6.48K links
Розповідаємо про людей, які створюють код, та про код, який вони пишуть.

Зв'язатися із редакцією можна тут: news@highload.today. А щодо розміщення реклами, будь ласка, пишіть на specials@highload.today.

Наш чат https://t.me/highloadchatt
Download Telegram
​​Преобразование изображений в .csv

На GitHub пользователь под ником artperrin опубликовал способ преобразования таблицы с числами, которая создает изображение, в рабочий файл .csv. Программа использует библиотеку алгоритмов OpenCV для Python для обработки изображения и Tesseract для распознавания чисел.

В репозиторий входят:

— исходный код image2csv.py;
— файл tools.py, в котором реализованы полезные функции;
— файл grid_detector.py для автоматического определения сетки;
— папка с файлами для тестирования.

По словам автора, по умолчанию программа определяет сетку таблицы автоматически. При этом для параметрической идентификации геометрических элементов изображения используется преобразование Хафа OpenCV, а для обнаружения границ изображения — алгоритм Кенни. Распознавание сетки вручную осуществляется с помощью мыши и терминала.

Автор признается, что эта программа не идеальна и не работает с десятичными числами, но отлично справляется с отрицательными. Также пользователь должен быть осторожен с перечеркнутым нулем «Ø», который идентифицируется Tesseract как цифра «6».

С полной версией метода можно ознакомиться по ссылке:
https://github.com/artperrin/image2csv

#python #opencv #csv #tesseract
​​Как команды Linux Shell могут сэкономить время

Простая история о том, чем может быть полезна оболочка Linux при обработке данных на примере утилиты awk.

https://highload.today/kak-komandy-linux-shell-mogut-sekonomit-vremya/

#linux #shell #csv