GitHub Разработчика
16.7K subscribers
413 photos
299 videos
2 files
711 links
Здесь ты найдешь полезные репозитории с GitHub

Связь: @devmangx

РКН: https://clck.ru/3FocDP
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
extractous

При построении баз знаний и обучении моделей часто необходимо извлекать текстовое содержимое из различных документов и преобразовывать его в структурированные Markdown-документы, которые крупные модели могут лучше обрабатывать.

Недавно я обнаружил ещё один мощный инструмент для парсинга документов на GitHub — Extractous, который позволяет быстро и эффективно извлекать содержимое из файлов в разных форматах.

На данный момент поддерживаются документы форматов PDF, Word, Excel, PowerPoint, а также возможна извлечения текста из изображений с помощью OCR.

Что касается производительности, инструмент работает очень хорошо, низкое потребление памяти и высокая скорость обработки, в 25 раз быстрее, чем известная библиотека unstructured-io.

Он предоставляет простой и удобный API, позволяющий быстро извлекать текст и метаданные. Всем, кому это необходимо, стоит попробовать.

📁 Language: #Rust 69.3%

⭐️ Stars: 1.5k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
👍98
This media is not supported in your browser
VIEW IN TELEGRAM
AdGuardian-Term

Используя AdGuard Home для самохостинга DNS-сервиса блокировки рекламы, чтобы проверить статус сетевой фильтрации в реальном времени, приходится каждый раз открывать браузер и заходить в веб-интерфейс управления — что довольно неудобно.

К счастью, я нашёл AdGuardian-Term — терминальный инструмент мониторинга, специально разработанный для AdGuard Home. Он позволяет просматривать динамику сетевой фильтрации в реальном времени прямо из командной строки.

Программа написана на Rust, работает быстро и «легко», предлагая такие функции, как:

🔸мониторинг DNS-запросов в реальном времени,
🔸статистика по блокировкам,
🔸рейтинг самых популярных доменов.

📁 Language: #Rust 91.4%

⭐️ Stars: 1.2k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
PandocX

Если работа с разными форматами документов, такими как Markdown и Word, через командную строку с Pandoc кажется неудобной, можно попробовать PandocX — открытый инструмент с удобным визуальным интерфейсом для Pandoc.

Он поддерживает почти все популярные форматы документов и автоматически скачивает необходимые зависимости Pandoc, избавляя от сложной настройки среды. Работает на macOS, Windows и Linux - достаточно скачать исполняемый файл и начать использовать.

📁 Language: #TypeScript 73.5%, #Rust 20.2%

⭐️ Stars: 34

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥1