This media is not supported in your browser
VIEW IN TELEGRAM
extractous
При построении баз знаний и обучении моделей часто необходимо извлекать текстовое содержимое из различных документов и преобразовывать его в структурированные Markdown-документы, которые крупные модели могут лучше обрабатывать.
Недавно я обнаружил ещё один мощный инструмент для парсинга документов на GitHub — Extractous, который позволяет быстро и эффективно извлекать содержимое из файлов в разных форматах.
На данный момент поддерживаются документы форматов PDF, Word, Excel, PowerPoint, а также возможна извлечения текста из изображений с помощью OCR.
Что касается производительности, инструмент работает очень хорошо, низкое потребление памяти и высокая скорость обработки, в 25 раз быстрее, чем известная библиотека unstructured-io.
Он предоставляет простой и удобный API, позволяющий быстро извлекать текст и метаданные. Всем, кому это необходимо, стоит попробовать.
📁 Language: #Rust 69.3%
⭐️ Stars: 1.5k
➡️ Cсылка на GitHub
📱 @git_developer
При построении баз знаний и обучении моделей часто необходимо извлекать текстовое содержимое из различных документов и преобразовывать его в структурированные Markdown-документы, которые крупные модели могут лучше обрабатывать.
Недавно я обнаружил ещё один мощный инструмент для парсинга документов на GitHub — Extractous, который позволяет быстро и эффективно извлекать содержимое из файлов в разных форматах.
На данный момент поддерживаются документы форматов PDF, Word, Excel, PowerPoint, а также возможна извлечения текста из изображений с помощью OCR.
Что касается производительности, инструмент работает очень хорошо, низкое потребление памяти и высокая скорость обработки, в 25 раз быстрее, чем известная библиотека unstructured-io.
Он предоставляет простой и удобный API, позволяющий быстро извлекать текст и метаданные. Всем, кому это необходимо, стоит попробовать.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤8
This media is not supported in your browser
VIEW IN TELEGRAM
AdGuardian-Term
Используя AdGuard Home для самохостинга DNS-сервиса блокировки рекламы, чтобы проверить статус сетевой фильтрации в реальном времени, приходится каждый раз открывать браузер и заходить в веб-интерфейс управления — что довольно неудобно.
К счастью, я нашёл AdGuardian-Term — терминальный инструмент мониторинга, специально разработанный для AdGuard Home. Он позволяет просматривать динамику сетевой фильтрации в реальном времени прямо из командной строки.
Программа написана на Rust, работает быстро и «легко», предлагая такие функции, как:
🔸 мониторинг DNS-запросов в реальном времени,
🔸 статистика по блокировкам,
🔸 рейтинг самых популярных доменов.
📁 Language: #Rust 91.4%
⭐️ Stars: 1.2k
➡️ Cсылка на GitHub
📱 @git_developer
Используя AdGuard Home для самохостинга DNS-сервиса блокировки рекламы, чтобы проверить статус сетевой фильтрации в реальном времени, приходится каждый раз открывать браузер и заходить в веб-интерфейс управления — что довольно неудобно.
К счастью, я нашёл AdGuardian-Term — терминальный инструмент мониторинга, специально разработанный для AdGuard Home. Он позволяет просматривать динамику сетевой фильтрации в реальном времени прямо из командной строки.
Программа написана на Rust, работает быстро и «легко», предлагая такие функции, как:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
PandocX
Если работа с разными форматами документов, такими как Markdown и Word, через командную строку с Pandoc кажется неудобной, можно попробовать PandocX — открытый инструмент с удобным визуальным интерфейсом для Pandoc.
Он поддерживает почти все популярные форматы документов и автоматически скачивает необходимые зависимости Pandoc, избавляя от сложной настройки среды. Работает на macOS, Windows и Linux - достаточно скачать исполняемый файл и начать использовать.
📁 Language: #TypeScript 73.5%, #Rust 20.2%
⭐️ Stars: 34
➡️ Cсылка на GitHub
📱 @git_developer
Если работа с разными форматами документов, такими как Markdown и Word, через командную строку с Pandoc кажется неудобной, можно попробовать PandocX — открытый инструмент с удобным визуальным интерфейсом для Pandoc.
Он поддерживает почти все популярные форматы документов и автоматически скачивает необходимые зависимости Pandoc, избавляя от сложной настройки среды. Работает на macOS, Windows и Linux - достаточно скачать исполняемый файл и начать использовать.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥1