GitHub Разработчика
17.4K subscribers
534 photos
346 videos
2 files
874 links
Здесь ты найдешь полезные репозитории с GitHub

Связь: @devmangx

РКН: https://clck.ru/3FocDP
Download Telegram
Media is too big
VIEW IN TELEGRAM
MLE-agent

Когда делаешь ML-проект, весь цикл обычно разваливается на постоянные прыжки между инструментами: подготовка данных, обучение модели, отладка, оптимизация. В итоге теряется куча времени.

На GitHub попался MLE-Agent — опенсорсный AI-ассистент, сделанный специально под задачи ML-инженеров.

Он умеет по нечётким требованиям собирать базовый ML-пайплайн, а ещё способен самостоятельно участвовать в Kaggle: от подготовки данных и тренировки модели до финальной отправки сабмита.

Внутри есть интеграция с Arxiv и Papers with Code, так что он может искать релевантные статьи. При ошибках пробует сам разобраться и подсказать фикс. Может даже генерировать недельные отчёты по проделанной работе.

Есть интерактивный CLI-чат, и можно подключить OpenAI, Claude или локальную модель через Ollama.

Если ты регулярно работаешь с ML-процессами и хочешь помощника, который соберёт базовую модель, подправит код и найдёт нужные статьи — этот проект стоит попробовать.

📁 Language: #Python 96.0%

⭐️ Stars: 1.4k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥4👍2
qxresearch-event-1

При изучении Python часто становится скучно: сидишь перед толстыми туториалами, строчишь код, а ощущения быстрого результата почти нет. Хотя на самом деле многие полезные вещи делаются буквально в несколько строк.

Как раз на GitHub наткнулся на проект qxresearch-event-1, который продвигает идею «минимализма». В нём собрано 50+ Python-приложений, каждое из которых запускается примерно из 10 строк кода.

Покрытие очень широкое: от базовых задач вроде шифрования PDF и объединения файлов до более продвинутых вещей — GUI-интерфейсы, диктофон, а также автоматизация почты и голосовой ассистент на базе ChatGPT.

Такой короткий и плотный код отлично подходит для чтения и разбора. Плюс к каждому примеру есть видеоразбор, который помогает быстро понять логику каждой строки.

Достаточно простой настройки окружения, и всё сразу запускается. Подойдёт и новичкам, которые ищут практику, и опытным разработчикам, которым нужен набор удобных скриптов на каждый день.

📁 Language: #Python 100%

⭐️ Stars: 2.1k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
👍85🔥4
python-markdownify

Когда делаешь парсер или переносишь сайт, на экране часто лежит куча рваной HTML-разметки. Привести это в аккуратный Markdown обычно та еще морока.

В опенсорсе нашелся удобный инструмент python-markdownify, который как раз решает задачу конвертации HTML в Markdown.

Логика у него проста: берешь громоздкий HTML, на выходе получаешь понятный и чисто структурированный Markdown.

Инструмент хорошо настраивается. Можно вычищать нужные теги, менять формат заголовков, аккуратно обрабатывать таблицы и картинки. Все это конфигурируется.

Ставится через pip. Им можно пользоваться как из Python-кода, так и из командной строки, конвертируя файлы пачками.

При желании можно унаследоваться и переопределить правила преобразования под свои кейсы. С расширяемостью там все ок.

Если приходится гонять большие объемы текста или переносить блог, библиотека экономит кучу времени, которое обычно уходит на ковыряние регулярок.

📁 Language: #Python 100%

⭐️ Stars: 1.9k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
👍124
Media is too big
VIEW IN TELEGRAM
OpenContracts

Когда работаешь с юрдоками и контрактами, сама по себе читка не так напрягает, как необходимость выгребать из сотен файлов ключевые пункты, помечать важные места и при этом держать формат данных единым для последующей аналитики.

На GitHub попался OpenContracts — опенсорсный анализатор документов, заточенный под знания-интенсивные задачи. Он заметно упрощает управление файлами и вытягивание данных.

Поддерживает загрузку PDF и обычного текста, разметку и анализ. Внутри стоит плагиноподобный парсер, который автоматически вытаскивает структурные особенности документа и делает векторные представления для удобного поиска.

Главная фича — массовое извлечение данных. Можно задать вопрос сразу к сотне документов, получить структурированный ответ и увидеть подсветку прямо в исходниках. Есть настройка схемы метаданных, совместная разметка, управление доступами и прочие корпоративные возможности.

Система построена на PydanticAI. Там есть и управление диалогом, и стриминговые ответы. Развернуть можно через Docker.

Если приходится разбирать горы контрактов, юрбумаг или любых материалов с высоким порогом знаний, этот инструмент хорошо переводит работу из ручной рутины в нормальный поток.

📁 Language: #TypeScript 52.3%, #Python 46.9%

⭐️ Stars: 985

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍7🔥2
inksight

Когда фотографируешь рукописные заметки и хочешь превратить их в редактируемый цифровой документ, обычный OCR распознаёт только текст и теряет сами штрихи письма. А профессиональные планшеты для рукописного ввода требуют отдельного оборудования.

Недавно на GitHub появился InkSight — это опенсорсный проект от Google для преобразования рукописных заметок. Он умеет превращать фото рукописного текста в векторные штрихи, сохраняя траекторию письма, с поддержкой редактирования и поиска.

Система построена на архитектуре ViT + mT5 (encoder–decoder). Модель проходит двойное обучение через этапы «чтения» и «письма», благодаря чему она не только понимает рукописный текст, но и умеет восстанавливать сам процесс письма.

Поддерживается многоязычное распознавание, разные фоны и стили письма. Есть два режима конвертации:

на уровне слов,

и на уровне всей страницы.

На выходе получается векторный цифровой почерк, который можно напрямую редактировать, искать по нему или импортировать в заметочные приложения.

Также есть онлайн-демо на Hugging Face, выложен полный датасет и примеры кода в Jupyter для локального запуска.

📁 Language: #Python 13.2%

⭐️ Stars: 759

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
18👍8🔥3
shapash

Обучить модель машинного обучения — это только первый шаг. Самая болезненная часть начинается, когда нужно объяснить начальству или бизнес-команде, почему модель выдала именно такой прогноз. В случае с «черными ящиками» обычно просто нечего сказать.

Недавно я нашел на GitHub библиотеку Shapash — Python-инструмент, который как раз помогает сделать модель «понятной», превращая сложную алгоритмическую логику в наглядные визуализации.

Библиотека умеет генерировать интерактивную веб-панель, где наглядно показано, какие признаки и как влияют на работу модели. Поддерживается детальный разбор от глобального уровня до отдельных предсказаний. И самое важное — все графики сопровождаются понятными бизнес-лейблами, так что даже люди без техбэкграунда смогут быстро разобраться.

Работает с CatBoost, XGBoost, LightGBM и Sklearn — то есть покрывает основные ML-фреймворки.

Помимо визуализации, библиотека может одним вызовом собрать отдельный HTML-отчет для аудита. Есть даже легковесный предиктор для продакшена, который ставится через pip и сразу готов к использованию.

Если ты регулярно показываешь результаты моделей нетехническим командам или тебе нужна прозрачность для регуляторных проверок, этот проект реально экономит кучу времени на объяснениях.

📁 Language: #Python 14.3%

⭐️ Stars: 3.1k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65
Media is too big
VIEW IN TELEGRAM
OpenContracts

Когда работаешь с юридическими документами и договорами, боль обычно не в самом чтении, а в том, чтобы из сотен и тысяч файлов вытащить ключевую инфу, разметить важные пункты и при этом привести данные к единому формату, чтобы потом нормально анализировать.

Недавно на GitHub попался OpenContracts, опенсорсная платформа для анализа документов, заточенная под knowledge-intensive задачи, чтобы управление документами и извлечение данных было проще и быстрее.
Поддерживает загрузку, разметку и анализ PDF и текстовых документов. Внутри есть плагинный движок парсинга, который может автоматически извлекать признаки лейаута документа и строить векторные эмбеддинги для дальнейшего поиска/ретривала.

Главная фича это пакетное извлечение данных: можно одновременно задавать вопросы по сотням документов и вытаскивать структурированные данные, а результаты сразу подсвечиваются прямо в исходнике. Ещё есть поддержка кастомных схем метаданных, совместной разметки, управления доступами и прочих enterprise-историй.

Платформа построена на фреймворке PydanticAI: там собрана полноценная LLM-система с управлением диалогом и стримингом ответов в реальном времени. Разворачивается быстро через Docker.

Если у тебя много контрактов, юрдоков или другой “тяжёлой” по знаниям документации, и хочется превратить анализ из ручной рутины в более системный воркфлоу, платформу стоит попробовать.

📁 Language: #Python 52.0%

⭐️ Stars: 1.1k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Constrict

Нужно сжать видео до заданного размера для загрузки. Ручная подгонка битрейта с кучей проб и ошибок отнимает время, а онлайн-сервисы вызывают вопросы к приватности и скорости.

На GitHub нашелся Constrict — open-source инструмент для сжатия видео. Ты просто задаешь целевой размер файла, а он сам рассчитывает оптимальные параметры кодирования. Все обрабатывается локально, без загрузок в облако.

Инструмент построен на FFmpeg и автоматически подбирает битрейт, разрешение, FPS и качество аудио, стараясь сохранить максимум качества при нужном размере.

Поддерживает пакетную обработку в одну директорию, ограничение FPS для баланса четкости и плавности, а также кодеки H.264, HEVC, AV1 и VP9.

Если часто приходится ужимать видео под конкретный лимит и не хочется возиться с настройками или онлайн-сервисами, стоит попробовать.

📁 Language: #Python 94.2%

⭐️ Stars: 323

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥1
Promptomatix

При работе с prompt’ами больше всего выматывает не придумывание, а бесконечный перебор вариантов. Поменял одно слово — результат стал хуже, добавил фразу — логика поехала. В итоге куча времени уходит на ручной тюнинг и пробу-ошибку.

Случайно на GitHub попался Promptomatix — фреймворк от Salesforce AI Research, выложенный в open source. Его цель как раз в том, чтобы избавиться от этой ручной возни с оптимизацией prompt’ов.

Он анализирует требования задачи, автоматически генерирует тренировочные данные и на основе фидбэка итеративно правит prompt, пока не выйдет на лучший результат.

Поддерживает несколько провайдеров моделей, включая OpenAI и Anthropic. Есть и CLI, и API для интеграции в проекты.

Также есть подробные Jupyter-туториалы — от базового использования до продвинутой кастомизации. Можно начать быстро через командную строку, а потом углубиться.

Если ты разрабатываешь LLM-приложения или уже устал вручную полировать prompt’ы, этот автоматизированный подход точно стоит попробовать.

📁 Language: #Python 99.5%

⭐️ Stars: 714

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3🔥2😁1
XL Converter

При работе с фотками и изображениями постоянно всплывают две боли: файлы слишком тяжёлые и формат не поддерживается. Найти инструмент, который умеет сжимать без потери качества, на практике не так просто.

На GitHub как раз попался открытый проект XL Converter. В одном интерфейсе он закрывает конвертацию между разными форматами изображений.

Поддерживается взаимное преобразование между JPEG XL, AVIF, WebP, JPEG, PNG и другими форматами. Есть параллельная обработка, так что можно гонять сразу пачку файлов.

Также есть поддержка lossless-транскодинга JPEG: размер JPEG-файлов уменьшается примерно на 16–22% без потери качества, и процесс полностью обратимый.

Помимо конвертации форматов, есть ресайз изображений. Можно менять размер по разрешению, в процентах или по минимальной стороне.

Доступны сборки под Windows и Linux, всё работает из коробки. Если часто приходится массово перегонять картинки между форматами, инструмент точно стоит посмотреть.

📁 Language: #Python 94.6%

⭐️ Stars: 399

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
4
This media is not supported in your browser
VIEW IN TELEGRAM
Агентный RAG для чайников

Если хочешь собрать рабочую RAG-систему, то большинство гайдов в интернете заканчиваются на самом базовом "retrieval + generation". Как только появляется многотуровый диалог или более сложная логика, качество ответов часто становится просто ужасным.

На GitHub нашел проект Агентный RAG для чайников. Не ведись на слово "для чайников" в названии: по сути это продакшен-уровневое решение agentic RAG, собранное на LangGraph.

Там добавлены память диалога и иерархическая индексация: сначала точный поиск по маленьким чанкам, потом подтягивание больших чанков как полноценного контекста. Это неплохо лечит проблему, когда модель выдирает фразы без нормального окружения.

Поддерживается параллельная работа нескольких агентов для разруливания сложных запросов. Если инструкция расплывчатая, система может сама переспросить, чтобы уточнить намерение, вместо того чтобы уверенно галлюцинировать.

Еще внутри есть Gradio-интерфейс: управление документами, сохранение диалогов, ручное вмешательство (human-in-the-loop) и прочее. Плюс дается полный гайд по конвертации PDF в Markdown, с инструментами и сравнением вариантов.

Есть быстрый деплой через Docker и подробные Notebook-уроки, так что локально поднять все довольно легко. Если хочешь апгрейднуть базовый RAG до уровня продакшена или ищешь кастомизируемую схему умного поиска, проект стоит попробовать.

📁 Language: #Python 32.1%

⭐️ Stars: 1.2k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1