Код в мешке
208 subscribers
8.03K photos
1.28K videos
2.06K files
35.9K links
Код в мешке - про кодинг, и не только...
Это личная записная книжка

https://t.me/joinchat/AAAAAEIy6oGlr8oxqTMS5w
Download Telegram
Самые полезные базовые функции Python
https://tproger.ru/articles/samye-poleznye-bazovye-funkcii-python

Модуль, пакет, библиотека, фреймворк: разбираемся в разнице
https://tproger.ru/articles/modul-paket-biblioteka-frejmvork-razbiraemsya-v-raznice

Декораторы в Python: понять и полюбить

Декораторы — это функции, которые позволяют обернуть другую функцию для расширения её функциональности без изменения её кода.

Как это работает?
Подробно разбираемся с этим вопросом:
https://tprg.ru/Emdw

#python
Forwarded from Типичный программист
Подборка open source проектов на разных языках программирования, которые подойдут для изучения самым новичкам в программировании:

https://tprg.ru/vZhF

#java #python #cpp
Forwarded from Типичный программист
30 seconds of code — сайт с подборками коротких кусков кода, выполняющих конкретные задачи

Нужно смержить несколько списков на Python? Отформатировать дату на C#? Или выполнить какие-то математические операции на Go?

Тут куча таких примеров: https://tprg.ru/fbi6

#python #csharp #go
Forwarded from Типичный программист
Каких дыр в безопасности надо бояться Python-разработчику

Python не идеален — даже в стандартных библиотеках могут быть встроены некачественные методы, которые приведут к ошибкам.

В этой статье рассматриваем наиболее частые ошибки безопасности, допускаемые при разработке приложений на Python:

https://tprg.ru/vkS7

#python #безопасность
Подборка туториалов по разработке проектов на различных языках программирования — текстовый редактор на C++, HTTP-сервер на Java, todo-list на Python и много другое:

https://tprg.ru/l4SK

#python #cpp #java
Forwarded from Типичный программист
Хочу научиться программировать на Python. С чего начать?

Рассказываем, что делать, если вы решили освоить Python с нуля — что учить в первую очередь, где брать знания и что делать дальше:

https://tprg.ru/6xTL

#python
Для многих новичков концепция ООП кажется несуразной и абсолютно непрактичной

Давайте разберемся, как она работает в Python на примере класса Heap. Для этого мы составили пошаговый план, наполненный теорией и практическими задачами: https://tproger.ru/articles/obuchenie-oop-na-primere-realizacii-klassa-kucha-v-python-1-chast

#python #ооп #дляначинающих
Как использовать try — except и не испортить себе жизнь

Зачастую новичков в Python ошеломляет многочасовой дебаггинг простых, казалось бы, программ. На элементарные скрипты в 100 строк кода можно потратить несколько часов, ведь каждый трейсбэк кажется огромным.

Справиться с негативом помогает конструкция try — except. В Python это лишь способ обработать ошибку и не «обронить» программу. Но если использовать ее не там и не так, лучше не станет (или вовсе будет хуже).

Чтобы таких проблем не возникало, разобрали на примерах, когда и как отлавливать ошибки с помощью блока и рассказали, когда эту конструкцию лучше не задействовать: https://tproger.ru/articles/kak-ispolzovat-try-except-i-ne-isportit-sebe-zhizn

#python
Forwarded from Типичный программист
Большой чит-лист по Python: годный репозиторий с 35 тысячами звёзд

Шпаргалка покрывает большинство возможностей Python, поэтому её полезно держать при себе каждому питонисту.

Сохраните себе, чтобы не потерять: https://github.com/gto76/python-cheatsheet

#python
Forwarded from Типичный программист
This media is not supported in your browser
VIEW IN TELEGRAM
Кстати, если интересно, как самим реализовать такие анимированные диаграммы, вот отличная мини-статья, которая поможет в этом разобраться.

Там описаны особенности работы с линейными/круговыми диаграммами и гистограммами. Делов на 10 строк кода, зато как красиво:

https://nuancesprog.ru/p/14847/

#python
Forwarded from Типичный программист
Подборка полезных материалов, которые помогут освоится в разработке Telegram-ботов на Python:

— Бот для управления и мониторинга сервера через Telegram: https://habr.com/ru/post/597377/

— Бот​ для отслеживания курса криптовалют: https://www.youtube.com/watch?v=pUKXnMfFdkg

— Бот с парсером анекдотов на Python: https://www.youtube.com/watch?v=o06cdLnyc3I

— Бот для постинга мемов: https://www.youtube.com/watch?v=oAKVM7h4Kp4

#telegram #python
Forwarded from Типичный программист
Ну и раз уж сегодня день рождения создателя Python, поделимся свежей подборкой материалов для изучения языка

➡️ ​Полный вводный курс по Python с нуля за 7 часов с таймкодами по темам: https://youtu.be/5g-MHZ0MzZY

➡️ Те же самые основы, но на степике - 71 урок и после каждого практические задания на закрепление: https://stepik.org/course/100707/promo?search=6437160110

➡️ Основные алгоритмические методы. Жадные алгоритмы, «разделяй и властвуй», динамическое программирование: https://stepik.org/course/217/promo

➡️ Шпаргалка, которая покрывает большинство возможностей Python: https://github.com/gto76/python-cheatsheet

➡️ Ежедневные задачки по Python для закрепления знаний: https://t.me/+V1Hh7cQbiyNhYzQy

➡️ Роадмап по изучению Python — в прикреплённой картинке.

#python
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Типичный программист
За что стоит любить программирование, так это за то, что с помощью него можно решить многие жизненные проблемы

Например, автор этой истории создал систему, которая помогает находить свободное парковочное место во дворе дома всего за 5 секунд. Для этого он использовал обычную камеру видеонаблюдения и Telegram бота, написанного с помощью Python, Matterport Mask R-CNN, OpenCV и YOLO. В итоге пользователю достаточно нажать «Найди парковку». И бот находит места и отрисовывает их на фото, которое возвращается пользователю.

Подробнее о процессе разработки, фишках и подводных камнях — в статье: https://habr.com/ru/post/685108/

#нейросети #diy #telegram #python #opencv
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки про данные, технологии и не только:
- Kreuzberg [1] библиотека для Python по извлечению текста из документов, поддерживает множество форматов, внутри использует Pandoc и Tesseract OCR. Создано как раз для использования в задачах RAG (Retrieval Augmented Generation) с прицелом на локальную обработку данных и минимумом зависимостей. Лицензия MIT
- Validoopsie [2] другая библиотека для Python для валидации данных. Использует библиотеку Narwhals благодаря которой подключается к почти любым видами дата-фреймов. Выглядит полезной альтернативой Great Expectations, лично для меня в валидации данных глобальный нерешённый вопрос в том что тут правильнее, код или декларативное программирования. Иначе говоря, правила проверки должны ли быть отчуждаемыми от языка разработки. Здесь валидация встроена в код, но поверх можно сделать и декларативный движок. Лицензия MIT
- Scripton [3] коммерческое IDE для Python с необычной фичей визуализации данных в реальном времени. Есть только скриншоты, записи экрана и коммерческая версия для macOS. Для тех кто занимается алгоритмической визуализацией может быть удобно, для остальных задач пока нет такой уверенности.
- New horizons for Julia [4] по сути статья о том что язык программирования Julia ещё жив и развивается. Правда медленно, на мой взгляд, но вроде как есть позитивное движение за пределами научных областей. Лично я почти не сталкивался с Julia кроме как на уровне примеров кода, но хорошо если он кому-то нравится и полезен.
- Data-Driven Scrollytelling with Quarto [5] визуализация дата-историй с помощью движка Quarto, итоги конкурса таких визуализаций с большим числом примеров и победителей. Примеры все от команды компании Posit которая этот open-source движок Quarto и разрабатывает. Скажу отдельно что это очень правильно. Если ты делаешь любой движок по визуализации, то просто обязательно надо проводить такие конкурсы.
- The Best Way to Use Text Embeddings Portably is With Parquet and Polars [6] ещё один обзор о том насколько эффективен Parquet в связке с Polars для работы с данными, в данном случае данными карт Magic of the Gathering. Автор тоже задаётся вопросом о том почему Parquet не поддерживается в MS Excel.
- How to Make Superbabies [7] особенно длинный лонгрид о том как генетическими изменениями можно улучшать человека, создавать супер детей или "оптимизированных детей", как ещё пишет автор. Читать и думать об этом надо потому что всё идёт к тому что скоро это станет ещё одной острой социальной и геополитической темой.

Ссылки:
[1] https://github.com/Goldziher/kreuzberg
[2] https://github.com/akmalsoliev/Validoopsie
[3] https://scripton.dev/
[4] https://lwn.net/Articles/1006117/
[5] https://posit.co/blog/closeread-prize-winners/
[6] https://minimaxir.com/2025/02/embeddings-parquet/
[7] https://www.lesswrong.com/posts/DfrSZaf3JC8vJdbZL/how-to-make-superbabies

#opensource #data #datatools #dataviz #genetics #python
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки про данные, технологии и не только:
- Kreuzberg [1] библиотека для Python по извлечению текста из документов, поддерживает множество форматов, внутри использует Pandoc и Tesseract OCR. Создано как раз для использования в задачах RAG (Retrieval Augmented Generation) с прицелом на локальную обработку данных и минимумом зависимостей. Лицензия MIT
- Validoopsie [2] другая библиотека для Python для валидации данных. Использует библиотеку Narwhals благодаря которой подключается к почти любым видами дата-фреймов. Выглядит полезной альтернативой Great Expectations, лично для меня в валидации данных глобальный нерешённый вопрос в том что тут правильнее, код или декларативное программирования. Иначе говоря, правила проверки должны ли быть отчуждаемыми от языка разработки. Здесь валидация встроена в код, но поверх можно сделать и декларативный движок. Лицензия MIT
- Scripton [3] коммерческое IDE для Python с необычной фичей визуализации данных в реальном времени. Есть только скриншоты, записи экрана и коммерческая версия для macOS. Для тех кто занимается алгоритмической визуализацией может быть удобно, для остальных задач пока нет такой уверенности.
- New horizons for Julia [4] по сути статья о том что язык программирования Julia ещё жив и развивается. Правда медленно, на мой взгляд, но вроде как есть позитивное движение за пределами научных областей. Лично я почти не сталкивался с Julia кроме как на уровне примеров кода, но хорошо если он кому-то нравится и полезен.
- Data-Driven Scrollytelling with Quarto [5] визуализация дата-историй с помощью движка Quarto, итоги конкурса таких визуализаций с большим числом примеров и победителей. Примеры все от команды компании Posit которая этот open-source движок Quarto и разрабатывает. Скажу отдельно что это очень правильно. Если ты делаешь любой движок по визуализации, то просто обязательно надо проводить такие конкурсы.
- The Best Way to Use Text Embeddings Portably is With Parquet and Polars [6] ещё один обзор о том насколько эффективен Parquet в связке с Polars для работы с данными, в данном случае данными карт Magic of the Gathering. Автор тоже задаётся вопросом о том почему Parquet не поддерживается в MS Excel.
- How to Make Superbabies [7] особенно длинный лонгрид о том как генетическими изменениями можно улучшать человека, создавать супер детей или "оптимизированных детей", как ещё пишет автор. Читать и думать об этом надо потому что всё идёт к тому что скоро это станет ещё одной острой социальной и геополитической темой.

Ссылки:
[1] https://github.com/Goldziher/kreuzberg
[2] https://github.com/akmalsoliev/Validoopsie
[3] https://scripton.dev/
[4] https://lwn.net/Articles/1006117/
[5] https://posit.co/blog/closeread-prize-winners/
[6] https://minimaxir.com/2025/02/embeddings-parquet/
[7] https://www.lesswrong.com/posts/DfrSZaf3JC8vJdbZL/how-to-make-superbabies

#opensource #data #datatools #dataviz #genetics #python
Forwarded from BritLab
Как автоматизированно извлекать текст из видео на YouTube?

Знакомо: нашёл на YouTube ролики, в которых есть тонна полезной информации, а тратить часы на просмотр — нет времени?

В 2018 году появился проект youtube-transcript-api (GitHub) — Python-модуль, который за пару секунд извлекает субтитры из видео.

Но есть нюансы:
⚠️ Требует сетевого доступа к YouTube (может не работать в некоторых странах)
⚠️ Использует неофициальное API
Вот что пишет создатель проекта:
Этот код использует недокументированную часть API YouTube, которая вызывается веб-клиентом YouTube. Поэтому нет гарантии, что он не перестанет работать завтра, если они изменят то, как все работает. Однако я сделаю все возможное, чтобы все заработало как можно скорее, если это произойдет. Так что если он перестанет работать, дайте мне знать!


Как использовать?

1️⃣ Установить библиотеку youtube-transcript-api (PYPI)
2️⃣ Взять ID интересующего видео (поддается автоматизации)
3️⃣ Запустить скрипт (📖 официальная документация)

#BritLab #YouTube #Subtitles #Transcription #Python #Automation
Forwarded from BritLab
Как автоматизировать распознавание текста с изображений?

В открытых источниках часто встречаются изображения с ценным текстом — скриншоты рабочих столов и приложений, фотографии таблиц, чеков, рукописных заметок и т.д. Сбор обычного текста автоматизировать легко, но с текстом на картинках начинаются сложности.

Раньше в моём арсенале был только pytesseract (Python-библиотека для распознавания текста). Она работала, но с серьёзными ограничениями:
Плохо справлялась с разными шрифтами
Теряла точность на низкокачественных изображениях
Путала языки, если текст был мультиязычным

Сейчас появились LLM-модели, которые справляются с этой задачей гораздо лучше, но если у вас нет мощного железа, запустить их локально не получится.

В профильных каналах регулярно пишут: «Вышла модель Х, которая показывает отличные результаты. OSINT-еры больше не нужны!», но никто не дает гайдов, как с этими моделями работать. Сегодня я это исправлю.

Обзор моделей для OCR
Прошерстив не один десяток источников, я выделил две наиболее популярные на текущий момент модели:
1️⃣ GPT-4 mini — высокая точность, но платная.
2️⃣ Google Gemini 2.0 Flash — высокая точность + бесплатный лимит.

Выбор без раздумий пал на Gemini. На момент публикации бесплатные лимиты от Google следующие:
✔️ 15 запросов в минуту
✔️ 1 млн токенов в минуту (ввод + вывод)
✔️ 1 500 запросов в сутки

Но есть важный нюанс: сервис не работает с российскими IP

Как взаимодействовать с Gemini?
1️⃣ Получаем API-ключ в Google AI Studio
2️⃣ Через API отправляем изображение в base64 + промпт
3️⃣ Получаем распознанный текст в ответе

Что делать, если Gemini недоступна?
Если у вас по какой-то причине нет возможности получить доступ к серверам Google AI Studio, то можно воспользоваться сервисами, которые предоставляют доступ к различным open-source моделям. Например, DeepInfra.
Плюсы:
✔️ Нет блокировок по геолокации
✔️ Гибкая тарификация
Минусы:
✖️ Нет бесплатного тарифа

Как заведено в BritLab, к посту прилагаю репозиторий с примерами скриптов для работы с Gemini и DeepInfra. Результаты работы скриптов — скриншот с исходным изображением и распознанным текстом — можно увидеть в заголовке поста (оба метода показали отличные результаты).

Разбор реального кейса
Представьте, что у вас есть PDF с текстом на иностранном языке. Вам нужно извлечь текст и перевести его на другой язык. Как это сделать?
1️⃣ Разбиваем PDF на страницы и конвертируем каждую в изображение
2️⃣ С помощью Gemini извлекаем весь текст с изображений
3️⃣ Загружаем текст в другую модель, которая заточена на перевод
4️⃣ Получаем текст на нужном языке
5️⃣ Загружаем результат в БД
6️⃣ PROFIT

Связка OCR + LLM открывает огромные возможности. Экспериментируйте)

#AI #Automation #LLM #Python #OCR
Forwarded from Нейроканал
Все перечисленные библиотеки имеют открытый исходный код и предназначены в основном для питонистов.
 
Анализ, очистка и подготовка данных:
  Pandas — быстрая и гибкая очистка и подготовка данных.
  Numpy — предварительная обработка данных, применяется для математических вычислений.
  Statsmodels — статистический анализ временных рядов, выживаемости и многого другого.
  YData Profiling — упрощает этап EDA, тщательно анализируя ваши данные в одной строке кода.
 
Машинное и глубокое обучение:
  Scikit-learn — ключевая библиотека машинного обучения, содержит реализацию популярных алгоритмов (регрессия, кластеризация).
  Keras — создание, настройка моделей, работает поверх таких фреймворков, как TensorFlow.
  TensorFlow — создание, моделирование и тренировка нейросетей.
  XGBoost — предоставляет эффективные алгоритмы для задач регрессии, классификации и ранжирования.
  CatBoost — градиентный бустинг.
 
#библиотеки #ml #deeplearning #python
🖥 Репозиторий: Machinae — сборщик сведений, связанных с безопасностью

Machinae — это инструмент для сбора сведений по кусочкам данных из общедоступных сайтов / каналов: IP адреса, доменные имена, URL, email адреса, хэши файлов и SSL отпечатки

Проект был рождён из желания улучшить Automater в четырёх областях:
1. Codebase — Доведение Automater до совместимости с python3 и делание кода более «питомным»
2. Конфигурация — Использование более понятного человеку формата (YAML)
3. Ввод — Поддержка из коробки парсинга JSON без необходимости писать регулярные выражения, но по прежнему поддерживает при необходимости выскабливание регулярными выражениями
4. Вывод — Поддержка дополнительных типов вывода, включая JSON, при этом внешний вывод делается опциональным

Ссылка на GitHub (https://github.com/HurricaneLabs/machinae)

#OSINT #Python #HurricaneLabs

@hackernews_lib
YTSage

Обычно, чтобы скачать и сохранить видео или музыку с YouTube локально, я использую утилиту yt-dl. Но это инструмент для работы в терминале, и для новичков он может быть не самым простым в освоении.

Сегодня на GitHub наткнулся на YTSage — опенсорсный YouTube-даунлоадер с простым и удобным UI и мощным функционалом.

Поддерживает загрузку видео в любом качестве, извлечение аудио, скачивание субтитров, автоматическое пропускание рекламных вставок, а также обрезку видео по времени.

Основные фичи:

🔸Загрузка видео в любом качестве и извлечение высококачественного аудио
🔸Полная поддержка плейлистов с выборочной пакетной загрузкой
🔸Многоязычные субтитры: скачивание, объединение и встраивание в видео
🔸Интеграция с SponsorBlock для автоматического удаления рекламы и спонсорских сегментов
🔸Видео-тримминг — скачивание определённого фрагмента по временным меткам
🔸Поддержка cookie-авторизации для доступа к приватному или контенту для участников

Можно установить одной командой через pip, а новичкам достаточно скачать готовый бинарник под свою ОС

📁 Language: #Python

⭐️ Stars: 1.8k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM