Как использовать try — except и не испортить себе жизнь
Зачастую новичков в Python ошеломляет многочасовой дебаггинг простых, казалось бы, программ. На элементарные скрипты в 100 строк кода можно потратить несколько часов, ведь каждый трейсбэк кажется огромным.
Справиться с негативом помогает конструкция try — except. В Python это лишь способ обработать ошибку и не «обронить» программу. Но если использовать ее не там и не так, лучше не станет (или вовсе будет хуже).
Чтобы таких проблем не возникало, разобрали на примерах, когда и как отлавливать ошибки с помощью блока и рассказали, когда эту конструкцию лучше не задействовать: https://tproger.ru/articles/kak-ispolzovat-try-except-i-ne-isportit-sebe-zhizn
#python
Зачастую новичков в Python ошеломляет многочасовой дебаггинг простых, казалось бы, программ. На элементарные скрипты в 100 строк кода можно потратить несколько часов, ведь каждый трейсбэк кажется огромным.
Справиться с негативом помогает конструкция try — except. В Python это лишь способ обработать ошибку и не «обронить» программу. Но если использовать ее не там и не так, лучше не станет (или вовсе будет хуже).
Чтобы таких проблем не возникало, разобрали на примерах, когда и как отлавливать ошибки с помощью блока и рассказали, когда эту конструкцию лучше не задействовать: https://tproger.ru/articles/kak-ispolzovat-try-except-i-ne-isportit-sebe-zhizn
#python
Forwarded from Типичный программист
Большой чит-лист по Python: годный репозиторий с 35 тысячами звёзд
Шпаргалка покрывает большинство возможностей Python, поэтому её полезно держать при себе каждому питонисту.
Сохраните себе, чтобы не потерять: https://github.com/gto76/python-cheatsheet
#python
Шпаргалка покрывает большинство возможностей Python, поэтому её полезно держать при себе каждому питонисту.
Сохраните себе, чтобы не потерять: https://github.com/gto76/python-cheatsheet
#python
Forwarded from Типичный программист
This media is not supported in your browser
VIEW IN TELEGRAM
Кстати, если интересно, как самим реализовать такие анимированные диаграммы, вот отличная мини-статья, которая поможет в этом разобраться.
Там описаны особенности работы с линейными/круговыми диаграммами и гистограммами. Делов на 10 строк кода, зато как красиво:
https://nuancesprog.ru/p/14847/
#python
Там описаны особенности работы с линейными/круговыми диаграммами и гистограммами. Делов на 10 строк кода, зато как красиво:
https://nuancesprog.ru/p/14847/
#python
Forwarded from Типичный программист
Подборка полезных материалов, которые помогут освоится в разработке Telegram-ботов на Python:
— Бот для управления и мониторинга сервера через Telegram: https://habr.com/ru/post/597377/
— Бот для отслеживания курса криптовалют: https://www.youtube.com/watch?v=pUKXnMfFdkg
— Бот с парсером анекдотов на Python: https://www.youtube.com/watch?v=o06cdLnyc3I
— Бот для постинга мемов: https://www.youtube.com/watch?v=oAKVM7h4Kp4
#telegram #python
— Бот для управления и мониторинга сервера через Telegram: https://habr.com/ru/post/597377/
— Бот для отслеживания курса криптовалют: https://www.youtube.com/watch?v=pUKXnMfFdkg
— Бот с парсером анекдотов на Python: https://www.youtube.com/watch?v=o06cdLnyc3I
— Бот для постинга мемов: https://www.youtube.com/watch?v=oAKVM7h4Kp4
#telegram #python
Forwarded from Типичный программист
Ну и раз уж сегодня день рождения создателя Python, поделимся свежей подборкой материалов для изучения языка
➡️ Полный вводный курс по Python с нуля за 7 часов с таймкодами по темам: https://youtu.be/5g-MHZ0MzZY
➡️ Те же самые основы, но на степике - 71 урок и после каждого практические задания на закрепление: https://stepik.org/course/100707/promo?search=6437160110
➡️ Основные алгоритмические методы. Жадные алгоритмы, «разделяй и властвуй», динамическое программирование: https://stepik.org/course/217/promo
➡️ Шпаргалка, которая покрывает большинство возможностей Python: https://github.com/gto76/python-cheatsheet
➡️ Ежедневные задачки по Python для закрепления знаний: https://t.me/+V1Hh7cQbiyNhYzQy
➡️ Роадмап по изучению Python — в прикреплённой картинке.
#python
#python
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Типичный программист
За что стоит любить программирование, так это за то, что с помощью него можно решить многие жизненные проблемы
Например, автор этой истории создал систему, которая помогает находить свободное парковочное место во дворе дома всего за 5 секунд. Для этого он использовал обычную камеру видеонаблюдения и Telegram бота, написанного с помощью Python, Matterport Mask R-CNN, OpenCV и YOLO. В итоге пользователю достаточно нажать «Найди парковку». И бот находит места и отрисовывает их на фото, которое возвращается пользователю.
Подробнее о процессе разработки, фишках и подводных камнях — в статье: https://habr.com/ru/post/685108/
#нейросети #diy #telegram #python #opencv
Например, автор этой истории создал систему, которая помогает находить свободное парковочное место во дворе дома всего за 5 секунд. Для этого он использовал обычную камеру видеонаблюдения и Telegram бота, написанного с помощью Python, Matterport Mask R-CNN, OpenCV и YOLO. В итоге пользователю достаточно нажать «Найди парковку». И бот находит места и отрисовывает их на фото, которое возвращается пользователю.
Подробнее о процессе разработки, фишках и подводных камнях — в статье: https://habr.com/ru/post/685108/
#нейросети #diy #telegram #python #opencv
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки про данные, технологии и не только:
- Kreuzberg [1] библиотека для Python по извлечению текста из документов, поддерживает множество форматов, внутри использует Pandoc и Tesseract OCR. Создано как раз для использования в задачах RAG (Retrieval Augmented Generation) с прицелом на локальную обработку данных и минимумом зависимостей. Лицензия MIT
- Validoopsie [2] другая библиотека для Python для валидации данных. Использует библиотеку Narwhals благодаря которой подключается к почти любым видами дата-фреймов. Выглядит полезной альтернативой Great Expectations, лично для меня в валидации данных глобальный нерешённый вопрос в том что тут правильнее, код или декларативное программирования. Иначе говоря, правила проверки должны ли быть отчуждаемыми от языка разработки. Здесь валидация встроена в код, но поверх можно сделать и декларативный движок. Лицензия MIT
- Scripton [3] коммерческое IDE для Python с необычной фичей визуализации данных в реальном времени. Есть только скриншоты, записи экрана и коммерческая версия для macOS. Для тех кто занимается алгоритмической визуализацией может быть удобно, для остальных задач пока нет такой уверенности.
- New horizons for Julia [4] по сути статья о том что язык программирования Julia ещё жив и развивается. Правда медленно, на мой взгляд, но вроде как есть позитивное движение за пределами научных областей. Лично я почти не сталкивался с Julia кроме как на уровне примеров кода, но хорошо если он кому-то нравится и полезен.
- Data-Driven Scrollytelling with Quarto [5] визуализация дата-историй с помощью движка Quarto, итоги конкурса таких визуализаций с большим числом примеров и победителей. Примеры все от команды компании Posit которая этот open-source движок Quarto и разрабатывает. Скажу отдельно что это очень правильно. Если ты делаешь любой движок по визуализации, то просто обязательно надо проводить такие конкурсы.
- The Best Way to Use Text Embeddings Portably is With Parquet and Polars [6] ещё один обзор о том насколько эффективен Parquet в связке с Polars для работы с данными, в данном случае данными карт Magic of the Gathering. Автор тоже задаётся вопросом о том почему Parquet не поддерживается в MS Excel.
- How to Make Superbabies [7] особенно длинный лонгрид о том как генетическими изменениями можно улучшать человека, создавать супер детей или "оптимизированных детей", как ещё пишет автор. Читать и думать об этом надо потому что всё идёт к тому что скоро это станет ещё одной острой социальной и геополитической темой.
Ссылки:
[1] https://github.com/Goldziher/kreuzberg
[2] https://github.com/akmalsoliev/Validoopsie
[3] https://scripton.dev/
[4] https://lwn.net/Articles/1006117/
[5] https://posit.co/blog/closeread-prize-winners/
[6] https://minimaxir.com/2025/02/embeddings-parquet/
[7] https://www.lesswrong.com/posts/DfrSZaf3JC8vJdbZL/how-to-make-superbabies
#opensource #data #datatools #dataviz #genetics #python
- Kreuzberg [1] библиотека для Python по извлечению текста из документов, поддерживает множество форматов, внутри использует Pandoc и Tesseract OCR. Создано как раз для использования в задачах RAG (Retrieval Augmented Generation) с прицелом на локальную обработку данных и минимумом зависимостей. Лицензия MIT
- Validoopsie [2] другая библиотека для Python для валидации данных. Использует библиотеку Narwhals благодаря которой подключается к почти любым видами дата-фреймов. Выглядит полезной альтернативой Great Expectations, лично для меня в валидации данных глобальный нерешённый вопрос в том что тут правильнее, код или декларативное программирования. Иначе говоря, правила проверки должны ли быть отчуждаемыми от языка разработки. Здесь валидация встроена в код, но поверх можно сделать и декларативный движок. Лицензия MIT
- Scripton [3] коммерческое IDE для Python с необычной фичей визуализации данных в реальном времени. Есть только скриншоты, записи экрана и коммерческая версия для macOS. Для тех кто занимается алгоритмической визуализацией может быть удобно, для остальных задач пока нет такой уверенности.
- New horizons for Julia [4] по сути статья о том что язык программирования Julia ещё жив и развивается. Правда медленно, на мой взгляд, но вроде как есть позитивное движение за пределами научных областей. Лично я почти не сталкивался с Julia кроме как на уровне примеров кода, но хорошо если он кому-то нравится и полезен.
- Data-Driven Scrollytelling with Quarto [5] визуализация дата-историй с помощью движка Quarto, итоги конкурса таких визуализаций с большим числом примеров и победителей. Примеры все от команды компании Posit которая этот open-source движок Quarto и разрабатывает. Скажу отдельно что это очень правильно. Если ты делаешь любой движок по визуализации, то просто обязательно надо проводить такие конкурсы.
- The Best Way to Use Text Embeddings Portably is With Parquet and Polars [6] ещё один обзор о том насколько эффективен Parquet в связке с Polars для работы с данными, в данном случае данными карт Magic of the Gathering. Автор тоже задаётся вопросом о том почему Parquet не поддерживается в MS Excel.
- How to Make Superbabies [7] особенно длинный лонгрид о том как генетическими изменениями можно улучшать человека, создавать супер детей или "оптимизированных детей", как ещё пишет автор. Читать и думать об этом надо потому что всё идёт к тому что скоро это станет ещё одной острой социальной и геополитической темой.
Ссылки:
[1] https://github.com/Goldziher/kreuzberg
[2] https://github.com/akmalsoliev/Validoopsie
[3] https://scripton.dev/
[4] https://lwn.net/Articles/1006117/
[5] https://posit.co/blog/closeread-prize-winners/
[6] https://minimaxir.com/2025/02/embeddings-parquet/
[7] https://www.lesswrong.com/posts/DfrSZaf3JC8vJdbZL/how-to-make-superbabies
#opensource #data #datatools #dataviz #genetics #python
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки про данные, технологии и не только:
- Kreuzberg [1] библиотека для Python по извлечению текста из документов, поддерживает множество форматов, внутри использует Pandoc и Tesseract OCR. Создано как раз для использования в задачах RAG (Retrieval Augmented Generation) с прицелом на локальную обработку данных и минимумом зависимостей. Лицензия MIT
- Validoopsie [2] другая библиотека для Python для валидации данных. Использует библиотеку Narwhals благодаря которой подключается к почти любым видами дата-фреймов. Выглядит полезной альтернативой Great Expectations, лично для меня в валидации данных глобальный нерешённый вопрос в том что тут правильнее, код или декларативное программирования. Иначе говоря, правила проверки должны ли быть отчуждаемыми от языка разработки. Здесь валидация встроена в код, но поверх можно сделать и декларативный движок. Лицензия MIT
- Scripton [3] коммерческое IDE для Python с необычной фичей визуализации данных в реальном времени. Есть только скриншоты, записи экрана и коммерческая версия для macOS. Для тех кто занимается алгоритмической визуализацией может быть удобно, для остальных задач пока нет такой уверенности.
- New horizons for Julia [4] по сути статья о том что язык программирования Julia ещё жив и развивается. Правда медленно, на мой взгляд, но вроде как есть позитивное движение за пределами научных областей. Лично я почти не сталкивался с Julia кроме как на уровне примеров кода, но хорошо если он кому-то нравится и полезен.
- Data-Driven Scrollytelling with Quarto [5] визуализация дата-историй с помощью движка Quarto, итоги конкурса таких визуализаций с большим числом примеров и победителей. Примеры все от команды компании Posit которая этот open-source движок Quarto и разрабатывает. Скажу отдельно что это очень правильно. Если ты делаешь любой движок по визуализации, то просто обязательно надо проводить такие конкурсы.
- The Best Way to Use Text Embeddings Portably is With Parquet and Polars [6] ещё один обзор о том насколько эффективен Parquet в связке с Polars для работы с данными, в данном случае данными карт Magic of the Gathering. Автор тоже задаётся вопросом о том почему Parquet не поддерживается в MS Excel.
- How to Make Superbabies [7] особенно длинный лонгрид о том как генетическими изменениями можно улучшать человека, создавать супер детей или "оптимизированных детей", как ещё пишет автор. Читать и думать об этом надо потому что всё идёт к тому что скоро это станет ещё одной острой социальной и геополитической темой.
Ссылки:
[1] https://github.com/Goldziher/kreuzberg
[2] https://github.com/akmalsoliev/Validoopsie
[3] https://scripton.dev/
[4] https://lwn.net/Articles/1006117/
[5] https://posit.co/blog/closeread-prize-winners/
[6] https://minimaxir.com/2025/02/embeddings-parquet/
[7] https://www.lesswrong.com/posts/DfrSZaf3JC8vJdbZL/how-to-make-superbabies
#opensource #data #datatools #dataviz #genetics #python
- Kreuzberg [1] библиотека для Python по извлечению текста из документов, поддерживает множество форматов, внутри использует Pandoc и Tesseract OCR. Создано как раз для использования в задачах RAG (Retrieval Augmented Generation) с прицелом на локальную обработку данных и минимумом зависимостей. Лицензия MIT
- Validoopsie [2] другая библиотека для Python для валидации данных. Использует библиотеку Narwhals благодаря которой подключается к почти любым видами дата-фреймов. Выглядит полезной альтернативой Great Expectations, лично для меня в валидации данных глобальный нерешённый вопрос в том что тут правильнее, код или декларативное программирования. Иначе говоря, правила проверки должны ли быть отчуждаемыми от языка разработки. Здесь валидация встроена в код, но поверх можно сделать и декларативный движок. Лицензия MIT
- Scripton [3] коммерческое IDE для Python с необычной фичей визуализации данных в реальном времени. Есть только скриншоты, записи экрана и коммерческая версия для macOS. Для тех кто занимается алгоритмической визуализацией может быть удобно, для остальных задач пока нет такой уверенности.
- New horizons for Julia [4] по сути статья о том что язык программирования Julia ещё жив и развивается. Правда медленно, на мой взгляд, но вроде как есть позитивное движение за пределами научных областей. Лично я почти не сталкивался с Julia кроме как на уровне примеров кода, но хорошо если он кому-то нравится и полезен.
- Data-Driven Scrollytelling with Quarto [5] визуализация дата-историй с помощью движка Quarto, итоги конкурса таких визуализаций с большим числом примеров и победителей. Примеры все от команды компании Posit которая этот open-source движок Quarto и разрабатывает. Скажу отдельно что это очень правильно. Если ты делаешь любой движок по визуализации, то просто обязательно надо проводить такие конкурсы.
- The Best Way to Use Text Embeddings Portably is With Parquet and Polars [6] ещё один обзор о том насколько эффективен Parquet в связке с Polars для работы с данными, в данном случае данными карт Magic of the Gathering. Автор тоже задаётся вопросом о том почему Parquet не поддерживается в MS Excel.
- How to Make Superbabies [7] особенно длинный лонгрид о том как генетическими изменениями можно улучшать человека, создавать супер детей или "оптимизированных детей", как ещё пишет автор. Читать и думать об этом надо потому что всё идёт к тому что скоро это станет ещё одной острой социальной и геополитической темой.
Ссылки:
[1] https://github.com/Goldziher/kreuzberg
[2] https://github.com/akmalsoliev/Validoopsie
[3] https://scripton.dev/
[4] https://lwn.net/Articles/1006117/
[5] https://posit.co/blog/closeread-prize-winners/
[6] https://minimaxir.com/2025/02/embeddings-parquet/
[7] https://www.lesswrong.com/posts/DfrSZaf3JC8vJdbZL/how-to-make-superbabies
#opensource #data #datatools #dataviz #genetics #python
Forwarded from BritLab
Как автоматизированно извлекать текст из видео на YouTube?
Знакомо: нашёл на YouTube ролики, в которых есть тонна полезной информации, а тратить часы на просмотр — нет времени?
В 2018 году появился проект youtube-transcript-api (GitHub) — Python-модуль, который за пару секунд извлекает субтитры из видео.
Но есть нюансы:
⚠️ Требует сетевого доступа к YouTube (может не работать в некоторых странах)
⚠️ Использует неофициальное API
Вот что пишет создатель проекта:
Как использовать?
1️⃣ Установить библиотеку youtube-transcript-api (PYPI)
2️⃣ Взять ID интересующего видео (поддается автоматизации)
3️⃣ Запустить скрипт (📖 официальная документация)
#BritLab #YouTube #Subtitles #Transcription #Python #Automation
Знакомо: нашёл на YouTube ролики, в которых есть тонна полезной информации, а тратить часы на просмотр — нет времени?
В 2018 году появился проект youtube-transcript-api (GitHub) — Python-модуль, который за пару секунд извлекает субтитры из видео.
Но есть нюансы:
⚠️ Требует сетевого доступа к YouTube (может не работать в некоторых странах)
⚠️ Использует неофициальное API
Вот что пишет создатель проекта:
Этот код использует недокументированную часть API YouTube, которая вызывается веб-клиентом YouTube. Поэтому нет гарантии, что он не перестанет работать завтра, если они изменят то, как все работает. Однако я сделаю все возможное, чтобы все заработало как можно скорее, если это произойдет. Так что если он перестанет работать, дайте мне знать!
Как использовать?
1️⃣ Установить библиотеку youtube-transcript-api (PYPI)
2️⃣ Взять ID интересующего видео (поддается автоматизации)
3️⃣ Запустить скрипт (📖 официальная документация)
#BritLab #YouTube #Subtitles #Transcription #Python #Automation
Forwarded from BritLab
Как автоматизировать распознавание текста с изображений?
В открытых источниках часто встречаются изображения с ценным текстом — скриншоты рабочих столов и приложений, фотографии таблиц, чеков, рукописных заметок и т.д. Сбор обычного текста автоматизировать легко, но с текстом на картинках начинаются сложности.
Раньше в моём арсенале был только pytesseract (Python-библиотека для распознавания текста). Она работала, но с серьёзными ограничениями:
➖Плохо справлялась с разными шрифтами
➖Теряла точность на низкокачественных изображениях
➖Путала языки, если текст был мультиязычным
Сейчас появились LLM-модели, которые справляются с этой задачей гораздо лучше, но если у вас нет мощного железа, запустить их локально не получится.
В профильных каналах регулярно пишут: «Вышла модель Х, которая показывает отличные результаты. OSINT-еры больше не нужны!», но никто не дает гайдов, как с этими моделями работать. Сегодня я это исправлю.
Обзор моделей для OCR
Прошерстив не один десяток источников, я выделил две наиболее популярные на текущий момент модели:
1️⃣ GPT-4 mini — высокая точность, но платная.
2️⃣ Google Gemini 2.0 Flash — высокая точность + бесплатный лимит.
Выбор без раздумий пал на Gemini. На момент публикации бесплатные лимиты от Google следующие:
✔️ 15 запросов в минуту
✔️ 1 млн токенов в минуту (ввод + вывод)
✔️ 1 500 запросов в сутки
Но есть важный нюанс: сервис не работает с российскими IP
Как взаимодействовать с Gemini?
1️⃣ Получаем API-ключ в Google AI Studio
2️⃣ Через API отправляем изображение в base64 + промпт
3️⃣ Получаем распознанный текст в ответе
Что делать, если Gemini недоступна?
Если у вас по какой-то причине нет возможности получить доступ к серверам Google AI Studio, то можно воспользоваться сервисами, которые предоставляют доступ к различным open-source моделям. Например, DeepInfra.
Плюсы:
✔️ Нет блокировок по геолокации
✔️ Гибкая тарификация
Минусы:
✖️ Нет бесплатного тарифа
Как заведено в BritLab, к посту прилагаю репозиторий с примерами скриптов для работы с Gemini и DeepInfra. Результаты работы скриптов — скриншот с исходным изображением и распознанным текстом — можно увидеть в заголовке поста (оба метода показали отличные результаты).
Разбор реального кейса
Представьте, что у вас есть PDF с текстом на иностранном языке. Вам нужно извлечь текст и перевести его на другой язык. Как это сделать?
1️⃣ Разбиваем PDF на страницы и конвертируем каждую в изображение
2️⃣ С помощью Gemini извлекаем весь текст с изображений
3️⃣ Загружаем текст в другую модель, которая заточена на перевод
4️⃣ Получаем текст на нужном языке
5️⃣ Загружаем результат в БД
6️⃣ PROFIT
Связка OCR + LLM открывает огромные возможности. Экспериментируйте)
#AI #Automation #LLM #Python #OCR
В открытых источниках часто встречаются изображения с ценным текстом — скриншоты рабочих столов и приложений, фотографии таблиц, чеков, рукописных заметок и т.д. Сбор обычного текста автоматизировать легко, но с текстом на картинках начинаются сложности.
Раньше в моём арсенале был только pytesseract (Python-библиотека для распознавания текста). Она работала, но с серьёзными ограничениями:
➖Плохо справлялась с разными шрифтами
➖Теряла точность на низкокачественных изображениях
➖Путала языки, если текст был мультиязычным
Сейчас появились LLM-модели, которые справляются с этой задачей гораздо лучше, но если у вас нет мощного железа, запустить их локально не получится.
В профильных каналах регулярно пишут: «Вышла модель Х, которая показывает отличные результаты. OSINT-еры больше не нужны!», но никто не дает гайдов, как с этими моделями работать. Сегодня я это исправлю.
Обзор моделей для OCR
Прошерстив не один десяток источников, я выделил две наиболее популярные на текущий момент модели:
1️⃣ GPT-4 mini — высокая точность, но платная.
2️⃣ Google Gemini 2.0 Flash — высокая точность + бесплатный лимит.
Выбор без раздумий пал на Gemini. На момент публикации бесплатные лимиты от Google следующие:
✔️ 15 запросов в минуту
✔️ 1 млн токенов в минуту (ввод + вывод)
✔️ 1 500 запросов в сутки
Но есть важный нюанс: сервис не работает с российскими IP
Как взаимодействовать с Gemini?
1️⃣ Получаем API-ключ в Google AI Studio
2️⃣ Через API отправляем изображение в base64 + промпт
3️⃣ Получаем распознанный текст в ответе
Что делать, если Gemini недоступна?
Если у вас по какой-то причине нет возможности получить доступ к серверам Google AI Studio, то можно воспользоваться сервисами, которые предоставляют доступ к различным open-source моделям. Например, DeepInfra.
Плюсы:
✔️ Нет блокировок по геолокации
✔️ Гибкая тарификация
Минусы:
✖️ Нет бесплатного тарифа
Как заведено в BritLab, к посту прилагаю репозиторий с примерами скриптов для работы с Gemini и DeepInfra. Результаты работы скриптов — скриншот с исходным изображением и распознанным текстом — можно увидеть в заголовке поста (оба метода показали отличные результаты).
Разбор реального кейса
Представьте, что у вас есть PDF с текстом на иностранном языке. Вам нужно извлечь текст и перевести его на другой язык. Как это сделать?
1️⃣ Разбиваем PDF на страницы и конвертируем каждую в изображение
2️⃣ С помощью Gemini извлекаем весь текст с изображений
3️⃣ Загружаем текст в другую модель, которая заточена на перевод
4️⃣ Получаем текст на нужном языке
5️⃣ Загружаем результат в БД
6️⃣ PROFIT
Связка OCR + LLM открывает огромные возможности. Экспериментируйте)
#AI #Automation #LLM #Python #OCR
Forwarded from Нейроканал
Все перечисленные библиотеки имеют открытый исходный код и предназначены в основном для питонистов.
Анализ, очистка и подготовка данных:
Pandas — быстрая и гибкая очистка и подготовка данных.
Numpy — предварительная обработка данных, применяется для математических вычислений.
Statsmodels — статистический анализ временных рядов, выживаемости и многого другого.
YData Profiling — упрощает этап EDA, тщательно анализируя ваши данные в одной строке кода.
Машинное и глубокое обучение:
Scikit-learn — ключевая библиотека машинного обучения, содержит реализацию популярных алгоритмов (регрессия, кластеризация).
Keras — создание, настройка моделей, работает поверх таких фреймворков, как TensorFlow.
TensorFlow — создание, моделирование и тренировка нейросетей.
XGBoost — предоставляет эффективные алгоритмы для задач регрессии, классификации и ранжирования.
CatBoost — градиентный бустинг.
#библиотеки #ml #deeplearning #python
Анализ, очистка и подготовка данных:
Pandas — быстрая и гибкая очистка и подготовка данных.
Numpy — предварительная обработка данных, применяется для математических вычислений.
Statsmodels — статистический анализ временных рядов, выживаемости и многого другого.
YData Profiling — упрощает этап EDA, тщательно анализируя ваши данные в одной строке кода.
Машинное и глубокое обучение:
Scikit-learn — ключевая библиотека машинного обучения, содержит реализацию популярных алгоритмов (регрессия, кластеризация).
Keras — создание, настройка моделей, работает поверх таких фреймворков, как TensorFlow.
TensorFlow — создание, моделирование и тренировка нейросетей.
XGBoost — предоставляет эффективные алгоритмы для задач регрессии, классификации и ранжирования.
CatBoost — градиентный бустинг.
#библиотеки #ml #deeplearning #python
Forwarded from Заметки Хакер
🖥 Репозиторий: Machinae — сборщик сведений, связанных с безопасностью
Machinae — это инструмент для сбора сведений по кусочкам данных из общедоступных сайтов / каналов: IP адреса, доменные имена, URL, email адреса, хэши файлов и SSL отпечатки
Проект был рождён из желания улучшить Automater в четырёх областях:
1. Codebase — Доведение Automater до совместимости с python3 и делание кода более «питомным»
2. Конфигурация — Использование более понятного человеку формата (YAML)
3. Ввод — Поддержка из коробки парсинга JSON без необходимости писать регулярные выражения, но по прежнему поддерживает при необходимости выскабливание регулярными выражениями
4. Вывод — Поддержка дополнительных типов вывода, включая JSON, при этом внешний вывод делается опциональным
⏺ Ссылка на GitHub (https://github.com/HurricaneLabs/machinae)
#OSINT #Python #HurricaneLabs
@hackernews_lib
Machinae — это инструмент для сбора сведений по кусочкам данных из общедоступных сайтов / каналов: IP адреса, доменные имена, URL, email адреса, хэши файлов и SSL отпечатки
Проект был рождён из желания улучшить Automater в четырёх областях:
1. Codebase — Доведение Automater до совместимости с python3 и делание кода более «питомным»
2. Конфигурация — Использование более понятного человеку формата (YAML)
3. Ввод — Поддержка из коробки парсинга JSON без необходимости писать регулярные выражения, но по прежнему поддерживает при необходимости выскабливание регулярными выражениями
4. Вывод — Поддержка дополнительных типов вывода, включая JSON, при этом внешний вывод делается опциональным
⏺ Ссылка на GitHub (https://github.com/HurricaneLabs/machinae)
#OSINT #Python #HurricaneLabs
@hackernews_lib
Forwarded from GitHub Разработчика
YTSage
Обычно, чтобы скачать и сохранить видео или музыку с YouTube локально, я использую утилиту
Сегодня на GitHub наткнулся на YTSage — опенсорсный YouTube-даунлоадер с простым и удобным UI и мощным функционалом.
Поддерживает загрузку видео в любом качестве, извлечение аудио, скачивание субтитров, автоматическое пропускание рекламных вставок, а также обрезку видео по времени.
Основные фичи:
🔸 Загрузка видео в любом качестве и извлечение высококачественного аудио
🔸 Полная поддержка плейлистов с выборочной пакетной загрузкой
🔸 Многоязычные субтитры: скачивание, объединение и встраивание в видео
🔸 Интеграция с SponsorBlock для автоматического удаления рекламы и спонсорских сегментов
🔸 Видео-тримминг — скачивание определённого фрагмента по временным меткам
🔸 Поддержка cookie-авторизации для доступа к приватному или контенту для участников
Можно установить одной командой через
📁 Language: #Python
⭐️ Stars: 1.8k
➡️ Cсылка на GitHub
📱 @git_developer
Обычно, чтобы скачать и сохранить видео или музыку с YouTube локально, я использую утилиту
yt-dl. Но это инструмент для работы в терминале, и для новичков он может быть не самым простым в освоении.Сегодня на GitHub наткнулся на YTSage — опенсорсный YouTube-даунлоадер с простым и удобным UI и мощным функционалом.
Поддерживает загрузку видео в любом качестве, извлечение аудио, скачивание субтитров, автоматическое пропускание рекламных вставок, а также обрезку видео по времени.
Основные фичи:
Можно установить одной командой через
pip, а новичкам достаточно скачать готовый бинарник под свою ОСPlease open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Типичный программист
This media is not supported in your browser
VIEW IN TELEGRAM
Русскоязычный ИИ-рентгенолог из бесплатных запчастей — это реально
Большинство открытых медицинских моделей говорят только по-английски. Один разработчик решил это исправить — собрал мультимодальную нейросеть из двух публично доступных моделей и запустил на бесплатных GPU Kaggle.
Архитектура — классический Vision-Language подход: Google ViT смотрит на снимок и извлекает визуальные фичи, ruGPT-3 от Сбера генерирует текст. Проблема в том, что они не умеют работать вместе из коробки. Пришлось «взломать» конфиг ruGPT-3, чтобы Hugging Face создал новые веса кросс-внимания между моделями, — именно их и обучали.
Датасет взяли американский (Indiana University Chest X-Ray), перевели 7000 медицинских заключений через Helsinki-NLP прямо на Kaggle. Обучение 15 эпох на двух T4 заняло 2.5 часа — с fp16, gradient accumulation и JS-скриптом в браузере, чтобы сессия не отвалилась по тайм-ауту. В итоге модель распознаёт «кальцифицированные гранулемы» и чистые лёгкие на русском языке. Да, немного галлюцинирует, но в целом держится.
Код открыт, живое демо на Hugging Face Spaces — можно потрогать прямо сейчас. А прочитать подробности по ссылке: https://tproger.ru/articles/frankenwtejn-v-medicine--kak-ya-skrestil-vit-i-rugpt-3--chtoby-nau
#machinelearning #python
Большинство открытых медицинских моделей говорят только по-английски. Один разработчик решил это исправить — собрал мультимодальную нейросеть из двух публично доступных моделей и запустил на бесплатных GPU Kaggle.
Архитектура — классический Vision-Language подход: Google ViT смотрит на снимок и извлекает визуальные фичи, ruGPT-3 от Сбера генерирует текст. Проблема в том, что они не умеют работать вместе из коробки. Пришлось «взломать» конфиг ruGPT-3, чтобы Hugging Face создал новые веса кросс-внимания между моделями, — именно их и обучали.
Датасет взяли американский (Indiana University Chest X-Ray), перевели 7000 медицинских заключений через Helsinki-NLP прямо на Kaggle. Обучение 15 эпох на двух T4 заняло 2.5 часа — с fp16, gradient accumulation и JS-скриптом в браузере, чтобы сессия не отвалилась по тайм-ауту. В итоге модель распознаёт «кальцифицированные гранулемы» и чистые лёгкие на русском языке. Да, немного галлюцинирует, но в целом держится.
Код открыт, живое демо на Hugging Face Spaces — можно потрогать прямо сейчас. А прочитать подробности по ссылке: https://tproger.ru/articles/frankenwtejn-v-medicine--kak-ya-skrestil-vit-i-rugpt-3--chtoby-nau
#machinelearning #python
Forwarded from Заметки Хакер
🖥 Репозиторий: AxCrypt — программа для шифрования файлов и папок
AxCrypt — позволяет защищать файлы с помощью шифрования 128-bit или 256-bit, автоматически шифровать файлы в Dropbox, Google Drive и других сервисах, легко управлять паролями, давать возможность другим пользователям открывать защищённые файлы с помощью своего пароля.
⏺Использует шифрование AES 256-bit, которое является самым сильным стандартизованным шифрованием;
⏺Позволяет открывать, редактировать и обмениваться защищёнными файлами напрямую;
⏺Поддерживает английский, голландский, французский, немецкий, итальянский, корейский, португальский, испанский, шведский, турецкий, русский и другие языки;
⏺Мобильное приложение AxCrypt доступно для Android и iOS и позволяет открывать и просматривать любые файлы, зашифрованные настольной версией.
⏺ Ссылка на GitHub (https://github.com/YatharthChamoli/AxCrypt?ysclid=ml8yntmdik833928758)
⏺ Официальный сайт (https://axcrypt.net/ru/)
⏺ AxCrypt 1.7.3156 | Шифрование файлов "одним кликом" для Windows (https://www.securitylab.ru/software/407446.php?ysclid=ml8ytl4lhg526113853)
#Python #Encryption #Cryptography
@hackernews_lib
AxCrypt — позволяет защищать файлы с помощью шифрования 128-bit или 256-bit, автоматически шифровать файлы в Dropbox, Google Drive и других сервисах, легко управлять паролями, давать возможность другим пользователям открывать защищённые файлы с помощью своего пароля.
⏺Использует шифрование AES 256-bit, которое является самым сильным стандартизованным шифрованием;
⏺Позволяет открывать, редактировать и обмениваться защищёнными файлами напрямую;
⏺Поддерживает английский, голландский, французский, немецкий, итальянский, корейский, португальский, испанский, шведский, турецкий, русский и другие языки;
⏺Мобильное приложение AxCrypt доступно для Android и iOS и позволяет открывать и просматривать любые файлы, зашифрованные настольной версией.
⏺ Ссылка на GitHub (https://github.com/YatharthChamoli/AxCrypt?ysclid=ml8yntmdik833928758)
⏺ Официальный сайт (https://axcrypt.net/ru/)
⏺ AxCrypt 1.7.3156 | Шифрование файлов "одним кликом" для Windows (https://www.securitylab.ru/software/407446.php?ysclid=ml8ytl4lhg526113853)
#Python #Encryption #Cryptography
@hackernews_lib
Forwarded from Заметки Хакер
🖥 Репозиторий: TTWAF — Web Application Firewall (WAF) на Python для защиты веб-приложений
TTWAF — это Web Application Firewall (WAF), написанный на Python, предназначенный для защиты веб-приложений от различных типов атак.
— Данный инструмент может помочь в обнаружении и предотвращении распространенных веб-уязвимостей, таких как SQL-инъекции, межсайтовый скриптинг (XSS) и другие вредоносные запросы, повышая безопасность веб-серверов.
⏺ Ссылка на GitHub (https://github.com/AmoloHT/TTWAF)
#Python #WAF #Web #Security #Hacking | Лаборатория хакера (https://max.ru/lab_hack)
@hackernews_lib
TTWAF — это Web Application Firewall (WAF), написанный на Python, предназначенный для защиты веб-приложений от различных типов атак.
— Данный инструмент может помочь в обнаружении и предотвращении распространенных веб-уязвимостей, таких как SQL-инъекции, межсайтовый скриптинг (XSS) и другие вредоносные запросы, повышая безопасность веб-серверов.
⏺ Ссылка на GitHub (https://github.com/AmoloHT/TTWAF)
#Python #WAF #Web #Security #Hacking | Лаборатория хакера (https://max.ru/lab_hack)
@hackernews_lib
Forwarded from Заметки Хакер
🖥 Репозиторий: E4GL30S1NT — Универсальный OSINT-фреймворк для автоматизированной разведки по открытым источникам
E4GL30S1NT — это легковесный OSINT-фреймворк на Python, объединяющий десятки инструментов для сбора и анализа информации из открытых источников в едином интерфейсе.
— Данный инструмент включает модули для поиска по username, email, IP-адресу, домену, номеру телефона, а также парсинг соцсетей, поиск утечек данных, геолокацию по фото и автоматическое подключение через Tor для анонимности. Поддерживает экспорт результатов в HTML-отчёт и JSON.
⏺ Ссылка на GitHub (https://github.com/C0MPL3XDEV/E4GL30S1NT)
#OSINT #Recon #Python #Privacy | Лаборатория хакера (https://max.ru/lab_hack)
@hackernews_lib
E4GL30S1NT — это легковесный OSINT-фреймворк на Python, объединяющий десятки инструментов для сбора и анализа информации из открытых источников в едином интерфейсе.
— Данный инструмент включает модули для поиска по username, email, IP-адресу, домену, номеру телефона, а также парсинг соцсетей, поиск утечек данных, геолокацию по фото и автоматическое подключение через Tor для анонимности. Поддерживает экспорт результатов в HTML-отчёт и JSON.
⏺ Ссылка на GitHub (https://github.com/C0MPL3XDEV/E4GL30S1NT)
#OSINT #Recon #Python #Privacy | Лаборатория хакера (https://max.ru/lab_hack)
@hackernews_lib
Forwarded from Типичный программист
Хотите разобраться, как PyTorch работает изнутри, а не только вызывать .fit()?
Держите: awesome-cuda-books, кураторский список лучших книг по CUDA и параллельным вычислениям на GPU. 668 звёзд на GitHub.
CUDA от NVIDIA — основная платформа, поверх которой работают PyTorch, TensorFlow и большинство ML-фреймворков. Чтобы разобраться в том, что происходит на уровне ядер и памяти видеокарты, без хорошей книги не обойтись. Учебников по теме немало, и отфильтровать подходящие без ориентира непросто. А тут прямо готовая библиотека, так что забирайте.
#python #pytorch
@tproger
Читайте также в VK, Max и Дзен
Держите: awesome-cuda-books, кураторский список лучших книг по CUDA и параллельным вычислениям на GPU. 668 звёзд на GitHub.
CUDA от NVIDIA — основная платформа, поверх которой работают PyTorch, TensorFlow и большинство ML-фреймворков. Чтобы разобраться в том, что происходит на уровне ядер и памяти видеокарты, без хорошей книги не обойтись. Учебников по теме немало, и отфильтровать подходящие без ориентира непросто. А тут прямо готовая библиотека, так что забирайте.
#python #pytorch
@tproger
Читайте также в VK, Max и Дзен
Forwarded from Заметки Хакер
🖥 Репозиторий: AxCrypt — программа для шифрования файлов и папок
AxCrypt — позволяет защищать файлы с помощью шифрования 128-bit или 256-bit, автоматически шифровать файлы в Dropbox, Google Drive и других сервисах, легко управлять паролями, давать возможность другим пользователям открывать защищённые файлы с помощью своего пароля.
⏺Использует шифрование AES 256-bit, которое является самым сильным стандартизованным шифрованием;
⏺Позволяет открывать, редактировать и обмениваться защищёнными файлами напрямую;
⏺Поддерживает английский, голландский, французский, немецкий, итальянский, корейский, португальский, испанский, шведский, турецкий, русский и другие языки;
⏺Мобильное приложение AxCrypt доступно для Android и iOS и позволяет открывать и просматривать любые файлы, зашифрованные настольной версией.
⏺ Ссылка на GitHub (https://github.com/YatharthChamoli/AxCrypt?ysclid=ml8yntmdik833928758)
⏺ Официальный сайт (https://axcrypt.net/ru/)
⏺ AxCrypt 1.7.3156 | Шифрование файлов "одним кликом" для Windows (https://www.securitylab.ru/software/407446.php?ysclid=ml8ytl4lhg526113853)
#Python #Encryption #Cryptography
@hackernews_lib
AxCrypt — позволяет защищать файлы с помощью шифрования 128-bit или 256-bit, автоматически шифровать файлы в Dropbox, Google Drive и других сервисах, легко управлять паролями, давать возможность другим пользователям открывать защищённые файлы с помощью своего пароля.
⏺Использует шифрование AES 256-bit, которое является самым сильным стандартизованным шифрованием;
⏺Позволяет открывать, редактировать и обмениваться защищёнными файлами напрямую;
⏺Поддерживает английский, голландский, французский, немецкий, итальянский, корейский, португальский, испанский, шведский, турецкий, русский и другие языки;
⏺Мобильное приложение AxCrypt доступно для Android и iOS и позволяет открывать и просматривать любые файлы, зашифрованные настольной версией.
⏺ Ссылка на GitHub (https://github.com/YatharthChamoli/AxCrypt?ysclid=ml8yntmdik833928758)
⏺ Официальный сайт (https://axcrypt.net/ru/)
⏺ AxCrypt 1.7.3156 | Шифрование файлов "одним кликом" для Windows (https://www.securitylab.ru/software/407446.php?ysclid=ml8ytl4lhg526113853)
#Python #Encryption #Cryptography
@hackernews_lib
Forwarded from Типичный программист
Хотите разобраться, как PyTorch работает изнутри, а не только вызывать .fit()?
Держите: awesome-cuda-books, кураторский список лучших книг по CUDA и параллельным вычислениям на GPU. 668 звёзд на GitHub.
CUDA от NVIDIA — основная платформа, поверх которой работают PyTorch, TensorFlow и большинство ML-фреймворков. Чтобы разобраться в том, что происходит на уровне ядер и памяти видеокарты, без хорошей книги не обойтись. Учебников по теме немало, и отфильтровать подходящие без ориентира непросто. А тут прямо готовая библиотека, так что забирайте.
#python #pytorch
@tproger
Читайте также в VK, Max и Дзен
Держите: awesome-cuda-books, кураторский список лучших книг по CUDA и параллельным вычислениям на GPU. 668 звёзд на GitHub.
CUDA от NVIDIA — основная платформа, поверх которой работают PyTorch, TensorFlow и большинство ML-фреймворков. Чтобы разобраться в том, что происходит на уровне ядер и памяти видеокарты, без хорошей книги не обойтись. Учебников по теме немало, и отфильтровать подходящие без ориентира непросто. А тут прямо готовая библиотека, так что забирайте.
#python #pytorch
@tproger
Читайте также в VK, Max и Дзен