Самые полезные базовые функции Python
https://tproger.ru/articles/samye-poleznye-bazovye-funkcii-python
Модуль, пакет, библиотека, фреймворк: разбираемся в разнице
https://tproger.ru/articles/modul-paket-biblioteka-frejmvork-razbiraemsya-v-raznice
Декораторы в Python: понять и полюбить
Декораторы — это функции, которые позволяют обернуть другую функцию для расширения её функциональности без изменения её кода.
Как это работает?
Подробно разбираемся с этим вопросом:
https://tprg.ru/Emdw
#python
https://tproger.ru/articles/samye-poleznye-bazovye-funkcii-python
Модуль, пакет, библиотека, фреймворк: разбираемся в разнице
https://tproger.ru/articles/modul-paket-biblioteka-frejmvork-razbiraemsya-v-raznice
Декораторы в Python: понять и полюбить
Декораторы — это функции, которые позволяют обернуть другую функцию для расширения её функциональности без изменения её кода.
Как это работает?
Подробно разбираемся с этим вопросом:
https://tprg.ru/Emdw
#python
Tproger
Встроенные функции Python для повседневной работы
Разбираем на примерах, какие встроенные функции Python нужны и в простых вычислениях, и в сложных операциях. Сохраняйте, чтобы не потерять.
Forwarded from Типичный программист
Подборка open source проектов на разных языках программирования, которые подойдут для изучения самым новичкам в программировании:
https://tprg.ru/vZhF
#java #python #cpp
https://tprg.ru/vZhF
#java #python #cpp
Forwarded from Типичный программист
30 seconds of code — сайт с подборками коротких кусков кода, выполняющих конкретные задачи
Нужно смержить несколько списков на Python? Отформатировать дату на C#? Или выполнить какие-то математические операции на Go?
Тут куча таких примеров: https://tprg.ru/fbi6
#python #csharp #go
Нужно смержить несколько списков на Python? Отформатировать дату на C#? Или выполнить какие-то математические операции на Go?
Тут куча таких примеров: https://tprg.ru/fbi6
#python #csharp #go
Forwarded from Типичный программист
Каких дыр в безопасности надо бояться Python-разработчику
Python не идеален — даже в стандартных библиотеках могут быть встроены некачественные методы, которые приведут к ошибкам.
В этой статье рассматриваем наиболее частые ошибки безопасности, допускаемые при разработке приложений на Python:
https://tprg.ru/vkS7
#python #безопасность
Python не идеален — даже в стандартных библиотеках могут быть встроены некачественные методы, которые приведут к ошибкам.
В этой статье рассматриваем наиболее частые ошибки безопасности, допускаемые при разработке приложений на Python:
https://tprg.ru/vkS7
#python #безопасность
Подборка туториалов по разработке проектов на различных языках программирования — текстовый редактор на C++, HTTP-сервер на Java, todo-list на Python и много другое:
https://tprg.ru/l4SK
#python #cpp #java
https://tprg.ru/l4SK
#python #cpp #java
Forwarded from Типичный программист
Хочу научиться программировать на Python. С чего начать?
Рассказываем, что делать, если вы решили освоить Python с нуля — что учить в первую очередь, где брать знания и что делать дальше:
https://tprg.ru/6xTL
#python
Рассказываем, что делать, если вы решили освоить Python с нуля — что учить в первую очередь, где брать знания и что делать дальше:
https://tprg.ru/6xTL
#python
Для многих новичков концепция ООП кажется несуразной и абсолютно непрактичной
Давайте разберемся, как она работает в Python на примере класса Heap. Для этого мы составили пошаговый план, наполненный теорией и практическими задачами: https://tproger.ru/articles/obuchenie-oop-na-primere-realizacii-klassa-kucha-v-python-1-chast
#python #ооп #дляначинающих
Давайте разберемся, как она работает в Python на примере класса Heap. Для этого мы составили пошаговый план, наполненный теорией и практическими задачами: https://tproger.ru/articles/obuchenie-oop-na-primere-realizacii-klassa-kucha-v-python-1-chast
#python #ооп #дляначинающих
Как использовать try — except и не испортить себе жизнь
Зачастую новичков в Python ошеломляет многочасовой дебаггинг простых, казалось бы, программ. На элементарные скрипты в 100 строк кода можно потратить несколько часов, ведь каждый трейсбэк кажется огромным.
Справиться с негативом помогает конструкция try — except. В Python это лишь способ обработать ошибку и не «обронить» программу. Но если использовать ее не там и не так, лучше не станет (или вовсе будет хуже).
Чтобы таких проблем не возникало, разобрали на примерах, когда и как отлавливать ошибки с помощью блока и рассказали, когда эту конструкцию лучше не задействовать: https://tproger.ru/articles/kak-ispolzovat-try-except-i-ne-isportit-sebe-zhizn
#python
Зачастую новичков в Python ошеломляет многочасовой дебаггинг простых, казалось бы, программ. На элементарные скрипты в 100 строк кода можно потратить несколько часов, ведь каждый трейсбэк кажется огромным.
Справиться с негативом помогает конструкция try — except. В Python это лишь способ обработать ошибку и не «обронить» программу. Но если использовать ее не там и не так, лучше не станет (или вовсе будет хуже).
Чтобы таких проблем не возникало, разобрали на примерах, когда и как отлавливать ошибки с помощью блока и рассказали, когда эту конструкцию лучше не задействовать: https://tproger.ru/articles/kak-ispolzovat-try-except-i-ne-isportit-sebe-zhizn
#python
Forwarded from Типичный программист
Большой чит-лист по Python: годный репозиторий с 35 тысячами звёзд
Шпаргалка покрывает большинство возможностей Python, поэтому её полезно держать при себе каждому питонисту.
Сохраните себе, чтобы не потерять: https://github.com/gto76/python-cheatsheet
#python
Шпаргалка покрывает большинство возможностей Python, поэтому её полезно держать при себе каждому питонисту.
Сохраните себе, чтобы не потерять: https://github.com/gto76/python-cheatsheet
#python
Forwarded from Типичный программист
This media is not supported in your browser
VIEW IN TELEGRAM
Кстати, если интересно, как самим реализовать такие анимированные диаграммы, вот отличная мини-статья, которая поможет в этом разобраться.
Там описаны особенности работы с линейными/круговыми диаграммами и гистограммами. Делов на 10 строк кода, зато как красиво:
https://nuancesprog.ru/p/14847/
#python
Там описаны особенности работы с линейными/круговыми диаграммами и гистограммами. Делов на 10 строк кода, зато как красиво:
https://nuancesprog.ru/p/14847/
#python
Forwarded from Типичный программист
Подборка полезных материалов, которые помогут освоится в разработке Telegram-ботов на Python:
— Бот для управления и мониторинга сервера через Telegram: https://habr.com/ru/post/597377/
— Бот для отслеживания курса криптовалют: https://www.youtube.com/watch?v=pUKXnMfFdkg
— Бот с парсером анекдотов на Python: https://www.youtube.com/watch?v=o06cdLnyc3I
— Бот для постинга мемов: https://www.youtube.com/watch?v=oAKVM7h4Kp4
#telegram #python
— Бот для управления и мониторинга сервера через Telegram: https://habr.com/ru/post/597377/
— Бот для отслеживания курса криптовалют: https://www.youtube.com/watch?v=pUKXnMfFdkg
— Бот с парсером анекдотов на Python: https://www.youtube.com/watch?v=o06cdLnyc3I
— Бот для постинга мемов: https://www.youtube.com/watch?v=oAKVM7h4Kp4
#telegram #python
Forwarded from Типичный программист
Ну и раз уж сегодня день рождения создателя Python, поделимся свежей подборкой материалов для изучения языка
➡️ Полный вводный курс по Python с нуля за 7 часов с таймкодами по темам: https://youtu.be/5g-MHZ0MzZY
➡️ Те же самые основы, но на степике - 71 урок и после каждого практические задания на закрепление: https://stepik.org/course/100707/promo?search=6437160110
➡️ Основные алгоритмические методы. Жадные алгоритмы, «разделяй и властвуй», динамическое программирование: https://stepik.org/course/217/promo
➡️ Шпаргалка, которая покрывает большинство возможностей Python: https://github.com/gto76/python-cheatsheet
➡️ Ежедневные задачки по Python для закрепления знаний: https://t.me/+V1Hh7cQbiyNhYzQy
➡️ Роадмап по изучению Python — в прикреплённой картинке.
#python
#python
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Типичный программист
За что стоит любить программирование, так это за то, что с помощью него можно решить многие жизненные проблемы
Например, автор этой истории создал систему, которая помогает находить свободное парковочное место во дворе дома всего за 5 секунд. Для этого он использовал обычную камеру видеонаблюдения и Telegram бота, написанного с помощью Python, Matterport Mask R-CNN, OpenCV и YOLO. В итоге пользователю достаточно нажать «Найди парковку». И бот находит места и отрисовывает их на фото, которое возвращается пользователю.
Подробнее о процессе разработки, фишках и подводных камнях — в статье: https://habr.com/ru/post/685108/
#нейросети #diy #telegram #python #opencv
Например, автор этой истории создал систему, которая помогает находить свободное парковочное место во дворе дома всего за 5 секунд. Для этого он использовал обычную камеру видеонаблюдения и Telegram бота, написанного с помощью Python, Matterport Mask R-CNN, OpenCV и YOLO. В итоге пользователю достаточно нажать «Найди парковку». И бот находит места и отрисовывает их на фото, которое возвращается пользователю.
Подробнее о процессе разработки, фишках и подводных камнях — в статье: https://habr.com/ru/post/685108/
#нейросети #diy #telegram #python #opencv
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки про данные, технологии и не только:
- Kreuzberg [1] библиотека для Python по извлечению текста из документов, поддерживает множество форматов, внутри использует Pandoc и Tesseract OCR. Создано как раз для использования в задачах RAG (Retrieval Augmented Generation) с прицелом на локальную обработку данных и минимумом зависимостей. Лицензия MIT
- Validoopsie [2] другая библиотека для Python для валидации данных. Использует библиотеку Narwhals благодаря которой подключается к почти любым видами дата-фреймов. Выглядит полезной альтернативой Great Expectations, лично для меня в валидации данных глобальный нерешённый вопрос в том что тут правильнее, код или декларативное программирования. Иначе говоря, правила проверки должны ли быть отчуждаемыми от языка разработки. Здесь валидация встроена в код, но поверх можно сделать и декларативный движок. Лицензия MIT
- Scripton [3] коммерческое IDE для Python с необычной фичей визуализации данных в реальном времени. Есть только скриншоты, записи экрана и коммерческая версия для macOS. Для тех кто занимается алгоритмической визуализацией может быть удобно, для остальных задач пока нет такой уверенности.
- New horizons for Julia [4] по сути статья о том что язык программирования Julia ещё жив и развивается. Правда медленно, на мой взгляд, но вроде как есть позитивное движение за пределами научных областей. Лично я почти не сталкивался с Julia кроме как на уровне примеров кода, но хорошо если он кому-то нравится и полезен.
- Data-Driven Scrollytelling with Quarto [5] визуализация дата-историй с помощью движка Quarto, итоги конкурса таких визуализаций с большим числом примеров и победителей. Примеры все от команды компании Posit которая этот open-source движок Quarto и разрабатывает. Скажу отдельно что это очень правильно. Если ты делаешь любой движок по визуализации, то просто обязательно надо проводить такие конкурсы.
- The Best Way to Use Text Embeddings Portably is With Parquet and Polars [6] ещё один обзор о том насколько эффективен Parquet в связке с Polars для работы с данными, в данном случае данными карт Magic of the Gathering. Автор тоже задаётся вопросом о том почему Parquet не поддерживается в MS Excel.
- How to Make Superbabies [7] особенно длинный лонгрид о том как генетическими изменениями можно улучшать человека, создавать супер детей или "оптимизированных детей", как ещё пишет автор. Читать и думать об этом надо потому что всё идёт к тому что скоро это станет ещё одной острой социальной и геополитической темой.
Ссылки:
[1] https://github.com/Goldziher/kreuzberg
[2] https://github.com/akmalsoliev/Validoopsie
[3] https://scripton.dev/
[4] https://lwn.net/Articles/1006117/
[5] https://posit.co/blog/closeread-prize-winners/
[6] https://minimaxir.com/2025/02/embeddings-parquet/
[7] https://www.lesswrong.com/posts/DfrSZaf3JC8vJdbZL/how-to-make-superbabies
#opensource #data #datatools #dataviz #genetics #python
- Kreuzberg [1] библиотека для Python по извлечению текста из документов, поддерживает множество форматов, внутри использует Pandoc и Tesseract OCR. Создано как раз для использования в задачах RAG (Retrieval Augmented Generation) с прицелом на локальную обработку данных и минимумом зависимостей. Лицензия MIT
- Validoopsie [2] другая библиотека для Python для валидации данных. Использует библиотеку Narwhals благодаря которой подключается к почти любым видами дата-фреймов. Выглядит полезной альтернативой Great Expectations, лично для меня в валидации данных глобальный нерешённый вопрос в том что тут правильнее, код или декларативное программирования. Иначе говоря, правила проверки должны ли быть отчуждаемыми от языка разработки. Здесь валидация встроена в код, но поверх можно сделать и декларативный движок. Лицензия MIT
- Scripton [3] коммерческое IDE для Python с необычной фичей визуализации данных в реальном времени. Есть только скриншоты, записи экрана и коммерческая версия для macOS. Для тех кто занимается алгоритмической визуализацией может быть удобно, для остальных задач пока нет такой уверенности.
- New horizons for Julia [4] по сути статья о том что язык программирования Julia ещё жив и развивается. Правда медленно, на мой взгляд, но вроде как есть позитивное движение за пределами научных областей. Лично я почти не сталкивался с Julia кроме как на уровне примеров кода, но хорошо если он кому-то нравится и полезен.
- Data-Driven Scrollytelling with Quarto [5] визуализация дата-историй с помощью движка Quarto, итоги конкурса таких визуализаций с большим числом примеров и победителей. Примеры все от команды компании Posit которая этот open-source движок Quarto и разрабатывает. Скажу отдельно что это очень правильно. Если ты делаешь любой движок по визуализации, то просто обязательно надо проводить такие конкурсы.
- The Best Way to Use Text Embeddings Portably is With Parquet and Polars [6] ещё один обзор о том насколько эффективен Parquet в связке с Polars для работы с данными, в данном случае данными карт Magic of the Gathering. Автор тоже задаётся вопросом о том почему Parquet не поддерживается в MS Excel.
- How to Make Superbabies [7] особенно длинный лонгрид о том как генетическими изменениями можно улучшать человека, создавать супер детей или "оптимизированных детей", как ещё пишет автор. Читать и думать об этом надо потому что всё идёт к тому что скоро это станет ещё одной острой социальной и геополитической темой.
Ссылки:
[1] https://github.com/Goldziher/kreuzberg
[2] https://github.com/akmalsoliev/Validoopsie
[3] https://scripton.dev/
[4] https://lwn.net/Articles/1006117/
[5] https://posit.co/blog/closeread-prize-winners/
[6] https://minimaxir.com/2025/02/embeddings-parquet/
[7] https://www.lesswrong.com/posts/DfrSZaf3JC8vJdbZL/how-to-make-superbabies
#opensource #data #datatools #dataviz #genetics #python
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки про данные, технологии и не только:
- Kreuzberg [1] библиотека для Python по извлечению текста из документов, поддерживает множество форматов, внутри использует Pandoc и Tesseract OCR. Создано как раз для использования в задачах RAG (Retrieval Augmented Generation) с прицелом на локальную обработку данных и минимумом зависимостей. Лицензия MIT
- Validoopsie [2] другая библиотека для Python для валидации данных. Использует библиотеку Narwhals благодаря которой подключается к почти любым видами дата-фреймов. Выглядит полезной альтернативой Great Expectations, лично для меня в валидации данных глобальный нерешённый вопрос в том что тут правильнее, код или декларативное программирования. Иначе говоря, правила проверки должны ли быть отчуждаемыми от языка разработки. Здесь валидация встроена в код, но поверх можно сделать и декларативный движок. Лицензия MIT
- Scripton [3] коммерческое IDE для Python с необычной фичей визуализации данных в реальном времени. Есть только скриншоты, записи экрана и коммерческая версия для macOS. Для тех кто занимается алгоритмической визуализацией может быть удобно, для остальных задач пока нет такой уверенности.
- New horizons for Julia [4] по сути статья о том что язык программирования Julia ещё жив и развивается. Правда медленно, на мой взгляд, но вроде как есть позитивное движение за пределами научных областей. Лично я почти не сталкивался с Julia кроме как на уровне примеров кода, но хорошо если он кому-то нравится и полезен.
- Data-Driven Scrollytelling with Quarto [5] визуализация дата-историй с помощью движка Quarto, итоги конкурса таких визуализаций с большим числом примеров и победителей. Примеры все от команды компании Posit которая этот open-source движок Quarto и разрабатывает. Скажу отдельно что это очень правильно. Если ты делаешь любой движок по визуализации, то просто обязательно надо проводить такие конкурсы.
- The Best Way to Use Text Embeddings Portably is With Parquet and Polars [6] ещё один обзор о том насколько эффективен Parquet в связке с Polars для работы с данными, в данном случае данными карт Magic of the Gathering. Автор тоже задаётся вопросом о том почему Parquet не поддерживается в MS Excel.
- How to Make Superbabies [7] особенно длинный лонгрид о том как генетическими изменениями можно улучшать человека, создавать супер детей или "оптимизированных детей", как ещё пишет автор. Читать и думать об этом надо потому что всё идёт к тому что скоро это станет ещё одной острой социальной и геополитической темой.
Ссылки:
[1] https://github.com/Goldziher/kreuzberg
[2] https://github.com/akmalsoliev/Validoopsie
[3] https://scripton.dev/
[4] https://lwn.net/Articles/1006117/
[5] https://posit.co/blog/closeread-prize-winners/
[6] https://minimaxir.com/2025/02/embeddings-parquet/
[7] https://www.lesswrong.com/posts/DfrSZaf3JC8vJdbZL/how-to-make-superbabies
#opensource #data #datatools #dataviz #genetics #python
- Kreuzberg [1] библиотека для Python по извлечению текста из документов, поддерживает множество форматов, внутри использует Pandoc и Tesseract OCR. Создано как раз для использования в задачах RAG (Retrieval Augmented Generation) с прицелом на локальную обработку данных и минимумом зависимостей. Лицензия MIT
- Validoopsie [2] другая библиотека для Python для валидации данных. Использует библиотеку Narwhals благодаря которой подключается к почти любым видами дата-фреймов. Выглядит полезной альтернативой Great Expectations, лично для меня в валидации данных глобальный нерешённый вопрос в том что тут правильнее, код или декларативное программирования. Иначе говоря, правила проверки должны ли быть отчуждаемыми от языка разработки. Здесь валидация встроена в код, но поверх можно сделать и декларативный движок. Лицензия MIT
- Scripton [3] коммерческое IDE для Python с необычной фичей визуализации данных в реальном времени. Есть только скриншоты, записи экрана и коммерческая версия для macOS. Для тех кто занимается алгоритмической визуализацией может быть удобно, для остальных задач пока нет такой уверенности.
- New horizons for Julia [4] по сути статья о том что язык программирования Julia ещё жив и развивается. Правда медленно, на мой взгляд, но вроде как есть позитивное движение за пределами научных областей. Лично я почти не сталкивался с Julia кроме как на уровне примеров кода, но хорошо если он кому-то нравится и полезен.
- Data-Driven Scrollytelling with Quarto [5] визуализация дата-историй с помощью движка Quarto, итоги конкурса таких визуализаций с большим числом примеров и победителей. Примеры все от команды компании Posit которая этот open-source движок Quarto и разрабатывает. Скажу отдельно что это очень правильно. Если ты делаешь любой движок по визуализации, то просто обязательно надо проводить такие конкурсы.
- The Best Way to Use Text Embeddings Portably is With Parquet and Polars [6] ещё один обзор о том насколько эффективен Parquet в связке с Polars для работы с данными, в данном случае данными карт Magic of the Gathering. Автор тоже задаётся вопросом о том почему Parquet не поддерживается в MS Excel.
- How to Make Superbabies [7] особенно длинный лонгрид о том как генетическими изменениями можно улучшать человека, создавать супер детей или "оптимизированных детей", как ещё пишет автор. Читать и думать об этом надо потому что всё идёт к тому что скоро это станет ещё одной острой социальной и геополитической темой.
Ссылки:
[1] https://github.com/Goldziher/kreuzberg
[2] https://github.com/akmalsoliev/Validoopsie
[3] https://scripton.dev/
[4] https://lwn.net/Articles/1006117/
[5] https://posit.co/blog/closeread-prize-winners/
[6] https://minimaxir.com/2025/02/embeddings-parquet/
[7] https://www.lesswrong.com/posts/DfrSZaf3JC8vJdbZL/how-to-make-superbabies
#opensource #data #datatools #dataviz #genetics #python
Forwarded from BritLab
Как автоматизированно извлекать текст из видео на YouTube?
Знакомо: нашёл на YouTube ролики, в которых есть тонна полезной информации, а тратить часы на просмотр — нет времени?
В 2018 году появился проект youtube-transcript-api (GitHub) — Python-модуль, который за пару секунд извлекает субтитры из видео.
Но есть нюансы:
⚠️ Требует сетевого доступа к YouTube (может не работать в некоторых странах)
⚠️ Использует неофициальное API
Вот что пишет создатель проекта:
Как использовать?
1️⃣ Установить библиотеку youtube-transcript-api (PYPI)
2️⃣ Взять ID интересующего видео (поддается автоматизации)
3️⃣ Запустить скрипт (📖 официальная документация)
#BritLab #YouTube #Subtitles #Transcription #Python #Automation
Знакомо: нашёл на YouTube ролики, в которых есть тонна полезной информации, а тратить часы на просмотр — нет времени?
В 2018 году появился проект youtube-transcript-api (GitHub) — Python-модуль, который за пару секунд извлекает субтитры из видео.
Но есть нюансы:
⚠️ Требует сетевого доступа к YouTube (может не работать в некоторых странах)
⚠️ Использует неофициальное API
Вот что пишет создатель проекта:
Этот код использует недокументированную часть API YouTube, которая вызывается веб-клиентом YouTube. Поэтому нет гарантии, что он не перестанет работать завтра, если они изменят то, как все работает. Однако я сделаю все возможное, чтобы все заработало как можно скорее, если это произойдет. Так что если он перестанет работать, дайте мне знать!
Как использовать?
1️⃣ Установить библиотеку youtube-transcript-api (PYPI)
2️⃣ Взять ID интересующего видео (поддается автоматизации)
3️⃣ Запустить скрипт (📖 официальная документация)
#BritLab #YouTube #Subtitles #Transcription #Python #Automation
Forwarded from BritLab
Как автоматизировать распознавание текста с изображений?
В открытых источниках часто встречаются изображения с ценным текстом — скриншоты рабочих столов и приложений, фотографии таблиц, чеков, рукописных заметок и т.д. Сбор обычного текста автоматизировать легко, но с текстом на картинках начинаются сложности.
Раньше в моём арсенале был только pytesseract (Python-библиотека для распознавания текста). Она работала, но с серьёзными ограничениями:
➖Плохо справлялась с разными шрифтами
➖Теряла точность на низкокачественных изображениях
➖Путала языки, если текст был мультиязычным
Сейчас появились LLM-модели, которые справляются с этой задачей гораздо лучше, но если у вас нет мощного железа, запустить их локально не получится.
В профильных каналах регулярно пишут: «Вышла модель Х, которая показывает отличные результаты. OSINT-еры больше не нужны!», но никто не дает гайдов, как с этими моделями работать. Сегодня я это исправлю.
Обзор моделей для OCR
Прошерстив не один десяток источников, я выделил две наиболее популярные на текущий момент модели:
1️⃣ GPT-4 mini — высокая точность, но платная.
2️⃣ Google Gemini 2.0 Flash — высокая точность + бесплатный лимит.
Выбор без раздумий пал на Gemini. На момент публикации бесплатные лимиты от Google следующие:
✔️ 15 запросов в минуту
✔️ 1 млн токенов в минуту (ввод + вывод)
✔️ 1 500 запросов в сутки
Но есть важный нюанс: сервис не работает с российскими IP
Как взаимодействовать с Gemini?
1️⃣ Получаем API-ключ в Google AI Studio
2️⃣ Через API отправляем изображение в base64 + промпт
3️⃣ Получаем распознанный текст в ответе
Что делать, если Gemini недоступна?
Если у вас по какой-то причине нет возможности получить доступ к серверам Google AI Studio, то можно воспользоваться сервисами, которые предоставляют доступ к различным open-source моделям. Например, DeepInfra.
Плюсы:
✔️ Нет блокировок по геолокации
✔️ Гибкая тарификация
Минусы:
✖️ Нет бесплатного тарифа
Как заведено в BritLab, к посту прилагаю репозиторий с примерами скриптов для работы с Gemini и DeepInfra. Результаты работы скриптов — скриншот с исходным изображением и распознанным текстом — можно увидеть в заголовке поста (оба метода показали отличные результаты).
Разбор реального кейса
Представьте, что у вас есть PDF с текстом на иностранном языке. Вам нужно извлечь текст и перевести его на другой язык. Как это сделать?
1️⃣ Разбиваем PDF на страницы и конвертируем каждую в изображение
2️⃣ С помощью Gemini извлекаем весь текст с изображений
3️⃣ Загружаем текст в другую модель, которая заточена на перевод
4️⃣ Получаем текст на нужном языке
5️⃣ Загружаем результат в БД
6️⃣ PROFIT
Связка OCR + LLM открывает огромные возможности. Экспериментируйте)
#AI #Automation #LLM #Python #OCR
В открытых источниках часто встречаются изображения с ценным текстом — скриншоты рабочих столов и приложений, фотографии таблиц, чеков, рукописных заметок и т.д. Сбор обычного текста автоматизировать легко, но с текстом на картинках начинаются сложности.
Раньше в моём арсенале был только pytesseract (Python-библиотека для распознавания текста). Она работала, но с серьёзными ограничениями:
➖Плохо справлялась с разными шрифтами
➖Теряла точность на низкокачественных изображениях
➖Путала языки, если текст был мультиязычным
Сейчас появились LLM-модели, которые справляются с этой задачей гораздо лучше, но если у вас нет мощного железа, запустить их локально не получится.
В профильных каналах регулярно пишут: «Вышла модель Х, которая показывает отличные результаты. OSINT-еры больше не нужны!», но никто не дает гайдов, как с этими моделями работать. Сегодня я это исправлю.
Обзор моделей для OCR
Прошерстив не один десяток источников, я выделил две наиболее популярные на текущий момент модели:
1️⃣ GPT-4 mini — высокая точность, но платная.
2️⃣ Google Gemini 2.0 Flash — высокая точность + бесплатный лимит.
Выбор без раздумий пал на Gemini. На момент публикации бесплатные лимиты от Google следующие:
✔️ 15 запросов в минуту
✔️ 1 млн токенов в минуту (ввод + вывод)
✔️ 1 500 запросов в сутки
Но есть важный нюанс: сервис не работает с российскими IP
Как взаимодействовать с Gemini?
1️⃣ Получаем API-ключ в Google AI Studio
2️⃣ Через API отправляем изображение в base64 + промпт
3️⃣ Получаем распознанный текст в ответе
Что делать, если Gemini недоступна?
Если у вас по какой-то причине нет возможности получить доступ к серверам Google AI Studio, то можно воспользоваться сервисами, которые предоставляют доступ к различным open-source моделям. Например, DeepInfra.
Плюсы:
✔️ Нет блокировок по геолокации
✔️ Гибкая тарификация
Минусы:
✖️ Нет бесплатного тарифа
Как заведено в BritLab, к посту прилагаю репозиторий с примерами скриптов для работы с Gemini и DeepInfra. Результаты работы скриптов — скриншот с исходным изображением и распознанным текстом — можно увидеть в заголовке поста (оба метода показали отличные результаты).
Разбор реального кейса
Представьте, что у вас есть PDF с текстом на иностранном языке. Вам нужно извлечь текст и перевести его на другой язык. Как это сделать?
1️⃣ Разбиваем PDF на страницы и конвертируем каждую в изображение
2️⃣ С помощью Gemini извлекаем весь текст с изображений
3️⃣ Загружаем текст в другую модель, которая заточена на перевод
4️⃣ Получаем текст на нужном языке
5️⃣ Загружаем результат в БД
6️⃣ PROFIT
Связка OCR + LLM открывает огромные возможности. Экспериментируйте)
#AI #Automation #LLM #Python #OCR
Forwarded from Нейроканал
Все перечисленные библиотеки имеют открытый исходный код и предназначены в основном для питонистов.
Анализ, очистка и подготовка данных:
Pandas — быстрая и гибкая очистка и подготовка данных.
Numpy — предварительная обработка данных, применяется для математических вычислений.
Statsmodels — статистический анализ временных рядов, выживаемости и многого другого.
YData Profiling — упрощает этап EDA, тщательно анализируя ваши данные в одной строке кода.
Машинное и глубокое обучение:
Scikit-learn — ключевая библиотека машинного обучения, содержит реализацию популярных алгоритмов (регрессия, кластеризация).
Keras — создание, настройка моделей, работает поверх таких фреймворков, как TensorFlow.
TensorFlow — создание, моделирование и тренировка нейросетей.
XGBoost — предоставляет эффективные алгоритмы для задач регрессии, классификации и ранжирования.
CatBoost — градиентный бустинг.
#библиотеки #ml #deeplearning #python
Анализ, очистка и подготовка данных:
Pandas — быстрая и гибкая очистка и подготовка данных.
Numpy — предварительная обработка данных, применяется для математических вычислений.
Statsmodels — статистический анализ временных рядов, выживаемости и многого другого.
YData Profiling — упрощает этап EDA, тщательно анализируя ваши данные в одной строке кода.
Машинное и глубокое обучение:
Scikit-learn — ключевая библиотека машинного обучения, содержит реализацию популярных алгоритмов (регрессия, кластеризация).
Keras — создание, настройка моделей, работает поверх таких фреймворков, как TensorFlow.
TensorFlow — создание, моделирование и тренировка нейросетей.
XGBoost — предоставляет эффективные алгоритмы для задач регрессии, классификации и ранжирования.
CatBoost — градиентный бустинг.
#библиотеки #ml #deeplearning #python
Forwarded from Заметки Хакер
🖥 Репозиторий: Machinae — сборщик сведений, связанных с безопасностью
Machinae — это инструмент для сбора сведений по кусочкам данных из общедоступных сайтов / каналов: IP адреса, доменные имена, URL, email адреса, хэши файлов и SSL отпечатки
Проект был рождён из желания улучшить Automater в четырёх областях:
1. Codebase — Доведение Automater до совместимости с python3 и делание кода более «питомным»
2. Конфигурация — Использование более понятного человеку формата (YAML)
3. Ввод — Поддержка из коробки парсинга JSON без необходимости писать регулярные выражения, но по прежнему поддерживает при необходимости выскабливание регулярными выражениями
4. Вывод — Поддержка дополнительных типов вывода, включая JSON, при этом внешний вывод делается опциональным
⏺ Ссылка на GitHub (https://github.com/HurricaneLabs/machinae)
#OSINT #Python #HurricaneLabs
@hackernews_lib
Machinae — это инструмент для сбора сведений по кусочкам данных из общедоступных сайтов / каналов: IP адреса, доменные имена, URL, email адреса, хэши файлов и SSL отпечатки
Проект был рождён из желания улучшить Automater в четырёх областях:
1. Codebase — Доведение Automater до совместимости с python3 и делание кода более «питомным»
2. Конфигурация — Использование более понятного человеку формата (YAML)
3. Ввод — Поддержка из коробки парсинга JSON без необходимости писать регулярные выражения, но по прежнему поддерживает при необходимости выскабливание регулярными выражениями
4. Вывод — Поддержка дополнительных типов вывода, включая JSON, при этом внешний вывод делается опциональным
⏺ Ссылка на GitHub (https://github.com/HurricaneLabs/machinae)
#OSINT #Python #HurricaneLabs
@hackernews_lib
Forwarded from GitHub Разработчика
YTSage
Обычно, чтобы скачать и сохранить видео или музыку с YouTube локально, я использую утилиту
Сегодня на GitHub наткнулся на YTSage — опенсорсный YouTube-даунлоадер с простым и удобным UI и мощным функционалом.
Поддерживает загрузку видео в любом качестве, извлечение аудио, скачивание субтитров, автоматическое пропускание рекламных вставок, а также обрезку видео по времени.
Основные фичи:
🔸 Загрузка видео в любом качестве и извлечение высококачественного аудио
🔸 Полная поддержка плейлистов с выборочной пакетной загрузкой
🔸 Многоязычные субтитры: скачивание, объединение и встраивание в видео
🔸 Интеграция с SponsorBlock для автоматического удаления рекламы и спонсорских сегментов
🔸 Видео-тримминг — скачивание определённого фрагмента по временным меткам
🔸 Поддержка cookie-авторизации для доступа к приватному или контенту для участников
Можно установить одной командой через
📁 Language: #Python
⭐️ Stars: 1.8k
➡️ Cсылка на GitHub
📱 @git_developer
Обычно, чтобы скачать и сохранить видео или музыку с YouTube локально, я использую утилиту
yt-dl
. Но это инструмент для работы в терминале, и для новичков он может быть не самым простым в освоении.Сегодня на GitHub наткнулся на YTSage — опенсорсный YouTube-даунлоадер с простым и удобным UI и мощным функционалом.
Поддерживает загрузку видео в любом качестве, извлечение аудио, скачивание субтитров, автоматическое пропускание рекламных вставок, а также обрезку видео по времени.
Основные фичи:
Можно установить одной командой через
pip
, а новичкам достаточно скачать готовый бинарник под свою ОСPlease open Telegram to view this post
VIEW IN TELEGRAM