Просто Python | Data science | ML | AI
9.99K subscribers
2.04K photos
38 videos
40 files
2.06K links
Говорим просто о Python, Data Science и машинном обучении!

Связаться: @agencytender

Канал на бирже:
https://telega.in/c/pro100python1

Ссылка для друга:
https://t.me/+Iy7vrYZkpiU3NzJi

РКН: https://rkn.link/ANH
Download Telegram
🔺 Извлечение текста из файлов PDF при помощи Python

В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
🦾 Как правильно писать API авто тесты на Python

Если мы говорим про UI автотесты, то тут хотя бы есть паттерны Page Object, Pagefactory; для API автотестов таких паттернов нет. Да, существуют общие паттерны, по типу Decorator, SIngletone, Facade, Abstract Factory, но это не то, что поможет протестировать бизнес логику. Когда мы пишем API автотесты, то нам хотелось бы, чтобы они отвечали требованиям:

Проверки должны быть полными, то есть мы должны проверить статус код ответа, данные в теле ответа, провалидировать JSON схему;

Автотесты должны быть документированными и поддерживаемыми. Чтобы автотесты мог читать и писать не только QA Automation, но и разработчик;

Хотелось бы, чтобы JSON схема и тестовые данные генерировались автоматически на основе документации;

Отчет должен быть читабельным, содержав в себе информацию о ссылках, заголовках, параметрах, с возможностью прикреплять какие-то логи.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Как работать с процессами и потоками в Python

Раскрывать тему параллельного или асинхронного программирования непросто. Во-первых, она перегружена терминологией и трудна для понимания. Как правило, тонкости и особенности работы с языками усваиваются, лишь когда столкнешься с ними на практике. Во-вторых, в контексте Python тоже много своих подводных камней. Но сегодня почти любой современный web-сервис сталкивается с необходимостью многопоточности или асинхронности. Поскольку это многопользовательская среда, мы хотим направить всю процессорную мощность не на ожидание, а на решение прикладных задач бизнеса, чтобы все пользователи вовремя получили необходимые данные. 

Эта статья будет полезна тем разработчикам, которые хотят выполнять больше работы за одно и то же время, и задействовать все ресурсы своего железа. Проще говоря, делать больше, и при этом обходиться меньшими ресурсами. Пусть железо работает, а не простаивает.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
🦖 Три уровня погружения в Python. Запись докладов с Python Meetup и полезные материалы

Привет! В сентябре мы провели Selectel Python Meetup на тему «Три уровня погружения: процессы под капотом, архитектура кода, развитие языка». Разработчики из Selectel и Райффайзенбанка рассказали о сборе метрик и мониторинге, проектировании микросервисной архитектуры, изменениях в Python и о том, что ждет язык в будущем. Записи докладов и материалы с предыдущего митапа — под катом.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
💖Рекурсивные функции

Рекурсивная функция – это функция, которая вызывает сама себя, и при каждом очередном вызове использует данные, созданные во время предыдущего вызова. В программировании есть ряд задач, которые проще (но не всегда эффективнее) решаются с помощью рекурсии. Написание рекурсивных функций часто ставит начинающих программистов в тупик. Чтобы разобраться в принципе работы рекурсивных функций, нужно понять (в самых общих чертах) концепцию стека вызовов.

Расскажем, в каких случаях стоит использовать рекурсию, чем итеративный подход лучше рекурсивного и как можно ускорить выполнение рекурсивных функций в Python. В конце статьи решим 10 практических задач двумя способами – рекурсивным и итеративным.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Как я проектирую и разрабатываю расширения Python на Rust

Вы наверняка видели множество статей на тему "Python, Rust - производительность, бла-бла-бла... Вот, реализуем foo2plus2". Вся беда в том, что все эти статьи демонстрируют очень простые примеры уровня "hello-world". Напротив, в этой статье я хочу рассказать о том, как я проектирую комплексные расширения и почему я принимаю те или иные проектные решения.

На данный момент я написал четыре библиотеки для Python на Rust (1, 2, 3, 4) и приобрел определенный опыт, но все еще не чувствую, что достиг той квалификации, которая позволяет утверждать, что правильно, а что нет. Некоторые из моих подходов вдохновлены другими людьми, другие являются результатом анализа и долгих попыток рефакторинга кода, и все же, я не уверен, что мои решения являются лучшими из возможных.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
🔺 Добавление функций в классы Python

Классы в Python могут создаваться просто как коллекции функций. Функции можно определить внутри класса обычным образом, так же как и внутри любой программы. А вот для вызова такой функции нужно действовать через данный класс.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
🎓 Методы работы с файлами и файловой системой

Научимся создавать, переносить и удалять файлы и директории, а в конце статьи – решим 10 практических задач, связанных с чтением информации и с записью данных в текстовые файлы.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄 Основы скрапинга и парсинга

Научимся извлекать данные из статического и динамического контента с помощью регулярных выражений, XPath, BeautifulSoup, MechanicalSoup и Selenium. В конце статьи – код 10 скриптов для скрапинга данных и изображений с Wikipedia, Habr, LiveLib, IMDb и TIOBE.

Веб-скрапинг – это процесс автоматического сбора информации из онлайн-источников. Для выбора нужных сведений из массива «сырых» данных, полученных в ходе скрапинга, нужна дальнейшая обработка – парсинг. В процессе парсинга выполняются синтаксический анализ, разбор и очистка данных. Результат парсинга – очищенные, упорядоченные, структурированные данные, представленные в формате, понятном конечному пользователю (или приложению).

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
📈 Самые полезные базовые функции Python

Встроенные функции Python — простые и эффективные решения для широкого спектра задач: от простых арифметических вычислений до самых сложных операций над данными.

Встроенные функции в Python доступны по умолчанию, без использования дополнительных модулей или библиотек. Их можно вызвать в любой момент и в любом месте кода.

В этой статье подробно рассмотрим ключевые встроенные функции, которые помогают в повседневной работе.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
⌨️ Примитивы синхронизации в Python Asyncio: Исчерпывающее руководство

В этой статье вы узнаете, зачем нужны примитивы синхронизации asyncio, а также о лучших практиках использования нескольких примитивов синхронизации. В конце статьи рассмотрим практический пример использования примитивов синхронизации в действии.

Примитивы синхронизации asyncio могут помочь предотвратить ошибки, свойственные только модели однопоточной конкурентности.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
📣Функции с позиционными и именованными аргументами

Разберемся, как передавать в функцию произвольное число аргументов, как задавать и изменять параметры по умолчанию, и как возвращать результаты работы в основную программу. В конце статьи – 10 практических задач.

Функция – это мини-программа внутри основной программы. Код такой подпрограммы отвечает за решение определенной задачи: например, в игре Тетрис будут отдельные функции для подсчета очков, рисования игрового поля, движения фигурки и так далее.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Работа с NumPy Python

NumPy — это библиотека с открытым исходным кодом.

NumPy, или Numerical Python — это библиотека Python, которая предлагает:

мощный N-мерный массив;
высокоуровневые функции;
инструменты для интеграции кода C/C++ и Fortran.

Библиотека NumPy представляет собой базу данных с исходным кодом в открытом виде. Автор — проект SciPy. Библиотека помогает в различных задачах.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ 26 полезных приёмов и хитростей Python

В процессе работы с языком каждый находит для себя какие-то приёмы или библиотеки, облегчающие жизнь. Мы собрали подборку разных хитростей для Python.

Python — один из самых популярных и востребованных языков программирования. На это есть несколько причин:

Его легко изучить.
Он очень универсальный.
У него есть множество модулей и библиотек.

В процессе работы с Python каждый находит для себя какие-то полезные модули и приёмы. В этой подборке вы узнаете о некоторых полезных хитростях.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Бесплатный вебинар: “Решаем тестовое задание на junior-аналитика в Банк Открытие”

Интересуетесь аналитикой данных? Хотите больше практиковаться на реальных задачах и кейсах?

Приходите на наш бесплатный вебинар, где мы в прямом эфире будем вместе решать настоящее тестовое задание на junior-аналитика в Банк Открытие.

📅 Дата: 25 октября
Время: 19:00 по Мск

Что предстоит сделать на вебинаре:

* Решить 4 задания по SQL: посчитаем метрику MoM
* Проанализировать ОТП-коды в разрезе категорий и времени
* Проанализировать активность клиентов с помощью Pandas
* Предложить 3 метрики первого уровня для интернет-банка

Мы подробно будем разбирать каждый шаг и будем много говорить о SQL, Python, продуктовых метриках 😉

А также каждого участника вебинара будут ждать несколько подарков, подборка лайфхаков и разбор самых частых ошибок 🤩

🔗 Регистрация на вебинар

Реклама. ООО "Айти Резюме". Erid: LjN8Kbe9B
⚙️Введение в data science: инструменты и методы анализа

Из этой публикации вы узнаете, как наука о данных обнаруживает скрытые закономерности, предвидит события и извлекает важные идеи из огромного количества данных, окружающих нас в современном обществе. Data science преобразует исходные данные в ценные знания, которые помогают нам улучшить нашу жизнь.

Исходные данные состоят из признаков, часто называемых независимыми переменными, а ценные знания являются целью модели, обычно называемой зависимой переменной.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
💼Как писать тесты функций Python, если вы никогда этого не делали

Разобрали на примере, как начинающим писать тесты для Python-кода и проверять вводимые почты на валидность

Основы тестирования сокращают вероятность ругательств со стороны тимлида и уменьшают количество ошибок на проде в целом. Особенно эту статью рекомендую дата-сайентистам, ибо онлайн-университеты почему-то урезают этот раздел на факультетах ИИ до минимума.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
🗡 Как устроен GIL (Global Interpreter Lock) в Python: влияние на многозадачность и производительность

GIL, или Global Interpreter Lock десятилетиями оставался темой обсуждения и дебатов среди питонистов.

Что такое GIL? GIL, сокращение от Global Interpreter Lock, представляет собой важную концепцию в Python. Он представляет собой мьютекс, который блокирует доступ к объекту Python interpreter в многопоточных средах, разрешая выполнять лишь одну инструкцию за раз. Этот механизм, хоть и заботится о безопасности и целостности данных, одновременно становится камнем преткновения для тех, кто стремится максимально задействовать многозадачность и использовать полностью потенциал многоядерных процессоров.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
💬Как сохранить список Python в CSV формате

Если вы когда-либо задавались вопросом, как сохранить списки Python в виде аккуратного CSV-файла, то эта статья как раз для вас. Запись списка в файл с разделителями-запятыми — одна из наиболее распространенных задач в Python, и сегодня мы превратим вас в профессионала по созданию CSV-файлов.

Чтобы сохранить список Python в CSV формате, вы можете использовать встроенный модуль csv, разработанный специально для чтения и записи файлов CSV. Класс модуля csv.writer предоставляет функции для записи простых и вложенных списков в файлы CSV.

🧠 Читать статью

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 NumPy

NumPy - это библиотека для численных вычислений на Python. Она широко используется для работы с массивами и матрицами и отлично подходит для выполнения математических операций с данными. NumPy часто используется в сочетании с другими библиотеками, такими как SciPy и Pandas, для обработки и анализа данных.

Как использовать NumPy для создания массивов и управления ими представлено на картинке

Ставится командой:

pip install numpy

🧠 Читать подробнее

Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM