Научимся извлекать данные из статического и динамического контента с помощью регулярных выражений, XPath, BeautifulSoup, MechanicalSoup и Selenium. В конце статьи – код 10 скриптов для скрапинга данных и изображений с Wikipedia, Habr, LiveLib, IMDb и TIOBE.
Веб-скрапинг – это процесс автоматического сбора информации из онлайн-источников. Для выбора нужных сведений из массива «сырых» данных, полученных в ходе скрапинга, нужна дальнейшая обработка – парсинг. В процессе парсинга выполняются синтаксический анализ, разбор и очистка данных. Результат парсинга – очищенные, упорядоченные, структурированные данные, представленные в формате, понятном конечному пользователю (или приложению).
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
Встроенные функции Python — простые и эффективные решения для широкого спектра задач: от простых арифметических вычислений до самых сложных операций над данными.
Встроенные функции в Python доступны по умолчанию, без использования дополнительных модулей или библиотек. Их можно вызвать в любой момент и в любом месте кода.
В этой статье подробно рассмотрим ключевые встроенные функции, которые помогают в повседневной работе.
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
В этой статье вы узнаете, зачем нужны примитивы синхронизации asyncio, а также о лучших практиках использования нескольких примитивов синхронизации. В конце статьи рассмотрим практический пример использования примитивов синхронизации в действии.
Примитивы синхронизации asyncio могут помочь предотвратить ошибки, свойственные только модели однопоточной конкурентности.
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
Разберемся, как передавать в функцию произвольное число аргументов, как задавать и изменять параметры по умолчанию, и как возвращать результаты работы в основную программу. В конце статьи – 10 практических задач.
Функция – это мини-программа внутри основной программы. Код такой подпрограммы отвечает за решение определенной задачи: например, в игре Тетрис будут отдельные функции для подсчета очков, рисования игрового поля, движения фигурки и так далее.
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
NumPy — это библиотека с открытым исходным кодом.
NumPy, или Numerical Python — это библиотека Python, которая предлагает:
Библиотека NumPy представляет собой базу данных с исходным кодом в открытом виде. Автор — проект SciPy. Библиотека помогает в различных задачах.
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
В процессе работы с языком каждый находит для себя какие-то приёмы или библиотеки, облегчающие жизнь. Мы собрали подборку разных хитростей для Python.
Python — один из самых популярных и востребованных языков программирования. На это есть несколько причин:
В процессе работы с Python каждый находит для себя какие-то полезные модули и приёмы. В этой подборке вы узнаете о некоторых полезных хитростях.
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Бесплатный вебинар: “Решаем тестовое задание на junior-аналитика в Банк Открытие”
Интересуетесь аналитикой данных? Хотите больше практиковаться на реальных задачах и кейсах?
Приходите на наш бесплатный вебинар, где мы в прямом эфире будем вместе решать настоящее тестовое задание на junior-аналитика в Банк Открытие.
📅 Дата: 25 октября
⏰ Время: 19:00 по Мск
Что предстоит сделать на вебинаре:
* Решить 4 задания по SQL: посчитаем метрику MoM
* Проанализировать ОТП-коды в разрезе категорий и времени
* Проанализировать активность клиентов с помощью Pandas
* Предложить 3 метрики первого уровня для интернет-банка
Мы подробно будем разбирать каждый шаг и будем много говорить о SQL, Python, продуктовых метриках 😉
А также каждого участника вебинара будут ждать несколько подарков, подборка лайфхаков и разбор самых частых ошибок 🤩
🔗 Регистрация на вебинар
Реклама. ООО "Айти Резюме". Erid: LjN8Kbe9B
Интересуетесь аналитикой данных? Хотите больше практиковаться на реальных задачах и кейсах?
Приходите на наш бесплатный вебинар, где мы в прямом эфире будем вместе решать настоящее тестовое задание на junior-аналитика в Банк Открытие.
📅 Дата: 25 октября
⏰ Время: 19:00 по Мск
Что предстоит сделать на вебинаре:
* Решить 4 задания по SQL: посчитаем метрику MoM
* Проанализировать ОТП-коды в разрезе категорий и времени
* Проанализировать активность клиентов с помощью Pandas
* Предложить 3 метрики первого уровня для интернет-банка
Мы подробно будем разбирать каждый шаг и будем много говорить о SQL, Python, продуктовых метриках 😉
А также каждого участника вебинара будут ждать несколько подарков, подборка лайфхаков и разбор самых частых ошибок 🤩
🔗 Регистрация на вебинар
Реклама. ООО "Айти Резюме". Erid: LjN8Kbe9B
Из этой публикации вы узнаете, как наука о данных обнаруживает скрытые закономерности, предвидит события и извлекает важные идеи из огромного количества данных, окружающих нас в современном обществе. Data science преобразует исходные данные в ценные знания, которые помогают нам улучшить нашу жизнь.
Исходные данные состоят из признаков, часто называемых независимыми переменными, а ценные знания являются целью модели, обычно называемой зависимой переменной.
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
Разобрали на примере, как начинающим писать тесты для Python-кода и проверять вводимые почты на валидность
Основы тестирования сокращают вероятность ругательств со стороны тимлида и уменьшают количество ошибок на проде в целом. Особенно эту статью рекомендую дата-сайентистам, ибо онлайн-университеты почему-то урезают этот раздел на факультетах ИИ до минимума.
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
GIL, или Global Interpreter Lock десятилетиями оставался темой обсуждения и дебатов среди питонистов.
Что такое GIL? GIL, сокращение от Global Interpreter Lock, представляет собой важную концепцию в Python. Он представляет собой мьютекс, который блокирует доступ к объекту Python interpreter в многопоточных средах, разрешая выполнять лишь одну инструкцию за раз. Этот механизм, хоть и заботится о безопасности и целостности данных, одновременно становится камнем преткновения для тех, кто стремится максимально задействовать многозадачность и использовать полностью потенциал многоядерных процессоров.
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
Если вы когда-либо задавались вопросом, как сохранить списки Python в виде аккуратного CSV-файла, то эта статья как раз для вас. Запись списка в файл с разделителями-запятыми — одна из наиболее распространенных задач в Python, и сегодня мы превратим вас в профессионала по созданию CSV-файлов.
Чтобы сохранить список Python в CSV формате, вы можете использовать встроенный модуль csv, разработанный специально для чтения и записи файлов CSV. Класс модуля
csv.writer предоставляет функции для записи простых и вложенных списков в файлы CSV.Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
NumPy - это библиотека для численных вычислений на Python. Она широко используется для работы с массивами и матрицами и отлично подходит для выполнения математических операций с данными. NumPy часто используется в сочетании с другими библиотеками, такими как SciPy и Pandas, для обработки и анализа данных.
Как использовать NumPy для создания массивов и управления ими представлено на картинке
Ставится командой:
pip install numpy Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
В Python списки играют роль контейнеров, которые могут хранить любые типы данных в виде коллекции. В 32-битной системе список может содержать до 536 870 912 элементов. Поэтому иногда бывает трудно определить, есть ли определенный элемент в списке.
Проверка наличия элемента в списке является одной из основных операций со списком в Python. Не удивительно, что подобные проверки можно осуществлять разными способами. В этой статье мы рассмотрим некоторые из них.
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
"Простое лучше сложного"
Лучшая функция Python,
которая применяет эту философию из "дзен Python", - это декоратор.
Декораторы могут помочь вам писать меньше кода для реализации сложной логики и повторно использовать его повсюду.
Более того, существует множество замечательных встроенных декораторов Python, которые значительно облегчают нам жизнь, поскольку мы можем просто использовать одну строчку кода для добавления сложных функций к существующим функциям или классам.
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
Небольшой путеводитель по возможностям языка Python меня сподвиг написать довольно существенный, на мой взгляд, разрыв между декларируемыми объемами всевозможных курсов программирования и требованиями реальных, даже достаточно скромнооплачиваеых вакансий, а также некоторая обобщенность существующих Python-путеводителей, найденных на просторах Сети.
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
Среди любителей Minecraft много энтузиастов: пока одни просто играют, другие запускают целые серверы и пишут модификации. А кто-то идет дальше и разрабатывает собственные песочницы. Последнее достаточно просто сделать на Python.
Под катом делюсь основами работы с библиотекой Ursina Engine и показываю, как с помощью нее создать мир из кубов.
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
Python остается топ 1 среди языков программирования по версии многих журналов и сайтов. Популярность языка и его большое сообщество привело к тому, что сейчас для Python существует огромное число библиотек. К сожалению, большая часть этих библиотек была создана энтузиастами и больше не поддерживается. Давайте посмотрим на 5 хороших развивающихся библиотек, которые могут помочь при решении практических задач.
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
После написания программы ее можно модифицировать и добавить графический интерфейс — с Python это проще, чем кажется. Для программирования красивого и функционального GUI иногда достаточно простого знания html и css.
Под катом — подборка некоторых инструментов для создания интерфейсов на Python
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
Реверс-инжиниринг неизвестного бинарного формата файла – задачка нечастая, но, на мой взгляд, вкусная. Самое то, чтобы в пятницу с утра отвлечься от организационной текучки, техподдержки, бизнес-планов, заполнения восьмёрок в системах отчётности, и поиграть в Шерлока Холмса.
В этой статье я расскажу об опыте изучения бинарного файла с временными данными технологических параметров и о небольшой фишке чтения хитрым способом сохранённых строк из другого формата. Файлы несложные, времени на анализ потребовалось немного, но мне было интересно, и вам, я надеюсь, тоже будет интересно.
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM
Рассмотрим методы, которые чаще всего используются для обработки списков, и покажем, как легко можно решать разнообразные задачи с помощью списковых включений.
Список в Python – это структура данных для хранения последовательности, состоящей из чисел, строк, отдельных символов. Такие последовательности могут быть как однородными (состоящими из данных одного типа), так и смешанными
Просто Python
Please open Telegram to view this post
VIEW IN TELEGRAM