Just Python

Как парсить данные из HTML и XML в Python

Узнайте, как парсить данные из HTML и XML в Python с помощью популярных библиотек BeautifulSoup и lxml, с примерами кода!

Парсинг данных из HTML и XML является распространенной задачей в области Python-разработки. Мы рассмотрим основные инструменты и подходы для решения этой задачи.

BeautifulSoup

BeautifulSoup — это популярная библиотека для парсинга HTML и XML документов. Она предоставляет простой и удобный интерфейс для извлечения данных из веб-страниц.

Установка

Для установки библиотеки BeautifulSoup выполните следующую команду:

⚙️

pip install beautifulsoup4

lxml

lxml — это еще одна мощная библиотека для парсинга HTML и XML документов. Она предоставляет быстрый и эффективный парсер, основанный на C-библиотеках libxml2 и libxslt.

Установка

Для установки библиотеки lxml выполните следующую команду:

⚙️

pip install lxml

#theory // Just Python

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

490 views11:07

Just Python

Scikit-learn - это широко используемая библиотека для машинного обучения на Python. Она построена поверх NumPy и SciPy и предлагает широкий спектр инструментов для создания и оценки моделей машинного обучения. Scikit-learn отлично подходит для построения традиционных моделей машинного обучения, таких как линейная регрессия, деревья решений и кластеризация k-средних.

Как использовать scikit-learn, чтобы построить простую модель линейной регрессии представлено на картинке

Ставится командой ⚙️

pip install -U scikit-learn

Документация и примеры кода здесь

#theory // Just Python

461 views16:07

Just Python

📌 Что такое асинхронное программирование в Python

Асинхронное программирование является подходом в разработке программного обеспечения, который позволяет одновременно выполнять несколько задач без блокирования основного потока выполнения. В Python это достигается с помощью асинхронной библиотеки asyncio и ключевых слов async и await.

Преимущества асинхронного программирования

Асинхронное программирование позволяет улучшить производительность приложения, особенно при работе с вводом-выводом (I/O), таким как чтение и запись файлов, обращение к базам данных и веб-сервисам.

Преимущества асинхронного программирования включают:

💖 Более эффективное использование ресурсов
💖 Улучшенная отзывчивость приложений
💖 Упрощение кода для параллельного выполнения задач

Основы асинхронного программирования в Python

Для использования асинхронного программирования в Python, необходимо знакомство с ключевыми словами async и await:

💖 async используется для объявления асинхронной функции. Это означает, что функция будет возвращать объект coroutine, который можно выполнить асинхронно.
💖 await используется внутри асинхронной функции для ожидания результата другой асинхронной операции. Это позволяет основному потоку продолжить выполнение других задач, пока ожидается результат.

#theory // Just Python

Please open Telegram to view this post

VIEW IN TELEGRAM

497 viewsedited 08:09

Just Python

Keras - это высокоуровневая библиотека нейронных сетей для Python.

Она создана поверх TensorFlow и предназначена для того, чтобы максимально упростить построение и обучение нейронных сетей.
Keras отлично подходит для построения моделей глубокого обучения и обладает широким спектром инструментов для построения и обучения моделей.

Как использовать Keras для построения простой нейронной сети представлено на картинке

Ставится командой

⚙️

pip install keras-core

Документация и примеры кода здесь

#theory // Just Python

Please open Telegram to view this post

VIEW IN TELEGRAM

549 viewsedited 12:18

Just Python

Pandas - это библиотека для обработки и анализа данных на Python.

Она широко используется для работы со структурированными данными и отлично подходит для очистки, преобразования и анализа данных. Pandas имеет широкий спектр инструментов для работы с данными, включая объекты dataframe и series, которые похожи на таблицы и столбцы в SQL.

Как использовать Pandas для загрузки и изучения набора данных представлены на фотографии

Ставится командой

⚙️

pip install cython

Документация и примеры кода здесь

#theory // Just Python

Please open Telegram to view this post

VIEW IN TELEGRAM

542 views16:07

Just Python

Что такое веб-скрапинг и как его использовать в Python

Изучите основы веб-скрапинга и примеры его использования в Python с помощью популярных библиотек BeautifulSoup и Scrapy.

Веб-скрапинг — это процесс извлечения данных из веб-страниц путем скачивания и анализа их содержимого. В Python для этого используются различные библиотеки, такие как BeautifulSoup и Scrapy. В этой статье мы рассмотрим основы веб-скрапинга и примеры его использования на языке Python.

Зачем нужен веб-скрапинг?

Веб-скрапинг может использоваться для различных целей, таких как:

💖сбор данных для анализа (например, статистика посещаемости сайтов)
💖мониторинг цен на товары и услуги
💖создание баз данных контента для исследований
💖автоматизация рутинных задач, связанных с работой в интернете

Основные библиотеки для веб-скрапинга в Python

💖BeautifulSoup: удобная библиотека для парсинга HTML и XML документов. Позволяет извлекать данные из веб-страницы с помощью селекторов, таких как CSS и XPath.
💖Scrapy: мощный фреймворк для веб-скрапинга, который позволяет создавать и настраивать «пауков» (специальные программы для автоматического обхода и скачивания веб-страниц).

Веб-скрапинг — это мощный инструмент для работы с данными в интернете. Python предлагает множество библиотек для упрощения этого процесса, таких как BeautifulSoup и Scrapy. Начните с изучения основ и постепенно переходите к более сложным задачам, чтобы стать опытным веб-скрапером.

В примере на картинке мы используем requests для скачивания HTML-кода страницы, затем передаем его в BeautifulSoup для парсинга. После этого мы находим все элементы <article> и извлекаем из них текст заголовка (элемент <h2>).

#theory // Just Python

Please open Telegram to view this post

VIEW IN TELEGRAM

473 views08:07

Just Python

Gensim - это библиотека для неконтролируемого тематического моделирования и анализа сходства документов на Python.

Она широко используется для таких задач, как обобщение текста, кластеризация документов и тематическое моделирование. Gensim обладает широким спектром инструментов для работы с текстовыми данными, включая word2vec и LDA (скрытое распределение Дирихле).

Как использовать Gensim для обучения модели word2vec представлено на фото

Ставится командой pip install --upgrade gensim
Документация и примеры кода здесь

#theory // Just Python

505 views11:07

Just Python

Что такое регулярные выражения и как их использовать в Python

Регулярные выражения являются мощным инструментом для работы с текстом. Они позволяют искать, заменять и манипулировать строками на основе определенных шаблонов.

Некоторые основные символы и конструкции в регулярных выражениях:

▪️

. (точка) — соответствует любому одному символу

▪️

* (звездочка) — указывает, что предыдущий символ может повторяться 0 или более раз

▪️

+ (плюс) — указывает, что предыдущий символ может повторяться 1 или более раз

▪️

{n} — указывает, что предыдущий символ должен повториться ровно n раз

▪️

[abc] — соответствует любому символу из указанных в квадратных скобках

▪️

[^abc] — соответствует любому символу, кроме указанных в квадратных скобках

▪️

\d — соответствует любой цифре

▪️

\w — соответствует любому буквенно-цифровому символу

▪️

\s — соответствует любому пробельному символу

Регулярные выражения (или regex) — это последовательность символов, которая определяет шаблон поиска в тексте. Они используются в различных языках программирования, включая Python.

В Python для работы с регулярными выражениями используется модуль re.
Вот некоторые основные функции этого модуля:

▪️re.search(pattern, string) — ищет в строке первое совпадение с шаблоном и возвращает объект Match или None, если совпадений нет
▪️re.findall(pattern, string) — возвращает список всех непересекающихся совпадений с шаблоном в строке
▪️re.sub(pattern, replacement, string) — заменяет все совпадения с шаблоном в строке на указанную замену

#theory // Just Python

Please open Telegram to view this post

VIEW IN TELEGRAM

484 views16:07

Just Python

Что такое Django и Flask

Django и Flask являются двумя популярными веб-фреймворками на языке программирования Python. Они используются для создания веб-приложений и сайтов различной сложности.

Django – это высокоуровневый веб-фреймворк Python, который придерживается принципа «batteries included» (все в комплекте). Это значит, что Django предоставляет множество инструментов и компонентов прямо из коробки, таких как административный интерфейс, систему аутентификации пользователей, поддержку работы с базами данных и многое другое.

Flask – это микро-фреймворк для создания веб-приложений на Python. В отличие от Django, Flask является более легковесным и гибким решением, которое предоставляет минимальный набор функциональности из коробки. Расширение функционала возможно с помощью внешних модулей и библиотек.

Сравнение Django и Flask

🔸

Скорость разработки:
Django предоставляет больше готовых решений, что может ускорить процесс разработки, особенно для сложных проектов. Flask же предлагает большую гибкость и контроль над кодом, что может быть важно для создания небольших и средних приложений.

🔸

Обучение:
Flask имеет более низкий порог вхождения для новичков благодаря своей простоте и минимализму. Django может потребовать больше времени на изучение из-за обилия компонентов и настроек.

🔸

Производительность:
Flask обычно предпочтителен для проектов с высокими требованиями к производительности из-за своей легковесности. Однако, оба фреймворка могут быть оптимизированы для достижения высокой производительности при правильной настройке.

Выбор между Django и Flask во многом зависит от ваших предпочтений, опыта и требований к проекту. Если вам нужен мощный, всеобъемлющий фреймворк с большим количеством готовых решений, то Django может быть вашим выбором.

Если же вам важна гибкость, простота и возможность контролировать каждый аспект вашего приложения, то Flask будет лучшим решением.

#theory // Just Python

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

442 views08:07

Just Python

PrettyTable – это Python-модуль, который облегчает создание таблиц в коде. На его основе можно легко создавать таблицы из результатов запросов или из любых других данных. Библиотека была разработана Дайвом Льюисом и имеет удобный и понятный синтаксис, который позволяет создавать с помощью пары строк кода красивые таблицы.

PrettyTable позволяет форматировать таблицы, выравнивать данные, добавлять заголовки и многое другое. Это делает эту библиотеку полезным инструментом для анализа, презентации и отображения данных на экране.

PrettyTable позволяет очень просто и быстро настраивать таблицы в Python. Библиотека отлично подходит для работы с большим объемом данных, которые необходимо представить в удобочитаемом формате. Она позволяет легко форматировать таблицы и менять их визуальное отображение. Вместе с тем PrettyTable предоставляет дополнительные функции, такие как сортировка, фильтрация и настройка цвета, которые сохраняются при переносе данных в другие программы.

Ставится командой ⚙️ pip install prettytable
Документация и примеры кода здесь

#theory // Just Python

Please open Telegram to view this post

VIEW IN TELEGRAM

440 views11:07

Just Python

Как работать с наследованием в Python?

Наследование — одна из основных концепций объектно-ориентированного программирования, которая позволяет создавать новые классы на основе существующих, переиспользуя их свойства и методы. В Python наследование реализуется довольно просто и интуитивно. В этой статье мы разберем основы наследования в Python на примерах.

Основная идея наследования заключается в том, что один класс (потомок) может наследовать атрибуты и методы другого класса (родителя). Это позволяет избежать дублирования кода и упрощает изменения и обновления.

Python поддерживает множественное наследование, то есть один класс может наследовать свойства и методы сразу от нескольких классов-родителей. Для этого достаточно указать их имена через запятую в скобках после имени класса-потомка.

Важные функции и атрибуты

В контексте наследования в Python есть несколько важных функций и атрибутов, которые могут пригодиться:

💖isinstance(obj, class) — проверяет, является ли объект экземпляром указанного класса или его потомка;
💖issubclass(class1, class2) — проверяет, является ли class1 подклассом class2;
💖super() — позволяет вызывать методы родительского класса из класса-потомка.

Наследование в Python — мощный инструмент, который позволяет создавать гибкие и масштабируемые программы.

#theory // Just Python

Please open Telegram to view this post

VIEW IN TELEGRAM

421 views16:07

Just Python

NEAT-Python — это библиотека, реализующая NEAT на языке программирования Python. Она обеспечивает легкую и гибкую возможность использования эволюционного подхода NEAT для разнообразных задач, включая классификацию.

NEAT также позволяет удобно определять морфологические модели нейронов. Эти модели могут быть смоделированы с помощью интерфейса с симулятором NEURON [Carnevale2004] или могут быть проанализированы двумя классическими методами:

▫️(i) метод разделения переменных [Major1993] для
получения ядер импеданса в виде суперпозиция экспоненциальных величин
▫️(ii) метод Коха для вычисления импедансов с линеаризованными ионными каналами аналитически в частотной области [Koch1985].

Кроме того, NEAT реализует фреймворк нейронного дерева оценки [Wybo2019] и связанный с ним симулятор C++ для анализа независимости от субъединиц.

Ставится командой

pip install neatdend

Документация и примеры кода здесь

#theory // Just Python

Please open Telegram to view this post

VIEW IN TELEGRAM

427 views08:07

Just Python

Forwarded from The Экономист

⚡️

Дарим сразу три новеньких iPhone 16 за подписку!

Для участия в розыгрыше нужно:
1. Быть подписанным на The Экономист, Доллар по тридцать и Чё по трендам?
2. Нажать «Участвую!» под этим постом

Бот случайным образом выберет победителей 2 июня в 18:00. Айфоны за свой счёт застрахуем и отправим в любую точку мира. Всем удачи!

Please open Telegram to view this post

VIEW IN TELEGRAM

213 views11:42

Участвую! (17597)

Just Python

Opyrator — инструмент, позволяющий превратить любую вашу Python функцию в полноценный микросервис с веб API, статистикой обращений, графиками и тд.

Это позволяет пользователям развертывать сервисы и получать к ним доступ через HTTP API или интерактивный пользовательский интерфейс

Ставится командой ⚙️ pip install opyrator
Документация и примеры кода здесь.

#theory // Just Python

493 views12:47

Just Python

Scrapy - это быстрый высокоуровневый фреймворк для веб-сканирования и веб-скрейпинга. Сканируйте веб-сайты и извлекайте структурированные данные с их страниц. Его можно использовать для: широкий спектр целей, от интеллектуального анализа данных до мониторинга и автоматизированного тестирования.

Основными возможностями Scrapy являются:

🔴 автоматическая обработка запросов и ответов с использованием асинхронности;
🔴 извлечение данных из HTML и XML документов с помощью XPath и CSS-селекторов;
🔴 эффективная обработка веб-форм и управление сессиями;
🔴 расширяемость за счёт огромного количества плагинов, упрощающих разработку и настройку веб-пауков.

Ставится командой ⚙️ pip install scrapy
Документация и примеры кода здесь

#theory // Just Python

Please open Telegram to view this post

VIEW IN TELEGRAM

523 views16:07

Just Python

Celery - Celery нужна для работы с фоновыми задачами. Она позволяет выстраивать их в очередь и распределять выполнение между разными процессорами и устройствами. Это помогает уменьшить нагрузку на процессор и выполнять трудоемкие задачи без ущерба производительности. Больше всего Celery полезна для разработчиков приложений.

Очереди задач используются в качестве механизма для распределения работы между потоками или машины.

Celery общается через сообщения, обычно через брокера для посредничества между клиентами и работниками. Чтобы инициировать задачу, клиент ставит message в очереди, затем брокер доставляет сообщение рабочему процессу.

Ставится командой ⚙️ pip install celery
Документация и примеры кода здесь

#theory // Just Python

Please open Telegram to view this post

VIEW IN TELEGRAM

486 views08:07

Just Python

Turtle - библиотека в Python, предоставляет простой и интуитивно понятный способ рисования графики и создания простых анимаций с помощью черепашьей графики (turtle graphics).
Она включает различные функции для управления черепашкой и рисования различных графических фигур.

В библиотеке turtle есть возможность изменять цвет линий и заливки для черепашьего рисунка с помощью методов color() и fillcolor().

Это эффективный и хорошо зарекомендовавший себя способ взаимодействия с учащимися концепций программирования и взаимодействия с программным обеспечением, так как оно обеспечивает мгновенное, Видимая обратная связь. Он также обеспечивает удобный доступ к графическому выводу вообще.

Звёздочка на Python Turtle в 10 строк кода - тык

Документация и примеры кода здесь

#theory // Just Python

484 views11:07

Just Python

Requests - одна из самых популярных общедоступных библиотек Python. Ее цель – сделать HTTP-запросы более простыми и удобными для восприятия. Библиотека Requests имеет лицензию Apache2 и написана на Python. Она является фактическим стандартом, который используют разработчики для выполнения HTTP-запросов в Python.

Помимо того, что библиотека Requests может использоваться для отправки HTTP-запросов на сервер, она также позволяет добавлять в них данные формы, содержимое, заголовок, файлы, состоящие из нескольких частей, и т.д. С этой библиотекой разработчикам не нужно добавлять запрос к URL-адресу или кодировать данные POST вручную.

Библиотека Requests абстрагируется от многочисленных сложностей создания HTTP-запросов в простом API, поэтому разработчики могут больше сосредоточится на взаимодействии со службами. Библиотека поддерживает Python 2.7, 3.4 и выше, а также отлично работает с PyPy.

Ставится командой ⚙️ $ pipenv install requests-html
Документация и примеры кода здесь

#theory // Just Python

Please open Telegram to view this post

VIEW IN TELEGRAM

510 views16:07

About

Blog

Apps

Platform