Datalytics

Первая часть большого и подробного гайда про веб-скрэпинг (парсинг информации с веб-сайтов) с помощью библиотеки BeautifulSoup на Python на примере анализа данных о политических новостях https://www.learndatasci.com/tutorials/ultimate-guide-web-scraping-w-python-requests-and-beautifulsoup/ 🇬🇧

Learndatasci

Ultimate Guide to Web Scraping with Python Part 1: Requests and BeautifulSoup

Request and wrangling HTML using two of the most popular Python libraries for web scraping: requests and BeautifulSoup.

1.05K viewsedited 09:36

Datalytics

https://www.marsja.se/pandas-read-csv-tutorial-to-csv/
Очень детальное руководство по работе с CSV-файлами в Pandas. Освещена куча насущных вопросов о том как:
⚪️ прочитать CSV и заменить названия колонок,
⚪️ задать индексную колонку,
⚪️ загрузить только заранее определенные колонки,
⚪️ массово удалить колонки без названий, работать с пустыми значениями,
⚪️ пропустить несколько строк при загрузке,
⚪️ загрузить несколько CSV в один датафрейм

Масса полезных и простых советов. Рекомендую

Erik Marsja

Pandas Read CSV Tutorial: How to Read and Write

Learn how to use Pandas to read CSV & write CSV files. Learn how to combine, handle missing, data, with a link to .ipynb containing examples.

966 viewsedited 08:00

Datalytics

Занятная статья про пирамиду потребностей аналитики. Идеология тут такая же как и в пирамиде Маслоу: пока не удовлетворены базовые потребности, компания не может испытывать потребности более высокого уровня. Простой пример: если у тебя нет данных, то ты может и хочешь заниматься предиктивной моделью, но физически не можешь. Где-то там высоко (ближе к верхушке) также находятся метрики, ведь прежде чем считать метрики мы должны быть уверены в корректности полученных данных https://hackernoon.com/the-ai-hierarchy-of-needs-18f111fcc007

Hackernoon

The AI Hierarchy of Needs | HackerNoon

As is usually the case with fast-advancing technologies, AI has inspired massive <a href="https://en.wikipedia.org/wiki/Fear_of_missing_out" target="_blank">FOMO</a> , <a href="https://en.wikipedia.org/wiki/Fear,_uncertainty_and_doubt" target="_blank">FUD</a>…

1.05K viewsedited 14:33

Datalytics

Ноутбук с мастер-класса Александра Швеца из DigitalGod на конференции "Матемаркетинг-2018". Александр разбирает использование Logs API Яндекс.Метрики для анализа длины цепочек посещений, а также показывает интересный пример динамической атрибуции на основе данных того же Logs API, загнанных в Clickhouse https://github.com/ashwets/conferences/blob/master/matemarketing_2018.ipynb

digitalgod.be

Digital God — Горизонт возможностей на стыке твоей профессии и программирования

Программирование открывает новые горизонты профессионального развития, позволяя один раз написать скрипт и больше к этому не возвращаться или посчитать аудиторию и загрузить её в рекламную систему по API. Это более чем реально!

1.08K viewsedited 09:44

Datalytics

Лично я не очень люблю Matplotlib из-за достаточно сложного синтаксиса. Разбираться в его документации - то ещё удовольствие, поэтому чаще приходится лезть в Stackoverflow и искать среди ответов что-то подходящее. Но нужно признать должное: если нужен комбайн для сложных визуализаций, то вряд ли найдется что-то лучше Matplotlib среди Python-библиотек. Я бы сравнил его с d3.js на JavaScript по уровню кастомизируемости. Статья по ссылке это подтверждает, там 50 мощных визуализаций с примерами кода https://www.machinelearningplus.com/plots/top-50-matplotlib-visualizations-the-master-plots-python/

Machine Learning Plus

Top 50 matplotlib Visualizations – The Master Plots (with full python code)

Learn Data Science (AI/ML/Gen AI) Online

1.09K viewsedited 11:07

Datalytics

https://changhsinlee.com/pyderpuffgirls-ep2/ Вторая часть серии туториалов про изучение Python для аналитиков. На этот раз про вытаскивание данных из БД на примере PostgreSQL. Первая часть

Chang Hsin Lee

How to Query a Database in Python—PyderPuffGirls Episode 2

In PyderPuffGirl Episode 1, I showed you how to open a SQL query in Python. How can I submit said query through Python to a database? Moreover, how can I get the result of the query as a file in Python?

1.14K views14:40

Datalytics

Статья о том как с помощью pandas можно разными способами выбирать сэмплы из данных. Может быть полезным, если хотите делать сэмплирование с использованием groupby (чтобы выбрать по N строк из каждой группы), а также делать выборки с фиксированным "псевдо-случайным" числом, чтобы сэмплированная выборка всегда получалась одинаковая (полезно, когда нужно добиться воспроизводимости исследований). https://www.marsja.se/pandas-sample-randomly-select-rows/

Erik Marsja

How to use Pandas Sample to Select Rows and Columns

Here we will learn how to use Pandas Sample to select rows, set a random seed, sample by group, using weights, and conditions, among other useful things

1.11K viewsedited 14:28

Datalytics

Есть много странных рейтингов. Нашел вот рейтинг популярности систем управления базами данных. Судя по нему, PostgreSQL занимает 4е место и показывает хорошие темпы роста. К этому бесполезному факту выкладываю ссылку на отличную статью про то как вытаскивать данные из PostgreSQL в Питоне с помощью psycopg2 https://khashtamov.com/ru/postgresql-python-psycopg2/

1.03K viewsedited 13:33

Datalytics

Forwarded from Vlad Flaks

Выложили на Github наши скрипты для импорта данных в Google BigQuery из mysql, ftp, https, intercom: https://www.owox.com/c/github-bigquery-integrations.
Все написано на Python для Google Cloud Functions. То есть отдельный сервер для запуска не нужен и проблем с ресурсами как у App Script нет. Инструкции на русском языке, разберется даже маркетолог 🙂

3.54K views14:35

Datalytics

https://changhsinlee.com/pyderpuffgirls-ep3/ Третья часть серии туториалов про изучение Python для аналитиков. Про то, как запускать свои скрипты по расписанию и наслаждаться результатом, попивая кофе и закусывая маффином. Автор показывает один из самых простых способов планирования задач в Python - модуль schedule. На практике, к такому способу прибегают редко, т.к. нужно постоянно держать запущенным питоновский скрипт. Так что решение из статьи по первому времени сгодится, а потом я бы рекомендовал использовать cron или Airflow. В конце статьи - ссылки на две предыдущих части

Chang Hsin Lee

Don't Wait, Schedule and Relax Instead—PyderPuffGirls Episode 3

The purpose of automation is to let machine do things while us humans rest. In this post, I will show you how to schedule a job with a Python module schedule.

1.21K views13:28

Datalytics

https://www.dataschool.io/future-of-pandas/
Статья про будущее библиотеки Pandas. Автор основывается на докладе одного из ключевых разработчиков Pandas на митапе PyData 2018 (кстати, рекомендую канал PyData на YouTube, где размещается куча полезного контента). Из интересного: хотят сделать почти все методы такими, чтобы была поддержка chaining, когда весь процесс обработки данных можно описать однострочной длинной последовательностью вызываемых друг за другом методов; уберут из методов поддержку параметра inplace; Apache Arrow будет бэкендом для Pandas, что повлияет на скорость обработки больших датасетов; появятся кастомные типы, например int с поддержкой nan 🎉 (сейчас только float из численных типов поддерживает nan); уберут поддержку обращения к строкам dataframe через ix. В общем, светлое будущее. Версия 0.25, в которой все это будет, запланирована на начало 2019. А следом из 0.25 сделают мажорную версию 1.0, убрав из 0.25 все устаревшие (deprecated) методы.

Data School

What's the future of the pandas library?

pandas is a very popular Python library for data analysis, manipulation, and visualization, but it still hasn't reached version 1.0. What's next for pandas?

1.16K views09:22

Datalytics

Forwarded from BigQuery Insights

В сети появился скрипт для ежедневного экспорта данных Amplitude в BigQuery через Google Cloud Storage

via @BigQuery

171 views11:15

Datalytics

https://tqdm.github.io/
Иногда всяческие приятные мелочи сильно упрощают жизнь. Например, tqdm - очень минималистичная библиотека, единственная функция которой - отображать красивый информативный прогресс бар

1.22K views10:02

Datalytics

Написал в свой блог короткую статейку о том как через Python загружать или получать данные из BigQuery сразу в пандасовский датафрейм. Также немного рассматривается как с помощью нативной питоновской библиотеки bigquery можно управлять датасетами и таблицами. http://datalytics.ru/all/kak-ispolzovat-google-bigquery-s-pomoschyu-python/

www.datalytics.ru

Как использовать Google BigQuery с помощью Python

Google BigQuery — это безсерверное масштабируемое хранилище данных

1.53K views11:19

Datalytics

https://changhsinlee.com/pyderpuffgirls-ep4/ Новая часть серии постов про автоматизацию всяческой рутины на Python. В этот раз про то как отправлять email, да не простые, а с аттачментами и эмоджи! В конце статьи - ссылки на предыдущие части

Chang Hsin Lee

Filling Up Your Inbox with Goodies—PyderPuffGirls Episode 4

In the previous posts, I covered how to set up scheduled jobs for SQL queries. How can I get a note when things go wrong? How can I send the result to myself? Email, of course! So, in this post, I will show you how to send emails with Python.

1.42K views12:26

Datalytics

Подробное руководство по Pandas для начинающих. Освещает вопросы загрузки данных, очистки и подготовки данных, применения условий для фильтрации. https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/

Learndatasci

Python Pandas Tutorial: A Complete Introduction for Beginners

Learn some of the most important pandas features for exploring, cleaning, transforming, visualizing, and learning from data.

1.41K views09:11

Datalytics

Наткнулся на метод в pandas, который до сих пор мне был не известен, но очень пригодился, когда захотелось порефакторить свой старый ноутбук, чтобы повысить удобочитаемость. Это метод query. Он дает возможность выбрать строки датафрейма, исходя из определенного условия, но при этом не ссылаясь на сам датафрейм, что позволяет оформлять обработку данных в стиле method chaining.

К примеру, я хочу смерджить два датафрейма, а затем отфильтровать полученный результат по колонке из второго датафрейма.

Можно сделать это двумя отдельными командами:

df = df1.merge(df2,on='key',how='left')
df = df[df['column_from_df2'] == 1]

А вот как можно сделать это с помощью query:

df = df1.merge(df2,on='key',how='left').query("column_from_df2==1")

Также в query можно использовать переменные:

some_value = 1
df = df1.merge(df2,on='key',how='left').query("column_from_df2==@some_value")

Такие дела

1.57K views13:00

Datalytics

❗️В дополнение к этому каналу решил завести чатик @pydata_chat. В нем можно (и нужно) задавать всяческие вопросы на тему применения Python для анализа данных, в особенности для различного рода автоматизации и аналитики. Также рад буду, если участники будут делиться полезными материалами. Как минимум, там есть я, так что вопросы про pandas точно не останутся без ответа🙂

1.57K views13:05

Datalytics

Если вы сомневаетесь ставить ли вам пробелы после оператора &, нужен ли пробел после наименования функции до аргументов, то рекомендации из PEP8 помогут развеять ваши сомнения. Это официальный гайдлайд о том как писать читабельный код. Статья по ссылке освещает важные моменты из PEP8 https://realpython.com/python-pep8/

Realpython

How to Write Beautiful Python Code With PEP 8 – Real Python

Learn how to write high-quality, readable code by using the Python style guidelines laid out in PEP 8. Following these guidelines helps you make a great impression when sharing your work with potential employers and collaborators.

1.61K views10:12

Datalytics

Не совсем в тему канала, так как изначально ориентируюсь на аудиторию тех, кто использует Python для анализа данных, но без Machine Learning. Но наткнулся на отличную подборку материалов по ML и такой штукой грех не поделиться: https://github.com/demidovakatya/vvedenie-mashinnoe-obuchenie

GitHub

GitHub - demidovakatya/vvedenie-mashinnoe-obuchenie: :memo: Подборка ресурсов по машинному обучению

:memo: Подборка ресурсов по машинному обучению. Contribute to demidovakatya/vvedenie-mashinnoe-obuchenie development by creating an account on GitHub.

1.49K viewsedited 13:57

Datalytics

Datalytics pinned «❗️В дополнение к этому каналу решил завести чатик @pydata_chat. В нем можно (и нужно) задавать всяческие вопросы на тему применения Python для анализа данных, в особенности для различного рода автоматизации и аналитики. Также рад буду, если участники будут…»

13:59

About

Blog

Apps

Platform