Не совсем в тему канала, так как изначально ориентируюсь на аудиторию тех, кто использует Python для анализа данных, но без Machine Learning. Но наткнулся на отличную подборку материалов по ML и такой штукой грех не поделиться: https://github.com/demidovakatya/vvedenie-mashinnoe-obuchenie
GitHub
GitHub - demidovakatya/vvedenie-mashinnoe-obuchenie: :memo: Подборка ресурсов по машинному обучению
:memo: Подборка ресурсов по машинному обучению. Contribute to demidovakatya/vvedenie-mashinnoe-obuchenie development by creating an account on GitHub.
Datalytics pinned «❗️В дополнение к этому каналу решил завести чатик @pydata_chat. В нем можно (и нужно) задавать всяческие вопросы на тему применения Python для анализа данных, в особенности для различного рода автоматизации и аналитики. Также рад буду, если участники будут…»
Канал выбирается из зимней спячки. И первый пост в новом году будет про Pandas. Когда вы долго и регулярно пользуетесь Pandas, то у вас обычно набирается несколько стандартных кусочков кода (сниппетов), из которых формируется пайплайн обработки данных. Jeff Delaney делится своими сниппетами. Есть и банальности вроде "как прочитать csv", но бывают и интересные, например, о том как сделать разбивку числовых значений на диапазоны, или как загрузить большой csv последовательными маленькими чанками. https://jeffdelaney.me/blog/useful-snippets-in-pandas/
jeffdelaney.me
19 Essential Snippets in Pandas
A compilation of Python Pandas snippets for data science. After playing around with Pandas for about a month, I've compiled a pretty large list of useful sni...
Хорошее руководство по написанию CLI (command-line interfaces) - интерфейсов командной строки. Автор разбирает использование модулей стандартной библиотеки
https://blog.sicara.com/perfect-python-command-line-interfaces-7d5d4efad6a2?fbclid=IwAR2MEXJyPhYOgGpfwxf8ZeYskQF-8cWjtnEhezCS6OpYRXYf1iVQarpCJwM
sys.argv и argparse, а затем знакомит нас со сторонней библиотекой click, с помощью которой просто создавать очень мощные CLI, а код при этом выглядит простым и понятным.https://blog.sicara.com/perfect-python-command-line-interfaces-7d5d4efad6a2?fbclid=IwAR2MEXJyPhYOgGpfwxf8ZeYskQF-8cWjtnEhezCS6OpYRXYf1iVQarpCJwM
Sicara's blog
How to Write Perfect Python Command-line Interfaces — Learn by Example
Improve your productivity by making your scripts as handy and straightforward as possible
Если кто много работает с семантическими ядрами, ключевыми словами или обработкой текста, то может пригодится библиотека rutermextract, которая позволяет извлекать ключевые слова из текста, основываясь на частях речи и частоте употребления.
GitHub
GitHub - igor-shevchenko/rutermextract: Term extraction for Russian language
Term extraction for Russian language. Contribute to igor-shevchenko/rutermextract development by creating an account on GitHub.
Курс, включающий 11 уроков по работе с Pandas. Всё очень детально и подробно. Каждый урок представлен в виде отдельного ноутбука. Есть даже урок, освещающий stack и unstack, с которыми у многих возникают проблемы, а чаще всего их просто не используют 🙃https://bitbucket.org/hrojas/learn-pandas
Новый эпизод из серии постов про автоматизацию всяческой рутины с помощью Python. На этот раз речь пойдет о том как эффективно создавать SQL-запросы с помощью шаблонизатора Jinja. Такой подход позволяет делать собственные шаблоны для запросов, что делает скрипты для обработки данных из БД более универсальными, т.к. можно чаще использовать уже готовые скрипты для новых задач. Ссылки на предыдущие части - в конце поста. https://changhsinlee.com/pyderpuffgirls-ep5/
Chang Hsin Lee
Untangle the SQL Mess with Jinja—PyderPuffGirls Episode 5
Writing and maintaining complex SQL query sucks. How can I use Python to make my life easier?
Нет лучшего способа контролировать ход выполнения алгоритма, чем логирование. Можно конечно всё обвешать print'ами😀 но это будет жуть как неудобно, когда ваши скрипты будут разрастаться, всё больше скриптов будет запускаться по расписанию и нужно будет разбираться что вообще происходит. На RealPython есть хороший туториал по логированию, как раз для тех, кто хочет перестать всё обвешивать print и делать как "серьёзные" программисты😎https://realpython.com/python-logging/
Realpython
Logging in Python – Real Python
If you use Python's print() function to get information about the flow of your programs, logging is the natural next step. Create your first logs and curate them to grow with your projects.
Хорошая статья про функции pivot, stack и unstack в Pandas. С pivot, наверняка, многие работали, а вот stack и unstack применяют не так часто. Тем не менее, функции очень полезные для трансформации данных. https://nikgrozev.com/2015/07/01/reshaping-in-pandas-pivot-pivot-table-stack-and-unstack-explained-with-pictures/
Nikgrozev
Reshaping in Pandas - Pivot, Pivot-Table, Stack, and Unstack explained with Pictures
In this post, I'll exemplify some of the most common Pandas reshaping functions and will depict their work with diagrams ...
Решил в своём блоге начать выкладывать не только гайды в стиле how-to, но и делиться примерами решения задач из области анализа данных, с которыми я сталкиваюсь. Надеюсь, что такие статьи помогут аналитикам узнать новые приёмы для себя, которые они перенесут в свою деятельность. Также я буду крайне рад, если подписчики будут предлагать свои решения.
Первая задача, которую я хочу рассмотреть - это преобразование одной колонки с данными в несколько. Может пригодится, если входные данные кривоваты, как в моём случае. http://datalytics.ru/all/kak-v-pandas-razbit-kolonku-na-neskolko-kolonok/
Первая задача, которую я хочу рассмотреть - это преобразование одной колонки с данными в несколько. Может пригодится, если входные данные кривоваты, как в моём случае. http://datalytics.ru/all/kak-v-pandas-razbit-kolonku-na-neskolko-kolonok/
www.datalytics.ru
Как в Pandas разбить одну колонку на несколько
Решил начать рассматривать нетривиальные кейсы в Pandas, с которыми иногда сталкиваюсь при работе с данными
В продолжение вчерашнего поста. Читатель предложил собственное решение задачи, использующее регулярные выражения. Получилось просто и эффективно 👍🏻Добавил решение в статью: http://datalytics.ru/all/kak-v-pandas-razbit-kolonku-na-neskolko-kolonok/
www.datalytics.ru
Как в Pandas разбить одну колонку на несколько
Решил начать рассматривать нетривиальные кейсы в Pandas, с которыми иногда сталкиваюсь при работе с данными
Крайне советую канал @ohmypy, в котором автор раскрывает возможности стандартной библиотеки Python, о которых вам лучше бы знать. Тут и про кортежи, и про
enum, и про Counter из collections, и про сравнение похожести строк с помощью SequenceMatcher. В общем, куча полезных советов, которые помогут сделать код эффективным и опрятным https://t.me/ohmypyTelegram
Oh My Py
Все о чистом коде на Python // antonz.ru
Очередной пост из серии постов
Chang Hsin Lee про автоматизацию рутинных задач с помощью Python. Я лично редко пишу конфиги😐, но хотел бы чаще, т.к. это крайне полезная практика для того, чтобы сделать свои скрипты более универсальными и гибкими. В этом посте автор рассказывает о простейшем примере использования конфига на YAML. Всё по делу👍🏻https://changhsinlee.com/pyderpuffgirls-ep6/
Chang Hsin Lee про автоматизацию рутинных задач с помощью Python. Я лично редко пишу конфиги😐, но хотел бы чаще, т.к. это крайне полезная практика для того, чтобы сделать свои скрипты более универсальными и гибкими. В этом посте автор рассказывает о простейшем примере использования конфига на YAML. Всё по делу👍🏻https://changhsinlee.com/pyderpuffgirls-ep6/
Chang Hsin Lee
Make a Workflow Config with YAML—PyderPuffGirls Episode 6
This post follows up on last post to introduce another convenient tool for writing maintainable code—the configuration file. In particular, I will show you a specific config file format, YAML, and how it works in Python.
https://digitalgod.be/say_kiss_my_stat Тут Дмитрий Родин из DigitalGod запилил серию практических руководств по сбору аналитических данных. Будет подробно разобран цикл сбора информации с рекламных площадок (Facebook, Yandex.Direct, VK, Google Ads) и статистики (Rockstat, GA). После чего Дмитрий покажет как связать данные с CRM (на примере AmoCRM), а также построить набор базовых аналитических дашбордов. 🚀 Enjoy!
digitalgod.be
Guides / Kiss My Stat / Data Warehouse, ETL: GA + YM + YD + FB + VK + AW.
Практические руководство. Запуск своего сервера с Rockstat, Jupyter, Theia, Grafana, CickHouse и пр. Сведение YM, Direct, GA, AdWords, VK, FB, AmoCRM в едином отчете.
Статья о том как с помощью Pandas сделать сравнение двух Excel-файлов и отобразить историю изменений в новой книге http://pbpython.com/excel-diff-pandas-update.html
Pbpython
Updated: Using Pandas To Create an Excel Diff
This is an updated article that shows how to use pandas to create a diff tool that compares two similar Excel spreadsheets.
Подробный гайд о том как использовать SQLAlchemy в связке с PostgreSQL. Освещаются не только запросы, но и создание таблиц, добавление новых строк в существующие таблицы. https://learndatasci.com/tutorials/using-databases-python-postgres-sqlalchemy-and-alembic/
Learndatasci
Beginner's Guide to Using Databases with Python: Postgres, SQLAlchemy, and Alembic
Learn how to install a local Postgres server and work with it using Python and the SQLAlchemy library. Build a model, insert data, and query with different SQL expressions.
Forwarded from Интернет-аналитика // Алексей Никушин (Алексей /на Бали / Никушин)
Опять о навыках.
Linkedin проанализировал навыки, которые больше всего хотят видеть работодатели в соискателях. Да, вы верно догадываетесь - аналитическое мышление и имение работать с AI, ML, облаками - в топе. Но самое интересное, что по ссылке доступны курсы, которые Линкедин рекомендует пройти для получения тех или иных навыков. Там прям очень хорошо.
Кроме этого, наткнулся на блог Роджера Хуана. Этот парень настолько классно объясняет подходы к программированию (в том числе на SQL, Python и тд), что первой мыслью после того как я оторвался от блога было пригласить его на Матемаркетинг-2019 с лекцией и мастер-классом. Невероятно ясный ум у него. Судите сами:
Принципы программирования
Решение задач на SQL и Python
И много чего еще в его блоге: https://code-love.com
Linkedin проанализировал навыки, которые больше всего хотят видеть работодатели в соискателях. Да, вы верно догадываетесь - аналитическое мышление и имение работать с AI, ML, облаками - в топе. Но самое интересное, что по ссылке доступны курсы, которые Линкедин рекомендует пройти для получения тех или иных навыков. Там прям очень хорошо.
Кроме этого, наткнулся на блог Роджера Хуана. Этот парень настолько классно объясняет подходы к программированию (в том числе на SQL, Python и тд), что первой мыслью после того как я оторвался от блога было пригласить его на Матемаркетинг-2019 с лекцией и мастер-классом. Невероятно ясный ум у него. Судите сами:
Принципы программирования
Решение задач на SQL и Python
И много чего еще в его блоге: https://code-love.com
Тут на Реддите большое обсуждение бесплатных книг про Python. Налетайте https://www.reddit.com/r/Python/comments/anfdyh/free_python_books/
Reddit
From the Python community on Reddit: Free Python books
Explore this post and more from the Python community
Пока ещё не пятница, но её приближение уже чувствуется, а поэтому сегодня у нас будет библиотека для гифок 🕺
Работает она и без указания ключа, но вроде как Giphy скоро запретят пользоваться публичным ключом. https://github.com/shaunduncan/giphypop
Работает она и без указания ключа, но вроде как Giphy скоро запретят пользоваться публичным ключом. https://github.com/shaunduncan/giphypop
🐍 Набор полезных ссылок про Python для анализа данных от друзей канала
🔸Забудьте о matplotlib: визуализация данных в Python вместе с plotly
🔸Авторская статья про использование bs4 для веб-скрапинга данных
🔸Pandas для новичков: получение данных с веб-сайта без использования API
Множество разных материалов по python и не только читайте также на канале hello world
🔸Забудьте о matplotlib: визуализация данных в Python вместе с plotly
🔸Авторская статья про использование bs4 для веб-скрапинга данных
🔸Pandas для новичков: получение данных с веб-сайта без использования API
Множество разных материалов по python и не только читайте также на канале hello world
Статья в блоге Виталия Бахвалова про то как с помощью Python-скрипта парсить объявления из Директа http://italylov.ru/blog/all/parsim-obyavleniya-v-direkte-i-delaem-skrinshoty/