Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Если кто много работает с семантическими ядрами, ключевыми словами или обработкой текста, то может пригодится библиотека rutermextract, которая позволяет извлекать ключевые слова из текста, основываясь на частях речи и частоте употребления.
Курс, включающий 11 уроков по работе с Pandas. Всё очень детально и подробно. Каждый урок представлен в виде отдельного ноутбука. Есть даже урок, освещающий stack и unstack, с которыми у многих возникают проблемы, а чаще всего их просто не используют 🙃https://bitbucket.org/hrojas/learn-pandas
Новый эпизод из серии постов про автоматизацию всяческой рутины с помощью Python. На этот раз речь пойдет о том как эффективно создавать SQL-запросы с помощью шаблонизатора Jinja. Такой подход позволяет делать собственные шаблоны для запросов, что делает скрипты для обработки данных из БД более универсальными, т.к. можно чаще использовать уже готовые скрипты для новых задач. Ссылки на предыдущие части - в конце поста. https://changhsinlee.com/pyderpuffgirls-ep5/
Нет лучшего способа контролировать ход выполнения алгоритма, чем логирование. Можно конечно всё обвешать print'ами😀 но это будет жуть как неудобно, когда ваши скрипты будут разрастаться, всё больше скриптов будет запускаться по расписанию и нужно будет разбираться что вообще происходит. На RealPython есть хороший туториал по логированию, как раз для тех, кто хочет перестать всё обвешивать print и делать как "серьёзные" программисты😎https://realpython.com/python-logging/
Хорошая статья про функции pivot, stack и unstack в Pandas. С pivot, наверняка, многие работали, а вот stack и unstack применяют не так часто. Тем не менее, функции очень полезные для трансформации данных. https://nikgrozev.com/2015/07/01/reshaping-in-pandas-pivot-pivot-table-stack-and-unstack-explained-with-pictures/
Решил в своём блоге начать выкладывать не только гайды в стиле how-to, но и делиться примерами решения задач из области анализа данных, с которыми я сталкиваюсь. Надеюсь, что такие статьи помогут аналитикам узнать новые приёмы для себя, которые они перенесут в свою деятельность. Также я буду крайне рад, если подписчики будут предлагать свои решения.

Первая задача, которую я хочу рассмотреть - это преобразование одной колонки с данными в несколько. Может пригодится, если входные данные кривоваты, как в моём случае. http://datalytics.ru/all/kak-v-pandas-razbit-kolonku-na-neskolko-kolonok/
В продолжение вчерашнего поста. Читатель предложил собственное решение задачи, использующее регулярные выражения. Получилось просто и эффективно 👍🏻Добавил решение в статью: http://datalytics.ru/all/kak-v-pandas-razbit-kolonku-na-neskolko-kolonok/
Крайне советую канал @ohmypy, в котором автор раскрывает возможности стандартной библиотеки Python, о которых вам лучше бы знать. Тут и про кортежи, и про enum, и про Counter из collections, и про сравнение похожести строк с помощью SequenceMatcher. В общем, куча полезных советов, которые помогут сделать код эффективным и опрятным https://t.me/ohmypy
Очередной пост из серии постов
Chang Hsin Lee про автоматизацию рутинных задач с помощью Python. Я лично редко пишу конфиги😐, но хотел бы чаще, т.к. это крайне полезная практика для того, чтобы сделать свои скрипты более универсальными и гибкими. В этом посте автор рассказывает о простейшем примере использования конфига на YAML. Всё по делу👍🏻https://changhsinlee.com/pyderpuffgirls-ep6/
https://digitalgod.be/say_kiss_my_stat Тут Дмитрий Родин из DigitalGod запилил серию практических руководств по сбору аналитических данных. Будет подробно разобран цикл сбора информации с рекламных площадок (Facebook, Yandex.Direct, VK, Google Ads) и статистики (Rockstat, GA). После чего Дмитрий покажет как связать данные с CRM (на примере AmoCRM), а также построить набор базовых аналитических дашбордов. 🚀 Enjoy!
Статья о том как с помощью Pandas сделать сравнение двух Excel-файлов и отобразить историю изменений в новой книге http://pbpython.com/excel-diff-pandas-update.html
Подробный гайд о том как использовать SQLAlchemy в связке с PostgreSQL. Освещаются не только запросы, но и создание таблиц, добавление новых строк в существующие таблицы. https://learndatasci.com/tutorials/using-databases-python-postgres-sqlalchemy-and-alembic/
Forwarded from Интернет-аналитика // Алексей Никушин (Алексей /на Бали / Никушин)
Опять о навыках.

Linkedin проанализировал навыки, которые больше всего хотят видеть работодатели в соискателях. Да, вы верно догадываетесь - аналитическое мышление и имение работать с AI, ML, облаками - в топе. Но самое интересное, что по ссылке доступны курсы, которые Линкедин рекомендует пройти для получения тех или иных навыков. Там прям очень хорошо.

Кроме этого, наткнулся на блог Роджера Хуана. Этот парень настолько классно объясняет подходы к программированию (в том числе на SQL, Python и тд), что первой мыслью после того как я оторвался от блога было пригласить его на Матемаркетинг-2019 с лекцией и мастер-классом. Невероятно ясный ум у него. Судите сами:

Принципы программирования
Решение задач на SQL и Python
И много чего еще в его блоге: https://code-love.com
Пока ещё не пятница, но её приближение уже чувствуется, а поэтому сегодня у нас будет библиотека для гифок 🕺

Работает она и без указания ключа, но вроде как Giphy скоро запретят пользоваться публичным ключом. https://github.com/shaunduncan/giphypop
🐍 Набор полезных ссылок про Python для анализа данных от друзей канала

🔸Забудьте о matplotlib: визуализация данных в Python вместе с plotly

🔸Авторская статья про использование bs4 для веб-скрапинга данных

🔸Pandas для новичков: получение данных с веб-сайта без использования API

Множество разных материалов по python и не только читайте также на канале hello world
Статья в блоге Виталия Бахвалова про то как с помощью Python-скрипта парсить объявления из Директа http://italylov.ru/blog/all/parsim-obyavleniya-v-direkte-i-delaem-skrinshoty/
Собрал все ссылки про Pandas, которые были размещены в этом канале и не только, на одну страничку, с тегами и указанием языка статьи или туториала. Также там есть ссылка на случай, если кто-то захочет предложить свою статью или заинтересовавшую статью. Делитесь, распространяйте добро) http://bit.ly/2GFnA21
Руководство о том как установить и запустить Jupyter Notebook на выделенном сервере. Отдельный полезнейший бонус этой статьи - как получить и настроить SSL-сертификат от Let's Encrypt для сервера Юпитера. Лично мне держать и запускать свои ноутбуки на выделенном сервере намного удобнее, чем на своем компьютере, так что советую присмотреться к руководству. https://janakiev.com/blog/jupyter-notebook-server/
Седьмая часть из серии статей про автоматизацию рутины с помощью Python. Chang Hsin Lee рассказывает о том как записывать датафреймы в Excel с помощью библиотеки openpyxl, а также как форматировать стили внутри ячеек, чтобы всё было красиво и не приходилось потом в Excel переделывать стили сохраненных экселек. https://changhsinlee.com/pyderpuffgirls-ep7/
В последнее время, становится ясным, что программирование - это уже не только удел технарей, но и тех, кто занимается различными видами гуманитарных и социальных наук. Прежде всего, это связано с ростом количества данных, которые используются в исследованиях. Тут как-то так вышло, что на портале Цифровой Дискурс (@discoursedigital) вышла статья про R и Python для различных НЕпрограммистов🙃 с моим большим комментарием. В нем я рассказываю о том как начать использовать Python, освещаю популярные библиотеки и делюсь своим мнением о том как новичку начать свой путь в программировании. https://discourse.digital/blogs/r-i-python-dlja-gumanitariev-i-neprogrammistov/