Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Короткий гайд об использовании функций map и replace в Pandas https://kanoki.org/2019/04/06/pandas-map-dictionary-values-with-dataframe-columns/
JetBrains объявили о сотрудничестве с Anaconda. Первым шагом стал новый релиз PyCharm, в котором улучшена поддержка окружений Conda. Также JetBrains анонсировали PyCharm for Anaconda ( https://www.jetbrains.com/pycharm/promo/anaconda/) - полноценную среду разработки для анализа данных и различных научных вычислений с поддержкой Jupyter Notebooks. Жить становится лучше, жить становится веселее😊 https://blog.jetbrains.com/pycharm/2019/04/collaboration-with-anaconda-inc/
Павел Максимов (@pavel_maksimow) выложил в открытый доступ обертку для более удобной работы с API Google Analytics на Python.

- Умеет запрашивать данные маленькими порциями, чтобы обойти семплирование.

- Если в один ответ не поместятся все строки (макс 10000), сделает дополнительные запросы.

- По умолчанию возвращает данные в формате dataframe.

Налетай! Торопись! https://bit.ly/2WYeDpr
Небольшой гайд про выбор (слайсинг) данных из датафрейма. Новичкам будет полезно для того, чтобы понять чем loc отличается от iloc и когда нужно использовать какую из функций. Также там есть интересный пример использования filter для формирования выборки на основе регулярки https://www.pluralsight.com/guides/indexing-selecting-data
Алексей Куличевский написал статью о том как сделать когортный анализ в Pandas. Как всегда подробно и круто! http://smysl.io/blog/pandas-cohorts/
Ответы на вопрос "Почему Python такой плохой язык программирования?". Ожидаемо, что ругаются на то какой он медленный, на табуляции и на динамическую типизацию. А ещё некоторым людям не нравится слишком дружелюбное сообщество и то, что порог входа в Python слишком низкий, настолько низкий, что его даже советуют изучать детям! Ужас какой-то, программисты на Perl явно негодуют. https://www.quora.com/Why-is-python-so-bad
tg_image_250679840.jpeg
29.2 KB
А давайте немного поразгадываем головоломки. Что делает вот такой кусок кода? Правильный ответ выложу завтра в 15:00, к этому времени все успеют попробовать запустить🙃
Классный ноутбук с подробными комментариями, объясняющий основы разведочного анализа данных на примере данных о сердечно-сосудистых заболеваниях. Рекомендую ознакомиться, написано всё интересно и качественно👍https://www.kaggle.com/emstrakhov/lesson-1-eda-with-pandas
Отвечая на вопрос о вчерашней головоломке. Этот код задает в колонке some_column значение, равное 1, для 10% случайно выбранных строк датафрейма. Мне кажется, что для новичков будет полезным детально рассмотреть как работает эта строчка кода, потому что там зарыто много мелких неочевидных нюансов. Написал про это статью: http://datalytics.ru/all/golovolomka-pro-randomny-sempl/
Подробный гайд по визуализации данных с помощью Seaborn.

Лично мне Seaborn нравится больше, чем matplotlib, какие-то более аккуратные графики в нём получаются, даже если использовать дефолтные визуализации.

https://elitedatascience.com/python-seaborn-tutorial
Перевод статьи из блога DataQuest о том как использовать Pandas для анализа тяжелых датасетов. Рассматриваются методики преобразования типов к более легковесным, оптимизация хранения объектных типов с помощью их преобразования к категориальным типам. В итоге, на тестовом датасете получилось на 90% снизить объем памяти, нужной для хранения датасета. https://habr.com/ru/company/ruvds/blog/442516/
Наткнулся на интересную утилиту csvkit.

Это набор инструментов, вызываемых из командной строки, позволяющих быстро производить рутинные операции с csv.
Так csvkit умеет конвертировать csv в json и обратно, читать xlsx-файлы, находить строки, соответствующие условию, вытягивать и передавать данные в БД. Ну и ещё много всего. Почитайте доку, там интересно

https://csvkit.readthedocs.io/en/latest/
Анимации помогают осветить определенные аспекты визуализации, которые никак не могут быть показаны статическими графиками.

Например, автор YouTube-канала 3Blue1Brown использует Python, чтобы красивые визуальные объяснения сложных математических концепций. Рекомендую посмотреть несколько видео, например, про фракталы там рассказано очень интересно. Для создания этих анимаций автор разработал целую библиотеку под названием Manim (Mathematical Animation Engine)

Manim крутой, но сложный. Если вы хотите быстро научиться создавать анимации, то вот вам большая статья с примерами создания анимированных графиков с помощью библиотеки matplotlib. https://python-scripts.com/animations-with-matplotlib
Крутейший гайд по визуализации данных с помощью matplotlib и seaborn. Особенно ценная штука - схема "Anatomy of a figure", на которой представлены элементы чарта в matplotlib. Основываясь на этой схеме, становится понятнее какими элементами можно управлять и что "гуглить"🙂Ну и интересно про GridSpec

https://towardsdatascience.com/a-step-by-step-guide-for-creating-advanced-python-data-visualizations-with-seaborn-matplotlib-1579d6a1a7d0
Странное конечно название у статьи - "Pandas вместо SQL". Но суть полезная - сравнение синтаксиса SQL с Pandas. Будет крайне полезно для тех, кто знает SQL, но хочет подучить Pandas.
https://tproger.ru/translations/rewrite-sql-queries-in-pandas/amp/
Собрал все ссылки про Pandas, которые были размещены в этом канале и не только, на одну страничку, с тегами и указанием языка статьи или туториала. Также там есть ссылка на случай, если кто-то захочет предложить свою статью или заинтересовавшую статью.

С тех пор как я выкладывал эту ссылку в первый раз, в канале уже сильно подросло количество народу, да и саму подборку я актуализировал, например, сильно подросло количество статей на русском.

Делитесь, распространяйте)

http://bit.ly/2GFnA21