Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Mozilla сделали свой инструмент для анализа данных Iodide. Попробовать можно тут: https://alpha.iodide.io/tryit Я, если честно, пока не до конца разобрался что получилось.

Создатели разнесли логику блокнотов на три составляющие:
- Editor, где можно задавать код на разных языках (js, css, python);
- Report Preview, где отображается вывод маркдауна, то есть результат исследования;
- Console, где выводится отладочная информация).

Тем самым Mozilla пытаются решить проблему шаринга результатов исследования, чтобы не приходилось потом собирать какой-нибудь отдельный Гугл Док с результатами и графиками. То есть идеальный процесс такой анализа данных в данном случае выглядит так, что аналитик попутно с разработкой алгоритма анализа сразу же выводит в Report найденные инсайты, оформленные в понятном для всех виде.

Задумка и подход интересные. Будем разбираться https://habr.com/ru/post/444596/
Йо-йо! Появилась запись митапа DigitalGod "Погружение в поведенческие данные веб-аналитики", на котором мы с Димой Родиным рассказывали про правильную настройку передачи clientId в Google Analytics, показали скрипт для выгрузки данных из нового User Activity API, а затем рассмотрели крутой пример анализа "сырых" данных о поведении https://digitalgod.be/blog/2019-03-22-meetup-2-deep-dive-web-analytics-data
Хорошая обзорная статья про Pandas. Освещаются вопросы от простых до сложных, начиная от того как загнать csv в pandas до не самых очевидных вещей вроде подсчета корреляции (df.cov) между колонками, экспоненциального среднего (df.ewm), нахождения процентного изменения со сдвигом (df.pct_change) https://medium.com/fintechexplained/did-you-know-pandas-can-do-so-much-f65dc7db3051
Если кто-то также как и я захотел наконец-то подтянуть свои знания в статистике, то отчаянно рекомендую курс "Introduction to Statistics" (https://stepik.org/course/701/syllabus) на Stepik. Меня очень радует, что курс содержит только текстовую информацию и никаких видео (мне очень тяжело воспринимать ролики, когда требуется погружение в сложный материал). Также в курсе крутые тестовые задания: радовался как ребенок, когда с первого раза решил задачку сопоставить бокс-плоты с гистограммами😄
Хорошая статья, в которой приводится пример простого (но от этого не менее полезного) анализа статистики группы ВКонтакте. Автор сначала получает данные через API (ноутбук со скриптом http://bit.ly/2HTjUv6), а затем с помощью Pandas и Matplotlib строит графики, позволяющие увидеть интересные закономерности https://habr.com/ru/post/440738/
Алексей Куличевский написал один из самых объёмных и доступных для понимания русскоязычных материалов по Pandas. Это бомба 💣 🔥http://smysl.io/blog/pandas/
Для одних визуализация данных является неотъемлемой частью их профессиональной деятельности, а для других — занимательным хобби. Для обмена опытом, взаимопомощи и эффективного обучения было основано Data Visualization Society. Присоединяйтесь! ✊🏻http://tiny.cc/egrs4y
Статья про продвинутое использование Jupyter Notebook. Если вы не в курсе что такое magic-команды и не знали, что можно выполнять shell'овские команды прямо из Юпитера, то найдете в статье много нового😉https://www.dataquest.io/blog/advanced-jupyter-notebooks-tutorial/
Короткий гайд об использовании функций map и replace в Pandas https://kanoki.org/2019/04/06/pandas-map-dictionary-values-with-dataframe-columns/
JetBrains объявили о сотрудничестве с Anaconda. Первым шагом стал новый релиз PyCharm, в котором улучшена поддержка окружений Conda. Также JetBrains анонсировали PyCharm for Anaconda ( https://www.jetbrains.com/pycharm/promo/anaconda/) - полноценную среду разработки для анализа данных и различных научных вычислений с поддержкой Jupyter Notebooks. Жить становится лучше, жить становится веселее😊 https://blog.jetbrains.com/pycharm/2019/04/collaboration-with-anaconda-inc/
Павел Максимов (@pavel_maksimow) выложил в открытый доступ обертку для более удобной работы с API Google Analytics на Python.

- Умеет запрашивать данные маленькими порциями, чтобы обойти семплирование.

- Если в один ответ не поместятся все строки (макс 10000), сделает дополнительные запросы.

- По умолчанию возвращает данные в формате dataframe.

Налетай! Торопись! https://bit.ly/2WYeDpr
Небольшой гайд про выбор (слайсинг) данных из датафрейма. Новичкам будет полезно для того, чтобы понять чем loc отличается от iloc и когда нужно использовать какую из функций. Также там есть интересный пример использования filter для формирования выборки на основе регулярки https://www.pluralsight.com/guides/indexing-selecting-data
Алексей Куличевский написал статью о том как сделать когортный анализ в Pandas. Как всегда подробно и круто! http://smysl.io/blog/pandas-cohorts/
Ответы на вопрос "Почему Python такой плохой язык программирования?". Ожидаемо, что ругаются на то какой он медленный, на табуляции и на динамическую типизацию. А ещё некоторым людям не нравится слишком дружелюбное сообщество и то, что порог входа в Python слишком низкий, настолько низкий, что его даже советуют изучать детям! Ужас какой-то, программисты на Perl явно негодуют. https://www.quora.com/Why-is-python-so-bad
tg_image_250679840.jpeg
29.2 KB
А давайте немного поразгадываем головоломки. Что делает вот такой кусок кода? Правильный ответ выложу завтра в 15:00, к этому времени все успеют попробовать запустить🙃
Классный ноутбук с подробными комментариями, объясняющий основы разведочного анализа данных на примере данных о сердечно-сосудистых заболеваниях. Рекомендую ознакомиться, написано всё интересно и качественно👍https://www.kaggle.com/emstrakhov/lesson-1-eda-with-pandas