Datalytics – Telegram

Datalytics

9.08K subscribers

218 photos

17 videos

5 files

673 links

Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение — @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr

Download Telegram

About

Blog

Apps

Platform

9.08K subscribers

Анализ выживаемости (survival analysis) — класс статистических моделей, позволяющих оценить вероятность наступления события. Своё название он получил из-за того, что этот анализ широко применяется в медицинской сфере для оценки продолжительности жизни в ходе исследований методов лечения. С его помощью можно понять какие факторы увеличивают вероятность наступления события, а какие уменьшают

Этот метод применяется и за рамками медицины, например, можно предсказывать время использования (lifetime) клиентов в сервисе

Для того, чтобы провести анализ выживаемости с помощью Python существует библиотека lifelines, которая предоставляет набор простых в использовании методов для оценки вероятности наступления событий во времени

Документация у библиотеки подробная и с множеством примеров, например, тут описывается процесс создания предсказательной функции на примере длительности существования политических режимов

https://github.com/CamDavidsonPilon/lifelines

GitHub - CamDavidsonPilon/lifelines: Survival analysis in Python

Survival analysis in Python. Contribute to CamDavidsonPilon/lifelines development by creating an account on GitHub.

3.64K views09:13

Приглашаю всех на онлайн конференцию Матемаркетинг, где 11-го ноября я участвую в обсуждении собеседований в мире аналитики и пробую понять, нужны ли на них вопросы по теорверу. Мой коллега, Марк Сысоев, тоже участвует в конфе и расскажет про жизненный цикл аналитики в организации.

Посмотрите доклад прошлого года, в котором Марк поделился тем, как он занимался анализом пользовательского опыта учеников SkyEng с помощью customer journey map и как делать это на бесплатных инструментах:
https://www.youtube.com/watch?v=A9TIOFrEwN4

В 18-м году еще был крутой доклад Павла Левчука (Senior Product Manager Social Tech) с конкретными примерами того, как продуктовому аналитику победить churn (когорты, Life-Cycle Grid, реактивация, вовлечение, кластеризация, ретеншен): https://www.youtube.com/watch?v=JNgzuZuepV0

Матемаркетинг-2020 - это самая большая российская конференция по маркетинговой и продуктовой аналитике, монетизации и решениях, основанным на данных. Она пройдет с 9 по 13 ноября, подробности тут:
https://bit.ly/348bLwy

Специально для подписчиков организаторы подготовили промокод - datalytics на скидку в 10%

Марк Сысоев, SkyEng - Customer Journey Mapping с помощью цепей Маркова.

Совсем скоро Матемаркетинг-22, 17-18 ноября
Подробности: https://matemarketing.ru/
Программа: https://clck.ru/y6jEV
Купить билет: https://matemarketing.ru/

Марк Сысоев рассказывает, как он занимался анализом пользовательского опыта учеников
онлайн-школы…

10.6K viewsedited 13:06

Статья, в которой подробно разбирается задача визуализации пересекающихся множеств, а также демонстрируется библиотека supervenn, которая позволяет в удобной форме анализировать пересечение множеств. Это может быть полезным в работе аналитике, например, если вы захотите оценить какие товарные категории чаще всего пересекаются между собой в корзинах покупателей интернет-магазина

https://habr.com/ru/company/yandex/blog/501924/

Как построить диаграмму Венна с 50 кругами? Визуализация множеств и история моего Python-проекта с открытым кодом

Всем привет, меня зовут Фёдор Индукаев, я работаю аналитиком в Яндекс.Маршрутизации. Сегодня хочу рассказать вам про задачу визуализации пересекающихся множеств и про пакет для Python с открытым кодом...

2.87K views07:40

Forwarded from местный датасасер ☮️

Вчера вышел Python 3.9! 🥳
Лично я по питону сильно соскучился, ибо уже второй месяц пишу только на C и плюсах, а тут еще и обнова подъехала 😎

Итак, что нового и действительно интересного:
1. Новые операторы для словарей: finally можно нормально их мержить:

dict1 = {'x': 1, 'y': 2}
dict2 = {'x': 4, 'z': 5}
print(dict1 | dict2)  # выведет {'x': 4, 'y': 2, 'z': 5}

2. Методы строк, позволяющие получить строку без указанного префикса/суффикса:

"abcdef".removeprefix("abc")  # выведет def
"abcdef".removesuffix("def")  # выведет abc

3. Более удобные декораторы, теперь там можно делать что-то такое:

@buttons[0].clicked.connect
def spam():
    ...

📗 Также добавили плюшек в аннотации, обновили поддержку Юникода и много других мелочей, о которых можно почитать на официальном сайте.
Отдельный респект за очередную отсылку к Монти Пайтону на странице обновы

2.99K views15:25

Дмитрий Федеров перевёл официальные туториалы по Pandas на русский язык. Теперь это один из тех (немногочисленных) русскоязычных материалов, которые я могу смело рекомендовать любому, кто начинает изучать Pandas

http://dfedorov.spb.ru/pandas/

6.39K views16:33

В Телеграме очень много каналов про аналитику, в определенный момент я задался странным желанием собрать их все. У меня вообще страсть к коллекционированию информации. Я выискиваю даже самые небольшие каналы джунов/начинающих и подписываюсь на них, чтобы понять какие проблемы их волнуют.

И вот я в своём расстройстве зашёл так далеко, что решил спарсить все посты из этих каналов, да ещё и с указанием количества просмотров. Появилась небольшая такая таблица на 11000 записей. Да, я из тех людей, которые сначала соберут тьму данных, а потом решают, что с ними делать.

Сидел-сидел и понял, что хочу сделать так, чтобы информация из каналов в Телеграме приобретала вторую жизнь, просмотры набирали бы не только свежие посты, но и старые/проверенные/новые с небольшим числом просмотров. Сначала думал вручную собрать посты в коллекции (например, про АБ-тесты, про SQL, про визуализацию и т.д.) и разместить на отдельных страничках через embed-виджеты. Получились бы такие небольшие базы знаний. Но мне стало немного лениво/скучно/тревожно при мысли о том, чтобы вручную отбирать хорошие посты и классифицировать их. Поэтому я неумело сделал препроцессинг текстов постов и теперь готов к классификации с использованием ARTIFICIAL INTELLIGENCE!!!

Что дальше?

Дальше хочу сделать небольшой сервис, где выбираешь интересующую тематику, например, "Продуктовые метрики" и тебе подсовываются рандомно-хорошие посты из разных каналов на эту (или семантически-похожую) тему.

Поэтому ищу руки-ноги-головы, готовые помочь с:
а) Алгоритмом кластеризации/классификации (нужно сначала выделить потенциальные классы, предполагаю, что лучше всего каким-нибудь LDA, а затем обучить модельку)
б) Простенькой mobile-first веб-мордой

Пишите в комментах

3.54K viewsedited 21:24

Замечаете, что данные окружают вас повсюду и постоянно ищите между ними взаимосвязи? Этой осенью проект Digital Leader при поддержке Intel, VMware и Hewlett Packard Enterprise проведет онлайн-хакатон для датасайентистов, мыслящих вне рамок и шаблонов.

Для участия в конкурсном отборе необходимо сформулировать оригинальную/смешную/креативную гипотезу, протестировать ее на существующем датасете, ярко визуализировать результаты и прислать работу организаторам до 10 ноября.

Победитель получит денежный приз, а все участники – возможность завоевать признание профессионального сообщества. Победителя в режиме онлайн определит жюри, состоящее из экспертов Яндекса, СберМаркетинга, КРОК и других компаний, а также всех посетителей отчетного ивента уже 19 ноября!

Подробнее про онлайн-хакатон New Data Tech, условия участия, призы и т.д. – по ссылке https://clck.ru/RmwYL

3.12K viewsedited 17:40

Forwarded from Ivan Begtin (Ivan Begtin)

Для тех кто работает с данными постоянно, выбирает инструменты для экспериментов, создает методологии и исполняемые статьи (executive papers) подборка инструментов для автоматизации работы:

Проекты с открытым кодом:
- Jupyter Notebook и JupyterLab [1] - стандарт де-факто, используется в большинстве проектов
- Apache Zeppelin [2] - система записных книжек с поддержкой SQL и Scala, с открытым кодом
- BeakerX [3] - расширения для Jupyter Notebook с дополнительными возможностями, такими как интерактивными таблицами
- Polynote [4] - платформа для записных книжек на Scala от Netflix
- Elyra [5] - расширения для Jupyter Notebook для работа с AI

Внутри редакторов кода
- Pycharm [6] - поддерживает Jupyter Notebook прямо в среде разработки. Коммерческий
- Hydrogen [7] - поддержка Jupyter Notebook внутри редактора Atom. Открытый и бесплатный

Облачные коммерческие продукты:
- DeepNote [8] - коммерческий продукт совместимый с Jupyter
- franchise [9] - облачные записные книжки для работы с SQL
- Starboard [10] - записные книжки с поддержкой Markdown, Latex, Javascript и Python. Стартап
- Google Colab [11] - облачные записные книжки на базе Jupyter от Google
- Microsoft Azure Notebooks [12] - облачные записные книжки на базе Jupyter от Microsoft
- Wolfram Notebooks [13] - специализированные научные блокноты на базе языка Wolfram

Корпоративные продукты:
- DataIku [14] - комплексный продукт организации работы data scientist'ов

Список наверняка неполный и его ещё не раз можно пополнять.

Ссылки:
[1] http://jupyter.org
[2] https://zeppelin.apache.org/
[3] http://beakerx.com/
[4] https://polynote.org
[5] https://elyra.readthedocs.io/en/latest/
[6] https://www.jetbrains.com/help/pycharm/jupyter-notebook-support.html
[7] https://nteract.io/atom
[8] https://deepnote.com
[9] https://franchise.cloud/
[10] https://starboard.gg
[11] https://colab.research.google.com
[12] https://notebooks.azure.com/
[13] https://www.wolfram.com/notebooks/
[14] http://dataiku.com/

#datascience #tools

Project Jupyter

The Jupyter Notebook is a web-based interactive computing platform. The notebook combines live code, equations, narrative text, visualizations, interactive dashboards and other media.

2.89K views16:42

Отличная статья о том как выстроена машина экспериментов в Flo Health. Статья в меньшей степени рассказывает про особенности статистической оценки результатов тестирования, а освещает вопросы построения архитектуры обработки данных для автоматизации экспериментов

https://medium.com/flo-engineering/how-flo-conducts-experiments-5ee35fc3327f

How Flo Conducts Experiments

Let’s take a deep dive into the experiments from an engineering point of view.

3.04K views21:58

📊Статистика, прогнозирование, эксперименты и AB-тестирования🔬

**Эксперименты**

Расчёт каннибализации на основе классического A/B-теста и метод bootstrap’а
Множественные эксперименты: теория и практика
🔥 Подборка от Vit Cheremisinov и Iskandar Mirmakhmadov
Простой гид по байесовскому А/B-тестированию на Python
Краткое руководство по реализации A/B тестов на Python
Математика A/B-тестирования с примером кода на Python
Байесовский подход к оценке результатов A/B-тестирования
A/B-тесты на несбалансированных выборках
Про архитектуру экспериментов в Flo Health [data engineering]

**Методики**

Разбор и несколько примеров расчёта effect size (величины эффекта)
Метод оценки максимального правдоподобия (MLE)
Кластеризация последовательности значений с помощью метода оптимизации Дженкса
Predictive Power Score для линейной и нелинейной зависимости

**Туториалы**

🔥 Тестирование статистических гипотез с помощью Python
🔥 Сборник готовых рецептов для практического применения статистических методов
Пример использования критерия хи-квадрат
Виды распределений вероятностей
🔥Расчет доверительных интервалов с помощью Bootstrap
Анализ time-series данных с помощью Pandas
Гайд по работе с временными рядами в Python
Основы описательной статистики с помощью Python

**Библиотеки**

Библиотека `pingouin` для статистического анализа
Работа с вероятностными моделями в `pomegranate`
Библиотека `atspy` для прогнозирования временных рядов
Работа с временными рядами в библиотеке `darts`
Анализ выживаемости с помощью библиотеки `lifelines`

4.86K views19:30

Datalytics pinned «📊Статистика, прогнозирование, эксперименты и AB-тестирования🔬 **Эксперименты** Расчёт каннибализации на основе классического A/B-теста и метод bootstrap’а Множественные эксперименты: теория и практика 🔥 Подборка от Vit Cheremisinov и Iskandar Mirmakhmadov…»

19:30

Вот такая получилась подборочка. Завтра будет про пандус

3.01K views19:36

🐼 Pandas (part I) 📈

**Для начинающих**

Руководство по Pandas для начинающих
Курс по работе с Pandas
Визуальный гайд по работе с Pandas
Русскоязычный гайд про Pandas
Видеолекция Ильи Щурова про Pandas
Обзорная статья про Pandas
🔥 Русскоязычный гайд по Pandas от Алексея Куличевского
🔥 Введение в pandas: анализ данных на Python (на русском)
Как устроены Series в Pandas
Советы о том как выбирать колонки датафрейма в Pandas
Всеобъемлющий туториал по Pandas
Иллюстрированная статья про функции объединения в pandas
Чтение файлов csv, создание dataframe и фильтрация данных
100 полезных приёмов и хаков в Pandas от Kevin Markham, собранные в одном ноутбуке
Агрегация и группировка данных с помощью pandas
Мини-курс по Pandas на Kaggle
🔥 Перевод официальных туториалов Pandas на русский

**Оформление**

Вывод датафреймов с помощью styling
Форматирование таблиц в Pandas
Как создать оформленную HTML таблицу из pandas DataFrame

**Методы**

Обзор метода read_csv
Выбор сэмпла из датафрейма с помощью sample
Метод query
Трансформация данных (pivot, stack, unstack)
Как сделать ВПР (VLOOKUP) в Pandas
Map и replace
Выбор данных (slicing)
Почему Method Chaining — это хорошо
Melt в pandas
Apply и lambda
Как работают группировки
Новые методы в pandas 0.25.0
iterrows() vs itertuples()
Методы трансформации данных
Методы loc и iloc для индексации по датафрейму
Как разбить данные на диапазоны в pandas: cut и qcut
Метод resample для изменения группировки данных, содержащих дату-время
Три метода Pandas, о которых вы, возможно, не знали
4 крутых функции Numpy
Обзор пяти простых, но эффективных, методов pandas: shift, mask, value_counts, nlargest, nsmallest
Обзор нескольких новых функций в Pandas 1.0

6.03K views10:28

Datalytics pinned «🐼 Pandas (part I) 📈 **Для начинающих** Руководство по Pandas для начинающих Курс по работе с Pandas Визуальный гайд по работе с Pandas Русскоязычный гайд про Pandas Видеолекция Ильи Щурова про Pandas Обзорная статья про Pandas 🔥 Русскоязычный гайд…»

10:30

Forwarded from Войти в IT

Андрей Дорожный со своей командой дата-журналистов запустили проекты по обучению визуализации в Tableau и программированию на языке Python. Ссылка на Мастерскую важных историй.

Мастерская Важных историй

Мастерская — это образовательный проект «Важных историй» (istories.media) для журналистов, в котором мы рассказываем о крутых инструментах для сбора, анализа и визуализации данных.
Мы хотим, чтобы как можно больше журналистов в России знали, как делать качественные…

3.06K views11:49

🐼 Pandas (part II) 📊

Tips & Tricks

Шп аргалка по Pandas 1
Шпаргалка по Pandas 2
Набор небольших советов
Обзор различных хаков Pandas
Подборка полезных сниппетов 1
Подборка полезных сниппетов 2
Шпаргалка по работе с различными форматами файлов (csv, xml, json и многие другие)

Другое

Выгрузка файла csv из Jupyter Notebook через браузер
Как в Pandas разбить одну колонку на несколько
Сборник упражнений по Pandas
Примеры использования нестандартных команд в Pandas
Туториал по обработке данных
Советы для эффективной обработки данных в Pandas
Импорт данных в Pandas
Очистка и подготовка данных
Статья про индексы в датафреймах
Что под капотом у фильтрации в Pandas
Как трансформировать JSON с множественными уровнями вложенности в DataFrame
Как ухаживать за пандами [видео]
Как сделать исключение одного датафрейма из другого
Обработка данных в разных форматах
Regex with Pandas and Named Groups
Что принёс нам Pandas 1.0
Примеры использования pandas для тестирования алгоритмов сбора и обработки данных
Как использовать if-else конструкции для формирования новых колонок в pandas
Библиотека sidetable — value_counts() на стериодах
Про преобразование значений из численного в категориальный
Индексы в Pandas

Производительность

Ср авнение производительности функций
Руководство по использованию pandas для анализа больших датасетов
Организация циклов через iterrows и apply
Почему каждый Data Scientist должен знать Dask
Производительность циклов в pandas
Оптимизация памяти при работе с pandas
Советы как снизить потребление памяти в Pandas
Как анализировать большой объем данных с помощью библиотеки vaex
Ускорение обработки больших датасетов с помощью dask и parquet
Добавляем параллельные вычисления в Pandas с pandarallel
Ian Ozsvald - Making Pandas Fly

5.41K viewsedited 11:02

Datalytics pinned «🐼 Pandas (part II) 📊 Tips & Tricks Шпаргалка по Pandas 1 Шпаргалка по Pandas 2 Набор небольших советов Обзор различных хаков Pandas Подборка полезных сниппетов 1 Подборка полезных сниппетов 2 Шпаргалка по работе с различными форматами файлов (csv, xml…»

11:03

📊 Визуализация данных 🧑‍🎨

**Туториалы matplotlib**

50 визуализаций с помощью matplotlib
Шпаргалка по matplotlib
Anatomy of figure in matplotlib
🔥 50 примеров крутых графиков на Matplotlib и Seaborn
Способы создания гистограмм с помощью Python
Введение в визуализацию данных с помощью Matplotlib

**Туториалы Seaborn**

Подробный гайд по визуализации с помощью Seaborn
Визуализация данных в Seaborn
🔥 Русскоязычный гайд про визуализацию данных с помощью Seaborn

**Туториалы Plotly**

Статистический анализ с использованием Plotly
Многомерные графики в Python
Шпаргалка по визуализации данных в Python с помощью Plotly

**Туториалы по визуализации с Pandas**

Создание гистограм с помощью встроенных методов pandas
Как строить визуализации с помощью методов, встроенных в ацессор plot в Pandas

**Другие туториалы**

Визуализация с помощью Altair
Визуализация геоданных с помощью Folium
Туториал по визуализации с использованием Bokeh
🔥 Complete Guide to Data Visualization with Python
Визуализация данных с помощью Altair
Как делать интерактивные визуализации с помощью Bokeh в одну строчку с библиотекой `Pandas-Boken`

**Библиотеки**

Библиотека manim для создания научных анимаций
Визуализация геопространственных данных с помощью библиотеки geoviews
Библиотека для создания анимированных гифок с помощью matplotlib
Графики как в ggplot (R) с помощью библиотеки `plotnine`
Библиотека `supervenn` для визуализации пересекающихся множеств

**Книги и курсы**

Книга на русском языке по Matplotlib от DevPractice

**Другое**

15 роликов про визуализацию на matplotlib

6.09K views11:59

Datalytics pinned «📊 Визуализация данных 🧑‍🎨 **Туториалы matplotlib** 50 визуализаций с помощью matplotlib Шпаргалка по matplotlib Anatomy of figure in matplotlib 🔥 50 примеров крутых графиков на Matplotlib и Seaborn Способы создания гистограмм с помощью Python Введение…»

11:59

Forwarded from Reveal the Data

Женя Козлов, построивший с нуля отдел аналитики Яндекс.Такси в сотню человек, написал лонгрид об оценке профессионального уровня аналитиков данных.

Ещё Женя любит применять аналитические подходы и к повседневной жизни, пишет об этом в своем телеграм-канале

#ссылка

ᐈ Навыки и требования к аналитикам данных на разных уровнях в «Яндексе». Профессия аналитика данных

Какими бывают уровни аналитика данных, как развиваться в профессии и какие компетенции нужны топовым аналитикам

3.82K views09:33

Дмитрий Федоров перевёл гайд "Pandas за 10 минут" из официальной документации. Ещё один отличный русскоязычный материал, который можно смело рекомендовать для изучения Pandas. Скажем Дмитрию огромное спасибо (а ещё лучше подписывайтесь на его канал)!

http://dfedorov.spb.ru/pandas/Pandas%20%D0%B7%D0%B0%2010%20%D0%BC%D0%B8%D0%BD%D1%83%D1%82.html

3.52K views07:55