Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Forwarded from Этюды для программистов на Python (Дима Федоров)
Подготовил перевод двух интересных статей для любителей покопаться в pandas 🐼

👉 Объяснение кросс-таблицы (crosstab) в Pandas

👉 Разделение (биннинг, дискретизация, балансировка) данных с помощью qcut и cut в Pandas
Ребята из EXPF подготовили отличный перевод статьи про методику проведения экспериментов Switchback. Эта техника тестирования полезна в условиях сильного влияния наблюдений (например, таксистов, курьеров или потребителей) друг на друга — эту проблему еще называют как “социальный эффект” или Network Effect.

В Ситимобил уже успешно внедряется свитчбэк-тестирование. В конце статьи вы можете прочитать комментарий об их опыте и впечатления от использования свитчбэка из первых уст.

Switchback-тестирование. Как бороться с социальными эффектами в A/B-тестах

16 марта у EXPF стартует интенсив «Математическая статистика и A/B-тесты», где будут на практике рассмотрены основные методологические и математические проблемы A/B тестирования. Этот интенсив будет полезен всем, кто хочет начать разбираться в теме и начать проводить A/B тесты так, чтобы их результатам можно было доверять.
Forwarded from Этюды для программистов на Python (Дима Федоров)
По многочисленным просьбам подготовил переводы про визуализацию и обработку данных для ML 🐍

👉 Эффективное использование Matplotlib

👉 Руководство по кодированию категориальных значений в Python

Приятного чтения! 🐼

PS. остальные переводы и кейсы по ссылке ⚡️
Forwarded from Этюды для программистов на Python (Дима Федоров)
После matplotlib и seaborn для меня Altair стал открытием 🤯
У него другая логика работы и невероятная интерактивность на основе JavaScript 🥰

Рекомендую оценить примеры и упражнения из переведенных уроков:

👉 Введение в визуализацию данных с помощью Altair (часть 1)

👉 Визуализация данных с помощью Altair (часть 2)

👉 Визуализация данных с помощью Altair (часть 3)

Приятного чтения! 🐼
Forwarded from Этюды для программистов на Python (Дима Федоров)
При использовании pandas существует несколько методов очистки текстовых полей для подготовки к дальнейшему анализу.
В новой статье показаны примеры очистки текстовых полей в большом файле и даны советы по эффективной очистке неструктурированных текстовых полей с помощью Python и pandas 🐼

👉 Читать Эффективная очистка текста с помощью Pandas

👉 Запустить примеры в Colab, немного оптимизировал код для этой среды 😇

Приятного чтения! 🐍
Интересный пример анализа текста на естественном языке (NLP) для решения задачи HR-аналитики. Автор использует алгоритм создания саммари с помощью Gensim и метрику cosine_similarity, чтобы сравнить степень сходства резюме с описанием вакансии. Практического толка от этого, на мой взгляд, не очень много, но это хороший пет-проджект для знакомства с методами NLP, который вы можете реализовать сами. Благо, что методы поиска вакансий в API HH открыты, а значит вы можете спарсить все интересующие вас вакансии

https://habr.com/ru/company/skillfactory/blog/544420/
Forwarded from Этюды для программистов на Python (Дима Федоров)
Подготовил обзор двух полезных модулей 🐍

Pandas Profiling - это библиотека для генерации интерактивных отчетов (по ссылке пример отчета) на основе пользовательских данных: можем увидеть распределение данных, типы, возможные проблемы. Библиотека очень проста в использовании: можем создать отчет и отправить его кому угодно! 🐼

👉 Использование модуля Pandas Profiling для профилирования или в CoLab

Folium - это библиотека, которая позволяет рисовать карты, маркеры, а также отмечать собственные данные (по умолчанию в OpenStreetMap) 🗺

👉 Используем модуль folium для рисования карт или в CoLab

📚 Остальные переводы, обзоры и кейсы по анализу данных доступны по ссылке.
Николай Валиотти (автор канала LEFT JOIN) проанализировал мрачность текстов нового альбома Земфиры «Бордерлайн», проведя EDA по текстам песен, а затем оценив семантическую близость песен с помощью Word2Vec. Николай проделал отличную работу, оформив всё в крутую статью!

https://leftjoin.ru/all/borderline-text-analysis/
Мы обнаружили, что пользователи, которые присоединились к нам в последние месяцы, не проводят так много времени в приложении. Как бы вы исследовали эту ситуацию? Этот вопрос – один из первых, который задают на собеседовании в Amplitude.

После ответа на него, соискатель получает еще несколько вопросов. Например, таких: мы обнаружили, что наши retention метрики поползли вниз на прошлой неделе. Как бы вы выясняли в чем причина? Завтра будет ваш первый день в нашей компании, и мы дадим вам доступ к нашим базам данных. С чего вы начнете свой первый день?

Проверяется, разумеется, "работа мысли" кандидата. Как он аргументирует свою точку зрения и чем объясняет подходы к задаче. Очень часто после этого представитель Amplitude хвалит за ответ и рассказывает свое решение – стройное, убедительное, ёмкое и спрашивает кандидата, согласен ли он с этим решением. В этом скрывается подвох: транслируемое решение логически неверное, и цель этого вопроса – проверить готовность соискателя спорить и отстаивать свою точку зрения.

Продуктовые менеджеры и аналитики управляют тысячами различных взаимодействий, которые пользователи совершают в продукте. Для ответов на вопросы «Почему это произошло?» или «Что бы мы могли попробовать», им необходимо поработать с друг с другом, инженерами, службой поддержки и другими сотрудниками компании, чтобы убедиться, что они исследуют нужные области.

- Отличное понимание продукта и пользователей.
- Генерирование сильных гипотез.
- Глубокое понимание инженерии сбора событий.
- Дизайн экспериментов

Всё это – не только ключевые области знаний продуктового аналитика, которые проверяют на собеседовании в Amplitude (и многие другие компании), но и ключевые темы конференции по продуктовой аналитике Aha!, которая состоится 8-9 апреля в онлайн формате. В программе 32 лекции от ведущих специалистов в области продуктовой аналитики и десяток мастер-классов с отличным продакшеном.

Событие глубоко техническое, так как ничто не освобождает вас от знания матчасти. Главные ошибки происходят из-за слабого или неверного понимания низкоуровневых вещей. В критической ситуации вы упадете до уровня своих компетенций, а не подниметесь до уровня своих ожиданий...

➡️ Программа: таблица, документ
Зарегистрироваться по ссылке
Промокод от канала на 10% скидку – datalytx

Я тоже участвую – увидимся в чатах
Forwarded from Этюды для программистов на Python (Дима Федоров)
Подготовил обзор модуля pandera 🐍

Pandera - инструмент для проверки фреймов данных pandas, который предоставляет интуитивно понятный, гибкий и выразительный API 🐼

👉 Проверка статистических данных с помощью модуля pandera или в CoLab

Приятного чтения! 📚
​​Rambler и Работа.ру сделали подкаст о выборе профессии. А мне посчастливилось быть соведущей одного из выпусков.

Обсудили профессию аналитика, истоки и перспективы. Коснулись почти всех ключевых вопросов Дудя. В частности: про $.

В подскаст забегали интересные гости.

Послушать можно по ссылке:

https://music.yandex.ru/album/12729655/track/78071902
Сбер выпустил библиотеку для Process Mining — SberPM. Process Mining — это аналитический подход, при котором данные организации или любой другой информационной системы (приложения, процесса, производственной линии) используются для оптимизации целевых показателей этой системы. По сути Process Mining позволяет описать бизнес-процесс, опираясь на реальные события, протекающие в системе, а не с помощью «вытягивания» информации у ключевых стейкхолдеров. Таким образом, удаётся собрать реальную картину происходящего, чтобы найти «бутылочные горлышки» или другие места, где бизнес-процесс показывает себя неэффективно

https://habr.com/ru/company/sberbank/blog/549662/
Наткнулся на библиотеку Pandas TA, которая позволяет добавить в Pandas функционал для технического анализа (ценных бумаг). Всего эта библиотека даёт возможность добавить более 130 различных показателей: от очевиднейших скользящих средних (SMA, EMA и т.д.) до каких-то неопознанных мною осцилляторов Aroon и термометров Эдлера. Я в техническом анализе полнейший профан, но почитать про все эти показатели, пощупать их руками и понять их физический смысл очень интересно

https://github.com/twopirllc/pandas-ta
Когда мы придумывали Карьерный Цех, то для начала провели его для продуктовых менеджеров. Так как сами являемся в этом экспертами и нам нужно было как можно быстрее проверить основные гипотезы.

Но было понятно, что история может иметь продолжение и в других профессиях. И мы до этого дозрели🔥

Встречайте, Карьерный Цех для аналитиков.

Конкурс запускается в партнерстве с крутейшими ребятами из Матемаркетинга.

Вас ждут жизненные задания, направленные на поиск инсайтов в метриках, p2p оценка и итоговый рейтинг самых лучших, участием в котором можно украсить любое портфолио.

По датам - хотели отложить на осень, а то ведь праздники и так далее. Но подумали, что почему бы и не провести конкурс прямо сейчас.

Так что регистрация уже началась! А начало выполнения работ 30 апреля.

Будет чем заняться на майских праздниках 🙂

Поделитесь новостью с друзьями-аналитиками, им может быть интересно.
Forwarded from LEFT JOIN
Анализа данных с помощью SQL
Достаточно прикольный и полезный гайд по использованию SQL для анализа данных вместо Pandas.
Автор делится рядом любоптных идей: train/test split, линейная регрессия (оказывается, есть по умолчанию в PostgreSQL) и много других полезностей, собранных в одном месте, рекомендую!

Кстати, Mode когда-то тоже предлагали несколько изощренный способ построения регрессии с помощью SQL.

#link
Forwarded from Smart Data (Denis Solovyov)
Хочу всем порекомендовать курс по SQL от Анатолия Балакирева в рамках Data Learn. Наверное, самый подробный и полный бесплатный русскоязычный курс по SQL, который я видел.

Всегда уважаю и ценю такой большой труд.
Бесплатный онлайн-курс от Xsolla School для аналитиков

Стартовал набор на II поток курса для аналитиков
Продолжительность курса 9 недель

Курс состоит из вводной части и 8 занятий по ключевым скиллам аналитика:
— Подходы к сбору требований от стейкхолдеров
— Формирование требований к IT-продукту
— Практики оформления требований

Формат: онлайн-лекции и семинары

Курс будет полезен для начинающих аналитиков в продуктовых командах, а также для тех, кто хочет освежить базовые знания.

Регистрация: https://clck.ru/Uej4w
Дедлайн приема заявок: 10 мая 2021 включительно
Forwarded from Этюды для программистов на Python (Дима Федоров)
Подготовил новый перевод кейса с упражнениями! 🐍

Разбираем проект по анализу данных: исследуем средний вес новорожденных (запустить в CoLab):

Этот пример демонстрирует важные шаги практически в любом проекте по анализу данных:

0⃣ Определение данных, которые помогут ответить на вопрос.
1⃣ Получение данных и их загрузка в Python.
2⃣ Проверка данных и устранение ошибок.
3⃣ Выбор соответствующих подмножеств из данных.
4⃣ Использование гистограмм для визуализации распределения значений.
5⃣ Использование сводной статистики для описания данных таким образом, чтобы наилучшим образом ответить на вопрос.
6⃣ Рассмотрение возможных источников ошибок и ограничений в наших выводах.

Остальные переводы доступны по ссылке 🐼
Объяснение Z-статистики и p-value с помощью иллюстраций и кода на Python. Не могу сказать, что я бы рекомендовал эту статью, чтобы начать погружение, потому что всё же она изобилует примерами расчёта значений с помощью кода, а новичкам может быть сложно понять концепции математической статистики, если с кодом ещё не очень. Но для тех, кто уверенно чувствует себя с numpy/pandas, но ещё не очень хорошо разбирается в матстате — самое оно

А ещё в статье отличные примеры использования seaborn и matplotlib для построения кастомных визуализаций

https://habr.com/ru/post/557424/
Forwarded from Я у мамы аналитик (Stas Valuev)
В исследованиях рынков есть такой классный тип артефактов - Landscape. В идеале, он должен помогать понять 2 вещи:
🔹какие типы процессов или операций есть в отрасли;
🔹какие существуют инструменты для их реализации или автоматизации.

У такого формата есть существенный минус: сходу ничерта не ясно, да и понять что-то без дополнительной аналитики и пояснений непросто (особенно в новой для себя сфере).

Поэтому особое внимание к себе привлекают материалы вроде сегодняшнего The 2020 Data & AI Landscape, где есть и ландшафт рынка и понятные выводы.

Помимо картинок есть описание основных трендов в развитии инфраструктур для обработки данных, самой аналитики и AI (их довольно много, рекомендую самостоятельно ознакомиться).

Вот ссылка на картинку в хорошем разрешении.

🔗Ссылка на статью

#инструменты #анализ_рынка