Forwarded from Этюды для программистов на Python (Дима Федоров)
У меня две новости и обе хорошие 🥳
1) Добавил несколько кейсов и упражнений по Pandas и NumPy (можно прокачать скиллы по анализу товаров): https://dfedorov.spb.ru/pandas/
2) Завершил перевод статьи "Типичные задачи Excel, продемонстрированные в pandas": https://dfedorov.spb.ru/pandas/%D0%A2%D0%B8%D0%BF%D0%B8%D1%87%D0%BD%D1%8B%D0%B5%20%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B8%20Excel,%20%D0%BF%D1%80%D0%BE%D0%B4%D0%B5%D0%BC%D0%BE%D0%BD%D1%81%D1%82%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5%20%D0%B2%20pandas.html
1) Добавил несколько кейсов и упражнений по Pandas и NumPy (можно прокачать скиллы по анализу товаров): https://dfedorov.spb.ru/pandas/
2) Завершил перевод статьи "Типичные задачи Excel, продемонстрированные в pandas": https://dfedorov.spb.ru/pandas/%D0%A2%D0%B8%D0%BF%D0%B8%D1%87%D0%BD%D1%8B%D0%B5%20%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B8%20Excel,%20%D0%BF%D1%80%D0%BE%D0%B4%D0%B5%D0%BC%D0%BE%D0%BD%D1%81%D1%82%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5%20%D0%B2%20pandas.html
Forwarded from LEFT JOIN
В рекламном кабинете ВКонтакте при публикации объявления есть функция автоматического подбора целевой аудитории, но можно пойти и другим путём –– загрузить файл с идентификаторами конкретных людей, которым нужно показать рекламу. В новом материале рассказываем, как написать парсер участников сообществ конкурентов для VK API и загрузить полученную аудиторию в рекламный кабинет.
Мы попробовали запускать объявления обоими способами: бонусом в конце материала сравниваем результаты и отвечаем на вопрос, какой метод подбора аудитории оказался выгоднее.
Мы попробовали запускать объявления обоими способами: бонусом в конце материала сравниваем результаты и отвечаем на вопрос, какой метод подбора аудитории оказался выгоднее.
Forwarded from Я у мамы аналитик (Stas Valuev)
Пропусти я такую новость - плакал бы потом горькими слезами.
Ребятки запилили Jupiter Notebook в Excel'ке. Действительно, зачем выбирать между Python и аналитикой в уютных таблицах (не будем никому рассказывать, что есть еще BI), давайте "замочим" VBA и совместим все в один инструмент (а что, а вдруг).
Если серьёзно, это, конечно, на грани добра и зла, но может стать подспорьем для тех, кто только начинает переходить на сторону питона. Можно даже придумать пару боевых кейсов, когда может потребоваться экспорт графиков из ноутбука на лист Excel - для редких визуализаций или прогнозирования, к примеру (если вкусы весьма специфичны).
🔗 Ссылка
Ребятки запилили Jupiter Notebook в Excel'ке. Действительно, зачем выбирать между Python и аналитикой в уютных таблицах (не будем никому рассказывать, что есть еще BI), давайте "замочим" VBA и совместим все в один инструмент (а что, а вдруг).
Если серьёзно, это, конечно, на грани добра и зла, но может стать подспорьем для тех, кто только начинает переходить на сторону питона. Можно даже придумать пару боевых кейсов, когда может потребоваться экспорт графиков из ноутбука на лист Excel - для редких визуализаций или прогнозирования, к примеру (если вкусы весьма специфичны).
🔗 Ссылка
PyXLL
Python Jupyter Notebooks in Excel
Use Python Jupyter Notebooks right in Excel. Python Excel integration with Jupyter is a massive leap forwards for data analysis, modelling and dashboards.
Большая подборка материалов, посвященных машинному обучению, анализу данных и применению алгоритмов ML в бизнесе
https://habr.com/ru/article/533242/
https://habr.com/ru/article/533242/
Хабр
Библиотека данных: коллекция интересных хабрапостов про Data Science
С каждым годом сфера Data Science обрастает новыми методиками, терминами и направлениями. К счастью, у нас есть почти готовая энциклопедия по этой теме, которую год за годом кропотливо наполняло сообщество Хабра. Есть, правда, проблема: материалы сообщества…
Зарелизился JupyterLab 3.0. Из нового: встроенный визуальный дебаггер, виджет для навигации по блокноту (table of contents), улучшенная адаптивная верстка, установка расширений в Jupyter без ребилда. Полный changelog тут
https://blog.jupyter.org/jupyterlab-3-0-is-out-4f58385e25bb
https://blog.jupyter.org/jupyterlab-3-0-is-out-4f58385e25bb
Medium
JupyterLab 3.0 is released!
The 3.0 release of JupyterLab brings many new features to users and substantial improvements to the extension distribution system.
Forwarded from Этюды для программистов на Python (Дима Федоров)
Подготовил перевод двух интересных статей для любителей покопаться в pandas 🐼
👉 Объяснение кросс-таблицы (crosstab) в Pandas
👉 Разделение (биннинг, дискретизация, балансировка) данных с помощью qcut и cut в Pandas
👉 Объяснение кросс-таблицы (crosstab) в Pandas
👉 Разделение (биннинг, дискретизация, балансировка) данных с помощью qcut и cut в Pandas
Ребята из EXPF подготовили отличный перевод статьи про методику проведения экспериментов Switchback. Эта техника тестирования полезна в условиях сильного влияния наблюдений (например, таксистов, курьеров или потребителей) друг на друга — эту проблему еще называют как “социальный эффект” или Network Effect.
В Ситимобил уже успешно внедряется свитчбэк-тестирование. В конце статьи вы можете прочитать комментарий об их опыте и впечатления от использования свитчбэка из первых уст.
Switchback-тестирование. Как бороться с социальными эффектами в A/B-тестах
16 марта у EXPF стартует интенсив «Математическая статистика и A/B-тесты», где будут на практике рассмотрены основные методологические и математические проблемы A/B тестирования. Этот интенсив будет полезен всем, кто хочет начать разбираться в теме и начать проводить A/B тесты так, чтобы их результатам можно было доверять.
В Ситимобил уже успешно внедряется свитчбэк-тестирование. В конце статьи вы можете прочитать комментарий об их опыте и впечатления от использования свитчбэка из первых уст.
Switchback-тестирование. Как бороться с социальными эффектами в A/B-тестах
16 марта у EXPF стартует интенсив «Математическая статистика и A/B-тесты», где будут на практике рассмотрены основные методологические и математические проблемы A/B тестирования. Этот интенсив будет полезен всем, кто хочет начать разбираться в теме и начать проводить A/B тесты так, чтобы их результатам можно было доверять.
Forwarded from Этюды для программистов на Python (Дима Федоров)
По многочисленным просьбам подготовил переводы про визуализацию и обработку данных для ML 🐍
👉 Эффективное использование Matplotlib
👉 Руководство по кодированию категориальных значений в Python
Приятного чтения! 🐼
PS. остальные переводы и кейсы по ссылке ⚡️
👉 Эффективное использование Matplotlib
👉 Руководство по кодированию категориальных значений в Python
Приятного чтения! 🐼
PS. остальные переводы и кейсы по ссылке ⚡️
Forwarded from Этюды для программистов на Python (Дима Федоров)
После matplotlib и seaborn для меня Altair стал открытием 🤯
У него другая логика работы и невероятная интерактивность на основе JavaScript 🥰
Рекомендую оценить примеры и упражнения из переведенных уроков:
👉 Введение в визуализацию данных с помощью Altair (часть 1)
👉 Визуализация данных с помощью Altair (часть 2)
👉 Визуализация данных с помощью Altair (часть 3)
Приятного чтения! 🐼
У него другая логика работы и невероятная интерактивность на основе JavaScript 🥰
Рекомендую оценить примеры и упражнения из переведенных уроков:
👉 Введение в визуализацию данных с помощью Altair (часть 1)
👉 Визуализация данных с помощью Altair (часть 2)
👉 Визуализация данных с помощью Altair (часть 3)
Приятного чтения! 🐼
Forwarded from Этюды для программистов на Python (Дима Федоров)
При использовании pandas существует несколько методов очистки текстовых полей для подготовки к дальнейшему анализу.
В новой статье показаны примеры очистки текстовых полей в большом файле и даны советы по эффективной очистке неструктурированных текстовых полей с помощью Python и pandas 🐼
👉 Читать Эффективная очистка текста с помощью Pandas
👉 Запустить примеры в Colab, немного оптимизировал код для этой среды 😇
Приятного чтения! 🐍
В новой статье показаны примеры очистки текстовых полей в большом файле и даны советы по эффективной очистке неструктурированных текстовых полей с помощью Python и pandas 🐼
👉 Читать Эффективная очистка текста с помощью Pandas
👉 Запустить примеры в Colab, немного оптимизировал код для этой среды 😇
Приятного чтения! 🐍
Интересный пример анализа текста на естественном языке (NLP) для решения задачи HR-аналитики. Автор использует алгоритм создания саммари с помощью Gensim и метрику cosine_similarity, чтобы сравнить степень сходства резюме с описанием вакансии. Практического толка от этого, на мой взгляд, не очень много, но это хороший пет-проджект для знакомства с методами NLP, который вы можете реализовать сами. Благо, что методы поиска вакансий в API HH открыты, а значит вы можете спарсить все интересующие вас вакансии
https://habr.com/ru/company/skillfactory/blog/544420/
https://habr.com/ru/company/skillfactory/blog/544420/
Хабр
Как улучшить резюме с помощью алгоритмов обработки текстов на естественных языках
Рекрутеры используют всё более сложное ПО и инструменты для анализа и сопоставления присылаемых резюме с размещёнными вакансиями и описанием должностных обязанно...
Forwarded from Этюды для программистов на Python (Дима Федоров)
Подготовил обзор двух полезных модулей 🐍
Pandas Profiling - это библиотека для генерации интерактивных отчетов (по ссылке пример отчета) на основе пользовательских данных: можем увидеть распределение данных, типы, возможные проблемы. Библиотека очень проста в использовании: можем создать отчет и отправить его кому угодно! 🐼
👉 Использование модуля Pandas Profiling для профилирования или в CoLab
Folium - это библиотека, которая позволяет рисовать карты, маркеры, а также отмечать собственные данные (по умолчанию в OpenStreetMap) 🗺
👉 Используем модуль folium для рисования карт или в CoLab
📚 Остальные переводы, обзоры и кейсы по анализу данных доступны по ссылке.
Pandas Profiling - это библиотека для генерации интерактивных отчетов (по ссылке пример отчета) на основе пользовательских данных: можем увидеть распределение данных, типы, возможные проблемы. Библиотека очень проста в использовании: можем создать отчет и отправить его кому угодно! 🐼
👉 Использование модуля Pandas Profiling для профилирования или в CoLab
Folium - это библиотека, которая позволяет рисовать карты, маркеры, а также отмечать собственные данные (по умолчанию в OpenStreetMap) 🗺
👉 Используем модуль folium для рисования карт или в CoLab
📚 Остальные переводы, обзоры и кейсы по анализу данных доступны по ссылке.
Николай Валиотти (автор канала LEFT JOIN) проанализировал мрачность текстов нового альбома Земфиры «Бордерлайн», проведя EDA по текстам песен, а затем оценив семантическую близость песен с помощью Word2Vec. Николай проделал отличную работу, оформив всё в крутую статью!
https://leftjoin.ru/all/borderline-text-analysis/
https://leftjoin.ru/all/borderline-text-analysis/
Мы обнаружили, что пользователи, которые присоединились к нам в последние месяцы, не проводят так много времени в приложении. Как бы вы исследовали эту ситуацию? Этот вопрос – один из первых, который задают на собеседовании в Amplitude.
После ответа на него, соискатель получает еще несколько вопросов. Например, таких: мы обнаружили, что наши retention метрики поползли вниз на прошлой неделе. Как бы вы выясняли в чем причина? Завтра будет ваш первый день в нашей компании, и мы дадим вам доступ к нашим базам данных. С чего вы начнете свой первый день?
Проверяется, разумеется, "работа мысли" кандидата. Как он аргументирует свою точку зрения и чем объясняет подходы к задаче. Очень часто после этого представитель Amplitude хвалит за ответ и рассказывает свое решение – стройное, убедительное, ёмкое и спрашивает кандидата, согласен ли он с этим решением. В этом скрывается подвох: транслируемое решение логически неверное, и цель этого вопроса – проверить готовность соискателя спорить и отстаивать свою точку зрения.
Продуктовые менеджеры и аналитики управляют тысячами различных взаимодействий, которые пользователи совершают в продукте. Для ответов на вопросы «Почему это произошло?» или «Что бы мы могли попробовать», им необходимо поработать с друг с другом, инженерами, службой поддержки и другими сотрудниками компании, чтобы убедиться, что они исследуют нужные области.
- Отличное понимание продукта и пользователей.
- Генерирование сильных гипотез.
- Глубокое понимание инженерии сбора событий.
- Дизайн экспериментов
Всё это – не только ключевые области знаний продуктового аналитика, которые проверяют на собеседовании в Amplitude (и многие другие компании), но и ключевые темы конференции по продуктовой аналитике Aha!, которая состоится 8-9 апреля в онлайн формате. В программе 32 лекции от ведущих специалистов в области продуктовой аналитики и десяток мастер-классов с отличным продакшеном.
Событие глубоко техническое, так как ничто не освобождает вас от знания матчасти. Главные ошибки происходят из-за слабого или неверного понимания низкоуровневых вещей. В критической ситуации вы упадете до уровня своих компетенций, а не подниметесь до уровня своих ожиданий...
➡️ Программа: таблица, документ
Зарегистрироваться по ссылке
Промокод от канала на 10% скидку – datalytx
Я тоже участвую – увидимся в чатах
После ответа на него, соискатель получает еще несколько вопросов. Например, таких: мы обнаружили, что наши retention метрики поползли вниз на прошлой неделе. Как бы вы выясняли в чем причина? Завтра будет ваш первый день в нашей компании, и мы дадим вам доступ к нашим базам данных. С чего вы начнете свой первый день?
Проверяется, разумеется, "работа мысли" кандидата. Как он аргументирует свою точку зрения и чем объясняет подходы к задаче. Очень часто после этого представитель Amplitude хвалит за ответ и рассказывает свое решение – стройное, убедительное, ёмкое и спрашивает кандидата, согласен ли он с этим решением. В этом скрывается подвох: транслируемое решение логически неверное, и цель этого вопроса – проверить готовность соискателя спорить и отстаивать свою точку зрения.
Продуктовые менеджеры и аналитики управляют тысячами различных взаимодействий, которые пользователи совершают в продукте. Для ответов на вопросы «Почему это произошло?» или «Что бы мы могли попробовать», им необходимо поработать с друг с другом, инженерами, службой поддержки и другими сотрудниками компании, чтобы убедиться, что они исследуют нужные области.
- Отличное понимание продукта и пользователей.
- Генерирование сильных гипотез.
- Глубокое понимание инженерии сбора событий.
- Дизайн экспериментов
Всё это – не только ключевые области знаний продуктового аналитика, которые проверяют на собеседовании в Amplitude (и многие другие компании), но и ключевые темы конференции по продуктовой аналитике Aha!, которая состоится 8-9 апреля в онлайн формате. В программе 32 лекции от ведущих специалистов в области продуктовой аналитики и десяток мастер-классов с отличным продакшеном.
Событие глубоко техническое, так как ничто не освобождает вас от знания матчасти. Главные ошибки происходят из-за слабого или неверного понимания низкоуровневых вещей. В критической ситуации вы упадете до уровня своих компетенций, а не подниметесь до уровня своих ожиданий...
➡️ Программа: таблица, документ
Зарегистрироваться по ссылке
Промокод от канала на 10% скидку – datalytx
Я тоже участвую – увидимся в чатах
matemarketing.timepad.ru
Aha! Лови момент / События на TimePad.ru
Aha! – международная практическая онлайн-конференция по продвинутой продуктовой аналитике. Среди спикеров конференции представители крупных российских и зарубежных компаний: Avito, Яндекс, Amplitude, Flo, MIRO и др. Целевая аудитория —продуктовые аналитики…
Forwarded from Этюды для программистов на Python (Дима Федоров)
Подготовил обзор модуля pandera 🐍
Pandera - инструмент для проверки фреймов данных pandas, который предоставляет интуитивно понятный, гибкий и выразительный API 🐼
👉 Проверка статистических данных с помощью модуля pandera или в CoLab
Приятного чтения! 📚
Pandera - инструмент для проверки фреймов данных pandas, который предоставляет интуитивно понятный, гибкий и выразительный API 🐼
👉 Проверка статистических данных с помощью модуля pandera или в CoLab
Приятного чтения! 📚
Forwarded from Lena Seregina 📈🧘♀️♥️
Rambler и Работа.ру сделали подкаст о выборе профессии. А мне посчастливилось быть соведущей одного из выпусков.
Обсудили профессию аналитика, истоки и перспективы. Коснулись почти всех ключевых вопросов Дудя. В частности: про $.
В подскаст забегали интересные гости.
Послушать можно по ссылке:
https://music.yandex.ru/album/12729655/track/78071902
Обсудили профессию аналитика, истоки и перспективы. Коснулись почти всех ключевых вопросов Дудя. В частности: про $.
В подскаст забегали интересные гости.
Послушать можно по ссылке:
https://music.yandex.ru/album/12729655/track/78071902
Сбер выпустил библиотеку для Process Mining — SberPM. Process Mining — это аналитический подход, при котором данные организации или любой другой информационной системы (приложения, процесса, производственной линии) используются для оптимизации целевых показателей этой системы. По сути Process Mining позволяет описать бизнес-процесс, опираясь на реальные события, протекающие в системе, а не с помощью «вытягивания» информации у ключевых стейкхолдеров. Таким образом, удаётся собрать реальную картину происходящего, чтобы найти «бутылочные горлышки» или другие места, где бизнес-процесс показывает себя неэффективно
https://habr.com/ru/company/sberbank/blog/549662/
https://habr.com/ru/company/sberbank/blog/549662/
Наткнулся на библиотеку Pandas TA, которая позволяет добавить в Pandas функционал для технического анализа (ценных бумаг). Всего эта библиотека даёт возможность добавить более 130 различных показателей: от очевиднейших скользящих средних (SMA, EMA и т.д.) до каких-то неопознанных мною осцилляторов Aroon и термометров Эдлера. Я в техническом анализе полнейший профан, но почитать про все эти показатели, пощупать их руками и понять их физический смысл очень интересно
https://github.com/twopirllc/pandas-ta
https://github.com/twopirllc/pandas-ta
Forwarded from Карьера продакта: от джуна до CPO
Когда мы придумывали Карьерный Цех, то для начала провели его для продуктовых менеджеров. Так как сами являемся в этом экспертами и нам нужно было как можно быстрее проверить основные гипотезы.
Но было понятно, что история может иметь продолжение и в других профессиях. И мы до этого дозрели🔥
Встречайте, Карьерный Цех для аналитиков.
Конкурс запускается в партнерстве с крутейшими ребятами из Матемаркетинга.
Вас ждут жизненные задания, направленные на поиск инсайтов в метриках, p2p оценка и итоговый рейтинг самых лучших, участием в котором можно украсить любое портфолио.
По датам - хотели отложить на осень, а то ведь праздники и так далее. Но подумали, что почему бы и не провести конкурс прямо сейчас.
Так что регистрация уже началась! А начало выполнения работ 30 апреля.
Будет чем заняться на майских праздниках 🙂
Поделитесь новостью с друзьями-аналитиками, им может быть интересно.
Но было понятно, что история может иметь продолжение и в других профессиях. И мы до этого дозрели🔥
Встречайте, Карьерный Цех для аналитиков.
Конкурс запускается в партнерстве с крутейшими ребятами из Матемаркетинга.
Вас ждут жизненные задания, направленные на поиск инсайтов в метриках, p2p оценка и итоговый рейтинг самых лучших, участием в котором можно украсить любое портфолио.
По датам - хотели отложить на осень, а то ведь праздники и так далее. Но подумали, что почему бы и не провести конкурс прямо сейчас.
Так что регистрация уже началась! А начало выполнения работ 30 апреля.
Будет чем заняться на майских праздниках 🙂
Поделитесь новостью с друзьями-аналитиками, им может быть интересно.
Интересная статья про простые подходы к прогнозированию временных рядов
https://habr.com/ru/post/553658/
https://habr.com/ru/post/553658/
Хабр
Временные ряды. Простые решения
Привет, Хабр! В этой статье мы рассмотрим несколько простых подходов прогнозирования временных рядов. Материал, изложенный в статье, на мой взгляд, хорошо до...
Forwarded from LEFT JOIN
Анализа данных с помощью SQL
Достаточно прикольный и полезный гайд по использованию SQL для анализа данных вместо Pandas.
Автор делится рядом любоптных идей: train/test split, линейная регрессия (оказывается, есть по умолчанию в PostgreSQL) и много других полезностей, собранных в одном месте, рекомендую!
Кстати, Mode когда-то тоже предлагали несколько изощренный способ построения регрессии с помощью SQL.
#link
Достаточно прикольный и полезный гайд по использованию SQL для анализа данных вместо Pandas.
Автор делится рядом любоптных идей: train/test split, линейная регрессия (оказывается, есть по умолчанию в PostgreSQL) и много других полезностей, собранных в одном месте, рекомендую!
Кстати, Mode когда-то тоже предлагали несколько изощренный способ построения регрессии с помощью SQL.
#link
Hakibenita
Practical SQL for Data Analysis
What you can do without Pandas