Datalytics

Интересный пример анализа текста на естественном языке (NLP) для решения задачи HR-аналитики. Автор использует алгоритм создания саммари с помощью Gensim и метрику cosine_similarity, чтобы сравнить степень сходства резюме с описанием вакансии. Практического толка от этого, на мой взгляд, не очень много, но это хороший пет-проджект для знакомства с методами NLP, который вы можете реализовать сами. Благо, что методы поиска вакансий в API HH открыты, а значит вы можете спарсить все интересующие вас вакансии

https://habr.com/ru/company/skillfactory/blog/544420/

Хабр

Как улучшить резюме с помощью алгоритмов обработки текстов на естественных языках

Рекрутеры используют всё более сложное ПО и инструменты для анализа и сопоставления присылаемых резюме с размещёнными вакансиями и описанием должностных обязанно...

4.1K viewsedited 09:51

Datalytics

Forwarded from Этюды для программистов на Python (Дима Федоров)

Подготовил обзор двух полезных модулей 🐍

Pandas Profiling - это библиотека для генерации интерактивных отчетов (по ссылке пример отчета) на основе пользовательских данных: можем увидеть распределение данных, типы, возможные проблемы. Библиотека очень проста в использовании: можем создать отчет и отправить его кому угодно! 🐼

👉 Использование модуля Pandas Profiling для профилирования или в CoLab

Folium - это библиотека, которая позволяет рисовать карты, маркеры, а также отмечать собственные данные (по умолчанию в OpenStreetMap) 🗺

👉 Используем модуль folium для рисования карт или в CoLab

📚 Остальные переводы, обзоры и кейсы по анализу данных доступны по ссылке.

3.92K views07:18

Datalytics

Николай Валиотти (автор канала LEFT JOIN) проанализировал мрачность текстов нового альбома Земфиры «Бордерлайн», проведя EDA по текстам песен, а затем оценив семантическую близость песен с помощью Word2Vec. Николай проделал отличную работу, оформив всё в крутую статью!

https://leftjoin.ru/all/borderline-text-analysis/

3.98K views07:06

Datalytics

Мы обнаружили, что пользователи, которые присоединились к нам в последние месяцы, не проводят так много времени в приложении. Как бы вы исследовали эту ситуацию? Этот вопрос – один из первых, который задают на собеседовании в Amplitude.

После ответа на него, соискатель получает еще несколько вопросов. Например, таких: мы обнаружили, что наши retention метрики поползли вниз на прошлой неделе. Как бы вы выясняли в чем причина? Завтра будет ваш первый день в нашей компании, и мы дадим вам доступ к нашим базам данных. С чего вы начнете свой первый день?

Проверяется, разумеется, "работа мысли" кандидата. Как он аргументирует свою точку зрения и чем объясняет подходы к задаче. Очень часто после этого представитель Amplitude хвалит за ответ и рассказывает свое решение – стройное, убедительное, ёмкое и спрашивает кандидата, согласен ли он с этим решением. В этом скрывается подвох: транслируемое решение логически неверное, и цель этого вопроса – проверить готовность соискателя спорить и отстаивать свою точку зрения.

Продуктовые менеджеры и аналитики управляют тысячами различных взаимодействий, которые пользователи совершают в продукте. Для ответов на вопросы «Почему это произошло?» или «Что бы мы могли попробовать», им необходимо поработать с друг с другом, инженерами, службой поддержки и другими сотрудниками компании, чтобы убедиться, что они исследуют нужные области.

- Отличное понимание продукта и пользователей.
- Генерирование сильных гипотез.
- Глубокое понимание инженерии сбора событий.
- Дизайн экспериментов

Всё это – не только ключевые области знаний продуктового аналитика, которые проверяют на собеседовании в Amplitude (и многие другие компании), но и ключевые темы конференции по продуктовой аналитике Aha!, которая состоится 8-9 апреля в онлайн формате. В программе 32 лекции от ведущих специалистов в области продуктовой аналитики и десяток мастер-классов с отличным продакшеном.

Событие глубоко техническое, так как ничто не освобождает вас от знания матчасти. Главные ошибки происходят из-за слабого или неверного понимания низкоуровневых вещей. В критической ситуации вы упадете до уровня своих компетенций, а не подниметесь до уровня своих ожиданий...

➡️ Программа: таблица, документ
Зарегистрироваться по ссылке
Промокод от канала на 10% скидку – datalytx

Я тоже участвую – увидимся в чатах

matemarketing.timepad.ru

Aha! Лови момент / События на TimePad.ru

Aha! – международная практическая онлайн-конференция по продвинутой продуктовой аналитике. Среди спикеров конференции представители крупных российских и зарубежных компаний: Avito, Яндекс, Amplitude, Flo, MIRO и др. Целевая аудитория —продуктовые аналитики…

4.22K views07:48

Datalytics

Forwarded from Этюды для программистов на Python (Дима Федоров)

Подготовил обзор модуля pandera 🐍

Pandera - инструмент для проверки фреймов данных pandas, который предоставляет интуитивно понятный, гибкий и выразительный API 🐼

👉 Проверка статистических данных с помощью модуля pandera или в CoLab

Приятного чтения! 📚

3.38K views11:23

Datalytics

Forwarded from Lena Seregina 📈🧘‍♀️♥️

Rambler и Работа.ру сделали подкаст о выборе профессии. А мне посчастливилось быть соведущей одного из выпусков.

Обсудили профессию аналитика, истоки и перспективы. Коснулись почти всех ключевых вопросов Дудя. В частности: про $.

В подскаст забегали интересные гости.

Послушать можно по ссылке:

https://music.yandex.ru/album/12729655/track/78071902

3.73K views11:35

Datalytics

Сбер выпустил библиотеку для Process Mining — SberPM. Process Mining — это аналитический подход, при котором данные организации или любой другой информационной системы (приложения, процесса, производственной линии) используются для оптимизации целевых показателей этой системы. По сути Process Mining позволяет описать бизнес-процесс, опираясь на реальные события, протекающие в системе, а не с помощью «вытягивания» информации у ключевых стейкхолдеров. Таким образом, удаётся собрать реальную картину происходящего, чтобы найти «бутылочные горлышки» или другие места, где бизнес-процесс показывает себя неэффективно

https://habr.com/ru/company/sberbank/blog/549662/

8.57K views11:43

Datalytics

Наткнулся на библиотеку Pandas TA, которая позволяет добавить в Pandas функционал для технического анализа (ценных бумаг). Всего эта библиотека даёт возможность добавить более 130 различных показателей: от очевиднейших скользящих средних (SMA, EMA и т.д.) до каких-то неопознанных мною осцилляторов Aroon и термометров Эдлера. Я в техническом анализе полнейший профан, но почитать про все эти показатели, пощупать их руками и понять их физический смысл очень интересно

https://github.com/twopirllc/pandas-ta

5.12K views09:01

Datalytics

Forwarded from Карьера продакта: от джуна до CPO

Когда мы придумывали Карьерный Цех, то для начала провели его для продуктовых менеджеров. Так как сами являемся в этом экспертами и нам нужно было как можно быстрее проверить основные гипотезы.

Но было понятно, что история может иметь продолжение и в других профессиях. И мы до этого дозрели🔥

Встречайте, Карьерный Цех для аналитиков.

Конкурс запускается в партнерстве с крутейшими ребятами из Матемаркетинга.

Вас ждут жизненные задания, направленные на поиск инсайтов в метриках, p2p оценка и итоговый рейтинг самых лучших, участием в котором можно украсить любое портфолио.

По датам - хотели отложить на осень, а то ведь праздники и так далее. Но подумали, что почему бы и не провести конкурс прямо сейчас.

Так что регистрация уже началась! А начало выполнения работ 30 апреля.

Будет чем заняться на майских праздниках 🙂

Поделитесь новостью с друзьями-аналитиками, им может быть интересно.

4.17K views16:48

Datalytics

Интересная статья про простые подходы к прогнозированию временных рядов

https://habr.com/ru/post/553658/

Хабр

Временные ряды. Простые решения

Привет, Хабр! В этой статье мы рассмотрим несколько простых подходов прогнозирования временных рядов. Материал, изложенный в статье, на мой взгляд, хорошо до...

4.08K views11:09

Datalytics

Forwarded from LEFT JOIN

Анализа данных с помощью SQL
Достаточно прикольный и полезный гайд по использованию SQL для анализа данных вместо Pandas.
Автор делится рядом любоптных идей: train/test split, линейная регрессия (оказывается, есть по умолчанию в PostgreSQL) и много других полезностей, собранных в одном месте, рекомендую!

Кстати, Mode когда-то тоже предлагали несколько изощренный способ построения регрессии с помощью SQL.

#link

Hakibenita

Practical SQL for Data Analysis

What you can do without Pandas

2.9K views10:38

Datalytics

Forwarded from Smart Data (Denis Solovyov)

Хочу всем порекомендовать курс по SQL от Анатолия Балакирева в рамках Data Learn. Наверное, самый подробный и полный бесплатный русскоязычный курс по SQL, который я видел.

Всегда уважаю и ценю такой большой труд.

datalearn.ru

⭐⭐⭐⭐⭐ Запишись на курс и получи востребованные знания по SQL - БЕСПЛАТНО. У нас очень большое и дружелюбное сообщество людей, увлеченных data, мы объясняем сложные вещи простыми словами

3.08K views12:05

Datalytics

Бесплатный онлайн-курс от Xsolla School для аналитиков

Стартовал набор на II поток курса для аналитиков
Продолжительность курса 9 недель

Курс состоит из вводной части и 8 занятий по ключевым скиллам аналитика:
— Подходы к сбору требований от стейкхолдеров
— Формирование требований к IT-продукту
— Практики оформления требований

Формат: онлайн-лекции и семинары

Курс будет полезен для начинающих аналитиков в продуктовых командах, а также для тех, кто хочет освежить базовые знания.

Регистрация: https://clck.ru/Uej4w
Дедлайн приема заявок: 10 мая 2021 включительно

3.5K views08:21

Datalytics

Forwarded from Этюды для программистов на Python (Дима Федоров)

⚡Подготовил новый перевод кейса с упражнениями! 🐍

Разбираем проект по анализу данных: исследуем средний вес новорожденных (запустить в CoLab):

Этот пример демонстрирует важные шаги практически в любом проекте по анализу данных:

0⃣ Определение данных, которые помогут ответить на вопрос.
1⃣ Получение данных и их загрузка в Python.
2⃣ Проверка данных и устранение ошибок.
3⃣ Выбор соответствующих подмножеств из данных.
4⃣ Использование гистограмм для визуализации распределения значений.
5⃣ Использование сводной статистики для описания данных таким образом, чтобы наилучшим образом ответить на вопрос.
6⃣ Рассмотрение возможных источников ошибок и ограничений в наших выводах.

Остальные переводы доступны по ссылке 🐼

Google

Исследуем средний вес новорожденных.ipynb

Run, share, and edit Python notebooks

3.8K views08:25

Datalytics

Объяснение Z-статистики и p-value с помощью иллюстраций и кода на Python. Не могу сказать, что я бы рекомендовал эту статью, чтобы начать погружение, потому что всё же она изобилует примерами расчёта значений с помощью кода, а новичкам может быть сложно понять концепции математической статистики, если с кодом ещё не очень. Но для тех, кто уверенно чувствует себя с numpy/pandas, но ещё не очень хорошо разбирается в матстате — самое оно

А ещё в статье отличные примеры использования seaborn и matplotlib для построения кастомных визуализаций

https://habr.com/ru/post/557424/

Хабр

Погружаемся в статистику вместе с Python. Часть 1. Z-статистика и p-value

Не знаю как вам, а мне статистика далась очень не просто. Причем "далась" - это еще громко сказано. Да, оказалось что можно довольно долго ехать на методичках, кое как вникая в смысл четырехэтажных...

4.71K views07:57

Datalytics

Forwarded from Я у мамы аналитик (Stas Valuev)

В исследованиях рынков есть такой классный тип артефактов - Landscape. В идеале, он должен помогать понять 2 вещи:
🔹какие типы процессов или операций есть в отрасли;
🔹какие существуют инструменты для их реализации или автоматизации.

У такого формата есть существенный минус: сходу ничерта не ясно, да и понять что-то без дополнительной аналитики и пояснений непросто (особенно в новой для себя сфере).

Поэтому особое внимание к себе привлекают материалы вроде сегодняшнего The 2020 Data & AI Landscape, где есть и ландшафт рынка и понятные выводы.

Помимо картинок есть описание основных трендов в развитии инфраструктур для обработки данных, самой аналитики и AI (их довольно много, рекомендую самостоятельно ознакомиться).

Вот ссылка на картинку в хорошем разрешении.

🔗Ссылка на статью

#инструменты #анализ_рынка

3.89K views10:49

Datalytics

Неплохой бесплатный курс по по A/B-тестированиям. Без сильного технического фарша и примеров кода, но раскрывающий основные важные моменты:
— Чем классические частотные подходы к расчёту вероятности отличаются от байесовских
— Как рассчитывается статистическая значимость и почему её расчёт важен в ходе оценки результатов A/B-тестирования
— Чем отличается статистическая мощность от статистической значимости
— Как правильно сделать сплит трафика
— Почему важно правильно аттрибуцировать конверсию при маркетинговых экспериментах
— Сравнение подходов тестирования на клиенте (client-side) и на сервере (server-side)
— Как анализировать и интерпретировать A/B-тесты

https://www.dynamicyield.com/course/testing-and-optimization/

Mastercard Dynamic Yield

A/B Testing & Optimization Course — XP² Learning Center

Join this free online course to learn the fundumentals of A/B testing and conversion optimization, to help you grow your business KPIs.

26.5K views07:00

Datalytics

Признаюсь честно, что у меня очень плохо с тем, что некоторые назвали бы «серьёзной математикой»: я плохо читаю сложные формулы, не могу сразу же схватить их физический смысл, путаюсь в разных «значочках и закорючках». Поэтому никогда не хотел стать data scientist'ом — казалось, что без знания математики в Data Science делать нечего. Позже я, конечно, узнал что это не так и можно шарить и приносить пользу в определенных разделах DS и без сильного углубления в линейную алгебру или теорию оптимизации (например, NLP)

Но что мне всегда помогало понять сложные концепции — это «пощупать» их в виде реальных данных или кода. Кажется, что это «практическое ощущение» математики у меня «проклёвывалось» ещё в универе: я спокойно мог закодить какой-нибудь метод половинного деления или Монте-Карло на занятиях по численным методам, когда понимал его как алгоритм, а вот решить дифференциальное уравнение для меня было подобно реверс-инжинирингу инопланетной технологии (это и сейчас так)

Уже позже в работе меня не раз выручал этот подход: не понимаешь как что-то работает в теории — напрограммируй это или найди чужой код. Не понимаю что такое центральная предельная теорема? Значит надо найти примеры кода, в которых ЦПТ применяется для анализа настоящих данных. Сложно понять что такое марковские цепи? Поищу как можно симулировать марковские цепи с помощью кода на Python. Запустил несколько раз симуляцию на разных входных данных и начинаешь понимать как эти шестеренки внутри крутятся. С таким подходом мне, конечно, никогда не светит писать white-papers в научные журналы. Зато многие штуки получалось применять в работе, а ещё появилась математическая интуиция и умение видеть красоту в математических концепциях

Это я всё к чему? Наткнулся на потрясный репозиторий на гитхабе, где математические нотации объяснены с помощью Python-кода. Очень кайфово

https://github.com/Jam3/math-as-code/blob/master/PYTHON-README.md

3.86K views07:00

Datalytics

2.84K views07:00

Datalytics

Оказывается у Майкрософт есть своя платформа для зеро-кодинга PowerApps. И недавно они выкатили в ней возможность ввести запрос на английском языке и получить на выходе SQL-запрос (или что-то на него похожее, судя по скриншотам). Реализуется это дело с помощью модели естественного языка GPT-3

Меня эта тема заинтересовала и путём несложного гуглежа я узнал, что оказывается это прямо-таки отдельная область научного интереса: люди устраивают целые соревнования пытаясь решить задачу семантического парсинга запроса, сформулированного на обычном языке, и перевести его в SQL. Эталонный датасет для таких задачек — это WikiSQL, набор SQL-запросов, вручную аннотированный комментариями на естественном тексте. Интересно, что для его генерации Salesforce применяли краудорсинговый труд, хоть это и звучит как что-то негуманное

В силу своей математической тугости, white-papers я читаю как ребёнок, разглядывая картинки и ища знакомые слова не длиннее 6 символов, но даже мне интересно было проследить эволюцию в подходах. Для примера сравните статью 1996 года (удивительно, что уже тогда пытались делать NLP-based интерфейсы) и статью, описывающую один из топовых (на момент написания заметки) подход к этой задаче

В общем, сначала BI-системы понизили порог входа в self-service data analytics, а теперь и AI к этому подключился. Уже близок том момент, когда каждый менеджер будет ходить за «а посчитай мне выручку по месяцам» не к аналитикам, а к Siri или Алисе. Но, конечно, это не повод аналитикам унывать и переквалифицироваться в курьеров (~~или закладочников~~). Вот когда научится писать оконные функции для расчёта rolling retention, тогда и поговорим

3.23K views07:00

Datalytics

Forwarded from Я у мамы аналитик (Stas Valuev)

В статье с Хабра «Все что вы (не) хотели знать о Data Science» обнаружил интересный взгляд на содержание профессии Data Scientist.

Стоит посмотреть хотя бы ради описания того, как разные функциональные роли вроде data engineer, analyst, MLOps накладываются на 3 ключевых области компетенций:
🔹математика и статистика;
🔹разработка и администрирование;
🔹знание предметной области.

Еще есть верхнеуровнево про грейды дата саентистов, подготовку к собеседованиям и специфику Ситимобила.

🔗Ссылка

P.S. Утаскиваю из комментариев замечательное дополнение: «Как стать дата-шрушером aka вкатиться в DS». Более практичный и подробный взгляд изнутри с нецензурщиной и мемами.

#компетенции

2.82K views15:35

About

Blog

Apps

Platform