инглишДата
211 subscribers
3 photos
20 links
По всем предложениям и вопросам можно писать в личку @s0v7ploxo
Download Telegram
🐼 PandasAI: Супер простой анализ данных с ИИ

У всех у нас ленту соцсетей в последние месяцы занимают новости про различные нейронные сети. Они становятся частью нашей жизни, они потихоньку распространяются во все сферы, в том числе их стали использовать и для обработки данных. Сегодня поговорим про пока сырую, но потенциально интересную надстройку для Pandas с использованием ИИ.

https://telegra.ph/PandasAI-Super-prostoj-analiz-dannyh-s-II-05-11
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥3😱1
🏃 Задача классификации: отток клиентов в банке

Сегодня поговорим про задачу классификации и предсказывание оттока. В тексте автор проводит сравнение различных методов предсказывания оттока, а также на реальных числах показывает как в его задаче на результат повлияла разбалансировка классов.

https://telegra.ph/Zadacha-klassifikacii-ottok-klientov-v-banke-05-25
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥6👏1🐳1
Вектор Шепли (с иллюстрациями)

Сегодня поговорим про одну из самых популярных моделей атрибуции в последнее время. Текст сопровождается огромным количеством иллюстраций, по этой причине будет понятен абсолютно всем.

https://telegra.ph/Vektor-SHepli-s-illyustraciyami-06-01
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64
Софт-скиллы важнее хард-скиллов для аналитика данных

Сегодня поговорим об интересной теме, которая наверняка много раз всеми обсуждена, но не суть. Автор постарается донести свое мнение в достаточно сжатом формате. А что думаете вы? Что важнее: хард-скиллы или софт-скиллы?

https://telegra.ph/Soft-skilly-vazhnee-hard-skillov-dlya-analitika-dannyh-06-21
👍41
А что по Вашему важнее для аналитика данных?
Anonymous Poll
52%
Софты
48%
Харды
Всем привет👋

Немного новостей канала

Давно ничего не писал, уже больше месяца прошло.

Этим летом закончил университет и был уверен, что начну активно вести канал, как же я ошибался 🌝

Времени действительно стало побольше, но и желание отдохнуть тоже появилось.

Для меня текущее число подписчиков, это просто Вау!
Канал даже во время застоя медленно, но растет, а значит работает сарафан, ну или вы просто зашли сюда через линкедин) В любом случае, для меня это означает, что я делаю что-то не напрасно.

Хочу поделиться с Вами одной болью, из-за которой, в том числе, переводы выходят. крайне нерегулярно. Основное время работы над переводом занимает процесс поиска английского текста. Я перевожу только то, что интересно и актуально для меня, а найти такое бывает тяжело.

Сейчас, перебирая топы медиума за лето в тематических топиках, я не нашел, к сожалению ничего, за исключением возможно одного текста, перевод которого вероятно выйдет на неделе.

В связи с этим, я хочу немного поменять тематику канала и выйти из рамок, в которые сам себя зажал при его создании.

Среди каналов, которые я читаю в телеге 90% занимают именно авторские каналы и мне хочется сделать здесь что-то похожее.

Это не значит, что переводы пропадут, нет, они останутся, но будут сопровождаться и другими постами, связанными с аналитикой. Это позволит добавить какой-то регулярности и развяжет мне руки.

Пойму всех, кто отпишется, но сейчас для меня это единственная возможность не забросить канал окончательно.

Всем продуктивной рабочей недели ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍11🔥2🐳2👌1
На злобу дня, как говорится

Tableau ❤️

Сейчас читал статью, в которой автор пытался донести, что использование Tableau и других BI-инструментов для выполнения повседневных задач анализа данных это плохо.
По его мнению, системы стоит использовать только для построения дашбордов на века, а не для выполнения "ad-hoc requests".

Тезисы следующие:

1️⃣ Они плохо работают с большим числом данных.

Тут не могу поспорить, большинство отчетов, где по каким-то причинам мне нельзя было агрегировать данные до переноса их в Tableau, строить было тяжко. И речь здесь не о миллирдах строк, а лишь о нескольких миллионах. При выполнении повседных задач, это будет сжирать много времени.

2️⃣ Сложная или почти невозможная проверка качества данных.

Достаточно спорный пункт. Как мне кажется, BI-системы подходят для проверки качества данных с точки зрения аномалий, на графиках такие приколы всегда заметны лучше.
С другой стороны, естественно, если проблема с ошибками в логике построения витрин, то BI будет лишь вредить, ведь куда более нативно обращаться к разным источникам данных в UI ваших SQL-продуктов. Там это сделать и проще и быстрее.

3️⃣ Необходимость "закапывания" в данных.

Схожий с прошлым пункт, с которым достаточно сложно спорить, ведь нужно обращаться к разным таблицам, которые могут находиться в разных БД, не все из которых даже можно подключить к Tableau.

4️⃣ SQL-код таких проектов не может быть легко переиспользован в будущем Вами или Вашими коллегами.

Тут все думаю понятно, сам сейчас столкнулся с такой проблемой при необходимости переноса сложного отчета из Tableau. В случае, если вы часть вычислений оставляете на BI-систему, то потом Вам нужно быть готовыми делать работу с нуля заново😢

Для своих задач я иногда прибегаю к Tableau, так как визуализация – это прежде всего простой способ донести информацию, так как он наглядный, ну и естественно часть таблиц куда проще построить там чем писать какой-то хитровыдуманный запрос.

Но тут, мне кажется, нужно видить грань между проектами, к которым велик шанс вернуться в будущем и между задачами "здесь и сейчас и желательно быстро".
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6😱21🔥1
Используете ли вы BI для анализа данных в повседневных задачах?
Anonymous Poll
38%
Да, постоянно
36%
Да, но редко
27%
Нет, не использую
Про конференции

Осенью прошлого года открыл для себя мир конференций и мне понравилось. Конференций для продуктовых аналитиков по пальцам пересчитать, самая известная, на мой взгляд это «Матемаркетинг».

На ней собственно, я и побывал в прошлом году. Проходила она в Сколково в течение двух дней и, как можно понять из названия, частично посвящена маркетингу. Так получилось, что маркетинг из-за специфики рабочих задач для меня также интересен, поэтому это было своего рода бинго.

Говорить о докладах я наверное не буду, да и не прям, что бы спустя уже год я много, что помню. Но с тех двух дней запомнилось отчетливо одно желание – побывать по другую сторону на конференции, то есть в роли выступающего.

Этим летом я побывал в Питере на TeamLead Conf, конференция, которая мне запомнилась в основном своими воркшопами (мастер классами). Одним из них был МК про то как подойти к своему первому выступлению. Там двое спикеров рассказывали на каких-то понятных кейсах как выбрать тему, как избавиться от волнения, рассказали про основные типы выступающих. Спойлер: тему я там так и не выбрал и советы не помогли))

Самое сложное для меня, что тогда. что сейчас – это именно выбрать тему. Я обожаю что-то рассказывать, мне не сложно сделать красивую презентацию, но когда я задумываюсь в разрезе того, с чем можно приехать на конференцию, я впадаю в ступор.

Основные идеи с того воркшопа, которые я уяснил:
1. «Задротские» доклады редко подходят под формат рассматриваемых мною конференций (ненаучных), нужно минимум теории и максимум живого общения, примеров.
2. Волнуются абсолютно все в первые минуты выступления, даже те, кто выступает регулярно.
3. Интересны доклады в которых ты рассказываешь о своих успехах/неудачах, так как это ценный опыт.
4. Доклад должен проходить до выступление большое число прогонов от этапа идеи до этапа публичного выступления внутри компании.
5. Желательно на этапе подготовки презы подходить сначала к слайдам, которые не могут обойтись без визуальной составляющей.

Надеюсь, что в этом году, а именно 9-10 ноября в каком-то из залов на Матемаркетинге все же расскажу Вам об одном из своих проектов, задумки есть, осталось докрутить.

Ну и совет ко всем – попробуйте узнать в своих компаниях есть ли у Вас возможности ездить на конференции, во всех больших компаниях этот процесс точно есть, просто его по каким-то причинам не особо активно афишируют, а это отличный шанс набраться идей для проектов, познакомиться с новыми людьми, набрать горы мерча, ну и просто, это отличный способ отдохнуть и с пользой провести время.
👍2🤔21🔥1
Про курсы

Я, как и многие люди, регулярно смотрю ютуб. Youtube Premium — это, конечно, благо, но оно не защищает тебя от вставок рекламы внутри видео. И возможно это так работает моя выборочная память, либо специфика каналов, на которые я подписан такова, но я слишком часто вижу рекламу онлайн курсов.

Наличие такого количества рекламы означает, что денег у компаний действительно много, а значит и студентов, которые пользуются услугами таких компаний.

Пошел гуглить
По итогам 2022 года, суммарная выручка топ-100 компаний рейтинга Edtechs составила 87 млрд рублей (Forbes). Выручка != прибыль, но порядки понятны.

То, что денег тут много мы выяснили, но, скажу честно, я всегда с недоверием относился к подобным организациям. Все фразы по типу «гарантируем поступление или вернем деньги» для меня звучит как скам.

Зачем платить десятки тысяч рублей за информацию, которая есть в интернете, есть степик, есть бесплатные образовательные программы от того же Тинькофф, есть курсейра, где вроде до сих пор можно запрашивать матпомощь на курсы, можно найти себе ментора на линкедине или подобных ему сайтах, это далеко не всегда платно. Если самоцель диплом или какая-то корочка, то вот вам еще информация.

Есть интересное исследование Вышки, которое можно воспринимать по-разному. В целом, можно посмотреть на то, что 93% опрошенным помогло онлайн-образование реализовать их цель, но я обратил внимание на другое. В их респондентов естественно не попадают люди, которые вернули за курс деньги. Выборка завершивших курс сильно смещена в сторону лояльных клиентов.

1. 66% опрошенных в возрасте от 26-40
2. 78% имеют высшее образование
3. 65% нашли работу за полгода 🥴

В рынок я не сильно погружен, но мне кажется схожая выборка с таким уровнем людей с высшим образованием за полгода поисков, пройдя базовые курсы найдет работу в IT примерно со схожим успехом.

А как вы относитесь к курсам? Возможно вы из проходили, сколько времени заняли поиски работы?
🥴41🤔1
Как вы относитесь к подобным онлайн-курсам?
Anonymous Poll
17%
Отлично
53%
Нейтрально
17%
Отрицательно
13%
Посмотреть результат
👍2😁1
🚘Я сходил на матемаркетинг

В одном из последних постов я писал, что хотел бы выступить в этом году. Даже отправил заявку, но вероятно из-за того, что сделал это очень поздно или тема была неподходящая, в этот раз я был зрителем.

Это третья конференция для меня и впервые я был не один, а с большим числом коллег. это сразу прибавило несколько баллов к общей оценке конференции:)

Конференция оставила смешанные впечатления, с одной стороны она была сильно лучше прошлогодней, так как первый день с прошлой конференции был совершенно проходным для меня, здесь же оба дня содержали несколько интересных докладов.
Что было не очень? Доклады, их круто преподносили, спикеры в 90% случаев были интересные, а вот материал который они рассказывали мне далеко не всегда был интересен и так было, наверное. в каждом втором докладе. Не хватало длинных докладов, все выступления были по 30 минут, это крайне мало...

Большинство докладов было не в стиле: «смотрите какую крутую штуку мы сделали, мы делали это так, вы можете проделать тоже самое и посмотреть как заработает у вас», а «смотрите какую штуку мы сделали, но вы ее все равно не сделаете и мы расскажем только о результатах». Мне такое вот совсем неинтересно, такой я человек.

Идеальный доклад по всем пунктам был у Кирилла Кочнева, автора Stats&Data ninja на медиуме: https://medium.com/@koch-kir, который рассказал не совсем релевантный с виду для меня доклад, но сделал это интересно, понятно и помог посмотреть на решение некоторых задач с другой стороны. Когда появится в записи, я рекомендую вам посмотреть его доклад.

Вообще обратил внимание на то, что трендом этой конференции стала тема «синтетически контролей», я был минимум на трех выступлениях, которые касались этой темы или вообще полностью были посвящены ей. Думаю, что количество подобных докладов в следующем году будет еще больше, так как все больше и больше людей сталкиваются с кейсами, когда они не могут провести честные АБ.

Что еще могу выделить из докладов?

1️⃣Михаил Донской - «Как построено динамическое ценообразование в Сбермаркете». Доклад не сказать, что какой-то новый в своем роде, в прошлом году, мне кажется, я видел что-то подобное от Яндекса. Но мне очень интересна эта задача.
2️⃣Олег Хомюк, Евгений Прохоров - «Аналитика и технологии в логистике: подходы к повышению эффективности». Еще одна интересная для меня задача, а подача Олега была невероятна)
3️⃣Вячеслав Коськин - «Как правильно планировать и проводить АБ тесты, чтобы не ломать роадмэпы релизов и не терять деньги и время на бесполезные эксперименты». «Мир вам, братья», «АБ-тесты в каждый дом» примерно в таком стиле прошел данный доклад, это было весело. Не совсем полезно для меня, но очень весело и я не пожалел, что в 7 вечера дослушивал этот доклад.
4️⃣Мария Новикова - «Как мы собрали метрику целевых действий продавцов в Avito Pro с помощью AutoWoE». Интересный для меня доклад, который был еще и хорошо наполнен с максимально последовательным рассказом про то как ребята решали свою задачу.
5️⃣Роман Лунев - «Снижение нагрузки на аналитиков через визуализацию результатов АБ-тестов». Не столь интересный доклад, но он оказался настолько жизненным для меня… что я не могу его не упомянуть. Сделайте шаблоны для мониторинга теста и делайте мониторинги до запуска для каждого значимого для вас теста!
6️⃣Кирилл Кочнев - «Еще один метод запуска АБ - тестов в поисковой выдаче в условиях сильного сетевого эффекта». Топ-1 доклад для меня со всей конфы. Рекомендасьён!

А вы ездили на конференцию? Какие впечатления? Какие доклады можете выделить?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥95
инглишДата
🐼 PandasAI: Супер простой анализ данных с ИИ У всех у нас ленту соцсетей в последние месяцы занимают новости про различные нейронные сети. Они становятся частью нашей жизни, они потихоньку распространяются во все сферы, в том числе их стали использовать и…
Medium переполнен различными статьями по использованию ChatGPT в анализе данных. Процентов 70 из всех статей по анализу данных посвящены именно этой теме. Мне это не совсем интересно. Нет, я не старый дед 🌝. Но все эти статьи примерно об одном и том же, из-за них находить что-то интересное стало сильно сложнее.

Кейсы моего использования ограничиваются вопросами по тому как мне имея набор данных А, получить какие результаты Б. Здесь важно понимать, что зачастую мне быстрее написать что-то быстрее самому, поэтому и такие кейсы использования происходят достаточно редко.

Возник вопрос к Вам, как и в каких задачах вы прибегаете к помощи ИИ?

Как-то давно, я писал пост про PandasAI. Использует его кто-нибудь в работе? Судя по всему он тоже активно развивается.
👍42
Привет! 👋

Давно ничего не писал, но руки чесались. Восхищаюсь людьми, которые не бросают и стабильно ведут каналы. У меня часто возникала, да и будет возникать проблема с поиском темы для рассказа. Я продолжаю себе убеждать, что именно поэтому я так нигде и не выступил на конференции, хотя, почти наверняка, это боязнь)

Иногда я считаю, что это слишком тривиально и не будет интересно большому числу людей, иногда — что затрачу слишком много усилий, чтобы сделать что-то крутое, а выйдет по итогу не очень интересно и бесполезно.

Канал на старте драйвил меня к изучению чего-то нового, но, как в дальнейшем оказалось, это занимает слишком много времени и сохранить прежнюю тематику канала до конца не вышло, далее было переформатирование в более повседневный, простой формат, но и это не помогло(

Сейчас я хочу вернуться и вести канал, писать тут про всё, в том числе не только об аналитике. Поэтому, если вам может быть неактуален такой контент, то я вас пойму.

Вообще в апреле была интересная дата. Год назад я стал тимлидом. У меня есть небольшая по меркам чисел, но большая по меркам компании команда великолепных продуктовых аналитиков) За это время много всего произошло, где-то я естественно прокачался, получил интересный опыт, что-то привнёс своё, что-то еще предстоит сделать.

Еще весь прошлый год я активно проводил секцию по продуктовой аналитике, это интересный опыт, который советую всем опробовать. Это закаляет тебя в софтах, а также позволяет здраво оценивать уровень людей извне, что несомненно помогает при поиске к себе в команду.

Еще был переезд в новый офис, уверен, что, если вы хотели, то уже прочитали от моих коллег о нем в Linkedin-ах или в их каналах. Ну это несомненно крутое место, где приятно регулярно находиться.

Ну и раз речь зашла о нем, то добавляйтесь, буду рад https://www.linkedin.com/in/artem-goncharov-96a885263


Вообще с линкедином есть забавная история моей оплошности, но об этом как-нибудь в другой раз.

Ну и фоточка из недавней поездки❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1031
Если вы не знаете чем заняться на предстоящих выходных, то можете поучаствовать в контесте по АБ от Самоката и выиграть билеты на предстоящую конференцию Aha

https://abcontest.matemarketing.ru/

Надо бы тоже глянуть будет, что там
👍11
Совсем скоро конференция Aha, а точнее первый день уже завтра (30 мая).

Сегодня посмотрел программу, чтобы составить список докладов, которые хочу посмотреть.

Конференция разбита на два дня: 30 мая и 6 июня.

Первый из них будет онлайн, программа достаточно короткая, но оно и понятно — удерживать внимание людей в онлайн трансляции на протяжении всего дня невозможно.

Сегодня расскажу про доклады, которые меня зацепили в первый день.

1️⃣ИЛЬЯ ЛОЛАДЗЕ, ПРОДУКТОВЫЙ АНАЛИТИК SAMOKAT.TECH

АЛГОРИТМ ПОИСКА КУРЬЕРОВ-ПАРТНЕРОВ И ПОИСК БАЛАНСА В СЕРВИСЕ ДОСТАВКИ

На примере сервиса экспресс-доставки Самоката Илья расскажет как оценивать точность прогноза supply-часов с учетом сезонности (скорость курьеров и спрос меняется), работы динамического минимального чека (влияющего на конверсию в заказ) и затрат на вывод курьеров. Как разложить оценку этой точности на граф ошибок для определения ключевых точек улучшения. Как найти баланс метрик сервиса доставки (опоздания, утилизация, затраты). Как дальше работать с этим прогнозом, предлагать идеи для улучшений, симулировать эффект от них на исторических данных и после запускать оффлайн-A/B


Похожий доклад был у сбера, вроде бы на прошлом матемаркетинге, который мне очень понравился, а тут взгляд со стороны от Самоката. Задача оптимизации в доставках мне очень интересна, она как олимпиадная задача по математике — ее легко объяснить, легко понять, но когда речь заходит о решении часто возникают трудности) Жду!


2️⃣АНДРЕЙ КУЛАГИН, HEAD OF ML & PRODUCT ANALYTICS UZUM MARKET
НИКИТА ДУБИЦКИЙ, ПРОДУКТОВЫЙ АНАЛИТИК UZUM MARKET


А/Б-ПЛАТФОРМА GROWTHBOOK: ИСТОРИЯ ВНЕДРЕНИЯ В UZUM MARKET

Доклад будет состоять из 3 частей:
1. Выбор. Почему в случае с A/B-платформой мы пошли в сторону “buy” в “build vs buy” дилемме. Приведем ключевые критерии выбора. Расскажем, почему в конечном итоге решили остановиться именно на GrowthBook, даже не смотря на ее минусы.
2. Внедрение. Про архитектуру отправки и хранения experiment exposures, работе с атрибутами и идентификаторами, первых фича-флагах и особенностях подключения клиентов с SDK на 6 языках программирования.
3. Работа с платформой. Разберем основные этапы в нашем текущем процессе работы с экспериментами в GrowthBook. Как выглядит процесс добавления новых метрик? Что должно быть учтено в дизайне A/B? Какие ключевые параметры анализа? Почему по-умолчанию мы используем байесовский движок, а не фреквентистский? Как работаем с неймспейсами, разрезами, сегментами и активационными метриками


Интересная тема, потому что АБ-платформа для каждой компании на бумаге понятная и реализуемая вещь, но когда дело доходит до построения тут возникает масса проблем. Плохое качество данных, отсутствие инфраструктуры для передачи этих данных в платформу, отсутствие единого идентификатора клиента, не говоря уже о наличии у каждого продукта дерева метрик или хотя бы понятной иерархии метрик.


3️⃣АЛЕКСАНДР КУЗНЕЦОВ, ВЕДУЩИЙ АНАЛИТИК EXPF

РАЗВИТИЕ МЕТОДОЛОГИИ ПОИСКА ПРОКСИ-МЕТРИК В А/В ТЕСТАХ

В докладе рассмотрим подходы к поиску прокси метрик для А/В тестирования на различных этапах развития продуктовой компании. Подробно поговорим о поиске прокси на эксперементальном корпусе, использовании ML для поиска прокси, также коснемся исторических данных и эвристик. Сравним подходы в срезах основых этапов развития продуктовой компании.

Ну тут просто интересная и актуальная тема для меня, думаю и для многих из вас.


Больше ничего не зацепило, но считаю, что 3 доклада из 11 это уже успех) 🎉

Расскажите в комментариях, что планируете посмотреть вы, буду рад почитать!

Программу конференции скину в комментарии
Please open Telegram to view this post
VIEW IN TELEGRAM
41🔥11
Будете ли слушать конференцию?
Anonymous Poll
26%
Да, буду в оффлайне
32%
Да, буду слушать в онлайне
42%
Нет
1