Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Forwarded from Я у мамы аналитик (Stas Valuev)
В исследованиях рынков есть такой классный тип артефактов - Landscape. В идеале, он должен помогать понять 2 вещи:
🔹какие типы процессов или операций есть в отрасли;
🔹какие существуют инструменты для их реализации или автоматизации.

У такого формата есть существенный минус: сходу ничерта не ясно, да и понять что-то без дополнительной аналитики и пояснений непросто (особенно в новой для себя сфере).

Поэтому особое внимание к себе привлекают материалы вроде сегодняшнего The 2020 Data & AI Landscape, где есть и ландшафт рынка и понятные выводы.

Помимо картинок есть описание основных трендов в развитии инфраструктур для обработки данных, самой аналитики и AI (их довольно много, рекомендую самостоятельно ознакомиться).

Вот ссылка на картинку в хорошем разрешении.

🔗Ссылка на статью

#инструменты #анализ_рынка
Неплохой бесплатный курс по по A/B-тестированиям. Без сильного технического фарша и примеров кода, но раскрывающий основные важные моменты:
— Чем классические частотные подходы к расчёту вероятности отличаются от байесовских
— Как рассчитывается статистическая значимость и почему её расчёт важен в ходе оценки результатов A/B-тестирования
— Чем отличается статистическая мощность от статистической значимости
— Как правильно сделать сплит трафика
— Почему важно правильно аттрибуцировать конверсию при маркетинговых экспериментах
— Сравнение подходов тестирования на клиенте (client-side) и на сервере (server-side)
— Как анализировать и интерпретировать A/B-тесты

https://www.dynamicyield.com/course/testing-and-optimization/
Признаюсь честно, что у меня очень плохо с тем, что некоторые назвали бы «серьёзной математикой»: я плохо читаю сложные формулы, не могу сразу же схватить их физический смысл, путаюсь в разных «значочках и закорючках». Поэтому никогда не хотел стать data scientist'ом — казалось, что без знания математики в Data Science делать нечего. Позже я, конечно, узнал что это не так и можно шарить и приносить пользу в определенных разделах DS и без сильного углубления в линейную алгебру или теорию оптимизации (например, NLP)

Но что мне всегда помогало понять сложные концепции — это «пощупать» их в виде реальных данных или кода. Кажется, что это «практическое ощущение» математики у меня «проклёвывалось» ещё в универе: я спокойно мог закодить какой-нибудь метод половинного деления или Монте-Карло на занятиях по численным методам, когда понимал его как алгоритм, а вот решить дифференциальное уравнение для меня было подобно реверс-инжинирингу инопланетной технологии (это и сейчас так)

Уже позже в работе меня не раз выручал этот подход: не понимаешь как что-то работает в теории — напрограммируй это или найди чужой код. Не понимаю что такое центральная предельная теорема? Значит надо найти примеры кода, в которых ЦПТ применяется для анализа настоящих данных. Сложно понять что такое марковские цепи? Поищу как можно симулировать марковские цепи с помощью кода на Python. Запустил несколько раз симуляцию на разных входных данных и начинаешь понимать как эти шестеренки внутри крутятся. С таким подходом мне, конечно, никогда не светит писать white-papers в научные журналы. Зато многие штуки получалось применять в работе, а ещё появилась математическая интуиция и умение видеть красоту в математических концепциях

Это я всё к чему? Наткнулся на потрясный репозиторий на гитхабе, где математические нотации объяснены с помощью Python-кода. Очень кайфово

https://github.com/Jam3/math-as-code/blob/master/PYTHON-README.md
Оказывается у Майкрософт есть своя платформа для зеро-кодинга PowerApps. И недавно они выкатили в ней возможность ввести запрос на английском языке и получить на выходе SQL-запрос (или что-то на него похожее, судя по скриншотам). Реализуется это дело с помощью модели естественного языка GPT-3

Меня эта тема заинтересовала и путём несложного гуглежа я узнал, что оказывается это прямо-таки отдельная область научного интереса: люди устраивают целые соревнования пытаясь решить задачу семантического парсинга запроса, сформулированного на обычном языке, и перевести его в SQL. Эталонный датасет для таких задачек — это WikiSQL, набор SQL-запросов, вручную аннотированный комментариями на естественном тексте. Интересно, что для его генерации Salesforce применяли краудорсинговый труд, хоть это и звучит как что-то негуманное

В силу своей математической тугости, white-papers я читаю как ребёнок, разглядывая картинки и ища знакомые слова не длиннее 6 символов, но даже мне интересно было проследить эволюцию в подходах. Для примера сравните статью 1996 года (удивительно, что уже тогда пытались делать NLP-based интерфейсы) и статью, описывающую один из топовых (на момент написания заметки) подход к этой задаче

В общем, сначала BI-системы понизили порог входа в self-service data analytics, а теперь и AI к этому подключился. Уже близок том момент, когда каждый менеджер будет ходить за «а посчитай мне выручку по месяцам» не к аналитикам, а к Siri или Алисе. Но, конечно, это не повод аналитикам унывать и переквалифицироваться в курьеров (или закладочников). Вот когда научится писать оконные функции для расчёта rolling retention, тогда и поговорим
Forwarded from Я у мамы аналитик (Stas Valuev)
В статье с Хабра «Все что вы (не) хотели знать о Data Science» обнаружил интересный взгляд на содержание профессии Data Scientist.

Стоит посмотреть хотя бы ради описания того, как разные функциональные роли вроде data engineer, analyst, MLOps накладываются на 3 ключевых области компетенций:
🔹математика и статистика;
🔹разработка и администрирование;
🔹знание предметной области.

Еще есть верхнеуровнево про грейды дата саентистов, подготовку к собеседованиям и специфику Ситимобила.

🔗Ссылка

P.S. Утаскиваю из комментариев замечательное дополнение: «Как стать дата-шрушером aka вкатиться в DS». Более практичный и подробный взгляд изнутри с нецензурщиной и мемами.

#компетенции
Люто рекомендую почитать клёвую статью «Как стать дата-шрушером aka вкатиться в DS», на которую наткнулся из поста выше

Она очень хорошо описывает:
— какие роли бывают в DS (под DS понимается широкое поле специализаций Data Analytics / Machine Learning / Data Engineering)
— какие компетенции нужны для того, чтобы соответствовать этим ролям, какие компании нанимают DS-специалистов и как отличаются задачи, зоны ответственности и перспективы разных ролей в зависимости от типа компании
— какие существуют траектории, чтобы заскочить в DS

Написано со здоровым сарказмом (особенно повеселило замечание, что если вам нравится перекладывать JSONы с места на место, то вам прямая дорога в дата-инженеры), юмором и драйвом. И этот стиль повествования, немного раздолбайский, как нельзя лучше подходит для описания такой хаотичной материи как работа с данными. Тут нет проторенных дорожек обучения, тут нет даже нормально сформированных описаний вакансий, тут есть куча технологий, навыков и областей доменной экспертизы, которые в итоге формируют для каждого специалиста свой особенный профиль. Я встречал веб-аналитиков, которые богически шарили в NLP, потому что поисковые запросы сами себя не проанализируют, дата-аналитиков, которые в итоге становились дата-инженерами, потому что им нужна была нормально работающая инфраструктура, и ещё множество ребят, которых можно назвать «химерами data science», потому что набор их навыков не описывается ни одним общепризнанным названием должности. Такие «химеры» в итоге и двигают отрасль вперёд, потому что кажется такого количества кроссдисциплинарности не встретишь ни в одной другой ветке IT-сферы, а с кроссдисциплинарностью почти всегда вместе следует творчество и инновации

Получил истинное удовольствие от прочтения. Также рекомендую подписаться на канал автора
Всем привет, дорогие подписчики.
Сегодня поговорим о такой интересной теме, как собеседования.

Итак, что же представляет собой собеседование на аналитика?

1 этап. Созвон с HR - вы редко пропустите этот этап. Чаще всего это собеседование на ‘адекватность’: чем вы занимались, какие у вас мотивации в работе, пресловутое ‘кем вы видите себя через Х лет’. Ещё HR расскажет о позиции, компании, послушает остальные ваши вопросы и узнает о ваших зарплатных ожиданиях.

2 этап. Зачастую это техническое собеседование с вашим будущим менеджером и коллегами из команды, где вы будете либо :
- писать код на SQL/Python (в зависимости от того, что вы знаете и любите)
- отвечать на вопросы, как бы вы решали ту или иную задачку (например: ‘как вы считаете retention/LTV’, ‘как бы вы оценивали АВ-тест’, ‘какие методы АВ-тестирования вы знаете’ )
- иногда могут дать продуктовый кейс из серии:
‘Вот у нас такие-то вводные и при этом у нас падает конверсия, какие причины вы в этом видите?’
В такой ситуации от вас будут ждать генерации гипотез, больше с уклоном, как вы мыслите.

Конечно, также поспрашивают про опыт, почему вы решили менять работу, в каких инструментах работали.

Иногда вместо/после этого этапа могут прислать домашнее задание, где от вас так же будут ждать написание кода/гипотез.
Если здесь все успешно, то переходим на этап 3.

3 этап. Чаще всего это собеседование с продуктовым менеджером или CPO , иногда это может быть руководитель всей аналитики или операционный руководитель (типа CFO), если департамент аналитики находится в его управлении.
Там тоже будут вопросы про опыт, как бы вы что-то решили, иногда могут спросить, какие улучшения вы бы уже предложили нашей компании.

Готово, вы восхитительны, если прошли эти этапы!
Конечно, в частных случаях количество собеседований может увеличиться, если в компании большая ветвистая структура.

Ещё рекомендую обратить внимание, что иногда компания может запросить у вас референсы - отзывы ваших бывших коллег о работе. Внимание : иногда это может быть в открытую и у вас попросят контакты, а иногда это может быть сбор обратной связи от каких-то знакомых ваших будущих коллег.
Рынок IT достаточно тесный. Поэтому советую всегда уходить полюбовно 🤗

В следующих постах потренируемся на реальных задачах, которые когда-либо встречались мне и моим знакомым на собеседованиях.

#рынокIT #полезности #собеседования
Наткнулся на канал datapomodoro от создателей бесплатного онлайн-курса «Заговори на языке данных»

В этом канале ребята делятся советами о том как грамотно отображать информацию: как сделать графики или таблицы понятными, подобрать нужный тип диаграммы, как не ввести потребителя информации в заблуждение, акцентировать внимание на важном
И немного очевидных мыслей от себя

Умение правильно визуализировать данные очень важно для аналитиков, менеджеров, исследователей и всех, кто в графическом виде презентует результаты своей работы: понятная визуализация позволяет более эффективно доносить до людей важные аналитические выводы, а значит увеличивает скорость принятия решений. Это тот скилл, про который многие (и я в том числе) часто забывают: данные доходят до стейкхолдеров в виде многострочных тяжелочитаемых таблиц или графиков, которые может и выглядят подробно и/или красиво, но при этом не позволяют сразу считать главную мысль. Я часто вижу это у начинающих аналитиков: они делают великолепные интерактивные графики с помощью Plotly или d3.js, но при этом забывают про то, что каждый график должен нести в себе понятный вывод, а не быть просто красивой констатацией факта
Python — универсальный инструмент далеко не только для тех, кто в IT. Знание его базовых возможностей может дополнить арсенал специалистов из самых разных областей гуманитарных и социальных наук 👩‍💻

Если вы давно присматриваетесь к программированию, хотите освоить новые инструменты и автоматизировать часть рутинных задач, но не знаете, с чего начать, — приглашаем на летнюю серию воркшопов по основам Python. Её проведут преподаватели из «ПАНДАН» , совместной программы Яндекса и Европейский университет в Санкт-Петербурге.

Занятия начнутся 18 июня и будут проходить раз в неделю по пятницам в 19:00 (мск).

Слушателей ждут пять онлайн-лекций и пять домашних заданий, основанных на реальных рабочих кейсах социологов, журналистов, историков и других специалистов.
Все подробности о программе и форма регистрации на сайте: https://clck.ru/VRaBM
Присоединяйтесь!
Я тут на днях познакомился с Data Scientist из ЛитРес, не так давно он начал вести свой телеграм-канал «Налейте аналитику»

На канале появляются:

— мысли о профессии аналитиков
— уроки для начинающих и не очень по SQL/Python/BI
— советы, как начать карьеру в аналитике и Data Science
— разбор реальных кейсов из опыта
— основы построения рекомендательных систем, выбор BI-инструментов, хранилищ данных и многое другое

Канал совсем новорожденный, но там интересно 🙂

https://t.me/naleite
Что почитать для развития аналитического мышления?

Коль хотите книжек, их есть у меня.
Поделюсь теми книгами, которые, на мой взгляд, помогут настроиться на аналитический лад.

1) Data Science for Business. Foster Provost & Tom Fawcett.
Не столько про мышление, сколько про методы и как вообще с данными взаимодействовать, но хорошо подкручивает аналитические гайки в голове

2) Думай, как математик . Барбара Оакли
Про эффективное решение задач, применение ‘математических’ подходов к ним и немножко про уловки мозга и режим.

3)Теория игр. Искусство стратегического мышления в бизнесе и в жизни. Авинаш Дикситт и Барри Нейлбафф.
Книга о том, как теория игр ежедневно проявляется в нашей жизни, даже если мы этого не осознаём. Эдакая прикладная математика 🧮

4)Революция в аналитике. Как в эпоху BIG DATA улучшить бизнес с помощью операционной аналитики. Билл Фрэнкс.
Книга состоит из трёх частей: в первой автор рассказывает, что вообще такое эти ваши данные и как с ними работать, во второй части снабжает рекомендациями по построению системы аналитики в компании , ну а в третьей рассказывает, как построить команду мечты.

#полезности #истинаневпоследнейинстанции #книжкиотМаришки
👉 Большая подборка телеграм каналов для аналитиков 👈

Ребята из IT Resume собрали большую подборку авторских телеграм-каналов для аналитиков. Там более 20 каналов на любой вкус - анализ данных, программирование, data engineering, data science и многое другое 👍

Теперь вам точно будет, что почитать на предстоящих выходных 🙃
Подробнее – в статье
Всем привет!

В преддверии пятницы затронем такую прекрасную тему ‘как же ворваться в аналитику’

Извольте.

Я сама в IT пришла из FMCG, если уж вообще детально рассказывать мою историю, поэтому каким-то опытом поделиться могу.

Дело было примерно 5 лет назад. Сначала я изучила рынок вакансий и посмотрела основные требования к аналитикам: везде было - аналитический майндсет 🤡, SQL и умение делать выводы из цифр. Я подумала, что звучит неплохо, разобраться с этим можно.

Поэтому рекомендасьон 1 - изучить рынок, посмотреть, какие требования к аналитикам есть сейчас.
Скорее всего, вы увидите SQL, Python, где-то, может, и R из инструментов; требование к умению работать с инструментами визуализации типа Power BI, Tableau и что-то такое; умение переводить цифры на нормальный язык и делать выводы; ещё могут встретиться знание статистики и тервера.

Теперь, определившись с тем, что нам учить, идём грызть гранит науки.

Рекомендасьон 2 - найти, где и как учиться, в интернетах или моём канале 🤩

#отсердцаотрываю следующее:

• Если хотим изучить SQL с нуля , штудируем книжку Бена Форта https://codernet.ru/books/sql/osvoj_samostoyatelno_sql_za_10_minut_4-e_izdanie/, засим покупаем курс на Coursera от Duke University- https://www.coursera.org/specializations/excel-mysql, потом шлифуем сверху этим - https://ru.coursera.org/specializations/learn-sql-basics-data-science .

• Когда выучили основы, идём в этот мой пост https://t.me/productanalyticsfordummies/20 и практикуем свежевыученный SQL на тренажерах.

• Если хотим немножко въехать в Python, то идём на https://pythontutor.ru/, а дальше куда занесёт нелегкая (судьба аналитика).

• Когда мы немного въехали в происходящее, идём в блог Олега Якубенкова https://gopractice.ru/ и внимательно читаем с самого начала. Потом можно приступать к тяжёлой артиллерии и купить симулятор по продуктовой аналитике (если целимся именно туда): https://simulator.gopractice.ru/?utm_source=blog&utm_campaign=mainmenu.

• Если не хочется проходить тяжёлый путь в одиночку, то можно прийти на
https://praktikum.yandex.ru/profile/data-analyst/ и взять полноценный курс, чтобы прокачаться по полной программе.

• Для погружения в статистику отлично подойдёт курс Анатолия Карпова https://stepik.org/course/76/promo

Это была часть 1. Пост будет длинный, stay tuned 💸

#истинаневпоследнейинстанции #полезности #рынокIT
Forwarded from BigQuery Insights
​​В сети появился небольшой каталог полезных SQL-запросов и функций, его обещают дополнять новыми фрагментами кода.

@BigQuery
Ищу к себе в команду Продуктового исследователя, который знаком с направлениями Data Science, Data Analysis и Data Engineering, или имеющего большое желание погрузиться в одну из них.

В этой роли человек будет добывать данные, позволяющие команде улучшать программу обучения и определять дальнейший вектор развития продуктов. При этом нужно будет исследовать рынок вакансий в сфере работы с данными, а также общаться со студентами, выпускниками и работодателями.

Отличная возможность для тех, кто хочет и умеет заниматься количественными и качественными исследованиями, имея при этом возможность влиять на конечный продукт.

Полное описание можно посмотреть здесь: https://praktikum.yandex.ru/promo/hr/product-researcher

Для отклика или рекомендации пишите в тг Юре @zyuzyaev
Business | System analyst - канал для всех, кому интересен бизнес/системный анализ. Ежедневно публикуются обучающие материалы и полезные статьи, с помощью которых вы прокачаете hard и soft skills.

Здесь вы найдёте:
переведённые статьи с английского языка
обучающие видео с ведущими IT-специалистами
актуальные новости
профессиональный юмор
Знаете как порой говорят «Математика ум в порядок приводит». Так вот в моём случае можно сказать, что «Эксель ум в порядок приводит»

Впервые я познакомился с Экселем где-то в школе, когда мы там учились в одной ячейке писать 2, в другой 2, а в третьей через формулу получалось 4. Уже магия. Затем какое-то понимание табличных процессоров мне пригодилось в университете, когда я за половину своей группы прорешал курсовые по статистике, которые можно было полностью сделать в Эксель. Нам всем тогда давали разные выборки с данными и нужно было посчитать разные статистические показатели: медиану, среднее, дисперсию, построили гистограмму и ещё всякие штуки, которые тогда казались бесполезными (ох как я ошибался). Принцип, по которому можно было сделать вычисления для всех курсовых был одинаковый, поэтому тут Эксель выручил: я сделал форму, которая по сути считала всю курсовую, только успевай менять данные. Уже тогда я где-то в глубине своей ленивой души полюбил концепцию «сделай что-то один раз, а потом автоматизируй»

Но настоящее моё помешательство на Эксель случилось, когда я пошёл на свою первую работу — на ней я сидел в Эксель 80% своего времени. Для кого-то это может показаться самой ненавистной работой — ну что может быть хуже, чем весь день красноглазить в таблички? Для меня же наоборот. Я часто ловил себя на том, что мне интересно приводить таблички и процессы к такому виду, чтобы они работали без меня. Это требовало усилий, изучения новых функций, бесконечного гуглежа и просиживания на форумах. При этом это научило меня этому безумному упорству нёрдов — привычке не жалеть времени, чтобы найти ответ на какой-то небольшой технический вопрос, из-за которого всё не работает так, как хочется

В процессе такой автоматизации своего мира я всё больше высвобождал времени для того, чтобы изучить что-то новое и покопаться в чём-то ещё, поставить себе ещё какой-то новый вызов. То есть именно Эксель научил меня привычке освобождать себя от рутины, но при этом забивать освободившееся время поисками того как ещё лучше использовать инструмент. В какой-то момент я понял, что всё более менее доступное я уже понимаю, инструмент исчерпан для меня. Можно было бы двигаться и глубже, например, изучая VBA и автоматизировать ещё больше. Но мне это показалось сложным и ненужным, поэтому подумал, что надо искать что-то другое. Так от Экселя я пришёл в веб-аналитику и дальше двинулся в освоение мира всяких там сессий, просмотров страниц и настройки событий, что привело меня к аналитике данных, но Excel до сих пор не выходит из обихода моих регулярных инструментов

Короче, учите Эксель (конечно, если ещё не умеете программировать) – он меняет способ восприятия и голову в порядок приводит
👍1
Вчера Юрий Борзило выложил в Фейсбуке пост про доверительные интервалы в работе аналитика. Это хороший пост, так как он поднял проблему использования статистики как инструмента получения достоверных выводов

Максим Годзи из Retentioneering в группе «Python для анализа данных» написал большой пост, где разобрал этот кейс с точки зрения границ применимости, а также значимости этого для бизнеса. Мне кажется получилась хорошая мини-дискуссия, детально разбирающая этот кейс, освещая все подводные камни

Ниже, с разрешения Юрия и Максима, я привожу текст первоначального поста Юрия и ответа Максима. Посты достаточно длинные, поэтому размещаю их на telegraph, но советую прочитать полностью, чтобы понять все причинно-следственные связи, о которых говорят Юрий и Максим

Доверительные интервалы в работе аналитика
Почему я считаю важным разместить этот пост?

Во-первых, он показывает, что в использовании многих инструментов есть границы применимости. То, что можно назвать подводными камнями. И очень важно разбирать публично эти подводные камни, рассказывать о них, объяснять, вступать в продуктивную аргументированную дискуссию

Во-вторых, как будто это оказалось для меня глотком свежего воздуха. Я часто встречаю в интернете другой тип дискуссий: попытку выставить собеседника «дураком», аргументировав это фразой «вы ни в чём не разбираетесь, тогда не пишите ничего». Особенно часто это касается областей, в которых прослеживается «наукоёмкость» и «систематичность», то есть областей где много математического или инженерного фундамента. К такой отрасли относится и аналитика данных. Мне кажется это катастрофически снижает культуру дискуссий, ограничивает развитие отрасли и бьёт по самоценке людей, входящих в эту индустрию. Я верю, что открытый диалог, аргументированное объяснение и работа над ошибками в формате взаимопомощи, а не «тыкания носом» — это то, что делает нас всех лучше как сообщество единомышленников

Как мне кажется, такой уровень дискуссии и объяснений — это то, чего крайне не хватает в русскоязычном коммюнити аналитиков за пределами профессиональных конференций. Моя большая мечта — выстраивать такое коммюнити, где эксперты как Юрий и Максим будут активно делиться такими кейсами, повышая уровень экспертизы всего рынка. Ограничивающим фактором тут является то, что такое качество объяснений и глубина мысли требуют очень больших вложений сил и времени

А ещё, пользуясь случаем, хочу анонсировать, что на конференции Матемаркетинг-2021 я буду выступать с докладом «Математика как прикладная область знаний в работе и карьере аналитика», где в том числе попытаемся разобраться как аналитику усилить свою математическую интуицию, лучше понимать подводные камни использования статистических инструментов. Рассчитываю, что этот доклад будет результатом переосмысления коллективного опыта различных экспертов аналитики, поэтому если вам есть что сказать про математику/статистику, задать вопросы мне, Юрию или Максиму — пишите в комментариях