Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Объяснение Z-статистики и p-value с помощью иллюстраций и кода на Python. Не могу сказать, что я бы рекомендовал эту статью, чтобы начать погружение, потому что всё же она изобилует примерами расчёта значений с помощью кода, а новичкам может быть сложно понять концепции математической статистики, если с кодом ещё не очень. Но для тех, кто уверенно чувствует себя с numpy/pandas, но ещё не очень хорошо разбирается в матстате — самое оно

А ещё в статье отличные примеры использования seaborn и matplotlib для построения кастомных визуализаций

https://habr.com/ru/post/557424/
Forwarded from Я у мамы аналитик (Stas Valuev)
В исследованиях рынков есть такой классный тип артефактов - Landscape. В идеале, он должен помогать понять 2 вещи:
🔹какие типы процессов или операций есть в отрасли;
🔹какие существуют инструменты для их реализации или автоматизации.

У такого формата есть существенный минус: сходу ничерта не ясно, да и понять что-то без дополнительной аналитики и пояснений непросто (особенно в новой для себя сфере).

Поэтому особое внимание к себе привлекают материалы вроде сегодняшнего The 2020 Data & AI Landscape, где есть и ландшафт рынка и понятные выводы.

Помимо картинок есть описание основных трендов в развитии инфраструктур для обработки данных, самой аналитики и AI (их довольно много, рекомендую самостоятельно ознакомиться).

Вот ссылка на картинку в хорошем разрешении.

🔗Ссылка на статью

#инструменты #анализ_рынка
Неплохой бесплатный курс по по A/B-тестированиям. Без сильного технического фарша и примеров кода, но раскрывающий основные важные моменты:
— Чем классические частотные подходы к расчёту вероятности отличаются от байесовских
— Как рассчитывается статистическая значимость и почему её расчёт важен в ходе оценки результатов A/B-тестирования
— Чем отличается статистическая мощность от статистической значимости
— Как правильно сделать сплит трафика
— Почему важно правильно аттрибуцировать конверсию при маркетинговых экспериментах
— Сравнение подходов тестирования на клиенте (client-side) и на сервере (server-side)
— Как анализировать и интерпретировать A/B-тесты

https://www.dynamicyield.com/course/testing-and-optimization/
Признаюсь честно, что у меня очень плохо с тем, что некоторые назвали бы «серьёзной математикой»: я плохо читаю сложные формулы, не могу сразу же схватить их физический смысл, путаюсь в разных «значочках и закорючках». Поэтому никогда не хотел стать data scientist'ом — казалось, что без знания математики в Data Science делать нечего. Позже я, конечно, узнал что это не так и можно шарить и приносить пользу в определенных разделах DS и без сильного углубления в линейную алгебру или теорию оптимизации (например, NLP)

Но что мне всегда помогало понять сложные концепции — это «пощупать» их в виде реальных данных или кода. Кажется, что это «практическое ощущение» математики у меня «проклёвывалось» ещё в универе: я спокойно мог закодить какой-нибудь метод половинного деления или Монте-Карло на занятиях по численным методам, когда понимал его как алгоритм, а вот решить дифференциальное уравнение для меня было подобно реверс-инжинирингу инопланетной технологии (это и сейчас так)

Уже позже в работе меня не раз выручал этот подход: не понимаешь как что-то работает в теории — напрограммируй это или найди чужой код. Не понимаю что такое центральная предельная теорема? Значит надо найти примеры кода, в которых ЦПТ применяется для анализа настоящих данных. Сложно понять что такое марковские цепи? Поищу как можно симулировать марковские цепи с помощью кода на Python. Запустил несколько раз симуляцию на разных входных данных и начинаешь понимать как эти шестеренки внутри крутятся. С таким подходом мне, конечно, никогда не светит писать white-papers в научные журналы. Зато многие штуки получалось применять в работе, а ещё появилась математическая интуиция и умение видеть красоту в математических концепциях

Это я всё к чему? Наткнулся на потрясный репозиторий на гитхабе, где математические нотации объяснены с помощью Python-кода. Очень кайфово

https://github.com/Jam3/math-as-code/blob/master/PYTHON-README.md
Оказывается у Майкрософт есть своя платформа для зеро-кодинга PowerApps. И недавно они выкатили в ней возможность ввести запрос на английском языке и получить на выходе SQL-запрос (или что-то на него похожее, судя по скриншотам). Реализуется это дело с помощью модели естественного языка GPT-3

Меня эта тема заинтересовала и путём несложного гуглежа я узнал, что оказывается это прямо-таки отдельная область научного интереса: люди устраивают целые соревнования пытаясь решить задачу семантического парсинга запроса, сформулированного на обычном языке, и перевести его в SQL. Эталонный датасет для таких задачек — это WikiSQL, набор SQL-запросов, вручную аннотированный комментариями на естественном тексте. Интересно, что для его генерации Salesforce применяли краудорсинговый труд, хоть это и звучит как что-то негуманное

В силу своей математической тугости, white-papers я читаю как ребёнок, разглядывая картинки и ища знакомые слова не длиннее 6 символов, но даже мне интересно было проследить эволюцию в подходах. Для примера сравните статью 1996 года (удивительно, что уже тогда пытались делать NLP-based интерфейсы) и статью, описывающую один из топовых (на момент написания заметки) подход к этой задаче

В общем, сначала BI-системы понизили порог входа в self-service data analytics, а теперь и AI к этому подключился. Уже близок том момент, когда каждый менеджер будет ходить за «а посчитай мне выручку по месяцам» не к аналитикам, а к Siri или Алисе. Но, конечно, это не повод аналитикам унывать и переквалифицироваться в курьеров (или закладочников). Вот когда научится писать оконные функции для расчёта rolling retention, тогда и поговорим
Forwarded from Я у мамы аналитик (Stas Valuev)
В статье с Хабра «Все что вы (не) хотели знать о Data Science» обнаружил интересный взгляд на содержание профессии Data Scientist.

Стоит посмотреть хотя бы ради описания того, как разные функциональные роли вроде data engineer, analyst, MLOps накладываются на 3 ключевых области компетенций:
🔹математика и статистика;
🔹разработка и администрирование;
🔹знание предметной области.

Еще есть верхнеуровнево про грейды дата саентистов, подготовку к собеседованиям и специфику Ситимобила.

🔗Ссылка

P.S. Утаскиваю из комментариев замечательное дополнение: «Как стать дата-шрушером aka вкатиться в DS». Более практичный и подробный взгляд изнутри с нецензурщиной и мемами.

#компетенции
Люто рекомендую почитать клёвую статью «Как стать дата-шрушером aka вкатиться в DS», на которую наткнулся из поста выше

Она очень хорошо описывает:
— какие роли бывают в DS (под DS понимается широкое поле специализаций Data Analytics / Machine Learning / Data Engineering)
— какие компетенции нужны для того, чтобы соответствовать этим ролям, какие компании нанимают DS-специалистов и как отличаются задачи, зоны ответственности и перспективы разных ролей в зависимости от типа компании
— какие существуют траектории, чтобы заскочить в DS

Написано со здоровым сарказмом (особенно повеселило замечание, что если вам нравится перекладывать JSONы с места на место, то вам прямая дорога в дата-инженеры), юмором и драйвом. И этот стиль повествования, немного раздолбайский, как нельзя лучше подходит для описания такой хаотичной материи как работа с данными. Тут нет проторенных дорожек обучения, тут нет даже нормально сформированных описаний вакансий, тут есть куча технологий, навыков и областей доменной экспертизы, которые в итоге формируют для каждого специалиста свой особенный профиль. Я встречал веб-аналитиков, которые богически шарили в NLP, потому что поисковые запросы сами себя не проанализируют, дата-аналитиков, которые в итоге становились дата-инженерами, потому что им нужна была нормально работающая инфраструктура, и ещё множество ребят, которых можно назвать «химерами data science», потому что набор их навыков не описывается ни одним общепризнанным названием должности. Такие «химеры» в итоге и двигают отрасль вперёд, потому что кажется такого количества кроссдисциплинарности не встретишь ни в одной другой ветке IT-сферы, а с кроссдисциплинарностью почти всегда вместе следует творчество и инновации

Получил истинное удовольствие от прочтения. Также рекомендую подписаться на канал автора
Всем привет, дорогие подписчики.
Сегодня поговорим о такой интересной теме, как собеседования.

Итак, что же представляет собой собеседование на аналитика?

1 этап. Созвон с HR - вы редко пропустите этот этап. Чаще всего это собеседование на ‘адекватность’: чем вы занимались, какие у вас мотивации в работе, пресловутое ‘кем вы видите себя через Х лет’. Ещё HR расскажет о позиции, компании, послушает остальные ваши вопросы и узнает о ваших зарплатных ожиданиях.

2 этап. Зачастую это техническое собеседование с вашим будущим менеджером и коллегами из команды, где вы будете либо :
- писать код на SQL/Python (в зависимости от того, что вы знаете и любите)
- отвечать на вопросы, как бы вы решали ту или иную задачку (например: ‘как вы считаете retention/LTV’, ‘как бы вы оценивали АВ-тест’, ‘какие методы АВ-тестирования вы знаете’ )
- иногда могут дать продуктовый кейс из серии:
‘Вот у нас такие-то вводные и при этом у нас падает конверсия, какие причины вы в этом видите?’
В такой ситуации от вас будут ждать генерации гипотез, больше с уклоном, как вы мыслите.

Конечно, также поспрашивают про опыт, почему вы решили менять работу, в каких инструментах работали.

Иногда вместо/после этого этапа могут прислать домашнее задание, где от вас так же будут ждать написание кода/гипотез.
Если здесь все успешно, то переходим на этап 3.

3 этап. Чаще всего это собеседование с продуктовым менеджером или CPO , иногда это может быть руководитель всей аналитики или операционный руководитель (типа CFO), если департамент аналитики находится в его управлении.
Там тоже будут вопросы про опыт, как бы вы что-то решили, иногда могут спросить, какие улучшения вы бы уже предложили нашей компании.

Готово, вы восхитительны, если прошли эти этапы!
Конечно, в частных случаях количество собеседований может увеличиться, если в компании большая ветвистая структура.

Ещё рекомендую обратить внимание, что иногда компания может запросить у вас референсы - отзывы ваших бывших коллег о работе. Внимание : иногда это может быть в открытую и у вас попросят контакты, а иногда это может быть сбор обратной связи от каких-то знакомых ваших будущих коллег.
Рынок IT достаточно тесный. Поэтому советую всегда уходить полюбовно 🤗

В следующих постах потренируемся на реальных задачах, которые когда-либо встречались мне и моим знакомым на собеседованиях.

#рынокIT #полезности #собеседования
Наткнулся на канал datapomodoro от создателей бесплатного онлайн-курса «Заговори на языке данных»

В этом канале ребята делятся советами о том как грамотно отображать информацию: как сделать графики или таблицы понятными, подобрать нужный тип диаграммы, как не ввести потребителя информации в заблуждение, акцентировать внимание на важном
И немного очевидных мыслей от себя

Умение правильно визуализировать данные очень важно для аналитиков, менеджеров, исследователей и всех, кто в графическом виде презентует результаты своей работы: понятная визуализация позволяет более эффективно доносить до людей важные аналитические выводы, а значит увеличивает скорость принятия решений. Это тот скилл, про который многие (и я в том числе) часто забывают: данные доходят до стейкхолдеров в виде многострочных тяжелочитаемых таблиц или графиков, которые может и выглядят подробно и/или красиво, но при этом не позволяют сразу считать главную мысль. Я часто вижу это у начинающих аналитиков: они делают великолепные интерактивные графики с помощью Plotly или d3.js, но при этом забывают про то, что каждый график должен нести в себе понятный вывод, а не быть просто красивой констатацией факта
Python — универсальный инструмент далеко не только для тех, кто в IT. Знание его базовых возможностей может дополнить арсенал специалистов из самых разных областей гуманитарных и социальных наук 👩‍💻

Если вы давно присматриваетесь к программированию, хотите освоить новые инструменты и автоматизировать часть рутинных задач, но не знаете, с чего начать, — приглашаем на летнюю серию воркшопов по основам Python. Её проведут преподаватели из «ПАНДАН» , совместной программы Яндекса и Европейский университет в Санкт-Петербурге.

Занятия начнутся 18 июня и будут проходить раз в неделю по пятницам в 19:00 (мск).

Слушателей ждут пять онлайн-лекций и пять домашних заданий, основанных на реальных рабочих кейсах социологов, журналистов, историков и других специалистов.
Все подробности о программе и форма регистрации на сайте: https://clck.ru/VRaBM
Присоединяйтесь!
Я тут на днях познакомился с Data Scientist из ЛитРес, не так давно он начал вести свой телеграм-канал «Налейте аналитику»

На канале появляются:

— мысли о профессии аналитиков
— уроки для начинающих и не очень по SQL/Python/BI
— советы, как начать карьеру в аналитике и Data Science
— разбор реальных кейсов из опыта
— основы построения рекомендательных систем, выбор BI-инструментов, хранилищ данных и многое другое

Канал совсем новорожденный, но там интересно 🙂

https://t.me/naleite
Что почитать для развития аналитического мышления?

Коль хотите книжек, их есть у меня.
Поделюсь теми книгами, которые, на мой взгляд, помогут настроиться на аналитический лад.

1) Data Science for Business. Foster Provost & Tom Fawcett.
Не столько про мышление, сколько про методы и как вообще с данными взаимодействовать, но хорошо подкручивает аналитические гайки в голове

2) Думай, как математик . Барбара Оакли
Про эффективное решение задач, применение ‘математических’ подходов к ним и немножко про уловки мозга и режим.

3)Теория игр. Искусство стратегического мышления в бизнесе и в жизни. Авинаш Дикситт и Барри Нейлбафф.
Книга о том, как теория игр ежедневно проявляется в нашей жизни, даже если мы этого не осознаём. Эдакая прикладная математика 🧮

4)Революция в аналитике. Как в эпоху BIG DATA улучшить бизнес с помощью операционной аналитики. Билл Фрэнкс.
Книга состоит из трёх частей: в первой автор рассказывает, что вообще такое эти ваши данные и как с ними работать, во второй части снабжает рекомендациями по построению системы аналитики в компании , ну а в третьей рассказывает, как построить команду мечты.

#полезности #истинаневпоследнейинстанции #книжкиотМаришки
👉 Большая подборка телеграм каналов для аналитиков 👈

Ребята из IT Resume собрали большую подборку авторских телеграм-каналов для аналитиков. Там более 20 каналов на любой вкус - анализ данных, программирование, data engineering, data science и многое другое 👍

Теперь вам точно будет, что почитать на предстоящих выходных 🙃
Подробнее – в статье
Всем привет!

В преддверии пятницы затронем такую прекрасную тему ‘как же ворваться в аналитику’

Извольте.

Я сама в IT пришла из FMCG, если уж вообще детально рассказывать мою историю, поэтому каким-то опытом поделиться могу.

Дело было примерно 5 лет назад. Сначала я изучила рынок вакансий и посмотрела основные требования к аналитикам: везде было - аналитический майндсет 🤡, SQL и умение делать выводы из цифр. Я подумала, что звучит неплохо, разобраться с этим можно.

Поэтому рекомендасьон 1 - изучить рынок, посмотреть, какие требования к аналитикам есть сейчас.
Скорее всего, вы увидите SQL, Python, где-то, может, и R из инструментов; требование к умению работать с инструментами визуализации типа Power BI, Tableau и что-то такое; умение переводить цифры на нормальный язык и делать выводы; ещё могут встретиться знание статистики и тервера.

Теперь, определившись с тем, что нам учить, идём грызть гранит науки.

Рекомендасьон 2 - найти, где и как учиться, в интернетах или моём канале 🤩

#отсердцаотрываю следующее:

• Если хотим изучить SQL с нуля , штудируем книжку Бена Форта https://codernet.ru/books/sql/osvoj_samostoyatelno_sql_za_10_minut_4-e_izdanie/, засим покупаем курс на Coursera от Duke University- https://www.coursera.org/specializations/excel-mysql, потом шлифуем сверху этим - https://ru.coursera.org/specializations/learn-sql-basics-data-science .

• Когда выучили основы, идём в этот мой пост https://t.me/productanalyticsfordummies/20 и практикуем свежевыученный SQL на тренажерах.

• Если хотим немножко въехать в Python, то идём на https://pythontutor.ru/, а дальше куда занесёт нелегкая (судьба аналитика).

• Когда мы немного въехали в происходящее, идём в блог Олега Якубенкова https://gopractice.ru/ и внимательно читаем с самого начала. Потом можно приступать к тяжёлой артиллерии и купить симулятор по продуктовой аналитике (если целимся именно туда): https://simulator.gopractice.ru/?utm_source=blog&utm_campaign=mainmenu.

• Если не хочется проходить тяжёлый путь в одиночку, то можно прийти на
https://praktikum.yandex.ru/profile/data-analyst/ и взять полноценный курс, чтобы прокачаться по полной программе.

• Для погружения в статистику отлично подойдёт курс Анатолия Карпова https://stepik.org/course/76/promo

Это была часть 1. Пост будет длинный, stay tuned 💸

#истинаневпоследнейинстанции #полезности #рынокIT
Forwarded from BigQuery Insights
​​В сети появился небольшой каталог полезных SQL-запросов и функций, его обещают дополнять новыми фрагментами кода.

@BigQuery
Ищу к себе в команду Продуктового исследователя, который знаком с направлениями Data Science, Data Analysis и Data Engineering, или имеющего большое желание погрузиться в одну из них.

В этой роли человек будет добывать данные, позволяющие команде улучшать программу обучения и определять дальнейший вектор развития продуктов. При этом нужно будет исследовать рынок вакансий в сфере работы с данными, а также общаться со студентами, выпускниками и работодателями.

Отличная возможность для тех, кто хочет и умеет заниматься количественными и качественными исследованиями, имея при этом возможность влиять на конечный продукт.

Полное описание можно посмотреть здесь: https://praktikum.yandex.ru/promo/hr/product-researcher

Для отклика или рекомендации пишите в тг Юре @zyuzyaev
Business | System analyst - канал для всех, кому интересен бизнес/системный анализ. Ежедневно публикуются обучающие материалы и полезные статьи, с помощью которых вы прокачаете hard и soft skills.

Здесь вы найдёте:
переведённые статьи с английского языка
обучающие видео с ведущими IT-специалистами
актуальные новости
профессиональный юмор
Знаете как порой говорят «Математика ум в порядок приводит». Так вот в моём случае можно сказать, что «Эксель ум в порядок приводит»

Впервые я познакомился с Экселем где-то в школе, когда мы там учились в одной ячейке писать 2, в другой 2, а в третьей через формулу получалось 4. Уже магия. Затем какое-то понимание табличных процессоров мне пригодилось в университете, когда я за половину своей группы прорешал курсовые по статистике, которые можно было полностью сделать в Эксель. Нам всем тогда давали разные выборки с данными и нужно было посчитать разные статистические показатели: медиану, среднее, дисперсию, построили гистограмму и ещё всякие штуки, которые тогда казались бесполезными (ох как я ошибался). Принцип, по которому можно было сделать вычисления для всех курсовых был одинаковый, поэтому тут Эксель выручил: я сделал форму, которая по сути считала всю курсовую, только успевай менять данные. Уже тогда я где-то в глубине своей ленивой души полюбил концепцию «сделай что-то один раз, а потом автоматизируй»

Но настоящее моё помешательство на Эксель случилось, когда я пошёл на свою первую работу — на ней я сидел в Эксель 80% своего времени. Для кого-то это может показаться самой ненавистной работой — ну что может быть хуже, чем весь день красноглазить в таблички? Для меня же наоборот. Я часто ловил себя на том, что мне интересно приводить таблички и процессы к такому виду, чтобы они работали без меня. Это требовало усилий, изучения новых функций, бесконечного гуглежа и просиживания на форумах. При этом это научило меня этому безумному упорству нёрдов — привычке не жалеть времени, чтобы найти ответ на какой-то небольшой технический вопрос, из-за которого всё не работает так, как хочется

В процессе такой автоматизации своего мира я всё больше высвобождал времени для того, чтобы изучить что-то новое и покопаться в чём-то ещё, поставить себе ещё какой-то новый вызов. То есть именно Эксель научил меня привычке освобождать себя от рутины, но при этом забивать освободившееся время поисками того как ещё лучше использовать инструмент. В какой-то момент я понял, что всё более менее доступное я уже понимаю, инструмент исчерпан для меня. Можно было бы двигаться и глубже, например, изучая VBA и автоматизировать ещё больше. Но мне это показалось сложным и ненужным, поэтому подумал, что надо искать что-то другое. Так от Экселя я пришёл в веб-аналитику и дальше двинулся в освоение мира всяких там сессий, просмотров страниц и настройки событий, что привело меня к аналитике данных, но Excel до сих пор не выходит из обихода моих регулярных инструментов

Короче, учите Эксель (конечно, если ещё не умеете программировать) – он меняет способ восприятия и голову в порядок приводит
👍1
Вчера Юрий Борзило выложил в Фейсбуке пост про доверительные интервалы в работе аналитика. Это хороший пост, так как он поднял проблему использования статистики как инструмента получения достоверных выводов

Максим Годзи из Retentioneering в группе «Python для анализа данных» написал большой пост, где разобрал этот кейс с точки зрения границ применимости, а также значимости этого для бизнеса. Мне кажется получилась хорошая мини-дискуссия, детально разбирающая этот кейс, освещая все подводные камни

Ниже, с разрешения Юрия и Максима, я привожу текст первоначального поста Юрия и ответа Максима. Посты достаточно длинные, поэтому размещаю их на telegraph, но советую прочитать полностью, чтобы понять все причинно-следственные связи, о которых говорят Юрий и Максим

Доверительные интервалы в работе аналитика