Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Хорошая статья в блоге Павла Левчука о том, что в последнее время стало очень модным говорить про аналитику с помощью Python, из-за чего BI-системы выглядят недоцененными в то время как они прекрасно решают подавляющее число аналитических задач, а также обаладают гибкостью по отношению к «потребителю данных», которой сложно добиться «аналитическим кодом»

Как пример: обеспечение гибкости логики расчётов, при грамотно организованном представлении данных и наличии нужных слайсеров/фильтров с помощью BI-системы можно быстро оценивать retention в различных срезах, управлять окном retention, добавлять дополнительные метрики. Это конечно можно сделать и в python-ноутбуке или через SQL, но зачастую скорость изменения отчета в BI-системах на порядок выше, а если есть необходимость сделать из отчета регулярный инструмент исследований, то без BI точно не обойтись

https://ecommerce-in-ukraine.blogspot.com/2021/08/python-vs-bi.html
Datalytics pinned Deleted message
Наткнулся тут на канал Александра @ershovds про Data science и программирование.

На канале есть туториалы по инструментам для анализа данных, разборы практических задач и советы по карьере.

Рекомендую подписаться!
Какая ирония - когда "идешь" на собеседование соискателем, думаешь, что, вот теорию вероятностей как-то начал забывать, а что там с питоном, а что такое мощность в статистике.
А когда "идешь" на собеседование нанимающим, думаешь, как понять, что у него с головой в порядке, что он понимает, как работают деньги, чтобы был ответственным, критичным, а пандас этот за 3 месяца отлично учится, и оконки в sql не главное, и сквозная аналитика только звучит эффектно...
Прежде всего понимание, как решить задачу-проблему. А в качестве инструмента и эксель ничего так. А, может, и нет проблемы, и решать ничего не надо.
Всегда приятно делиться крутыми достижениями ребят, учившихся в Яндекс.Практикуме

Выпускник программы Data Science Антон Батомункуев написал статью, в которой рассказал о своём первом опыте контрибьюта в open-source проект. Да не в просто open-source проект, а в тот, который использует почти каждый специалист в области данных — библиотеку для анализа данных Pandas. Отдельная прелесть статьи ещё и в подробном описании процесса: от выбора тикета для фикса до пулл-реквеста в мастер. Антон пофиксил issue в методе to_datetime(). Теперь каждый раз используя этот метод буду с теплотой думать о том, что выпускник Практикума причастен к доработке того, что там крутится под капотом😄

https://medium.com/@andreibatomunkuev/my-first-contribution-to-data-science-open-source-project-300af1f8ac38
Forwarded from Data-comics
На днях прям подряд послушала два интервью на тему аналитики.
В чем-то схожие, в чем-то разные.

Про путь аналитика, про будущее профессии, про кадры, собеседования, навыки, инструменты и задачи. ☺️

Может, кому тоже интересно будет послушать.

Интервью с Алексеем Макаровым
(его канал: https://t.me/datalytx)

https://www.instagram.com/tv/CVDjDXzoyKn/?utm_medium=copy_link

Интервью с Николаем Валиотти
(его канал: https://t.me/leftjoin)

https://www.instagram.com/tv/CVFf8ebjOGW/?utm_medium=copy_link
Forwarded from Записки Ппилифа (Filipp Ulyankin)
Про гипотезу о равенстве средних.

Давайте развенчаем ещё один миф. На это раз про равенство средних. Если мы тестируем гипотезу по-честному, надо выписывать z-статистику и сравнивать её с критическим значением.

Видимо, из-за того, что это сложно, на практике иногда встречается процедура с доверительными интервалами. Строим доверительный интервал для первого среднего. Строим для второго среднего. Если они не пересекаются, значит гипотеза о равенстве средних отвергается. Периодически встречаю людей, которые так делают. Не делайте так.

Дело в том, что для одинаковых ошибок первого рода, ошибка второго рода для процедуры, основанной на доверительных интервалах, окажется выше. Соотвественно мощность такого теста будет ниже. То есть, мы часто будем не замечать верность альтернативы и оставаться с нулевой гипотезой.

В АБ мы всегда формулируем свои предположения в терминах, что вообще ничего не поменялось. Эффекта нет. Средние в контрольной группе и в тестовой совпадают. Ошибка второго рода здесь --- не найти эффекта, когда он есть. Если мы пользуемся техникой с доверительными интервалами, часть изменений, от которых мог бы быть профит будет закопана.

Понятное дело, что при очень большом числе наблюдений эта разница будет небольшой. Однако это не мешает нам устроить священную войну за статистическую корректность. Не верите? Попробуйте провести симуляции, либо держите pdf-ку с решением этой задачки. Если преподаёте матстат, включите что-то похожее студентам в домашку :3

На картинке видно, что первая процедура (z-статистика) стабильно выигрывает у второй (интервалы). При бесконечном числе наблюдений разницы не будет, так как мы всегда сможем идеально отделить две альтернативы друг от друга.


Почему так происходит?

Мне кажется, что причина в нашей извращённой логике. Когда речь идёт об одном среднем, мы можем посчитать z-статистику, а можем посмотреть попал ли в доверительный интервал ноль. Эти два способа будут эквивалентны. Наше сознание хочет обобщить этот опыт на более сложные ситуации и делает это неверно.
Forwarded from Записки Ппилифа (Filipp Ulyankin)
Forwarded from Записки Ппилифа (Filipp Ulyankin)
means-hypotesis.pdf
660 KB
Привет!
Многие из вас знают, что в 2019 NEWHR выпускали большое исследование рынка аналитиков. Этот опрос они готовили совместно с экспертами-аналитиками. Многие работодатели до сих пор ориентируются на результаты того исследования при формировании зарплат, а ведь данные уже устарели.

Поэтому NEWHR стартовали новое масштабное исследование рынка аналитиков. На этот раз - с фокусом на Продуктовых аналитиках и на Руководителях аналитики. И, если вы продуктовый аналитик, советую принять участие и повлиять на общую картину рынка или узнать, что вас ждет в ближайшем будущем.

❗️Общая цель исследования: понять, кем является продуктовый аналитик в 2021 году?
Что входит в зону ответственности, а что не входит (но все равно приходится этим заниматься);
Кто становится продуктовым аналитиком (бэкграунд) и какие карьерные перспективы есть у этой профессии;
Что влияет на уровень зарплат и есть ли паттерны, присущие наиболее зарабатывающим профессионалам;
Как устроен найм и удержание продуктовых аналитиков.

Чтобы принять участие в исследовании, необходимо заполнить верификационную анкету. Она нужна для того, чтобы быть уверенным, что опросник заполняют только релевантные респонденты.

Пройдя опрос, вы получите срез зарплат аналитиков разных грейдов в вашей отрасли, которого не будет в публичном доступе.

Все участники получают призы и подарки от партнеров исследования: Нетологии, Матемаркетинга-2021, EXPF, Издательства МИФ — будут хорошие скидки и даже бесплатные ништяки.

Также, каждую неделю разыгрывается одна консультация Оксаны Прутьяновой, эксперта направления аналитики и датасайенс, и 5 крафтовых напитков от NEWHR.
Forwarded from 42 секунды
Forbes: Основанный Яндексом стартап ClickHouse стал «единорогом»

– Компания ClickHouse привлекла $250 млн и стала «единорогом»
– В ходе раунда компанию ClickHouse была оценена в $2 млрд
– Ключевыми инвесторами стали фонды Coatue и Altimeter
– Также вложились основатели: Benchmark Capital, Index Ventures и Яндекс
– Остальные инвесторы: Lightspeed, Redpoint, Almaz, FirstMark и Lead Edge
– Средства пойдут на рост штата и на развитие международного бизнеса
– ClickHouse используют Uber, Tesla, Spotify, Bloomberg, Alibaba, ByteDance и др.
Принёс вам подборку каналов и чатов с вакансиями для аналитиков, data scientists и дата-инженеров

🟢 Datalytics Jobs — Канал с вакансиями для DA, DS, DE
🟢 Работа ищет аналитиков — Пожалуй, самый большой чат с вакансиями для аналитиков. Не только вакансии, но и чат, где можно обсудить наболевшие вопросы
🟢 Business Intelligence HeadHunter — Вакансии для BI-аналитиков и не только https://t.me/biheadhunter
🟢 Job for Analysts & Data Scientists — Вакансии для Digital-аналитиков и Data scientists от NewHR
🟢 Data jobs feed — Вакансии для Data Engineers (но иногда проскакивают и другие data-related вакансии). Также есть чат
🟢 Data jobs — Вакансии по data science, анализу данных, аналитике, искусственному интеллекту https://t.me/datajob
🟢 Работа для ИТ-аналитиков — Вакансии для системных и бизнес-аналитиков, но бывают и вакансии для аналитиков данных
🟢 Big Data Science job — Вакансии для data scientists и data analysts
🟢 Data Science Jobs / AI / NN / ML / DL / NLP — Вакансии для data scientists и не только
Сбор и хранение данных

SQL
- «SQL Problems and solutionsS», I. Moiseenko Интерактивный учебник по SQL
- ByteScout SQL Trainer Быстрый и приятный тренажер, усложняющийся по мере вашего продвижения.
- Simple SQL Queries Упражнения для Постгреса
- SQL Tutorial for Beginners: Database, JOIN, WHERE, GROUP BY, HAVING, ORDER BY, LIKE, IN, BETWEEN
- Тренажер по SQL
- Как посчитать всё на свете одним SQL-запросом. Оконные функции PostgreSQL https://habr.com/ru/post/268983/
- Простенький тренажер с теорией https://sqlzoo.net/wiki/SQL_Tutorial
- Мануал по установке PostgreSQL в MacOS https://www.robinwieruch.de/postgres-sql-macos-setup
- Пример обращения к MySQL с помощью Python, используя библиотеку sqlalchemy https://pythondata.com/quick-tip-sqlalchemy-for-mysql-and-pandas/
- Пример обращения к PostgreSQL с помощью Python: https://khashtamov.com/ru/postgresql-python-psycopg2/
- window function - https://learnsql.com/course/window-functions
- window function - https://campus.datacamp.com/courses/intermediate-t-sql/window-functions?ex=4
- Хорошая статья об оконных функций SQL - https://khashtamov.com/ru/window-functions-sql/

Парсинг
- Русский перевод документации к BeautifulSoup Beautiful Soup — это библиотека Python для извлечения данных из файлов HTML и XML. Она работает с вашим любимым парсером, чтобы дать вам естественные способы навигации, поиска и изменения дерева разбора. Она обычно экономит программистам часы и дни работы.
- Статья с примером парсинга данных с веб-сайтов с применением BeautifulSoup Освещены все основные этапы: формирование запроса и получение странички с помощью requests, поиск нужного элемента в HTML через инспектор, выделение данных из элемента через методы BeautifulSoup.

API
Работа с первичной аналитикой: выгружаем сырые данные из Метрики с помощью скрипта
#аналитика_с_марса
Коварный t-test

Скорее всего, если вы не аналитик — вам мимо. Увидимся в следующем посте!

Итак, типичный вопрос: какой стат-тест когда стоит использовать?
И типичный ответ: если нормальное распределение метрики — Стьюдент, если нет — Манн-Уитни.

И это, короче, неправда!

В статье-источнике можно почитать про то, откуда выросло это заблуждение, но гораздо важнее понять, а как же тогда правильно.

Нормальным должно не распределение метрики, а распределение среднего значения. Например, если нас интересует выручка, то мы можем считать такую метрику как ARPU, и чтобы сравнить ARPU в двух группах в АБ нам как раз подойдет t-тест по ЦПТ. При этом, сама выручка на юзера (RPU) не должна быть распределена нормально.

ЦПТ — это только предположение. С помощью бутстрапа как раз можно нагенерить подвыборки, посчитать на них ARPU и убедиться, что оно нормально распределено.

Зато у t-теста есть другое требование о равенстве дисперсий в выборках. Если они неравны, нужна модификация Уэлча.
Forwarded from LEFT JOIN
⚡️Масштабное независимое исследование онлайн-курсов по аналитике ⚡️

Мы с моими коллегами из компании твердо решили узнать все-все самое важное об онлайн образовании по теме аналитики и data science. Об онлайн образовании говорят повсеместно, курсы чрезвычайно распространены, ведь профессии в IT-сфере сейчас очень популярны. Думаю, что огромная часть аудитории данного канала либо прошла, либо собирается пройти курсы, связанные с анализом данных.

Прошу вас пройти опрос и оставить ваше искреннее мнение о той школе, курс в которой вы прошли. Хорошее, плохое, главное, не безразличное!

Буду признателен коллегам владельцам каналов по аналитике за репост. Разумеется, результатами опроса мы вскоре с вами поделимся в виде симпатичного дашборда 🤓

➡️ Ссылка на опрос

p.s. Любые комменты по опросу тоже приветствуются
Как онлайн-школы НЕ гарантируют трудоустройство

Вчера в чате «Работа ищет аналитиков» возникла бурная дискуссия о том помогают ли онлайн-школы с трудоустройством. Я не удивлён тому, что такой вопрос вызывает активное обсуждение:
- для большинства людей, идущих изучать аналитику данных или data science в онлайн-школах, ключевым обещанием является именно возможность сменить профессию;
- определенные ожидания тут сформировали и сами онлайн-школы, для которых обещание карьерной трансформации и увеличение дохода выпускника стало частью коммерческого предложения.

Когда мы говорим о поддержке студентов в карьерных начинаниях, важно понимать одну вещь: никто не может гарантировать трудоустройство. Поэтому любая гарантия трудоустройства в онлайн-курсах — это маркетинговая уловка с кучей оговорок

В Практикуме существуют профессии, в рамках которых предоставляется возврат в том случае, если за 6 месяцев с момента окончания курсов у выпускника не получается найти работы. Но для этого важно приложить усилия — искать вакансии самостоятельно, отсматиривать предложения от работодателей партнеров Практикума, делать определенное число откликов ежемесячно, ходить на собеседования, выполнять тестовые задания. То есть даже для того, чтобы вернуть деньги за обучение, надо прилагать усилия. А для того, чтобы устроиться на работу — тем более

Онлайн-школы не могут обеспечить вероятность трудоустройства 100%, потому что:
- Люди готовы инвестировать разное количество времени и сил в поиск работы. Сам поиск работы, прохождение собеседований, выполнение тестовых заданий — это тоже труд, на который надо выделять временные и когнитивные ресурсы
- Люди обладают разным предыдущим опытом. Бывает так, что предыдущий опыт позволяет существенно повысить шансы при трудоустройстве. Например, если выпускник работал в сфере телекоммуникаций, то конечно выше шанс найти первую работу аналитиком в этой сфере, потому что у такого человека будет понимание предметной области. Или если в предыдущем опыте было много работы с Excel, таблицами и отчетностью — из этого легко сделать конкурентное преимущество. Также предыдущий опыт определяет наличие различных мета-навыков и софт-скиллов: как хорошо вы умеете задавать вопросы, как быстро находите общий язык с людьми, какой у вас уровень критического мышления, насколько хорошо вы понимаете как компании зарабатывают деньги
- Мотивационная составляющая сильно влияет на то, как выглядит соискатель в глазах работодателя. Приходит ли человек только за деньгами или ему интересна профессия и сфера; готов ли он к тому, чтобы постоянно учиться и развивать свои компетенции или ищет «островок спокойствия и стабильности». Онлайн-школа не способна и не должна кардинально изменять ценностные установки, а они являются важной компонентой, которую оценивает работодатель. При этом критерии оценки у каждого работодателя разные
- У всех разные критерии поиска. Кто-то готов пойти в любую компанию лишь бы взяли, кто-то целится только в крупные tech-компании (куда критерии отбора жестче). Кто-то готов пойти на работу, где первый год будет клепать ad-hoc запросы и делать отчёты, а кто-то ищет сразу место, где будет влиять на рост продукта
- Шансы не равны из-за возраста и пола. Увы, это так. У Практикума есть успешные кейсы трудоустройства студентов 40+ на работу аналитиками, но это почти всегда сложный процесс, требующий упорства и нестандартного подхода к поиску

Если вы выбираете онлайн-школу для того, чтобы изменить собственный карьерный путь, получить перспективную профессию и обрести больше возможностей, то прежде всего стоит ответить себе на вопросы:
- Сколько усилий вы готовы приложить к поиску работы?
- Зачем вы хотите сменить профессию?
- Какие объективные предпосылки у вас есть, позволяющие выбрать именно эту профессию? (Я не хочу снобствовавать, но не поддерживаю распространенного мнения, что анализом данных может заниматься любой человек)
- Что может вам помешать в том, чтобы получить профессию? (Важно заранее продумать риски трудоустройства, а не бросаться в омут с головой в надежде, что вас устроят онлайн-курсы)
Онлайн-школы предлагают посильную карьерную поддержку: помощь с подготовкой резюме, сопроводительного письма, портфолио; тренировку в прохождении собеседований; партнерские вакансии; вебинары, знакомящие с различными представителями индустрии; дополнительный проектный опыт; и многое другое. Но это никак не отменяет того, что трудоустройство требует от выпускников осознанного подхода, понимания своих целей и, самое главное, приложения усилий в поиске

В следующий раз попробую рассказать как выпускники онлайн-школ выглядят глазами работодателей
Внутри три модуля: «Числа», «Дроби», «Алгебра». Модули открытые: можно проходить все темы по порядку, можно повторить только нужные вам. Позже тренажёр дополнится модулями «Логика и множества», «Теория вероятности» и «Комбинаторика»

Сейчас доступны 60 уроков с теорией и больше 1000 задач — они помогут вспомнить, как переводить величины, возводить в степень, считать пропорции и проценты, решать уравнения, неравенства и задачи

Если у вас внутри тоже сидят какие-то математические травмы, если вы просто хотите освежить знания в голове, или хотите лучше разобраться с математикой для профессионального роста — попробуйте тренажёр. Внутри всё сделано очень классно. Я уже участвовал в бета-тестировании с теплотой вспоминаю многие моменты, например, как помогал герою одной из задач подбирать наряд с помощью комбинаторики

Дано: тренажер по математике. Решение за вами) Да прибудет с вами математическая сила!

https://practicum.yandex.ru/math-foundations
Forwarded from novichkov.net (Alex Novichkov)
This media is not supported in your browser
VIEW IN TELEGRAM
Мегоатонны инфографики внутри. Смотрел со стороны на процесс и завидовал авторам
https://practicum.yandex.ru/math-foundations
Помимо вчерашнего анонса бесплатного тренажера по математике есть ещё одна хорошая новость: Школа Анализа Данных (ШАД) начала публиковать онлайн-учебник по машинному обучению и Data Science

Многолетний опыт преподавания и использования ML позволил создать учебник, который наглядно и доступно объясняет, что такое машинное обучение и как его использовать. Материал учебника будет полезен для начинающих ML-специалистов, разработчикам и аналитикам, а также исследователям

Пока в нём есть две большие главы: Классическое обучение с учителем и Оценка качества моделей. В будущем учебник будет дополняться, поэтому следите за обновлениями

https://academy.yandex.ru/dataschool/book
В продолжение сообщения про независимое исследование онлайн-курсов по аналитике

Если вы где-то учились/учитесь аналитике и ещё не поучаствовали в опросе — самое время