Datalytics
9.08K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Ко мне периодически стучатся специалисты по найму с предложениями о работе. Я сам эти предложения вынужден отвергать, но в качестве жеста вежливости делюсь вакансиями в своём канале в телеграме.

Подумалось, что мне не очень хочется смешивать контент, ориентированный на распространение знаний с вакансиями. Поэтому я решил завести отдельный канал для публикации вакансий в сфере анализа данных, Data Science, а также инжиниринга данных. Так все вакансии будут в одном месте, будет удобнее искать по ним, а также позволит увеличить количество публикуемых вакансий (ведь основной канал было невежливо забивать одними вакансиями).

Так что если вы заинтересованы в поиске работы дата-аналитиком, продуктовым аналитиком, маркетинговым аналитиком (с уклоном в data analysis, а не в имплементацию систем веб-аналитики), игровым аналитиком, data scientist'ом или дата-инженером, то подписывайтесь. Пока там всего одна вакансия, но будут появляться ещё.

Размещение вакансий — бесплатно. Просто пишите мне в телеграме @ax_makarov. Не хочу, чтобы канал стал свалкой разношерстных вакансий, поэтому не буду брать вакансии системных и бизнес-аналитиков, а также веб-аналитиков и маркетинговых аналитиков с уклоном в имплементацию. Условно говоря, вакансия пройдёт, если от соискателя требуется работать с инструментами обработки/очистки/трансформации/визуализации/интерпретации данных (например, BI-системы, языки Python/R, SQL).

Ещё одно требование к вакансии — наличие живого текста, а не простого перечня требований и задач (всё это будет в ссылке на HH или другую странцу, нет смысла дублировать в посте). В свободной форме расскажите какие задачи предстоит решать будущему крутышу в вашей команде, какие инструменты использовать, пофантазируйте об образе идеального человека на позиции. Сделайте это так как если бы вы рассказывали об этой вакансии соискателю на собеседовании. Если вам сложно написать текст, то всё равно пишите — придумаем что-то вместе.

И последнее. В тексте вакансии обязательно должна быть ссылка на профиль контактного лица в телеграме. Хочется сократить расстояние между соискателем и компанией и убрать прослойку в виде HH или другого листинга вакансий.

В общем, если есть желание разместить вакансию — пишите @ax_makarov. По первому времени буду репостить в основной канал.

https://t.me/data_hr
#реклама

Data Science и Machine Learning родственные, взаимообогащающие друг друга дисциплины.

Представляем «Новое электричество» — качественный авторский канал об Искусственном интеллекте.

В канале выходят посты про ИИ, стартапы, его применяющие, а также истории о собственном опыте авторов в создании бизнеса.

Основной проект авторов называется Upfinity — смотрите, добавляйте в закладки! Вполне вероятно, через год он будет там у многих.

Подписывайтесь на канал, вас ждёт ещё много интереснейших постов.
Forwarded from Data Analytics Jobs
🧑‍💻ВКонтакте в поиске аналитика-разработчика в команду рекламы и бизнес-продуктов, которому интересно развиваться в техническом направлении, но и отходить от бизнеса далеко не хочется

🔈Вот что пишет действующий аналитик ВКонтакте об этой позиции:

Нужен спец, который будет развивать платформу ETL, aka кидать данные между хадупом и кх, так же делать агрегаты в кх по данным из кх и в хадупе, шатать все это через pyspark, airflow и python, отвечать за данные в нашей команде в целом. Пилить долгие решения типа предсказания оттока

📝Откликнуться на вакансию: @aleeshechka (Алёна)

🔗Ссылка на вакансию: https://vk.com/jobs?w=job234

#spb #moscow #remote #fulltime #senior #analytics_engineer
Статья, рассказывающая об опыте парсинга данных из открытых источников. Особый кайф материала в том, что автор очень хорошо описывает подход к формированию алгоритма парсинга. Есть, конечно, и примеры кода. Получился такой полевой дневник: подробно изложены шаги; описаны какие-то "подводные камни", на которые натыкался аналитик; рассказывается как справится с этими сложностями.

https://habr.com/ru/post/504900/
Если хочется сделать классификацию значений из числового в категориальный тип по заранее обозначенным диапазонам, то первое, что приходит на ум — сделать функцию и применить через apply().

Оказывается есть способы, которые работают быстрее:

1️⃣ Через loc : сделать несколько конструкций с loc, которые будут по-очереди прогонять условия и изменять значение категории (важно заметить, что тут нужно, чтобы условия были от максимального к минимальному). Получаем 77 мс вместо 131 мс на 540К значений.

2️⃣ Самый быстрый. Через метод cut() : этот метод позволяет разбить данные на бины (корзинки) в соответствии с заранее обозначенными диапазонами. А затем каждому бину можно назначить название с помощью параметра labels. Параметр include_lowest указывает на то, что нижняя граница корзины попадает в соответствующую корзину, а не в предыдущую. Метод cut() выдаёт 22 мс (!) на 540К значений. Судя по исходному коду, это всё магия numpy 💫

В погоне за скоростью важно всегда экспериментировать с решениями 💪
Forwarded from Data Analytics Jobs
🎒Skyeng в поиске Senior data analyst (Skysmart)

🔈Слово предоставляется ребятам из Skymart:

Тетрадь Skysmart — это новый проект Skyeng для учителей и учеников 5–11 классов.
Мы освобождаем учителей от проверки домашек и делаем задания для учеников интересными и практико-применимыми.
Уже реализована защита от списывания, впереди - реализации новых продуктовых экспериментов и идей.
Процессы только выстраиваются и есть возможность прямо влиять на них. Много свободы и много работы:)
Стек: Python, SQL, Airflow, Tableau + часть данных перевозим в Clickhouse.
Круто, если у тебя есть опыт в том, чем мы еще не работаем и ты нас этому научишь.

📝Откликнуться на вакансию: @bykatya (Быкова Катя)

🔗Ссылка на вакансию: https://hh.ru/vacancy/38106049

#moscow #remote #fulltime #senior #data_analyst
🅰️🅱️Открыт набор на новый поток интенсива ExperimentFest по математической статистике и a/b тестам 📊

1. Интенсив включает в себя 5 практических лекций 📒
2. Самостоятельная работа – после каждой лекции даются задачи для работы в интерактивном калькуляторе ExperimentFest. На этих калькуляторах можно проработать весь материал самостоятельно и закрепить то, что разбирается на лекциях. ДЗ сдается в личном кабинете студента, где можно получить обратную связь от преподавателей курса 🧪

Записаться тут ➡️ https://www.experiment-fest.ru/
Интересная статья, раскрывающая многие аспекты работы аналитика: Никита Башун из "Везёт" рассказывает о создании системы антифрода. Отличный пример создания быстрого MVP, который за минимум времени разработки закрывает серьёзную проблему. Из инструментов: PostgreSQL, Airflow и Google Spreadsheets.

https://habr.com/ru/post/512752/
Forwarded from Data Analytics Jobs
🚂«Первая Грузовая Компания» (ПГК) — крупнейший частный оператор грузовых железнодорожных перевозок России в поиске Senior/Middle data scientist

🔈Слово предоставляется ребятам из ПГК:

Мы видим высокий потенциал в применении различных математических, ML и оптимизационных алгоритмов для создания решений в виде цифровых подсказчиков и инструментов автоматизации бизнес-процессов. Есть беклог на 7 продуктов от стратегического планирования до фактического исполнения грузовых ЖД перевозок. Расчет оптимального плана перевозок, выбор лучших маршрутов и подходящих вагонов, оптимальная передислокация вагонов в онлайн режиме, баланс парка и много другое.
Прямо сейчас мы создаем ядро команды продуктовой разработки. Есть возможность реализовать свои амбиции в части выстраивания процессов разработки и применяемых инструментов с нуля.

Стек: Python, SQL, математический солвер Gurobi.
Круто, если у тебя есть опыт в том, с чем мы еще не работаем и ты нас этому научишь.

📝Откликнуться на вакансию: @dkrupenin (Дима Крупенин)

🔗Ссылка на вакансию: https://hh.ru/vacancy/38174454

#moscow #remote #fulltime #senior #middle #data_analyst
Я заметил, что некоторые посты из этого канала репостят небольшие телеграм-каналы, которые рассказывают про работу с данными. Значит, появляется много новых каналов про аналитику данных. И это круто, потому что создание новых каналов — сигнал растущего интереса к этой теме. К тому же завести свой канал — отличный метод систематизации информации и может ускорить профессиональное развитие.

Захотелось привести на эти каналы побольше подписчиков, чтобы мотивировать авторов активнее писать и не бросать это дело. У меня небольшая просьба: если вы ведёте телеграм-канал про анализ данных и у вас немного подписчиков (до 500) — поделитесь ссылкой на канал в личном сообщении. Я соберу их в один пост и размещу тут.
Статья про конкурентный анализ средствами Python. Я уже кидал предыдущую часть статьи, в которой рассматривались особенности парсинга. В этой же части автор рассказывает об организации хранения полученных данных с помощью простой SQLite-базы

https://habr.com/ru/post/512208/
Как и обещал, делюсь ссылками на каналы в сфере анализа данных, только начинающие свой путь, а также некоторые каналы, которые существуют уже давно, но по какой-то причине не набрали ещё много подписчиков:

🔷Канал Саши Михайлова, не только про аналитику, но и про неё тоже
🔶What does data mean? — Поток полезных ссылок для изучения data science и анализа данных
🔷Аналитика. Это просто — Канал про аналитику данных
🔶Продуктовая аналитика для чайников — Канал о тернистом пути в продуктовую аналитику: ссылки, авторские заметки и статьи
🔷Я у мамы аналитик — Записная книжка по Business Intelligence, аналитике, инструментам и методам анализа
🔶Fsecrets.ru — Подборка интересных материалов с трендами продвинутой аналитики, реальными кейсами применения
🔷data fm — Канал Анастасии Шушуриной про возможности python в анализе данных, разработке и data science
🔶Just Yet Another Channel — Канал Дарьи Чиркиной про продвинутую аналитику данных
🔷datadrivendecisions — Канал Даниила Ханина о том, как принимать решения на основе данных, юнит-экономике, метриках и поисках точек кратного роста
🔶Пристанище Дата Сайентиста — Канал Рената Алимбекова про карьеру, применение и обучение Data Science
🔷LEFT JOIN — Канал Николая Валиотти про аналитику данных
🔶Business Intelligence HeadHunter — Канал с вакансиями Power BI, Tableau

Не пожалейте времени пробежаться и подписаться на интересные вам каналы
Статья про сравнение двух инструментов (Power BI и Python) для выполнения одной и той же задачи — когортного анализа. Лично я сторонник такого подхода, что для обработки данных нужно использовать тот инструмент, который исключает необходимость что-то тюнить и настраивать вручную, а для визуализации — инструмент с наибольшими возможностями гибкой фильтрации и предоставления self-service аналитики. Поэтому я бы комбинировал эти инструменты: строить сами когорты и определять количество дней жизни когорты в Python, а визуализировать (строить "косынки" и когортную таблицу) в BI-инструменте

https://habr.com/ru/post/501492/
Forwarded from Data Analytics Jobs
👷‍♂️Profi.ru ищет Middle Data Engineer в команду «BI»

🔈Слово предоставляется тимлиду команды «BI»:

Наша команда раскладывает и визуализирует данные так, чтобы аналитики могли строить дашборды, а бизнес — делать выводы и принимать решения на их основе.
Сейчас мы открываем направление «Аналитика в реальном времени», но для полноценного погружения нам не хватает data-инженера, который подхватит запросы от аналитиков и бизнеса, поддержит текущее развитие хранилища данных и поможет построить хранилище для маркетинговых данных.
Стек: Vertica, Clickhouse, MySQL, Redis, Python, Java, NodeJS, Apache Airflow, Apache Flink.

💬Откликнуться: @natashaprofi

🔗Посмотреть вакансию: https://profi.ru/vacancies/middle_engineer/

#moscow #fulltime #remote_first #middle #data_engineer
Predictive Power Score (PPS) — это метрика, позволяющая определять степень линейной и нелинейной зависимости между двумя колонками, в том числе для ассиметричной зависимости. Эта метрика может быть отличной заменой коэффициента корреляции Пирсона. Пример реализации подсчета Predictive Power Score на Python и сравнение с Пирсоном:

https://www.kaggle.com/frtgnn/predictive-power-score-vs-correlation

Также рекомендую почитать статью про PPS:

https://towardsdatascience.com/rip-correlation-introducing-the-predictive-power-score-3d90808b9598

Вдохновлено постом https://t.me/ProductAnalytics/249
В этом году исполнилось 35 лет с первого релиза Microsoft Excel.

Это программа, которая, без преувеличения, изменила мир. Про себя могу сказать, что знакомство и тщательное изучение Excel определили то, что я буду заниматься аналитикой. Можно сказать, что именно благодаря этой программе я начал совершать первые робки шаги в анализе данных.

Нашёл перевод интересной статьи, которая прославляет Excel и рассказывает про его историю и влияние на бизнес:

Появление MS Excel определило эпоху — он «создал тысячи стартапов и стимулировал миллионы увольнений». Благодаря этой программе появлялись совершенно новые отрасли промышленности. Только посмотрите, какое количество новых должностей появилось в мире бизнес-аналитики — даже та, на которой я проработал большую часть 2015-го. Этих профессий не существовало, пока Excel не подарил нам возможность обрабатывать и визуализировать данные — играть в «что будет, если…».

https://habr.com/ru/company/it-grad/blog/507114/

Посмотрите как эволюционировал Excel за эти 35 лет: https://www.versionmuseum.com/history-of/microsoft-excel
Нашёл на Kaggle микрокурс по изучению Pandas, оформленный в виде ноутбуков. Включает в себя разбор всех базовых функций, так что для ознакомления с возможностями библиотеки отлично подходит

https://www.kaggle.com/learn/pandas
Статья про байесовский подход к оценке результатов A/B-тестирования. Хорошо и доступно описывается сам подход и его преимущества. Также в статье есть примеры кода, которые будут полезны для собственных проектов

https://towardsdatascience.com/why-you-should-try-the-bayesian-approach-of-a-b-testing-38b8079ea33a
Запись доклада про производительность Pandas с PyData Fest Amsterdam 2020 от Ian Ozsvald, одного из авторов книги High Performance Python

Большие датасеты не всегда помещаются в память, но что делать если хочется проанализировать их с помощью Pandas? Сначала в видео рассматриваются методы сжатия данных. Далее разбираются некоторые "хитрые" способы ускорить выполнение обычных операций в датафреймах, включая переход на numpy и более оптимальный выбор функций для операций с данными. Рассмотренные приёмы позволят уменьшить размер датафреймов и ускорить обработку данных.

https://youtu.be/N4pj3CS857c
Forwarded from LEFT JOIN
Диалог @a_nikushin и @data_karpov о доступном образовании для аналитиков на Youtube вдохновил меня рассказать одну свою историю и поделиться ссылками.

Так сложилось, что в Университете мне очень повезло с преподавателями (от линейной алгебры до баз данных и языков программирования). Один из них, В. Л. Аббакумов, разжег настоящую страсть к методам анализа данных своими лекциями и лабораторными заданиями. В. Л. — практик и был моим научным руководителем по дипломной работе (мы делали кластеризацию данных Ленты), а затем и по кандидатской диссертации (строили нейронную сеть специальной архитектуры, тогда еще в Matlab).

Уже несколько лет назад в рамках ШАД и Computer Science Яндекса у него был записан курс Анализ данных на Python в примерах и задачах в двух частях. Настало время поделиться ссылками на первый и второй плейлисты на Youtube.

Первая часть посвящена описательным статистикам, проверке статистических гипотез, иерархическому кластерному анализу и кластерному анализу методом к-средних, классификационным моделям (деревья, Random Forest, GBM). В целом, весь плейлист достоин внимания без отрыва 🤓
Во второй части более глубокое погружение в нейронные сети, keras, deep learning, xgboost и снова все лекции крайне рекомендованы.🎖
Смотреть можно смело на 1.5x.

Материалы к видео:
Часть 1. Занятия и материалы
Часть 2. Занятия и материалы
Наткнулся на библиотеку для работы с временными рядами Darts. В неё встроены не только популярные инструменты прогнозирования временных рядов (ARIMA, Prophet), но и различные вспомогательные функции, например, процессинг ряда для разделения на сезонную и трендовую компоненты, утилиты для бэктестинга (проверки модели на исторических данных). В общем, любопытная штука, для тех кто работает с временными рядами - будет полезно

https://medium.com/unit8-machine-learning-publication/darts-time-series-made-easy-in-python-5ac2947a8878

@datalytx