Datalytics
9.08K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Отличная статья про визуализацию данных с помощью Plotly. Статья рассказывает о том как строить различные интерактивные визуализации от простых вроде line-chart до более сложных, например, отображение данных на карте

https://habr.com/ru/post/502958/
Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)
Леша Куличевский @kulichevskiy описал процесс создания системы сквозной аналитики без подключения сторонних сервисов.

Как подключаться к AmoCRM по API (на Python) и забирать данные о сделках.

https://github.com/kulichevskiy/end-to-end/blob/master/amocrm.ipynb
О том как быстро и просто делать интерактивные визуализации с помощью Bokeh. В статье рассказывается о библиотеке Pandas-Bokeh, с помощью которой можно делать визуализации в одну строку. Это обеспечивается методом plot_bokeh(), который появляется при импорте библиотеки

https://towardsdatascience.com/beautiful-and-easy-plotting-in-python-pandas-bokeh-afa92d792167
Простая, но полезная, библиотека, позволяющая по набору данных подсчитать количество строк по категориальной колонке (или нескольким). Помимо самого количества также выводится доля и нарастающие показатели. По сути этой такой value_counts() на стероидах.

Но основная прелесть библиотеки в том, что она использует новое API pandas, которое позволяет писать собственные ацессоры для датафреймов и series, чтобы делать методы, которые могут встраиваться непосредственно как методы датафрейма. То есть вы можете расширять функциональность pandas, создавая дополнительные библиотеки, и при этом ваши методы будут выглядеть очень нативно и правильно с точки зрения хорошего стиля (например, логично встраиваться в концепцию method chaining). В общем, советую покопаться в исходниках.

https://pbpython.com/sidetable.html
Когда-то давно я написал статью про то с чего действующим аналитикам начать изучение Python. С тех пор статья немного актуализировалась и дополнилась несколькими интересными ссылками. Если кто-то вдруг подписан на канал, но пока ещё не нашёл как подступиться к Python, то эта статья как раз для вас

http://datalytics.ru/all/s-chego-analitiku-nachat-izuchenie-python/
Хорошая статья про то как строить простые визуализации с помощью методов, встроенных в ацессор plot. Внутри этого ацессора существует ряд простых в применении методов (например, bar() или hist()), которые позволяют быстро строить простые визуализации, основанные на matplotlib. О применении этих методов и пойдёт речь

https://towardsdatascience.com/the-simplest-way-to-create-complex-visualizations-in-python-isnt-with-matplotlib-a5802f2dba92
#реклама #вакансии

🔎 Авито в поиске аналитиков

Зарплата: От 100К рублей и выше
Уровень: От уверенного junior и выше
Город: Москва

#Авито — самый популярный сервис объявлений в Европе. Наша месячная аудитория 34,7 миллиона человек. В реальном времени на Авито «живут» более 47 миллионов объявлений.

Мы ищем аналитиков на несколько направлений:

Product Analyst (Verticals) — https://clc.to/Product_Analyst
Data Analyst (Tech Platform) — https://clc.to/Data_Analyst_TechPlatform
Data Analyst (Market Intelligence) — https://clc.to/Data_Analyst_MI

А также Team Lead (Marketing Analytics) — https://clc.to/Team_Lead

➡️ Несколько фактов об аналитике в Авито:

• Аналитики в Авито — это полноценные партнеры в развитии бизнеса и продукта
• Мы не берёмся за задачи, не имея чёткого ответа на вопрос «зачем?» и «что мы будем делать по-другому, когда узнаем Х?»
• Мы очень любим Tableau и у нас каждый сотрудник имеет доступ в общий аналитической портал и к ключевым отчетам
• У нас очень много данных, которые мы все собираем в Vertica (и чуть-чуть в ClickHouse) — в день это 5+ млрд событий
• Кроме очень крутой команды аналитиков у нас есть крутейшая команда DWH & Analytical Infrastructure, которые очень помогают в решении насущных инфрастуктурных проблем и автоматизации типовых аналитических задач

Подробную информацию по каждой вакансии и условиях работы в Авито можно узнать при переходе по ссылкам ⬆️

🙋🏻‍♂️Откликнуться на вакансию: @dozmorovadv @tanastasiav

#Москва #fulltime #marketing #product #analyticsdigest
Крутой пример семантического анализа на основе открытых данных. В статье представлен весь цикл анализа: начиная от сбора и заканчивая визуализацией данных с помощью plotly

http://leftjoin.ru/all/constitution-sentiment-analysis/
Большой туториал по использованию Pandas на примере задачи оценки студентов. По сути, это такое интересное решение типичной Excel'евской задачи с помощью Python. Рекомендую новичкам, чтобы повысить свою насмотренность

https://realpython.com/pandas-project-gradebook/
Если вы работаете с данными и вам интересно, что происходит на западном рынке, то вам будет интересно почитать канал Инжиниринг Данных, который ведет Дмитрий. Он уже 4 года работает в Амазон в Канаде и США. Сейчас он занимается созданием ML решений для Amazon Marketplace в департаменте Customer Behaviour Analytics в роли Инженера Данных. До этого он работал в Alexa AI и помогал scientists делать Alexa умней.

Дмитрий пропагандирует современные аналитические решения и облачные вычисления (cloud computing). Он часто выступает на конференциях в Северной Америке и написал 6 книг.

Так же сейчас он создает бесплатный ресурс по обучению профессиям Data Engineer, Analytics Engineer, BI Engineer - https://www.datalearn.ru/ (записывайтесь), где хочет любому желающему помочь освоить профессию и научить работать с данными. Курс будет полезен не только инженерам, но и аналитикам, рекрутерам и менеджерам.

Если вы хотите разобраться как аналитика помогает бизнесу зарабатывать деньги и какие технологии популярны на западе, то вы можете присоединиться к студентам ресурса datalearn. Все лекции публикуются на youtube, а материалы доступны в git.

Если вы хотите узнать больше про переезд в Канаду и устройство в Амазон, то Дмитрий подробно рассказал в статье не хабр;
Для тех кто только начинает свой путь в аналитике данных с помощью Python, может быть полезным сравнение одних и тех же манипуляций с данными в SQL и в Pandas

https://towardsdatascience.com/how-to-rewrite-your-sql-queries-in-python-with-pandas-8d5b01ab8e31
Forwarded from Data Analytics Jobs
Lamoda ищет коллегу на позицию Старшего продуктового аналитика, который станет одним из ключевых аналитиков для продуктов Ламоды.

Вот что пишут про вакансию ребята:

Для нас это важная роль, в рамках которой результаты исследований и интерпретация данных экспериментов имеют непосредственное влияние на развитие сайта, приложений, а также продуктовых направлений внутри e-commerce платформы.

В прошлом году мы собрали достаточно крепкую команду из 5 человек с разносторонним опытом в продукте и digital аналитике и сейчас хотим еще укрепить ее)
Кроме того, начинаем развивать свой бренд в области Data Analytics - в последние годы накопили очень много экспертизы по разным направлениям, и поняли, что пора уже ею делиться.

Продуктовые аналитики у нас анализируют потоки данных и помогают оценивать качество новых фич по разным продуктовым направлениям, формируют гипотезы и проводят А/В-тесты, визуализируют данные в дэшбордах и на основе исследований предлагают свои решения бизнесу.
Кроме того, каждый день у нас бывают миллионы пользователей, что создает настоящую Big Data, управиться с которой аналитикам помогает команда разработки R&D, с которой нужно будет взаимодействовать.
Чаще всего аналитики работают с Python, SQL, Tableau, Hive, Spark, GA.

Ищем коллегу, которому интересно развиваться в продуктовой аналитике, имеющего опыт в проведении А/В тестов (оценить и пересмотреть методологию оценки А/В тестов, предложить новые метрики), а также желание погружаться в сырые данные для поиска инсайтов и определения потенциальных точек развития.

Откликнуться на вакансию: @vasilii_la

Ссылка на вакансию: https://hh.ru/vacancy/38065206

#moscow #fulltime #senior #product_analyst
Ко мне периодически стучатся специалисты по найму с предложениями о работе. Я сам эти предложения вынужден отвергать, но в качестве жеста вежливости делюсь вакансиями в своём канале в телеграме.

Подумалось, что мне не очень хочется смешивать контент, ориентированный на распространение знаний с вакансиями. Поэтому я решил завести отдельный канал для публикации вакансий в сфере анализа данных, Data Science, а также инжиниринга данных. Так все вакансии будут в одном месте, будет удобнее искать по ним, а также позволит увеличить количество публикуемых вакансий (ведь основной канал было невежливо забивать одними вакансиями).

Так что если вы заинтересованы в поиске работы дата-аналитиком, продуктовым аналитиком, маркетинговым аналитиком (с уклоном в data analysis, а не в имплементацию систем веб-аналитики), игровым аналитиком, data scientist'ом или дата-инженером, то подписывайтесь. Пока там всего одна вакансия, но будут появляться ещё.

Размещение вакансий — бесплатно. Просто пишите мне в телеграме @ax_makarov. Не хочу, чтобы канал стал свалкой разношерстных вакансий, поэтому не буду брать вакансии системных и бизнес-аналитиков, а также веб-аналитиков и маркетинговых аналитиков с уклоном в имплементацию. Условно говоря, вакансия пройдёт, если от соискателя требуется работать с инструментами обработки/очистки/трансформации/визуализации/интерпретации данных (например, BI-системы, языки Python/R, SQL).

Ещё одно требование к вакансии — наличие живого текста, а не простого перечня требований и задач (всё это будет в ссылке на HH или другую странцу, нет смысла дублировать в посте). В свободной форме расскажите какие задачи предстоит решать будущему крутышу в вашей команде, какие инструменты использовать, пофантазируйте об образе идеального человека на позиции. Сделайте это так как если бы вы рассказывали об этой вакансии соискателю на собеседовании. Если вам сложно написать текст, то всё равно пишите — придумаем что-то вместе.

И последнее. В тексте вакансии обязательно должна быть ссылка на профиль контактного лица в телеграме. Хочется сократить расстояние между соискателем и компанией и убрать прослойку в виде HH или другого листинга вакансий.

В общем, если есть желание разместить вакансию — пишите @ax_makarov. По первому времени буду репостить в основной канал.

https://t.me/data_hr
#реклама

Data Science и Machine Learning родственные, взаимообогащающие друг друга дисциплины.

Представляем «Новое электричество» — качественный авторский канал об Искусственном интеллекте.

В канале выходят посты про ИИ, стартапы, его применяющие, а также истории о собственном опыте авторов в создании бизнеса.

Основной проект авторов называется Upfinity — смотрите, добавляйте в закладки! Вполне вероятно, через год он будет там у многих.

Подписывайтесь на канал, вас ждёт ещё много интереснейших постов.
Forwarded from Data Analytics Jobs
🧑‍💻ВКонтакте в поиске аналитика-разработчика в команду рекламы и бизнес-продуктов, которому интересно развиваться в техническом направлении, но и отходить от бизнеса далеко не хочется

🔈Вот что пишет действующий аналитик ВКонтакте об этой позиции:

Нужен спец, который будет развивать платформу ETL, aka кидать данные между хадупом и кх, так же делать агрегаты в кх по данным из кх и в хадупе, шатать все это через pyspark, airflow и python, отвечать за данные в нашей команде в целом. Пилить долгие решения типа предсказания оттока

📝Откликнуться на вакансию: @aleeshechka (Алёна)

🔗Ссылка на вакансию: https://vk.com/jobs?w=job234

#spb #moscow #remote #fulltime #senior #analytics_engineer
Статья, рассказывающая об опыте парсинга данных из открытых источников. Особый кайф материала в том, что автор очень хорошо описывает подход к формированию алгоритма парсинга. Есть, конечно, и примеры кода. Получился такой полевой дневник: подробно изложены шаги; описаны какие-то "подводные камни", на которые натыкался аналитик; рассказывается как справится с этими сложностями.

https://habr.com/ru/post/504900/
Если хочется сделать классификацию значений из числового в категориальный тип по заранее обозначенным диапазонам, то первое, что приходит на ум — сделать функцию и применить через apply().

Оказывается есть способы, которые работают быстрее:

1️⃣ Через loc : сделать несколько конструкций с loc, которые будут по-очереди прогонять условия и изменять значение категории (важно заметить, что тут нужно, чтобы условия были от максимального к минимальному). Получаем 77 мс вместо 131 мс на 540К значений.

2️⃣ Самый быстрый. Через метод cut() : этот метод позволяет разбить данные на бины (корзинки) в соответствии с заранее обозначенными диапазонами. А затем каждому бину можно назначить название с помощью параметра labels. Параметр include_lowest указывает на то, что нижняя граница корзины попадает в соответствующую корзину, а не в предыдущую. Метод cut() выдаёт 22 мс (!) на 540К значений. Судя по исходному коду, это всё магия numpy 💫

В погоне за скоростью важно всегда экспериментировать с решениями 💪
Forwarded from Data Analytics Jobs
🎒Skyeng в поиске Senior data analyst (Skysmart)

🔈Слово предоставляется ребятам из Skymart:

Тетрадь Skysmart — это новый проект Skyeng для учителей и учеников 5–11 классов.
Мы освобождаем учителей от проверки домашек и делаем задания для учеников интересными и практико-применимыми.
Уже реализована защита от списывания, впереди - реализации новых продуктовых экспериментов и идей.
Процессы только выстраиваются и есть возможность прямо влиять на них. Много свободы и много работы:)
Стек: Python, SQL, Airflow, Tableau + часть данных перевозим в Clickhouse.
Круто, если у тебя есть опыт в том, чем мы еще не работаем и ты нас этому научишь.

📝Откликнуться на вакансию: @bykatya (Быкова Катя)

🔗Ссылка на вакансию: https://hh.ru/vacancy/38106049

#moscow #remote #fulltime #senior #data_analyst
🅰️🅱️Открыт набор на новый поток интенсива ExperimentFest по математической статистике и a/b тестам 📊

1. Интенсив включает в себя 5 практических лекций 📒
2. Самостоятельная работа – после каждой лекции даются задачи для работы в интерактивном калькуляторе ExperimentFest. На этих калькуляторах можно проработать весь материал самостоятельно и закрепить то, что разбирается на лекциях. ДЗ сдается в личном кабинете студента, где можно получить обратную связь от преподавателей курса 🧪

Записаться тут ➡️ https://www.experiment-fest.ru/