rafanalytics

Forwarded from Вокруг Центрального университета

Эта новость — ваш знак начать преподавать ⬆️

Запускаем интенсив для будущих преподавателей — короткое обучение от Центрального университета для специалистов в ИТ, которые готовы делиться знаниями со студентами, но не знает, с чего начать.

Вас ждут две очные встречи и две в онлайн-формате: узнаете всю теорию и закрепите ее на практике, даже проведете свою первую пару.

За четыре дня активной работы вы:
➡️ Узнаете, как упаковать профессиональный опыт в образовательный материал так, чтобы студенты вас слушали и слышали.
➡️ Познакомитесь с преподавателями ЦУ, которые успешно совмещают эту деятельность с работой в ИТ, а также с профессиональными методистами и студентами — от каждого получите обратную связь.
➡️ Сможете получить удостоверение о повышении квалификации. Участникам, которые пройдут всю программу, можем выдать документ, который позволит увереннее чувствовать себя при поиске работы.
➡️ Познакомитесь с академическими лидами направлений, чтобы попасть в ЦУ уже сейчас, если мы совпадем по профилю и ценностям.

Интенсив проведут преподаватели ЦУ с опытом работы в индустрии: компаниях Авито, МТС Линк, Консалтика. Узнать подробности о программе и спикерах можно на сайте.

Регистрируйтесь и отправьте другу, которому стоит попробовать себя в преподавании: https://l.cu.ru/prof_intensive

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16🔥6🙏4👍1🐳1🌭1

5.19K views17:19

rafanalytics

Библиотеки для анализа данных: с чего начать?

🐍

Сегодня разберём один из самых частых вопросов у тех, кто задумался об изучении анализа данных:

Как мне изучать библиотеки Pandas, Matplotlib и Seaborn?

Там же дофига функций и методов 🥲

Как по мне, это правда достаточно неочевидный вопрос, т.к. сами по себе библиотеки довольно объёмные и содержат кучу методов и функций, из-за чего можно подумать, что надо запомнить их все.
Спойлер: это далеко не так, и чтобы быстро их изучить попробуем исходить из практики

Более длительный вариант (для тех, кто любит статьи и курсы):

• Pandas - самая важная библиотека, чтобы работать с табличными данными. Здесь нужно научиться их фильтровать, группировать и производить преобразования таблиц. В связке с ней можно изучить NumPy - разберётесь с массивами и векторными вычислениями, что иногда сильно ускоряет работу с числами. Хороший материал для старта - хендбук от Яндекса по NumPy и Pandas 📋

- Matplotlib - да, кода много и поначалу библиотека кажется громоздкой, но именно она даёт полный контроль над каждым элементом графика и закладывает понимание того, как устроена визуализация в Python в целом. Разобравшись в ней один раз, ты получишь понимание того, как работает визуализация у других библиотек 🎨

- Seaborn - это как раз надстройка над Matplotlib, которая позволяет строить красивые статистические графики буквально в одну строку. После базового Matplotlib обычно сразу ощущается, насколько это удобно. Один из способов изучить — просто листать галерею примеров на официальном сайте и разбирать код 😌

Быстрый вариант (для тех, кто любит практику):

Тут лучшая стратегия - взять реальный датасет и "покрутить" его, попытавшись найти в нём закономерности и инсайты 🔍
Заходим на Kaggle, находим интересный для себя датасет, пытаемся задавать себе вопросы по его структуре (тут можно попросить GPT составить по датасету вопросы) и пытаемся ответить при помощи вышеупомянутых библиотек и их документаций - сначала чистим/агрегируем/фильтруем данные в Pandas, потом визуализируем закономерности 📊
Уверяю, что такая практика на реальных данных в разы эффективнее чтения туториалов без применения навыков, и таким образом можно изучить эти библиотеки за неделю 🔥

Если наберём 100 ❤️, то сделаю авторский jupyter-ноутбук с датасетом и конкретными вопросами к нему. Решив его, ты сможешь поставить галочку в изучении этих библиотек

Please open Telegram to view this post

VIEW IN TELEGRAM

❤150❤‍🔥16💘11👍1🐳1🌭1

6.25K views07:07

rafanalytics

Авторский ноутбук для практики Pandas и визуализаций 👨‍💻

Подъехали новые материалы для канала 🎉

В этом jupyter-ноутбуке можно загрузить датасет по продажам кофе (конечно, Раф там тоже есть) и попробовать выполнить несколько заданий на Pandas, Matplotlib и немного Seaborn 📊

Если выполнишь предложенные задания, то можешь считать, что обладаешь базовым минимумом для стажировки (а может и больше) по анализу данных 😎

Сам файл можно забрать в боте по команде

/jupyter

Ну и реакциями давайте поддержим ❤️, а то собирать всё это оказалось довольно непросто 😮‍💨

Please open Telegram to view this post

VIEW IN TELEGRAM

❤103❤‍🔥22🔥21🙏2

5.27K views16:23

rafanalytics

AI оптимизирует экономику тг-канала

🤖

Я заметил, что в какой-то момент этот блог, который изначально был просто увлечением, превратился в мини-продукт со своей экономикой: есть ресурсы, есть затраты, а следовательно появляется и метрика окупаемости 🤫

Например, чтобы телеграм-бот стабильно делился с вами полезными и бесплатными материалами, мне нужно:

• выделить время на подготовку этих материалов
• платить каждый месяц за сервис-конструктор тг-бота

То есть в любом случае есть косты: и время, и деньги 💸

И если смотреть на блог как на продукт, то ведение контента без монетизации в какой-то степени становится благотворительностью с отрицательной окупаемостью, но как аналитику мне хочется, чтобы такая система была оптимальна и не разваливалась по ресурсам 📊

Поэтому я смотрю на это как на задачу оптимизации: где можно уменьшить затраты, а где можно повысить отдаваемую пользу ⚖️

А ещё для сокращения костов можно подключать самые разные навыки: например, я учился на разработчика на ФКН Вышки, и сейчас в связке с вайбкодингом можно переписать тг-бота под своё решение, вынести его на иностранный сервер и проверить, насколько это сократит косты по сравнению с подпиской (если знаете хороший VPS для тг-ботика - напишите в комментарии 🙏)

Следующий шаг в рамках оптимизации - отреагировать на замедление телеграма и выйти на дополнительные источники трафика, так что увидимся и на других площадках)

И да, лучшая помощь такому продукту - это поставить ❤️ под этим постом, а я буду отдавать ещё больше)

Please open Telegram to view this post

VIEW IN TELEGRAM

3❤106🔥15❤‍🔥14🤓1

4.81K viewsedited 18:07

rafanalytics

Аналитику изучают ещё в школе

😱

Да-да, и ты когда-то тоже её изучал.
Только называлась она физикой

🤫

Если чуть отойти от формулировок из учебников, то на физику можно смотреть как на попытку описать и «оцифровать» реальный мир: придумать для него понятные метрики и договориться, как именно мы будем их считать. Потом эти метрики стыкуются в модели, по ним делают выводы и проверяют гипотезы... Звучит знакомо, да?)

Возьми хотя бы скорость, массу, силу или энергию. Это всё меры того, насколько быстро что-то движется, насколько оно «тяжёлое» для ускорения, насколько сильно на него давят, сколько работы удалось запасти. Константы вроде g = 9.8 м/c^2 или универсальной газовой R — это фиксированные коэффициенты, которые мы один раз хорошо померили и дальше спокойно используем как «эталонные значения» для оценки явлений, чтобы не пересчитывать каждый раз вселенную с нуля 🧠

Дальше есть идея нормировок: например, давление — это сила, поделённая на площадь. Мы берём эффект и делим на масштаб, чтобы получить показатель (как в ARPU — делим выручку на кол-во пользователей). Плотность — масса на объём, удельная теплоёмкость — на градус. Везде одна идея: взять величину в более удобном и отнормированном виде.

А что с «экспериментами»? В лабораторных работах ты редко делаешь ровно АБ-тест в корпоративном смысле, но идея та же.
Например, измеряем ускорение тележки с грузом: в одном прогоне считаешь, что трение почти нулевое, в другом — намеренно меняешь условие (ставишь на другую поверхность) и смотришь, как поменяется результат. Контрольная и экспериментальная серии измерений, табличка значений, график — и ты уже почти проверил гипотезу.

Ну, или если совсем по-продуктовому: у тебя есть гипотеза из теории, ты собираешь данные, сравниваешь сценарии и ~~подгоняешь~~ делаешь вывод лабораторной работы

Плюсом идут погрешности приборов (как шум в данных), усреднения (чтобы нивелировать дисперсию в наблюдениях), графики зависимости как твой первый дашборд на бумаге. Даже порядок величин и размерности — это как алёрты в данных перед тем, как отдать отчёт: если в ответе человек бежит со скоростью 100 м/сек, то где-то точно есть ошибка 😅

В общем, если ты когда-то изучал школьную физику, то ты уже тренировал мозг на вещах, которые часто нужны в аналитике: выбрать метрику, понять масштаб, нормализовать, проверить гипотезу данными и статистически признать расхождение модели с реальностью 📈

Не забываем, что сила канала измеряется не в ньютонах и не в правде, а в красных сердечках под постами ❤️

Please open Telegram to view this post

VIEW IN TELEGRAM

❤86❤‍🔥22🔥13🍌3👍2🌭2💘2

4.31K viewsedited 19:49

rafanalytics

Есть кто на Aha’26? Газ нетворкаться 😎

Если вы на конференции в Москве, то давайте спишемся в ЛС @rafaeldks - и вживую поболтаем за жизнь, аналитику, Авито и любые другие приколы.

Нетворкинг (~~кумовство~~) - вещь полезная 🤝

А в выходные должен выйти неочевидный (на мой взгляд) пост про ML.
Давайте поставим ❤️, чтобы ускорить его выход

Please open Telegram to view this post

VIEW IN TELEGRAM

❤85🍾13🔥11😁2

2.97K views12:36

rafanalytics

Самый жизненный раздел из ML

😱

Вы наверняка видели видосы, где ИИ обучают играть в разные игры: к примеру тут Open AI ещё до появления ChatGPT выпускал довольно хайповый видос про обучения ботов игре в прятки. Подобные идеи относятся к теме Reinforcment Learning (или RL), которую я, почему-то, в университете так и не изучал, хотя вроде брал разные курсы на тему ML 🤔

Но так уж вышло, что недавно преподавание заставило меня разобраться в этой теме подробнее, и больше всего мне понравилось, как идеи из ML можно переносить в целом на процессы в повседневной жизни. Вот две интересных для меня идеи:

1) Мы постоянно прогнозируем свой «профит» и часто завышаем его

🤫

В RL игрок не знает заранее, какой "профит" принесёт то или иное действие. Всё что у него есть — накопленный опыт, на основе которого он учится предсказывать "выгодность" каждого следующего шага. Для этого в RL вводят конкретную Q-функцию, которая оценивает суммарную ожидаемую награду за конкретное действие в конкретной ситуации.

Вот только есть один неприятный момент — так называемый "overestimation bias": это когда игрок склонен завышать свои ожидаемые награды, особенно когда данных ещё мало. Мы делаем то же самое: думаем, что новая работа окажется идеальной, а переезд сразу изменит жизнь к лучшему. Иногда так и выходит, но чаще реальная награда оказывается скромнее ожидаемой, да?))

2) Сначала исследование, а потом эксплуатация

🧑‍🎓

В RL есть два режима.
Во время обучения игрок специально исследует разные действия, даже если некоторые выглядят неоптимально — это так называемый "exploration". Только так можно найти по-настоящему лучшую стратегию. На инференсе же агент переключается в "exploitation": берёт лучшую из найденных стратегий и действует максимально эффективно.

Это хорошая метафора для жизненных этапов: пока есть "ресурс на ошибки" — можно быть в режиме exploration и пробовать разные сферы, роли, проекты (так скажем быть открытым к возможностям). Когда понял, что работает — переключаешься в exploitation.

Так что вывод простой:

Чтобы избежать overestimation bias — можно чуть занизить свои ожидания, а ещё убедиться, что собрал достаточно вводных данных перед тем, как переходить в режим exploitation. И это не всегда про машинное обучение))

Ставь ❤️ если нравятся посты такого формата, где идеи из DS перекладываются на рутину (таким образом я смогу скорректировать наиболее подходящие для блога форматы)

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Multi-Agent Hide and Seek

We’ve observed agents discovering progressively more complex tool use while playing a simple game of hide-and-seek. Through training in our new simulated hide-and-seek environment, agents build a series of six distinct strategies and counterstrategies, some…

❤52🔥12👍11❤‍🔥3🐳1🌭1

3.17K viewsedited 19:35

rafanalytics

Личный блог — это плюс в карьере или red flag для нанимающих? 🚩

Я начал вести этот канал в 2023-м будучи стажёром-аналитиком в Яндексе. И, честно говоря, тогда я не задумывался, какие плюсы это может дать линейному сотруднику - я просто хотел ответить на вопросы, волнующие студентов-айтишников.

Но с ростом аудитории я всё больше начал удивляться тому, какое сильное влияние это начинает оказывать на мою жизнь.
И вот что блог может дать линейному сотруднику:

• узнаваемость и полезные связи: большие охваты порой помогают дотянуться до самых разных людей и на разных уровнях
• карьерные возможности: приглашения на митапы/конференции и нахождение в поле видимости рекрутеров
• предложения о партнёрствах: приходят бренды и предлагают выгодное сотрудничество
• дополнительный доход: за счёт рекламы или продажи собственных продуктов

Но есть и ощутимые недостатки:
• фильтрация контента: приходится сглаживать острые моменты, чтобы случайно не задеть свою или чужую компанию.
Много мыслей может оставаться в черновике, а другие могут переписываться несколько раз 🫠

• настороженность при найме: команде нужен педантичный аналитик, а не блогер — и тут возникает разумный вопрос "а не уйдёт ли вместо рабочих задач его время на контент в соцсети сотрудника, которые продукту, в общем-то, не очень-то и нужны" 🧐

• вторая работа: в какой-то момент канал реально начинает требовать времени — а если что-то не успел или не выпустил, догоняет чувство вины перед подписчиками 😬

Но повторюсь: это взгляд со стороны линейного сотрудника. А по-хорошему вопрос из заголовка стоит задавать не мне, а именно менеджеру, который реально принимает решения о найме 😎

Поэтому мы объединились с Лёшей Малинским — руководителем отдела аналитики Авито Путешествий 😎 (да-да, моим коллегой) и автором канала @lexmalinskiy — и решили закрыть тему сразу с двух сторон.
Лёша честно ответил со стороны менеджера:

Чем личный бренд полезен руководителю? И что в публичности подсвечивает сильного специалиста, а что заставляет насторожиться при найме?

Очень советую почитать его пост — мне самому было интересно обсудить эту тему с разных ~~сторон баррикад~~ грейдов 🤝

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤31🔥9👍5

3.16K viewsedited 16:04

rafanalytics

Считаем крошки на рынке фастфуда

Вчера я впервые попробовал "Крошку-Картошку") 🥔
Странно, что только сейчас, хотя сеть существует с 1998 года и наверняка попадалась вам в ТЦ
После картошечки стало интересно: а насколько это вообще большой бизнес? Потому что формат кажется довольно нишевым. В фастфуде обычно вспоминают бургеры, курицу и пиццу, а тут основной продукт - печёная картошка с наполнителями 🧀

На странице франшизы Крошка Картошка пишет, что у сети 253 кафе в 51 городе, больше 15 млн покупателей в год и около 4 млрд рублей общей выручки партнёров 📊
Кажется, что 4 млрд рублей - это много. Но чтобы понять масштаб, нужно с чем-то сравнить.

Например, у "Вкусно и точка" выручка основного юрлица за 2024 год составила 187,4 млрд рублей. Получается, "ВиТ" больше "Крошки Картошки" примерно в 50 раз.
А если смотреть на трафик, то у Крошки указано больше 15 млн покупателей в год, а Rostic’s, по открытым данным, обслуживает больше 1,7 млн гостей в день. То есть годовой поток Крошки примерно равен 9 дням трафика Rostic’s, получается действительно нишево))

Кстати, такие рынки обычно оценивают двумя способами 🧮

Первый способ - идти от большого к маленькому. Например, сначала найти объём всего рынка быстрого питания в России, а потом посмотреть, сколько в нём занимает Крошка Картошка. Такой подход нужен, если хочется получить именно долю рынка: условно, 1%, 5% или 10%.
Но тут сразу появляется проблема: сначала нужно договориться, что именно считать фастфудом? От этого сильно поменяется итоговая доля.

Второй способ - идти от маленького к большому. Берём конкретные сети и сравниваем их между собой: выручку, количество точек, поток гостей, средний чек. Такой подход не всегда даёт точную долю рынка, зато помогает быстро понять порядок: компания ближе к крупным игрокам или живёт в своей нише.

Например, где-то считают выручку всей сети вместе с франчайзи, где-то только одно юрлицо, где-то количество ресторанов, а где-то поток гостей. На вид всё это про “размер бизнеса”, но выводы могут получиться разными 🤔

В случае Крошки оба подхода сходятся в одном: это не игрок масштаба "Вкусно и точка" или Rostic’s, но и не маленький локальный проект. Скорее устойчивая нишевая сеть с миллиардной выручкой и узнаваемым продуктом.

Таким образом обычная картошечка внезапно стала поводом напомнить вам про два главных способа оценить долю рынка ☺

А теперь отметимся реакциями:
🔥 - если пробовал Крошку Картошку
❤️ - если не пробовал

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥46❤23😁4😴2

1.16K views08:27

About

Blog

Apps

Platform