Forwarded from Центральный университет
«Лучшее, что ты можешь сделать, — перенять практики, процессы, знания ведущего игрока, то есть сфокусироваться на своих навыках и их соответствии высоким стандартам».
Студент магистратуры Центрального университета Иван Плешаков в школьные годы увлекался изучением физики, математики и прикладных возможностей искусственного интеллекта. Окончив бакалавриат по направлению «Интеллектуальные системы анализа данных», он продолжил обучение, но по треку «Продуктовый менеджмент».
Во время учебы Иван развивал несколько стартапов, а в 2022 году стал инициатором проекта «НейроСтаниславский» — нейросети, создающей сценарии пьес.
Стажировка в дата-лаборатории крупной FMCG-компании, должность дата-сайентиста, а потом переход в Яндекс и рост до уровня middle — работу в крупных технологических компаниях Иван рассматривает как уникальную возможность накопить опыт для своего будущего стартапа.
Больше о планах студента, его проектах, работе и учебе в магистратуре читайте в его интервью Центру партнерств и карьеры ЦУ.
❤16🔥7
Дорогие подписчики, всем доброго утра!
☺️ Мы в ЦУ создаем умного финансового помощника, который поможет:
1. Планировать финансовые цели (например, отпуск, техника, подушка).
2. Получать советы, стоит ли совершать покупку прямо сейчас и как это повлияет на цели.
3. Отслеживать прогресс, получать отчёты и рекомендации на основе своих данных и поведения других пользователей.
Ищем респондентов на кастдев!
Кого ищем:
📌 Core-аудитория (основная): 23–35 лет, доход 70–180 тыс ₽/мес, активные онлайн-покупки, карты/подписки.
📌 Дополнительная: 30–40 лет, молодая семья, детские расходы, кредиты/ипотека, сильная потребность в контроле и планировании финансов.
Длительность 30-40 минут. Формат: звонок в Zoom
☺️ В качестве благодарности готовы предоставить бесплатный доступ к сервису на 3 месяца и включить в группу Бета-тестирования (ориентировочно, конец ноября).
Для участия необходимо написать мне в личные сообщения @Pleshakovski
Upd: группу набрал
1. Планировать финансовые цели (например, отпуск, техника, подушка).
2. Получать советы, стоит ли совершать покупку прямо сейчас и как это повлияет на цели.
3. Отслеживать прогресс, получать отчёты и рекомендации на основе своих данных и поведения других пользователей.
Ищем респондентов на кастдев!
Кого ищем:
📌 Core-аудитория (основная): 23–35 лет, доход 70–180 тыс ₽/мес, активные онлайн-покупки, карты/подписки.
📌 Дополнительная: 30–40 лет, молодая семья, детские расходы, кредиты/ипотека, сильная потребность в контроле и планировании финансов.
Длительность 30-40 минут. Формат: звонок в Zoom
Для участия необходимо написать мне в личные сообщения @Pleshakovski
Upd: группу набрал
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥3
Давайте запустим рубрику, в которой будем разбирать по 2-3 интересных вопроса с собесов разных секций: Python, ML/DS, AB tests, Тервер/Матстат, Big Data. Буду выпускать раз в неделю-две
Тервер:
Вероятность получения кошечки - 10%, вероятность собачки - 90%. Разметчик размечает со следующими вероятностями: в 90% случаев отмечает верно, а в 10% - неверно. Определить вероятность того, что на разметку пришла собачка, если известно, что фотография была отмечена как кошечка.
P(A | B) = P(B | A) * P(A) / P (B)
P(пришла собачка | отмечена кошечка) =
= P(отмечена кошечка | пришла собачка) * P(пришла собачка) / P(отмечена кошечка) =
= 0.1 * 0.9 / 0.18 = 0.5
ML:
Что такое ROC AUC? Как интерпретировать? Чему равен ROC AUC случайной и константной модели?
TPR = TP / (TP + FN) — доля правильно найденных объектов позитивного класса.
FPR = FP / (FP + TN) — доля объектов негативного класса, ошибочно отнесённых к позитивному.
ROC AUC равен площади под ROC-кривой
2. Интерпретация: вероятность, что модель присвоит случайному объекту позитивного класса более высокий скор, чем случайному объекту негативного класса.
3. ROC AUC случайной и константной модели = 0.5
Python:
Как передаются изменяемые и неизменяемые типы данных в функцию?
1. Неизменяемые типы данных (int, float, str, tuple, frozenset, bool). Если вы внутри функции меняете переменную, вы переназначаете локальное имя, но исходный объект остаётся прежним.
2. Изменяемые типы данных (list, dict, set). Ссылка на объект передаётся внутрь функции, и если вы меняете сам объект внутри функции, изменения видны снаружи.
#вопросы_с_собесов
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13🔥9🥰2😱1
🎯 Недавно столкнулся с ситуацией: идей в Транскрибуле всё больше, а рук по-прежнему маловато. Поэтому решил внедрить метод RICE. Итак:
Метод приоритизации RICE: как выбрать, за какие задачи браться в первую очередь
Если идей много, а ресурсов мало — нужен простой и объективный способ понять, что делать в первую очередь. Один из самых популярных методов в продуктовой разработке — RICE.
RICE помогает сравнить любые задачи или фичи по четырём параметрам (каждый — число от 0 до 10):
🌹 — Reach (Охват) (Достаточно редко используется, можно просто убрать, если продукт небольшой, а фича раскатывается на всех пользователей)
Сколько пользователей или процессов будет затронуто? Чем больше охват, тем ценнее задача.
🔤 — Impact (Влияние)
Насколько сильно задача улучшит продукт или бизнес-показатели? (Оцениваем с точки зрения влияения на нашу целевую или NSM-метрику). Оценивается от минимального (0) до масштабного (10).
🔤 — Confidence (Уверенность)
Насколько вы уверены в оценках выше? Помогает отсечь хотелки, основанные на догадках.
🔤 — Effort (Затраты)
Сколько времени и ресурсов потребуется команде? Чем меньше усилий — тем лучше.
Формула простая:
RICE = (Reach × Impact × Confidence) / Effort
Проставляется для каждой гипотезы и затем весь бэклог ранжируется по убыванию RICE. В случае, если оценивают несколько человек, полезно, чтобы каждый проставил R, I, C и E. Затем берем среднее по каждому показателю и считаем RICE по усредненным значениям — получаем более стетистически устойчивый RICE.
📌 Зачем это нужно?
* упрощает принятие решений
* убирает субъективность
* помогает фокусироваться на том, что даст максимальный результат при минимальных вложениях
Метод приоритизации RICE: как выбрать, за какие задачи браться в первую очередь
Если идей много, а ресурсов мало — нужен простой и объективный способ понять, что делать в первую очередь. Один из самых популярных методов в продуктовой разработке — RICE.
RICE помогает сравнить любые задачи или фичи по четырём параметрам (каждый — число от 0 до 10):
Сколько пользователей или процессов будет затронуто? Чем больше охват, тем ценнее задача.
Насколько сильно задача улучшит продукт или бизнес-показатели? (Оцениваем с точки зрения влияения на нашу целевую или NSM-метрику). Оценивается от минимального (0) до масштабного (10).
Насколько вы уверены в оценках выше? Помогает отсечь хотелки, основанные на догадках.
Сколько времени и ресурсов потребуется команде? Чем меньше усилий — тем лучше.
Формула простая:
RICE = (Reach × Impact × Confidence) / Effort
Проставляется для каждой гипотезы и затем весь бэклог ранжируется по убыванию RICE. В случае, если оценивают несколько человек, полезно, чтобы каждый проставил R, I, C и E. Затем берем среднее по каждому показателю и считаем RICE по усредненным значениям — получаем более стетистически устойчивый RICE.
📌 Зачем это нужно?
* упрощает принятие решений
* убирает субъективность
* помогает фокусироваться на том, что даст максимальный результат при минимальных вложениях
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍3🔥3
Отличный вопрос. Многие продукты после релиза так и не находят свою целевую аудиторию, а овнеры теряются в том, как продвигать свой продукт. В этом посте разберу виды продвижения ИТ-решений и дам каждую свою оценку на примере Транскрибули
Собственно, пишите небольшое рекламное сообщение, вносите депозит из расчета, например, 15руб/SMS и распределяете рассылку по времени. Дорого, мусорно, некачественно — из 1000 рассылок получил 1 лид. Ставлю 0/10
Можно закупить через разных операторов и таргетировать на свою аудиторию. Такая же грустная ситуация с лидами, как и в пункте 1, но стоит сильно дешевле. Ставлю 2/10
Делаем сайт -> подвязываем Яндекс Метрику -> добавляем UTM-метки для отслеживания переходов с каждой кампании -> настраиваем ЦА, ключевые слова, целевые действия и конверсии из показа в браузере. Намного сложнее настроить, чем пункт 1 и пункт 2, но куда выше конверсия и меньше стоимость лида (правда яндексовые катбусты имеют свойство накручивать мусорные клики и прожигать деньги). При грамотной настройке реально набрать платящую аудиторию. Ставлю 7/10
Сложнее чем все предыдущие в плане поиска оптимальных площадок по цене/качеству лидов. Для меня это не в новинку, тк я активно продвигаю этот тг-канал. Если вы знаете, что читает и чем интересуется ваша ЦА, то закупить рекламу в ТГ-каналах может быть хорошим, хоть и сложным вариантом. Ставлю 7/10
Самый сложный вид продвижения. Без дисциплины с ежедневным постингом и насмотренностью в продвижении такого контента (на рекомендации роликов влияют звуки, картинка, описание, скрипт ролика и еще множество факторов) особо ничего не светит. Но если звезды сойдутся, останется вам только позавидовать. Например, мы уже залили 40 креативов для Транскрибули, а выхлопа почти нет https://www.instagram.com/transcribulya/reels/
Фаундеры, поделитесь, как вы продвигали ваш продукт с нуля? Давайте в комментариях похоливарим, очень интересно узнать ваш опыт
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍5🔥4🐳1
Продолжаем рубрику с разбором вопросов на собесах
МЛ
❓ Что будет, если убрать первое дерево у случайного леса? Аналогичный вопрос для бустинга
Ответ для случайного леса:практически ничего, потому что в случайном лесе все деревья голосуют за ответ и исчезновение одного дерева не повлияет решение большинства (при большом N).
Ответ для градиентного бустинга: первое дерево в бустинге вносит самое большое влияние в ответ модели, а все последующие модели лишь улучшают оценку предыдущих деревьев. Поэтому его исчезновение приведет к тому, что смысл всех остальных деревьев будет утерян
МЛ
❓ Я построил линейную регрессионную модель, показывающую 95% доверительный интервал. Означает ли это, что существует 95% вероятность, что коэффициенты моей модели верно оценивают функцию, которую я хочу аппроксимировать?
Ответ:
Доверительный интервал — это результат процедуры, свойства которой определяются при многократном повторении эксперимента.
Корректная интерпретация:
"Если бы мы многократно (бесконечное число раз) повторяли эксперимент, собирали новые данные и каждый раз строили 95% доверительный интервал для коэффициента, то в 95% случаев эти интервалы содержали бы истинное значение параметра."
Big Data
❓ Что такое parquet? В чем отличие csv?
Ответ:
• Колоночный формат: Данные хранятся по столбцам, а не по строкам (как в CSV, JSON).
• Минимизация I/O-операций: При запросе к определенным столбцам читаются только нужные данные, а не вся строка.
• Predicate Pushdown: Фильтрация данных на этапе чтения (например, WHERE age > 20). Parquet хранит метаданные (мин/макс значения для блоков), что позволяет пропускать ненужные блоки данных.
МЛ
Ответ для случайного леса:
МЛ
Ответ:
Корректная интерпретация:
"Если бы мы многократно (бесконечное число раз) повторяли эксперимент, собирали новые данные и каждый раз строили 95% доверительный интервал для коэффициента, то в 95% случаев эти интервалы содержали бы истинное значение параметра."
Big Data
Ответ:
• Минимизация I/O-операций: При запросе к определенным столбцам читаются только нужные данные, а не вся строка.
• Predicate Pushdown: Фильтрация данных на этапе чтения (например, WHERE age > 20). Parquet хранит метаданные (мин/макс значения для блоков), что позволяет пропускать ненужные блоки данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍3🔥2
Сегодня предлагаю немножко поботать и напрячь извилины всем МЛщикам на канале
Alternating Least Squares (ALS). SOTA или, быть может, переоцененная база? Краш или обычный тюбик? Разбираем по-честному.
Начнем с фанфакта, который я выяснил за последний год: почти все +- крупные команды рекомендаций в РФ сейчас используют ALS (в том числе, в рантайме). ALS — это алгоритм для матричного разложения, используемый в системах рекомендаций на основе колаборативной фильтрации (напомню, что факторизацию и колаборативку разбирали в этом посте).
Глобальная цель ALS, как и у любого матричного разложения, получить матрицу X и матрицу Y из исходной матрицы R взаимодействий объектов x и y. Например, у нас есть маркетплейс, на котором пользователи могу кликать на товары. Тогда матрицей R могут быть взаимодействия всех пользователей со всеми товарами (1 или 0: кликал ли юзер на айтем или нет), а X и Y — матрицы, состоящие из искомых векторных представлений этих юзеров (x) и айтемов (y). См. фото 1.
Идея ALS в следующем:
А давайте в нашем цикле сходимости попеременно фиксировать матрицу X и матрицу Y и вычислять оставшуюся незафиксированную оптимальную матрицу аналитическим методом. Таким образом, при фиксации матрицы Y, оптимальный вектор x можно будет вычислить по формуле на фото 2. После нахождения всех векторов x, мы их фиксируем и аналогично находим вектора y. Это мы будем называть ALS-шагом.
Можно догадаться, что этот шаг можно производить для новых юзеров и айтемов на уже предобученных матрицах. Это однозначный плюс ALS: он прост в дообучении.
Из формулы также видно, что отдельные вектора матрицы можно вычислять независимо от других, что позволяет параллелить их вычисления на нескольких машинках. Это второй плюс. Подробнее про это есть статья на Хабре от ребят из Дзена.
Вобщем, ALS стал базированной базой RecSys не просто так: оптимизация, интерпретируемость (благодаря аналитическому подходу), легковесность, простота в дообучении — его основные преимущества.
Но есть и минусы: очевидно, что при таком подходе мы не учитываем порядок событий, а также не берем в расчет фичи пользователя и айтема, что снижает чувствительность и персонализированность этого алгоритма.
Накиньте ❤️, если понравился разбор!
Alternating Least Squares (ALS). SOTA или, быть может, переоцененная база? Краш или обычный тюбик? Разбираем по-честному.
Начнем с фанфакта, который я выяснил за последний год: почти все +- крупные команды рекомендаций в РФ сейчас используют ALS (в том числе, в рантайме). ALS — это алгоритм для матричного разложения, используемый в системах рекомендаций на основе колаборативной фильтрации (напомню, что факторизацию и колаборативку разбирали в этом посте).
Глобальная цель ALS, как и у любого матричного разложения, получить матрицу X и матрицу Y из исходной матрицы R взаимодействий объектов x и y. Например, у нас есть маркетплейс, на котором пользователи могу кликать на товары. Тогда матрицей R могут быть взаимодействия всех пользователей со всеми товарами (1 или 0: кликал ли юзер на айтем или нет), а X и Y — матрицы, состоящие из искомых векторных представлений этих юзеров (x) и айтемов (y). См. фото 1.
Идея ALS в следующем:
А давайте в нашем цикле сходимости попеременно фиксировать матрицу X и матрицу Y и вычислять оставшуюся незафиксированную оптимальную матрицу аналитическим методом. Таким образом, при фиксации матрицы Y, оптимальный вектор x можно будет вычислить по формуле на фото 2. После нахождения всех векторов x, мы их фиксируем и аналогично находим вектора y. Это мы будем называть ALS-шагом.
Можно догадаться, что этот шаг можно производить для новых юзеров и айтемов на уже предобученных матрицах. Это однозначный плюс ALS: он прост в дообучении.
Из формулы также видно, что отдельные вектора матрицы можно вычислять независимо от других, что позволяет параллелить их вычисления на нескольких машинках. Это второй плюс. Подробнее про это есть статья на Хабре от ребят из Дзена.
Изображения взял из Учебника ШАДа. У них также есть разбор IALS, вот ссылочка.
Вобщем, ALS стал базированной базой RecSys не просто так: оптимизация, интерпретируемость (благодаря аналитическому подходу), легковесность, простота в дообучении — его основные преимущества.
Но есть и минусы: очевидно, что при таком подходе мы не учитываем порядок событий, а также не берем в расчет фичи пользователя и айтема, что снижает чувствительность и персонализированность этого алгоритма.
Накиньте ❤️, если понравился разбор!
Telegram
Канал Доброго Вани | Data Science и Продуктики
Сегодня 💻💻💻💻
А что ботаем? Ботаем фундаментальный RecSys
А начнем мы с постановки задачи и небольшого экускурса по проблемам насущным:
🔸есть товары (item)
🔸есть пользователи (user)
🔸для каждого пользователя знаем историю его целевых действий (заказы, клики…
А что ботаем? Ботаем фундаментальный RecSys
А начнем мы с постановки задачи и небольшого экускурса по проблемам насущным:
🔸есть товары (item)
🔸есть пользователи (user)
🔸для каждого пользователя знаем историю его целевых действий (заказы, клики…
❤11👍4🔥2
Forwarded from Ebout Data Science | Дима Савелко
Как торговаться на собесах Если вы получили оффер и вам уже сказали какую ЗП вы будете получать, то не торопитесь его принимать. Вы можете спокойно за несколько секунд зарабатотать 30% к своей ЗП, а то и более.
Зачем торговаться?
Давайте включим простую математику, если вам предложили ЗП в 300к, а вы сторговали ЗП на 360к, 360к - 300к = 60к в месяц вы сторговали, 60к*12 месяцев = 720к, вы за несколько минут заработали 720к в разрезе года, вы просто СЛОН
Именно так у меня было с СамокатTech
Почему можно торговаться?
Алгоритм торговли
Допустим вам дали оффер с ЗП, тогда вы пишите следующее:
"Да, возращаюсь с ответом. Только вот другая компания Y сделал оффер X минут назад. У вас и у них хорошие команды и задачи. Но есть финансовый момент, что они предложили мне на Z$ больше. И выбор мой усложняется. <тут описываешь почему тебя компания зацепила>. Можете ли вы сделать что-нибудь по этому, чтобы облегчить мой выбор?"
И тогда с большой долей вероятности к вам могут прийти с повышенным оффером, и да это можно делать даже тогда, когда у вас нет второго оффера, но это ваш выбор...
В своём @eboutdatascience я помогаю увеличить шанс получения самого жирного оффера: гайды по собесами, по торгам, по техничкам, по резюме, разборы живых собесов, говорю про менталку и то, как устроен найм в целом
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍2🔥1😈1💅1🗿1
О причинах смены места работы тоже, кстати, пост есть)
А в этом посте сравнил магистратуры в ЦУ, Вышке и МИСИС. Будет полезно всем будущим магистрам!
Я обожаю путешествия, и в этом году 2 недели провел в стране, в которой давно хотел оказаться (а еще в Грузии и Китае). Серия постов про Японию 🇯🇵
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19❤6🎉3💅2 1
Как вы знаете, Маркет, Лавка, Браузер, Еда, Такси, Алиса, Диск, Карты, Музыка, Недвижимость, Кинопоиск, Афиша, Телемост, Переводчик (пальцы устали печатать) и многое другое — это все Яшечка.
За этот год я познакомиться с десятками крутых ребят. Выяснилось, что многие ведут свои каналы — и так родилась на свет самая яндексовая папка каналов from YNDX .
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤15🔥14💘7👎4