Ebout Data Science | Дима Савелко
1.99K subscribers
140 photos
11 videos
86 links
Ebout Data Science by @ngmdite
Download Telegram
Найм со стороны C-level

Был на митапе и познакомился с Вовой, прошёл путь от iOS-разработчика до исполнительного директора финтеха +7 pay, запускал крупные e-grocery-продукты, строил команды, строил бизнес ⌨️
Попросил Вову написать про то как он нанимает с C-левела и вот его база:

-------
Всем привет!

На связи Вова, за свою карьеру нанял порядка 200 человек. https://t.me/malov_tech/
Сегодня хочу рассказать о найме со стороны нанимающего.

Итак, на что я обычно обращаю внимание в кандидатах?

🟡Бизнес-ориентированность. Стараюсь понять чем руководствуется и как рассуждает кандидат при принятии решений. Это нужно для того, чтобы понять "путеводную звезду" соискателя, от чего он будет приоритезировать все свои решения в работе и насколько они будут синхронизированы с целями компании.

Например, если руководитель продаж приходит руководить, а не продавать, то такого сотрудника я скорее не возьму.

🟡Софтскиллы. Стараюсь понять насколько человек попадает в мой вайб. Мне важно, чтобы будущий коллега был заточен на быстрые результаты, но выстраивал стратегию, был готов встроится в открытую культуру, не боялся здоровой токсичности и хорошо держал удар (как снаружи, так и внутри команды).

Обычно, я просто стараюсь эту часть интервью превратить в рэндом-кофе или разобрать стрессовую ситуацию. Короче, это про то, чтобы человек был своим и с ним можно было пойти в развездку, как говорят бумеры.

🟡Хардскиллы. Куда без них, это база. Но ньюанс в том, что я скорее возьму классного миддл+ кандидата, чем сеньора с потухшими глазами, который общается только в личных сообщениях и избегает командной работы.

Мне важно, чтобы получилась команда из единомышленников, которые:

1. Четко понимают свою зону ответстсвенности и что такое ответстсвенность
2. Готовы работать в синхронном ритме, когда нужно поднажать, а когда -- не давить
3. Не бояться брать новые проекты и инициативы, гибко подходят к текущим, но все еще целеустремлены к взятым коммитментам
4. Готовы к открытой культуре, не боятся критики и заточены на результат.

→ А с какими запросами от менеджеров вы сталкивались на собеседованиях?
-------

Если вам интересно послушать про найм глазами CEO, и как собираются сильные продуктовые команды, то предлагаю подписаться на канал Вовы: https://t.me/malov_tech/
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌9🤣8🥰41
This media is not supported in your browser
VIEW IN TELEGRAM
Жёстко становимся кабан-кабанычами

Вчера был на встречи, которую сделали ребята из Union Club. Основные гости вечера — Артем Бабинов, co-founder colife, и Артём Халимоненко, co-founder FoodBand. Получилось очень мощно: расширил горизонты сознания, впитав опыт реально крутых и опытных ребят 😘

Что я вынес для себя:
1️⃣ Лучше адаптировать, чем придумывать с нуля. Артём Бабинов стартанул свой бизнес после ресерча иностранных компаний — посмотрел, что уже стреляет за бугром и что можно грамотно перенести на рынок РФ, дабы разъебать рыночек. В итоге нашёл рабочую модель, адаптировал её под нашу реальность, и сейчас всё отлично живёт и процветает 🎙

2️⃣ Хороший ресерч — это когда становишься шпионом. Чтобы реально понять текущий рынок, нужно вжиться в роль каждого его участника: разместить фейковые предложения, притвориться клиентом или поставщиком, побыть в шкуре всех персонажей рынка. Короче, погрузиться настолько, будто ты уже давно в игре

3️⃣ Каждому человеку нужен ментор. Я сам менторю и вижу как растут мои ребята, но потом я задался себе вопросом, а как мне расти? После этого я стал ходить на такие тусовки, общаться с более опытными людьми, брать платные консультации. И ебать чо я заметил - мой рост пошёл по экспоненте (не по йогурту). Начал совершенно иначе мыслить, а главное — сохранил самое ценное, что есть у нас в жизни — время. Если бы не эти тусовки и нетворкинг, хуй знает, когда я бы дошёл до того к чему сейчас пришёл 😐

4️⃣ Founder mode - насколько я слышал, ребята аля Гребенюка говорят: "найми сильных людей в компанию и не мешай им делать свою работу", и по мнению других фаундеров это фраза продолжается так: "... и тогда твой бизнес загнётся нахуй". В 2024 году Пол Грэм (основатель Y Combinator) ввёл понятие «founder mode» — это когда фаундер сам остаётся CEO компании и активно вовлечён в операционку. Тут две крайности: либо ставишь СЕО, а сам чилишь с дельфинами на Шри-Ланке и управляешь компанией через KPI, но есть риск того, что компания без тебя может загнуться, либо сам максимально погружаешься в бизнес и решаешь задачи на ежедневке. По моему мнению, всё зависит от ваших навыков и то, что вам действительно нравится. Если вы хорошо делаете операционку и вам это нравится, то летс гоу в founder mode, если вы хотите создавать новые бизнесы и направления, то как будто можно чуть отойти от операционки ⌨️

Итог:
Ходите по разным мероприятиям, нетворкайтесь, знакомьтесь с умными людьми и не бойтесь задавать вопросов. Дурак не тот, кто задаёт вопросы, а кто их вообще не задаёт 🚶‍♀️
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥31🔥14🍌7💘41💯1
Дрочим с умом - как запомнить и не забыть

В DS нормально так теории, которой нужно задрочится для оффера. И в начале моего пути было так, что я учил, а оно все забывалось, у моих учеников было точно также.
Сегодня рассказываю, что нужно делать, чтобы у вас в башке было все заебись и из неё не вылетало всё подряд. Я написал продолжение этого поста, сначала читаем его — там офицерская база 🌟

Конспект / перессказ 🍴
Когда я задротил 1000 ненужных архитектур по нлп, я все конспекты писал рукой в тетрадку, так лично для меня лучше было усвоение информации. Поняв тему и написав своими пальчиками конспект, у тебя инфа укладывается в памяти гораздо лучше, так как ты себе как будто её пересказываешь через лист бумаги. А также можно рассказать своему кенту, который тебя обязательно выслушает про трансформеры и линейные регрессии за сиськой пива 💡
Рассказывая другому человеку, в памяти всё тысячекратно лучше запоминается

Практика ⌨️
Помимо вечных записей, я ещё тыкался в ноутбуках и смотрел, как работают разные архитектуры. Но не просто тыкался, а ковырялся во всех возможных кишках модели, чтобы точно понять, как работают активации, как текут градиенты и вообще как ваш там этот атеншион работает 😫

Собесы
Ну и для чего мы всю эту дрочь дрочим? Конечно, чтобы оффер жирненький залутать. Так вот ваш мозг так устроен, что если вы делаете что-то бесполезное, то он это выкидывает. А для мозга "бесполезно" = "учу и не хожу на собесы", а значит нет оффера и деняк. Поэтому ходите на собесы, там как почти на неограниченном экзамене практикуйтесь в теории и получайте офферы 🦍

Ну и база - делать, то что нравится 🌟
Сам по себе заметил, что если я делаю то, что мне не нравится, тогда из моей головы мимолётно улетают знания, которые я учил буквально час назад. Так было с ВУЗом, так было с подготовкой к маге, так было с задачами на работе, от которых я не кайфую. Но если делаю то, от чего ловлю удовольствие, тогда получается гэнг, а может даже бэнг, и информация укладывается как милая. Поэтому стараюсь делать то, что действительно мне нравится и выкидываю нахуй из жизни то, что не нравится 👎

Итог
Для начала делаем то, что действительно в кайф, затем понимаем, как это монетизируется, практикуемся и стараемся рассказать всю изученную теорию либо себе на листке, либо пьяному другому, потому что такой бред он явно трезвым не будет слушать 😫
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌2815❤‍🔥8🔥4
Закончил баку, а чичас ебашу в магу 🦍

Поступил в ВШЭ на программу Искусственного интеллекта и в ИТМО на Управление ИИ продуктами

Что думаете, куда свою жопку отправлять?
Please open Telegram to view this post
VIEW IN TELEGRAM
👏6219😍7🍌5🔥3❤‍🔥2
ЧТО СПРАШИВАЮТ НА СОБЕСЕДОВАНИИ в БигТех компанию 450к | реальные вопросы | Senior Data Science

Уничтожительно разбираем реальные вопросы с собеседования БигТех компании моего ученика, который получил оффер на 450к. Это вторая часть разбора задач по Classic Machine Learning, вопросы такие, что даже сам Сэм Альтман получил бы только оффер на стажёра

Видео получилось большим, поэтому я разделил его на две части. В первой части ролика разбираем:
🟣Градиентный бустинг - что такое? как строится? почему градиентный?
🟢Оптмизаторы SGD, BGD, momentum - как строятся? в чём отличие?
🔵Регуляризация (L1, L2, ElasticNet) - что это? в чём отличие?
🟡Метрики классификации: Precision, Recall, F1, ROC-AUC
🟣И МЕГА СЕКРЕТНАЯ ЗАДАЧА НА МЕТРИКИ

Ссылка на видео
Ссылка на видео
Ссылка на видео
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2611🍓8😍1🍌1
Бесплатная консультация для тебя 🌟

Ребят, хочу вас поблагодарить за вашу активность под постами, видосами, что вы мне пишите в ЛС приятные отзывы, это очень приятно и мотивирует делать контент всё пизже и пизже

И впервые за 3 года ведения канала хочу обратиться к вам за помощью 🐶

Попрошу вас пройти опросник буквально на 2-3 минуты, чтобы лучше понять: кто вы, что вы, какие задачи решаете, и что вам нужно прямо сейчас. А с теми, кто пройдёт опросник, я постараюсь лично созвонится, чтобы помочь с решением какой-то актуальной задачи в жизни сейчас

Короче, пройди опросник, и я смогу помочь тебе быстрее прийти к твоей цели (оффер, переход в DS, ML или апгрейд) 🗣

Ссылочка на опросник
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔15🔥11🍌7❤‍🔥32🥰1👌1
Тотальная ликвидация страхов в получении жирного офферсана

В предыдущем посте я попросил вас, своих слонов, пройти опросник. Вы наебенькали целых ~73 ответа, спасибо мои дорогие)
Ответы заставили меня порой улыбнуться, порой заплакать, а порой... заплакать 💀

Цель большинства - это найти первую работу в DS/ML, с небольшим отрывом идут люди, которые просто хотят апгрейднуться по ЗП, получить иностранный оффер или залутать новые знания

Самое частое чувство — страх, а я его люблю пиздеть на канале страха нет 👊
Вот топ мыслей, которые вы начирикали:
1️⃣ «Если не получится сейчас — я останусь ни с чем»
2️⃣ «Все умнее, с физтеха, а я без базы»
3️⃣ «Я боюсь опозориться на собесе»
4️⃣ «Вроде хочу в AI, но с чего начать — непонятно»

А вот что мешает моим слонам:
🟣Нет практики и реальных задач
🟡Непонятно, куда копать — нет роадмапа
🔵Не хватает мотивации
🟢Нет комьюнити рядом

Поэтому я задал себе вопрос: а чем я реально могу быть полезен? И вот что вы мне ответили:
🟣Простые разборы тем с примерами и кодом
🔵Кейсы и задачи (а не теория ради теории)
🟡Чек-листы, подборки ресурсов, роадмапы
🟢Мок-собесы, особенно в NLP и на джунов
🟣Истории людей, которые тоже боялись — и всё равно прошли путь

Поэтому сейчас будет тотальная ликвидация страхов на канале/ютубе/менторстве и кое-где в другом месте, чуть позже узнаете... 😃

Буду рад, если напишешь, какой пост ты хотел бы увидеть в ближайшее время.

ПОВ: Я потихоньку с вами созваниваюсь, также мне помогает моя ассистентка. И мне будет приятно если сделаешь небольшой додеп в опросник 🌭
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20😎95🥰1😁1🌭1🍌1
Накрутка опыта - это самое настоящее зло во плоти

Я всё чаще и чаще начал слышать этот тейк от компаний. Бля, а как выглядит эта ситуация с разных сторон: как стороны бизнеса, так со стороны кандидата?

Со стороны бизнеса 🏦
Моя цель - это сокращение издержек и заработок денег, я же бизнес, я должен делать бабки. Что я могу сделать для этого? Один из способов экономить на кандидатах, а как? А всё очень просто - это платить меньше за бОльшое количество задач. А значит я должен нанимать джунов, которые на самом деле мидлы, чтобы те выполняли задачи мидлов. Так я бы на мидла потратил 250к, а на джуна могу 100к за те же самые задачи - profit 🤡

Но тут ко мне приходят ребята, которые имеют ноль опыта, но могут действительно выполнять задачи мидлов, потому что они ебать как натренировались на проектах, на задачах, на чём-то своём, но система не даёт им делать свою работу за их заслуженную ЗП. Тогда ребята начинают крутить опыт, а компания злится, так как меньше экономит бабосики и говорит, что накрутка - это восьмой смертных грех, который должен быть написан при входе в офис Яндекса 🤕

Со стороны кандидата 💸
Я действительно много знаю, я могу в соло решить задачу от А до Я, я много, где практиковался, меня ревьювили опытные специалисты, по факту я уже прошёл стадию джуна, но без коммерческого опыта. Я ТЯНУ УРОВЕНЬ МИДЛ, Я ХОЧУ ПОЛУЧАТЬ ЗП МИДЛА, Я ЧЕЛОВЕК, Я ХОЧУ КУШАТЬ, Я НЕ ХОЧУ ТЕРЯТЬ ДЕНЬГИ - совершенно нормальное желание каждого из нас 👍

Кандидат начинает крутить опыт, проходит собеседование, дают оффер на мидла, он проходит испытательный срок и выполняет все задачи, которые ему говорит лид, то есть человек справляется с работой, он заслуженно мидл

Очень важный вывод 🤑
Есть рынок трудоустройства, рынке есть свои определённые правила игры. Цель каждого игрока на рынке - максимизация своего дохода, минимизиция издержек. И на данный момент на рынке есть такая борьба, в которой нет правых, каждый борется за свой кусок - бизнес орёт: "накрутка это не этично", накрутчики пидорасы, а кандидаты орут: "сосите, мы можем больше зарабатывать, нахрена нам терять свои года жизни?" 👩

Если кандидат станет бизнесом, то он скорее всего будет играть по правилам игры и тоже будет уменьшать свои издержки. Бизнес и кандидаты пользуются своими инструментами для выгоды. Например, бизнес может заслать ложного покупателя и даже сотрудника, чтобы спиздить все бизнес-процессы и данные с компании, а кандидат может попросить друга пойти на собес, чтобы тот слил все вопросы 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
29🍌13🥰5🤔4😁3💯2🔥1
Уничтожение MLSD по созданию чат-бота

Постановка задачи
Ситуация: Нужен чат-бот-юрист, который сможет первично консультировать клиентов по законам. Например, кто-то дунул газика и теперь тебе нужно найти все статьи и законы, которые связаны с котиками. Пример: «Браток, как защититься от того, что жёстко дал газу в башню и теперь меня ищут менты?» → бот ищет статьи и выдает нормальный структурированный ответ с источниками, которые помогут защититься от легавых 🐒

Ограничения:
🟣Задержка ответа, < 5c
🟡Нет данных для обучения, только открытые источники
🔵Свести галлюцинации к минимуму
🟢Мало мощностей (<16 ГБ VRAM)

Метрики
Бизнес-метрики - метрики, которые важны в первую очередь бизнесу
🟣Conversion Rate: доля пользователей, совершивших целевое действие: запись
на прием или переход по ссылке — через чатик с ботом
🟡Retention: Процент пользователей, вернувшихся к боту в течение N дней
Онлайн-метрики - метрики, которые будем мерить при A/B тестах
🟢CSAT: оценка от пользователей (1-5)
🔵Response Latency: задержка на генерацию ответа
Оффлайн-метрики - метрики, которые мы считаем прям во время разработки модели
🟣Precision@k: Доля релевантных документов среди топ-k результатов поиска.
🟡Recall@k: доля релевантных документов, найденных среди топ-k по сравнению с полным множеством релевантных
🔵LLM-as-a-judge (для оценки генерации): Оцениваем качество сгенерированных ответов LLM, используя другую LLM в качестве судьи - сейчас такое гейство очень актуально в оценки качества генераций. Правила оценки можно задать, опираясь на внутренние требования по общению с клиентами и работе с юридическим документами 😱
Но у нас нет разметки, как получить offline-метрики без разметки? Делаем небольшую ручную разметку через копирайтеров или на основе типичных запросов клиентов, а потом делаем синту через GPT на основе уже размеченных данных. Так можно наиболее точно и эффективно разметит инфу, чтобы чел нашёл абсолютно всё про хапку 😩

Данные:
1️⃣Официальные тексты законов.
2️⃣Очистка/фильтрация чувствительных данных.
3️⃣Чанки по 256–1024 токена (или абзацы).

Индексация и векторизация:
1️⃣ Выбор модели предобученной эмбеддингов: bge-m3, e5-multilingual-large
2️⃣ Построение векторной БД (Qdrant, Faiss, Chroma): вычисление эмбеддингов для каждого чанка и сохранение в векторную БД

Retrieve pipeline — как ищем чанки по газикам
1️⃣ Query preprocessing: нормализация, удаление лишних символов (можно делать через LLM)
2️⃣ Retrieve:
🔵BM25
🟢Vector search (cosine simillarity)
🟡Hybrid (BM25+Vector search)
3️⃣ Выбор top-k чанков для формирования контекста LLM. Рекомендуется 5-10
Формирование ответа с помощью LLM
1️⃣ Делаем какой-то систем промпт, чтобы наша модель была очень крутой, отвечала всегда честно и экологично, а то расскажет не про то как задефаться от хапки газика, а как сделать сам газик - нам такое не нужно
2️⃣ Кидаем в API ллмки (API: GPT, Gemini, Claude) систем промпт, чанки и вопрос пользователя и нам рождается ответ

Проблемы:
🟣Есть такая хуйня - Prompt Injection. Это когда злые дядьки пытаются через промпты попросить у модели внутренние данные. Что стоит сделать: или добавить жёсткие правила по фильтрации, или добавить ЛЛМку, которая будет фильтровать запрос пользователя и у неё не будет доступ к внутренним данным 👎
🟢Также в чанках может чуствтительная инфа (данные пользователей компании - если данные утекут, то из вас сделают газик), которая не должна слиться пользователям. Поэтому стоит внимательно следить за чанками и что в них попадает 💩

Итоговый пайплайн:
Запрос → Предобработка → Поиск чанков → Промпт → Ответ → Пользователь.
Это был baseline, который дальше можно улучшать и улучшать, у которого есть свои проблемы. И их в одном посте я точно описать не смогу

Что можно улучшить
👊
- Провести тесты с разными ЛЛМ-ками и энкодерами
- Проработать агентную систему, которая будет улучшать качество и безопасность системы. К примеру, query routing - классифицировать запрос: материальное право / процесс / процедурка / «как оформить»; под каждый — свой шаблон ответа и k.
- Сделать tool call при необходимости
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
26👍7🍌4🤣3❤‍🔥1🔥1🥰1
Forwarded from Applied AI 2
Как сэкономить 84 350 долларов в год

Столько стоит MBA (программа Master of Business Administration) в MIT, а также огромное количество времени. Я ничего не плачу и получаю персональные рекомендации по улучшению процессов в моей жизни и моих бизнесах. Ниже расскажу как, но перед этим отзывы:

CTO: "Блин это лучшее обучение которое у меня когда-либо было"
CAIO: "Я занимаюсь уже всю неделю не отрываясь"
Остальная команда: 100/10
Друг-предприниматель: "Сделал себе, то что я получаю пользу в контексте моих проектов сразу зарабатывает мне деньги"
Знакомая, окончившая MBA: "эх если бы такое было в моё время я бы уже в 16 запускала первый проект"
Мой друг 160iq+: не стал пробовать, слишком гигантское эго

TLDR РЕЦЕПТ

0. Открываем любую GPT
1. You will become what you hate about yourself — "Я хочу научиться Х, сделай мне тест моего уровня для оценки навыков, чтобы я смог Y"
2. Context is the king — В настройках персонализации chatgpt / claude / cursorrules пишем 300+ слов о себе, опыте, проблемах, ресурсах, проблеме и цели
3. Make yourself 6-monthly over-detailed, over-personalized, gpt-understandable plan — В несколько промптов создаем себе план обучения на 2000+ уроков, которые погрузят нас в каждую тему
4. Корректируем под себя промпт "плана урока"
5-2004. Follow it, make a schedule — начинаем каждый день со стандартного "план урока"+"промпт-тема"


Try now or forget forever - 100% есть фундаментальные навыки, в котором ты - лох, либо можешь перейти на следующую парадигму:
- management
- product
- sales
- networking
- processes
- your tech domain

Накидайте 10 огонечков и скину свои промпты.
Моей команде: буду благодарен если напишите свой опыт в комментах

@aigov2
🔥68😁6🌭21👍1🥰1🍌1🙈1💘1