Ebout Data Science | Дима Савелко
1.99K subscribers
140 photos
11 videos
86 links
Ebout Data Science by @ngmdite
Download Telegram
Закончил баку, а чичас ебашу в магу 🦍

Поступил в ВШЭ на программу Искусственного интеллекта и в ИТМО на Управление ИИ продуктами

Что думаете, куда свою жопку отправлять?
Please open Telegram to view this post
VIEW IN TELEGRAM
👏6219😍7🍌5🔥3❤‍🔥2
ЧТО СПРАШИВАЮТ НА СОБЕСЕДОВАНИИ в БигТех компанию 450к | реальные вопросы | Senior Data Science

Уничтожительно разбираем реальные вопросы с собеседования БигТех компании моего ученика, который получил оффер на 450к. Это вторая часть разбора задач по Classic Machine Learning, вопросы такие, что даже сам Сэм Альтман получил бы только оффер на стажёра

Видео получилось большим, поэтому я разделил его на две части. В первой части ролика разбираем:
🟣Градиентный бустинг - что такое? как строится? почему градиентный?
🟢Оптмизаторы SGD, BGD, momentum - как строятся? в чём отличие?
🔵Регуляризация (L1, L2, ElasticNet) - что это? в чём отличие?
🟡Метрики классификации: Precision, Recall, F1, ROC-AUC
🟣И МЕГА СЕКРЕТНАЯ ЗАДАЧА НА МЕТРИКИ

Ссылка на видео
Ссылка на видео
Ссылка на видео
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2611🍓8😍1🍌1
Бесплатная консультация для тебя 🌟

Ребят, хочу вас поблагодарить за вашу активность под постами, видосами, что вы мне пишите в ЛС приятные отзывы, это очень приятно и мотивирует делать контент всё пизже и пизже

И впервые за 3 года ведения канала хочу обратиться к вам за помощью 🐶

Попрошу вас пройти опросник буквально на 2-3 минуты, чтобы лучше понять: кто вы, что вы, какие задачи решаете, и что вам нужно прямо сейчас. А с теми, кто пройдёт опросник, я постараюсь лично созвонится, чтобы помочь с решением какой-то актуальной задачи в жизни сейчас

Короче, пройди опросник, и я смогу помочь тебе быстрее прийти к твоей цели (оффер, переход в DS, ML или апгрейд) 🗣

Ссылочка на опросник
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔15🔥11🍌7❤‍🔥32🥰1👌1
Тотальная ликвидация страхов в получении жирного офферсана

В предыдущем посте я попросил вас, своих слонов, пройти опросник. Вы наебенькали целых ~73 ответа, спасибо мои дорогие)
Ответы заставили меня порой улыбнуться, порой заплакать, а порой... заплакать 💀

Цель большинства - это найти первую работу в DS/ML, с небольшим отрывом идут люди, которые просто хотят апгрейднуться по ЗП, получить иностранный оффер или залутать новые знания

Самое частое чувство — страх, а я его люблю пиздеть на канале страха нет 👊
Вот топ мыслей, которые вы начирикали:
1️⃣ «Если не получится сейчас — я останусь ни с чем»
2️⃣ «Все умнее, с физтеха, а я без базы»
3️⃣ «Я боюсь опозориться на собесе»
4️⃣ «Вроде хочу в AI, но с чего начать — непонятно»

А вот что мешает моим слонам:
🟣Нет практики и реальных задач
🟡Непонятно, куда копать — нет роадмапа
🔵Не хватает мотивации
🟢Нет комьюнити рядом

Поэтому я задал себе вопрос: а чем я реально могу быть полезен? И вот что вы мне ответили:
🟣Простые разборы тем с примерами и кодом
🔵Кейсы и задачи (а не теория ради теории)
🟡Чек-листы, подборки ресурсов, роадмапы
🟢Мок-собесы, особенно в NLP и на джунов
🟣Истории людей, которые тоже боялись — и всё равно прошли путь

Поэтому сейчас будет тотальная ликвидация страхов на канале/ютубе/менторстве и кое-где в другом месте, чуть позже узнаете... 😃

Буду рад, если напишешь, какой пост ты хотел бы увидеть в ближайшее время.

ПОВ: Я потихоньку с вами созваниваюсь, также мне помогает моя ассистентка. И мне будет приятно если сделаешь небольшой додеп в опросник 🌭
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20😎95🥰1😁1🌭1🍌1
Накрутка опыта - это самое настоящее зло во плоти

Я всё чаще и чаще начал слышать этот тейк от компаний. Бля, а как выглядит эта ситуация с разных сторон: как стороны бизнеса, так со стороны кандидата?

Со стороны бизнеса 🏦
Моя цель - это сокращение издержек и заработок денег, я же бизнес, я должен делать бабки. Что я могу сделать для этого? Один из способов экономить на кандидатах, а как? А всё очень просто - это платить меньше за бОльшое количество задач. А значит я должен нанимать джунов, которые на самом деле мидлы, чтобы те выполняли задачи мидлов. Так я бы на мидла потратил 250к, а на джуна могу 100к за те же самые задачи - profit 🤡

Но тут ко мне приходят ребята, которые имеют ноль опыта, но могут действительно выполнять задачи мидлов, потому что они ебать как натренировались на проектах, на задачах, на чём-то своём, но система не даёт им делать свою работу за их заслуженную ЗП. Тогда ребята начинают крутить опыт, а компания злится, так как меньше экономит бабосики и говорит, что накрутка - это восьмой смертных грех, который должен быть написан при входе в офис Яндекса 🤕

Со стороны кандидата 💸
Я действительно много знаю, я могу в соло решить задачу от А до Я, я много, где практиковался, меня ревьювили опытные специалисты, по факту я уже прошёл стадию джуна, но без коммерческого опыта. Я ТЯНУ УРОВЕНЬ МИДЛ, Я ХОЧУ ПОЛУЧАТЬ ЗП МИДЛА, Я ЧЕЛОВЕК, Я ХОЧУ КУШАТЬ, Я НЕ ХОЧУ ТЕРЯТЬ ДЕНЬГИ - совершенно нормальное желание каждого из нас 👍

Кандидат начинает крутить опыт, проходит собеседование, дают оффер на мидла, он проходит испытательный срок и выполняет все задачи, которые ему говорит лид, то есть человек справляется с работой, он заслуженно мидл

Очень важный вывод 🤑
Есть рынок трудоустройства, рынке есть свои определённые правила игры. Цель каждого игрока на рынке - максимизация своего дохода, минимизиция издержек. И на данный момент на рынке есть такая борьба, в которой нет правых, каждый борется за свой кусок - бизнес орёт: "накрутка это не этично", накрутчики пидорасы, а кандидаты орут: "сосите, мы можем больше зарабатывать, нахрена нам терять свои года жизни?" 👩

Если кандидат станет бизнесом, то он скорее всего будет играть по правилам игры и тоже будет уменьшать свои издержки. Бизнес и кандидаты пользуются своими инструментами для выгоды. Например, бизнес может заслать ложного покупателя и даже сотрудника, чтобы спиздить все бизнес-процессы и данные с компании, а кандидат может попросить друга пойти на собес, чтобы тот слил все вопросы 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
29🍌13🥰5🤔4😁3💯2🔥1
Уничтожение MLSD по созданию чат-бота

Постановка задачи
Ситуация: Нужен чат-бот-юрист, который сможет первично консультировать клиентов по законам. Например, кто-то дунул газика и теперь тебе нужно найти все статьи и законы, которые связаны с котиками. Пример: «Браток, как защититься от того, что жёстко дал газу в башню и теперь меня ищут менты?» → бот ищет статьи и выдает нормальный структурированный ответ с источниками, которые помогут защититься от легавых 🐒

Ограничения:
🟣Задержка ответа, < 5c
🟡Нет данных для обучения, только открытые источники
🔵Свести галлюцинации к минимуму
🟢Мало мощностей (<16 ГБ VRAM)

Метрики
Бизнес-метрики - метрики, которые важны в первую очередь бизнесу
🟣Conversion Rate: доля пользователей, совершивших целевое действие: запись
на прием или переход по ссылке — через чатик с ботом
🟡Retention: Процент пользователей, вернувшихся к боту в течение N дней
Онлайн-метрики - метрики, которые будем мерить при A/B тестах
🟢CSAT: оценка от пользователей (1-5)
🔵Response Latency: задержка на генерацию ответа
Оффлайн-метрики - метрики, которые мы считаем прям во время разработки модели
🟣Precision@k: Доля релевантных документов среди топ-k результатов поиска.
🟡Recall@k: доля релевантных документов, найденных среди топ-k по сравнению с полным множеством релевантных
🔵LLM-as-a-judge (для оценки генерации): Оцениваем качество сгенерированных ответов LLM, используя другую LLM в качестве судьи - сейчас такое гейство очень актуально в оценки качества генераций. Правила оценки можно задать, опираясь на внутренние требования по общению с клиентами и работе с юридическим документами 😱
Но у нас нет разметки, как получить offline-метрики без разметки? Делаем небольшую ручную разметку через копирайтеров или на основе типичных запросов клиентов, а потом делаем синту через GPT на основе уже размеченных данных. Так можно наиболее точно и эффективно разметит инфу, чтобы чел нашёл абсолютно всё про хапку 😩

Данные:
1️⃣Официальные тексты законов.
2️⃣Очистка/фильтрация чувствительных данных.
3️⃣Чанки по 256–1024 токена (или абзацы).

Индексация и векторизация:
1️⃣ Выбор модели предобученной эмбеддингов: bge-m3, e5-multilingual-large
2️⃣ Построение векторной БД (Qdrant, Faiss, Chroma): вычисление эмбеддингов для каждого чанка и сохранение в векторную БД

Retrieve pipeline — как ищем чанки по газикам
1️⃣ Query preprocessing: нормализация, удаление лишних символов (можно делать через LLM)
2️⃣ Retrieve:
🔵BM25
🟢Vector search (cosine simillarity)
🟡Hybrid (BM25+Vector search)
3️⃣ Выбор top-k чанков для формирования контекста LLM. Рекомендуется 5-10
Формирование ответа с помощью LLM
1️⃣ Делаем какой-то систем промпт, чтобы наша модель была очень крутой, отвечала всегда честно и экологично, а то расскажет не про то как задефаться от хапки газика, а как сделать сам газик - нам такое не нужно
2️⃣ Кидаем в API ллмки (API: GPT, Gemini, Claude) систем промпт, чанки и вопрос пользователя и нам рождается ответ

Проблемы:
🟣Есть такая хуйня - Prompt Injection. Это когда злые дядьки пытаются через промпты попросить у модели внутренние данные. Что стоит сделать: или добавить жёсткие правила по фильтрации, или добавить ЛЛМку, которая будет фильтровать запрос пользователя и у неё не будет доступ к внутренним данным 👎
🟢Также в чанках может чуствтительная инфа (данные пользователей компании - если данные утекут, то из вас сделают газик), которая не должна слиться пользователям. Поэтому стоит внимательно следить за чанками и что в них попадает 💩

Итоговый пайплайн:
Запрос → Предобработка → Поиск чанков → Промпт → Ответ → Пользователь.
Это был baseline, который дальше можно улучшать и улучшать, у которого есть свои проблемы. И их в одном посте я точно описать не смогу

Что можно улучшить
👊
- Провести тесты с разными ЛЛМ-ками и энкодерами
- Проработать агентную систему, которая будет улучшать качество и безопасность системы. К примеру, query routing - классифицировать запрос: материальное право / процесс / процедурка / «как оформить»; под каждый — свой шаблон ответа и k.
- Сделать tool call при необходимости
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
26👍7🍌4🤣3❤‍🔥1🔥1🥰1
Forwarded from Applied AI 2
Как сэкономить 84 350 долларов в год

Столько стоит MBA (программа Master of Business Administration) в MIT, а также огромное количество времени. Я ничего не плачу и получаю персональные рекомендации по улучшению процессов в моей жизни и моих бизнесах. Ниже расскажу как, но перед этим отзывы:

CTO: "Блин это лучшее обучение которое у меня когда-либо было"
CAIO: "Я занимаюсь уже всю неделю не отрываясь"
Остальная команда: 100/10
Друг-предприниматель: "Сделал себе, то что я получаю пользу в контексте моих проектов сразу зарабатывает мне деньги"
Знакомая, окончившая MBA: "эх если бы такое было в моё время я бы уже в 16 запускала первый проект"
Мой друг 160iq+: не стал пробовать, слишком гигантское эго

TLDR РЕЦЕПТ

0. Открываем любую GPT
1. You will become what you hate about yourself — "Я хочу научиться Х, сделай мне тест моего уровня для оценки навыков, чтобы я смог Y"
2. Context is the king — В настройках персонализации chatgpt / claude / cursorrules пишем 300+ слов о себе, опыте, проблемах, ресурсах, проблеме и цели
3. Make yourself 6-monthly over-detailed, over-personalized, gpt-understandable plan — В несколько промптов создаем себе план обучения на 2000+ уроков, которые погрузят нас в каждую тему
4. Корректируем под себя промпт "плана урока"
5-2004. Follow it, make a schedule — начинаем каждый день со стандартного "план урока"+"промпт-тема"


Try now or forget forever - 100% есть фундаментальные навыки, в котором ты - лох, либо можешь перейти на следующую парадигму:
- management
- product
- sales
- networking
- processes
- your tech domain

Накидайте 10 огонечков и скину свои промпты.
Моей команде: буду благодарен если напишите свой опыт в комментах

@aigov2
🔥65😁6🌭21👍1🥰1🍌1🙈1