Ebout Data Science | Дима Савелко
2K subscribers
140 photos
11 videos
86 links
Ebout Data Science by @ngmdite
Download Telegram
Кто я?

Налетело кучу людей на канал за последнее время, поэтому обновляю информацию о себе 🫶

Дарова!
Я Дима Савелко, мне 21 год. Занимаюсь менторством, то есть помогаю ребятам найти первую работу в DS/ML или апнуться до мидла/сеньора. И вот несколько фактов обо мне:
- Работал в:
🟢Точка R&D (NLP/LLM) - ресёрч/разработка в ЛЛМ, пилим свой ЧатЛГБТ для всей Точки
🟣Сбере (NLP) - ресёрч, обучал гигачат, делал ранжировщик генераций модели
🟡DSM Group (NLP, Classic ML) - решал задачи классик мл, нлп
- Есть ютуб, снимаю ролики про DS, рассказываю про вопросы на собесах и про то, как вкатываться
- Активно введу свой бизнес нейро-сети.рф 📞
- Участник более 10 хакатонов и победитель 3 хаков
- Сейчас учусь в РТУ МИРЭА на 4 курсе 💻

Вот подборка моих самых полезных постов 😘
🔵Про собесы | Резюме:
- Как правильно торговаться 🍑
- Типичные ошибки на собеседовании, которые ты можешь допустить
- Улучшаем резюме в х100 с помощью нескольких простых правил
- Алгоритм прохождения собеседования, который даст тебе 99.999...% оффер
- Что такое HR-скринниг, и как наиболее эффективно его проходить?

🟢NLP/LLM:
- RoadMap по архитектуре трансформеров и LLM
- Мегаполезные ссылки на курсы, ресурсы и статьи по подготовке на собесах: ML, DL, NLP, CV, RecSys, RL 🎸
- Полное и тотальное объяснение с примерами Self-Attention и MultiHead Attention
- Простое и понятное объяснение стадий обучения LLM
- Объяснение BERT`а на пальцах ваших ног

🟡ML System Design:
- Как готовится к секции ML System Design на собесах
- RoadMap по прохождению ML System Design
- Полное и подробное описание MLSD retrieve-модели из RAG-системы
- Полное и подробное описание MLSD для обучения LLM

🔵 Вопросы с собеседований:
- Мой персональный сборник вопросов
- теле-2
- Транснефть
- Тинькофф
- ДомКлик ч1
- ДомКлик ч2
- Huawei

🟣Другое
- Подготовка по алгосам
- Типичный день датасаентиста
- Как не обкакаться при старте ML-проекта ч1
- Как не обкакаться при старте ML-проекта ч2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🍌86🔥5🥰3🤯2❤‍🔥1💩1
Дрочка и Точка

Про Точку 👁
Я получил оффер в Точку на позицию NLP Researcher&Developer DS - короче NLP DS в R&D отдел.
Здесь я буду решать NLP таски, разрабатывать и обучать LLMки, RAGи и другие многие интересности
Сейчас я в точке не вижу минусов, только плюсы:
- топ тима 😈
- топ задачи 🤪
- топ процессы 🥺
- топ экспертиза 👍
- классное погружение 🐾
- отличный офис 😊

А теперь про дрочку 🚪
Напомню, что в Сбере я работал NLP Engineer'ом, учил LLMку и делал Reward-модель для отсеивания плохих генераций.
В Сбере я понял, что большие корпорации - это не про меня:
- куча бюрократии 👎
- много времени занимают самые элементарные процессы 👿
- лично мне офис вообще не зашел 👊
- ограничение банком использования моделей 😡
- лично у нас в команде не было ревью и не было структурированного 🥺
планирования задач, и это я слышал от других команд тоже 😐
Но не может быть только минусов, поэтому в Сбере есть и положительные моменты:
- огромные ресурсы, я хоть могу гпт-4 запускать (если разрешит система безопасности) 🥳
- там интересные и многогранные люди, у которых есть чему поучиться 🚬
- знания, которые я получил, довольно таки топовые, спасибо коллегам, которые меня натаскивали 🤪
- замедленность процессов - это и плюс, и минус, так как ты очень долго вывозишь что-то в прод, но при этом есть куча свободного времени для своих дел, например для менторства 👀

Вывод:
Нет плохих и хороших компаний.
Вы уже принимаете для себя, что для вас приемлемо, что нет. После Сбера я определил для себя, что мне нужно, а что не нужно. Если вы хотите тихой и спокойной разработки порой с тупорылыми процессами, то вам корпорат. Если же хотите динамики и более драйвой разработки, то в компанию поменьше. 🙈
Так же не стоит забывать, что процессы ещё очень зависят от команды, в которой вы работаете. В Сбере может попасться такая команда, которая будет обходить все минусы, и приумножать только плюсы, поэтому стоит смотреть не только на компанию, а более глубоко: команда, люди, эскпертиза и тд... 🙈

Сберу я ставлю 3 валерия бабушкиных из 5 валериев бабушкиных по личным ощущениям
Оценка:
😯 😯 😯 / 😯 😯 😯 😯 😯
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🍌105🥰3
Ebout Data Science | Дима Савелко pinned «Кто я? Налетело кучу людей на канал за последнее время, поэтому обновляю информацию о себе 🫶 Дарова! Я Дима Савелко, мне 21 год. Занимаюсь менторством, то есть помогаю ребятам найти первую работу в DS/ML или апнуться до мидла/сеньора. И вот несколько…»
Уничтожение трансофрмеров и LLM (RoadMap)

Трансформеры сейчас суются буквально везде и повсюду, поэтому их очень часто спрашивают на собесах и на них построены SOTA решения для многих областей особенно в LLM, поэтому не знать их - это не база 🙈
Это RoadMap, который вам поможет разобраться с этой трансформерами и с LLMками 🙈

Начинаем мы с изучения архитектуры трансформеров, а закончим LLMками 😘
1️⃣ Всем смотреть базу от Котенкова, здесь мы с ручкой и листком переписываем архитектуру, чтобы в полной мере понимать, как она работает
2️⃣ Трансформеры в картинках - эту статью прочитать в качестве закрепления материала от Котенкова
3️⃣ Для более широкого понимания смотрите наглядную и понятную серию роликов от 3Blue1Brown про LLM. Тут описаны основные принципы механизмов в трансформере:
➡️ Что такое GPT
➡️ Визуализация в трансформеров
➡️ Как работает механизм внимания, где ИИ хранит воспоминания
4️⃣ Визуализация трансформеров и визуализация Self-Attention`a после того, как прочитали русскоязычные ресурсы и поняли базовые принципы работы трансформеров, можно глянуть и англоязычную визуализацию архитектуры
5️⃣ Базовая практика от Карпатова и интерактивный прогон GPT модели - написания GPT модели с нуля от Андрюши Карпатоа, за ним повторять, каждую операцию понимать, плюс каждый шаг написания в интерактиве смотреть
6️⃣ А чо такое RLHF и ваши SFT ? - именно на этот вопрос отвечает Котенков в своём видео, здесь рассказываются, как обучаются современные LLMки, из каких этапов обучения они состоят, и что там вообще творится

Полезные дополнительные материалы 🕺
1️⃣ Attention Is All You Need - оригинальная статья про трансформеры
2️⃣ Neural Networks: Zero to Hero - курс Андрюши Карпатова по ИИ
3️⃣ Intro to Large Language Models - основная техническая подноготная в современные LLM системах от Карпатова
4️⃣ Мини-курс «Полная история семейства GPT» - курс от Котенкова по семейству GPT моделей
5️⃣ Мой Сборник Материалов - курсы, гайды и статьи на любой вкус не только в NLP, но и в NLP, CV, RecSys

Теперь вы сами стали трансформером и можете объяснить, что такое Self-Attention своей маме, папе, бабушке, дедушке и даже собаке 🤵‍♂️

Если вы хотите:
💥 Получить оффер
✔️Заботать трансформеры и другие темы в DS, ML, NLP
🔝 Сделать грейд ап по зарплате и по скиллам
‼️ То приходите ко мне на менторство, первая консультация бесплатная ‼️
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌10🔥7🫡4👎32😴2👌1
Типичный день Дата Сатаниста

Меня часто на консультациях по менторству спрашивают: «Димас, расскажи про свой типичный рабочий день, чем вообще занимается Data Scientist?»

Ну вот я и выдаю такую базу 👑

1️⃣ Утренняя рутина - подъём в 8 утра, выпиваю кровь девственницы и спокойно разбираю личку, отвечая людям на рабочие вопросы 🫥
2️⃣ Ресёрч статей - если необходимо, то читаю манускрипты про текущие передовые решения в нашей задаче – в общем, занимаюсь ересью 👍
3️⃣ Написание кода - после прочтения статей я пишу пиктограмму в виде программного кода, чтобы вызвать сатану всего ИИ – трансформера, и приношу ему в жертву пару сотен данных 🤪
4️⃣ Дата сатанистские обряды по зуму - я созваниваюсь со своими коллегами сатанистами, и во главе нашего лида мы разбираем, что и как мы сделали за определённый период (обычно 2-3 дня), и какие дьявольские пиктограммы нужно писать дальше 👍

Так, ладно, убираем всю ересь 🐙
В целом день Data Scientist`a состоит из тех же элементов, что и у любого другого разработчика: пишем код, созвоны, таски. Только мы иногда делаем жёсткий ресёрч статей для нахождения наиболее релевантного решения для нашей задачи 😯

Плюс DS`а заключается в том, что тут постоянно происходит развитие, прочтение статей, работа с чем-то новым, и как следствие мало рутины и тебе становиться действительно интересно выполнять такую работу 🍔
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌13🔥7👍4🐳2🏆21
Как торговаться на собесах 🍑

Если вы получили оффер и вам уже сказали какую ЗП вы будете получать, то не торопитесь его принимать. Вы можете спокойно за несколько секунд зарабатотать 30% к своей ЗП, а то и более.

Зачем торговаться?
Давайте включим простую математику, если вам предложили ЗП в 300к, а вы сторговали ЗП на 360к, 360к - 300к = 60к в месяц вы сторговали, 60к*12 месяцев = 720к, вы за несколько минут заработали 720к в разрезе года, вы просто СЛОН 🐘
Именно так у меня было с СамокатTech 🥳

Почему можно торговаться?
1️⃣ Берём большие цифры, то есть если все в среднем будут просить больше по рынку, то работодателю ничего не остаётся кроме того, как повысить заработную плату и нанимать людей, ведь вакансии надо закрывать, а фичи пилить 👷
2️⃣ К тому же бизнес зачастую имеет средства для повышения ЗП, особенно большие компании 😁
3️⃣ Ну и мы живём в той стране, в которой инфляцию нужно обгонять каждый год, а если вы не будете этого делать, то будете падать в благах, если ваша ЗП не будет меняться 👀
4️⃣ Офферы не отзывают, если вы попросите больше ЗП, запомните фразу: "Как компания ищет лучшего кандидата, так и кандидат ищет лучшего работодателя" 👁

Алгоритм торговли 💪
Допустим вам дали оффер с ЗП, тогда вы пишите следующее (взял отсюда):
"Да, возращаюсь с ответом. Только вот другая компания Y сделал оффер X минут назад. У вас и у них хорошие команды и задачи. Но есть финансовый момент, что они предложили мне на Z$ больше. И выбор мой усложняется. <тут описываешь почему тебя компания зацепила>. Можете ли вы сделать что-нибудь по этому, чтобы облегчить мой выбор?"

И тогда с большой долей вероятности к вам могут прийти с повышенным оффером, и да это можно делать даже тогда, когда у вас нет второго оффера, но это ваш выбор... 🤡

Вывод:
Умение продать свою жопу за большие деньги - важный навык в жизни. Если вы не сделаете этого, то за вас обязательно это сделает кто-то другой 💪
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌26❤‍🔥10🔥6👍3👎2
Я закончил школу в 20 лет

С 3 по 9 июня я был в Школе PE - это школа для тех, кто хочет начать создавать свой продукт, как-то его завернуть и правильно пушить в массы - именно такое определение я дал после прохождения школы. Сама школа проходила в Альметьевске, в кампусе АГНИ - вуза, который построила ТатНефть.

Что я там получил:
1️⃣ Жёсктий нетврокинг. Я познакомился с такими классными ребятами, которые мне такую БАЗУ👑 выдавали, что я приехал от туда другим человеком. Меня подтянули по самопрезентации, по выступлению, по коммуникации, да и в целом по каким-то психологическим аспеткам - короче говоря, навалили жёсткой БАЗЫ 💪

2️⃣ Понимание болей. Раньше мне было тяжело общаться на языке бизнеса, я общался на языке Дата Сатанистов, но эксперты из Школы PE приоткрыли мне эту завесу - как правильно приподнести Data-Driven продукт бизнесу, объяснить ему какие боли он закрывает, и сколько денег он принесёт 📞

3️⃣ Расширение горизонтов. Там было кучу учёных по химии, биологии, физики и другим интересным сферам. Раньше для меня учёный - это чел в плаще, в очках и с книжкой в руках 🤓, да такие по-любому есть, но я увидел, что учёные могут быть жёсткими гигачадами, которые шарят и не только за науку, но и за бизнес, рекламу, менеджмент - можно долго перечислять в целом 🥺

4️⃣ Личная победа. Рассказывая стихотворение в подростковом возрасте, я проглатывал язык и смотрел в пол, но в Школе PE я сам себя и меня выдрачили на публичные выступление так, что я сам не ожидал от себя такого результата. За несколько вечером подготовил презу, текст, выступление и жёстко зарекламился перед топ-менеджарами ТатНефти и ИТМО. Да, не без минусов, но и плюсы гарантированно есть, и в следующих выступлениях мне точно не будет страшно 👅

Итог
Не бойтесь принимать участие в подобного рода мероприятиях, знакомиться с разными людьми, расширять свой кругозор не только в вашей теме, но и смежных, не забывайте про софты, потому что нетворкинг - один из двигателей вашего развития 🎤
Лично для себя я понял, в каком направлении мне стоит улучшаться, качаться, и как дальше качать себя и своё дело 😎

Школе PE я ставлю Пять Валериев Бабушкиных из Пяти Валериев Бабушкиных
Оценка:
😯 😯 😯 😯 😯 / 😯 😯 😯 😯 😯
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌189🔥7🎉4👍2😁2🦄2
Наша первая статья на Habr`е

Мы командой решили написать статью "Как построить MVP AI-сервис и сэкономить время" 👨‍🔬
В ней мы рассказали о том, как мы строили и проектировали MVP-сервис c дифузионной моделью внутри для одной компании. Целевой аудиторией данной статьи были продукты, бизнесмены и люди, которые не связанные с технологиями, а больше связаны с бизнесом 😁

Для нашей ЦА мы хотели подсветить следующие темы:
1️⃣ Плюсы-минусы собственной обученной нейронки над API решением 🤪
2️⃣ Как и где собрать данные, с помощью каких методов их можно предобратотать, и как проверить их качество 😐
3️⃣ Поговорили про интерфейс сервиса, каким его можно было бы представить, показали пару примеров 🙂
4️⃣ Рассказали про как работают диффузионные модели 🥰
5️⃣ Про важность baseline модели, на собственном примере показали, что не всегда порой нужно бежать и обучать модели 👅
6️⃣ Подсветили несколько аспектов использования ИИ: авторское право, поддержка, данные... 🤪

И вот что я понял во время её написания:
- Ставьте и чётко формулируйте ЦА и цель статьи, делая вывод в конце чётко для вашей цели и для вашей ЦА. А то может так получится, что без изначального определения цели статьи, читатель может ожидать одно, а получить совершенно другое. И это ваша личная ответственность позаботиться о том, чтобы читатель именно то, что вы заложили изначально 💪
- Дать на проверку статью редакторам или людям, которые разбираются в публицистике. А то после недельного написания может замылиться глаз, и есть высокий шанс не заметить ошибки в статье. 😊

Итог:
Предлагаю вам почитать статью, буду благодарен, если оцените её знаком вверх, и мне важно от вас услышать фидбек, рекомендации по написанию других статей. А то я сейчас буду писать другую статью, и я хочу её сделать намного лучше данной, поэтому мне очень важно услышать именно ваше мнение 🥇
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍154🔥3🍌2🍾2
Почему ты теряешь деньги и время на вкат в Data Science

При вкате в Data Science ребята допускают кучу ошибок на своём пути, например:

1️⃣ Я не знаю какую область мне выбрать? 🎮
2️⃣ Где и как мне учить материалы по Data Science? 🇺🇸
3️⃣ Допустим я учусь, но как мои знания будут применяться на работе ?  🙈
4️⃣ А где и как нужно искать вакансии ? А что учить на собесах ? А почему мне не пишут HR`ы ? А что спрашивают на собесах ? Мне страшно ходить на собесы, вдруг я обсренькаюсь и что дальше ??? 🎮

Можно бесконечно продолжать список вопросов, поэтому и существуют менторы, чтобы их решить. Ментор - это человек, который будет наставлять тебя на твоём пути развития, постоянно корректируя твой процесс обучения для более эффективного достижения цели.

Как менторство может помочь именно тебе?
Отвечая на этот вопрос, буду приводить основываться на данных из своей практики ментора.

1️⃣ Экономия времени и денег.
Средняя зп джуна ~110к, без ментора вы будете заниматься около года-полтора (12-18 месяцев), а с ментором около (6-8 месяцев, по личному опыту знаю). Простая математика: вы экономите 6-10 месяцев, а как следствие 6 * 110 - 10* * 110= 660к - 1100к. А если вы ещё и сразу на мидла идёте, то экономия около 1200к - 2200к... 🍑

2️⃣ Вы приобретёте более глубокие навыки, если будете учиться с ментором.
Ментор, как человек опытный, даёт вам всю свою накопленную экспертизу: как получить первый оффер, как уничтожать собеседования, как правильно торговаться, как правильно себя показывать на собесах и тд. Самим вам придётся кровью и потом выбивать эти навыки и опыт, поэтому для сокращения пути ментор - самый лучший вариант. 📞

3️⃣ Сообщество единомышленников
У меня есть группа, в которой я ребят довожу вплоть до оффера, на данный момент там около 20 человек. Мы регулярно устраиваем созвоны, на которых я разбираю основные ошибки, пробелы и затыки ребят на пути приобретения оффера. Также ребята активно переписываются и проводят МОКи между собой. 🎲

4️⃣ Кукухология.
Зачастую так бывает, что основным затыком являются страхи. Именно это и прорабатывается на менторстве, чтобы вы смогли идти и уничтожать собесы 💪

Итог:
Если вы хотите получить оффер, или вам необходимо сделать продающее резюме, роадмап, накинуть материалов, то приглашаю к себе на менторство
Вот видео, в котором я рассказываю про себя и свои услуги.
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌133💩3😁2🤡21👍1🔥1🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
Математика и ML в Кубике Рубика 🎲

Грубо говоря, вам нужно собрать пазл типа Кубик Рубика, но не с помощью программных алгоритмов, а с помощью алгоритмов машинного обучения и математики. Глобальная задача проетка - применить машинное обучение к теории групп

Краткая суть задачи может быть описана несколькими способами 🙈
1️⃣ Нахождение пути на графе от вершины А до вершины Б, но размер графа 10^20-10^50 - обычные методы не применимы. Задача близка к прошедшему конкурсу Каггл Санта 2023.
2️⃣ Математически - разложение элемента группы по образующим. Математические пакеты, которые частично могут решать эту задачу - GAP, SAGE.

Минимальное требование 👁
Вы знакомы с Питоном, и у вас есть несколько часов свободного времени в неделю. (Альтернативно - можно не знать Питон, но хорошо знать теорию групп - в идеале GAP, SAGE).

Цель проекта 📞
Написание статьи в хорошем журнале, участники - соавторы. Другим бонусом будет являться - приобретение навыков по современным методам нейронных сетей, Reinforcement Learning и т.д.

Почему вы должны принять участие 👍
Это отличная возможность получить уникальный опыт и стать более конкурентно способным на собеседованиях в DS. Написанная статья или готовое решение может стать значительным фактором при отборе кандидатов, так как в отличие от многих кандидатов ваша активность показывает, что вы действительно болеете Data Scientизмом и можете решать нестандартные задачи и писать статьи.
Также это отличная возможность понетворкаться)

Если Вам интересно участие 💪
Напишите @alexander_v_c (Александр Червов, к.ф.-м.н. мехмат МГУ, 25 лет math&DS, Kaggle, Scholar, Linkedin).
Чат для обсуждений: тут .
Вводный доклад тут.
Пояснения по RL части тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥5🍌3👍2❤‍🔥1
Как мы построили сервис по поиску видео контента с помощью текста 🙈

Мы командой решили написать новую статью на Habr про то, как мы создали сервис по поиску видео контента с помощью картинки - задача Text2Video Retrieval. Грубо говоря, пользователь вводит текст «собака гуляет на берегу моря», и сервис с помощью магии ИИ должен найти видео, где показано, как собака гуляет на берегу моря 🤩

Кратая суть решения состоит в том, что 💪
1️⃣ Мы собрали в БД короткие ролики
2️⃣ Описали скрины из роликов с помощью vision-language model, а QWEN-VL
3️⃣ Пользователь вводит текст «морской пейзаж при закате».
4️⃣ Encoder превращает этот текст в вектор.
5️⃣ Сервис сравнивает этот вектор с векторами из базы данных с помощью ANN.
6️⃣ Пользователь получает релевантные видео текстовому запросу.

Статья написана простыми словами, с множеством картинками с пояснениями, поэтому она мега понятная для новичков, и её может почитать даже человек не в IT 🥇

Итог:
Предлагаю вам почитать статью, буду благодарен, если оцените её знаком вверх. Мне важно от вас услышать фидбек и рекомендации по написанию других статей.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🍌7🔥4👏21