Почему ты теряешь деньги и время на вкат в Data Science
При вкате в Data Science ребята допускают кучу ошибок на своём пути, например:
Можно бесконечно продолжать список вопросов, поэтому и существуют менторы, чтобы их решить. Ментор - это человек, который будет наставлять тебя на твоём пути развития, постоянно корректируя твой процесс обучения для более эффективного достижения цели.Как менторство может помочь именно тебе?
Отвечая на этот вопрос, буду приводить основываться на данных из своей практики ментора.
Средняя зп джуна ~110к, без ментора вы будете заниматься около года-полтора (12-18 месяцев), а с ментором около (6-8 месяцев, по личному опыту знаю). Простая математика: вы экономите 6-10 месяцев, а как следствие 6 * 110 - 10* * 110= 660к - 1100к. А если вы ещё и сразу на мидла идёте, то экономия около 1200к - 2200к...
Ментор, как человек опытный, даёт вам всю свою накопленную экспертизу: как получить первый оффер, как уничтожать собеседования, как правильно торговаться, как правильно себя показывать на собесах и тд. Самим вам придётся кровью и потом выбивать эти навыки и опыт, поэтому для сокращения пути ментор - самый лучший вариант.
У меня есть группа, в которой я ребят довожу вплоть до оффера, на данный момент там около 20 человек. Мы регулярно устраиваем созвоны, на которых я разбираю основные ошибки, пробелы и затыки ребят на пути приобретения оффера. Также ребята активно переписываются и проводят МОКи между собой.
Зачастую так бывает, что основным затыком являются страхи. Именно это и прорабатывается на менторстве, чтобы вы смогли идти и уничтожать собесы
Итог:
Если вы хотите получить оффер, или вам необходимо сделать продающее резюме, роадмап, накинуть материалов, то приглашаю к себе на менторство
Вот видео, в котором я рассказываю про себя и свои услуги.
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Дмитрий Савелко - менторство, или как я смогу сэкономить тебе деньги и время ?
tg - @ngmdite
🍌13❤3💩3😁2🤡2⚡1👍1🔥1🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
Математика и ML в Кубике Рубика
Грубо говоря, вам нужно собрать пазл типа Кубик Рубика, но не с помощью программных алгоритмов, а с помощью алгоритмов машинного обучения и математики. Глобальная задача проетка - применить машинное обучение к теории групп
Краткая суть задачи может быть описана несколькими способами
Минимальное требование
Вы знакомы с Питоном, и у вас есть несколько часов свободного времени в неделю. (Альтернативно - можно не знать Питон, но хорошо знать теорию групп - в идеале GAP, SAGE).
Цель проекта
Написание статьи в хорошем журнале, участники - соавторы. Другим бонусом будет являться - приобретение навыков по современным методам нейронных сетей, Reinforcement Learning и т.д.
Почему вы должны принять участие
Это отличная возможность получить уникальный опыт и стать более конкурентно способным на собеседованиях в DS. Написанная статья или готовое решение может стать значительным фактором при отборе кандидатов, так как в отличие от многих кандидатов ваша активность показывает, что вы действительно болеете Data Scientизмом и можете решать нестандартные задачи и писать статьи.
Также это отличная возможность понетворкаться)
Если Вам интересно участие
Напишите @alexander_v_c (Александр Червов, к.ф.-м.н. мехмат МГУ, 25 лет math&DS, Kaggle, Scholar, Linkedin).
Чат для обсуждений: тут .
Вводный доклад тут.
Пояснения по RL части тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥5🍌3👍2❤🔥1
Как мы построили сервис по поиску видео контента с помощью текста
Мы командой решили написать новую статью на Habr про то, как мы создали сервис по поиску видео контента с помощью картинки - задача Text2Video Retrieval. Грубо говоря, пользователь вводит текст «собака гуляет на берегу моря», и сервис с помощью магии ИИ должен найти видео, где показано, как собака гуляет на берегу моря Кратая суть решения состоит в том, что
Статья написана простыми словами, с множеством картинками с пояснениями, поэтому она мега понятная для новичков, и её может почитать даже человек не в IT
Итог:
Предлагаю вам почитать статью, буду благодарен, если оцените её знаком вверх. Мне важно от вас услышать фидбек и рекомендации по написанию других статей.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🍌7🔥4👏2⚡1
А шо поботать то ?
Краткий сборник того, что может вам пригодится для изучения ML / DL / NLP / CV
Machine Learning
Deep Learning
NLP
CV
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17🍌7❤🔥3🔥2🥰2⚡1👍1🤯1
Что такое HR-скринниг, и как наиболее эффективно его проходить?
HR-скринниг - это диалог с HR`ом компании. Цель данного этапа понять - подходите ли вы друг другу или нет, и стоит ли тебя впускать на следующей этап собеседования. Возможно, ваш опыт нерелевантен, или вам не нравятся условия компании.
Сначала вас вводят в курс дела и обсуждают следующие темы
- Рассказ о компании
- Частично погружают в задачи
- Условия найма: удалёнка/зп
- Команда
- Бонусы
После этого задают вопросы именно тебе, чтобы понять насколько ты релевантен компании
- Опыт, просят рассказать кратко, а могут попросить более подробный рассказ
- ЗП
- Почему ушли с прошлой работы ?
- Почему ищете новую работу ?
- По каким критериям выбираете новую работу?
- Могут дать какой-нибудь блиц на дурочка, состоящий из ТОП-20 ВОПРОСОВ ПО КЛАССИК МЛ 2024 ГОДА
Как наиболее эффективно его проходить?
Самое главное: Дай чёткий ответ себе на вопросы сверху
1. Про опыт стоит говорить так
"В компании A я работал над задачей рекомендации. Бизнес-задача заключалась в том, чтобы сделать систему рекомендаций, так как это бы привлекло новых пользователей и повысило удержание на несколько процентов. Эту задачу я порешал с помощью B технологий и увеличил метрики на C процентов." - и так про каждую компанию нужно сделать рассказ, где вы работали.
2. Про заработную плату
Кратко: не говорить вилку первым, а сделать упор на том, что вы будете принимать решение о ЗП после всех полученных офферов. Более подробно читай в моём посте, в котором я рассказываю как торговаться на собесах
3. Причины ухода с прошлой работы
Тут у каждого своя причина: бюрократия, безопасники, долгие процессы, не те ожидания, маленькая зп и тд...
4. Причины поиска новой работы
Опять же у каждого своя причины: новые задачи, быстрые процессы, больше зп и тд...
5. Критерии выбора новой работы
У каждого могут быт свои критерии выбора: первое - деньги, второе - задачи, третье - люди и атмосфера и тд...
Итог
Стоит просто расслабиться и с улыбкой провести скринниг. После пары собесов вы поймёте, что это однотипный этап, который вы будете щёлкать, как орешки.
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌7👍5🥰4👏1
Как не обкакаться при старте ML-проекта (Часть 1/2)
Пространство проблем и пространство решений
Когда к вам приходит бизнес и говорит "Нам нужна система рекомендаций!", то вы не должны бежать и, сломя голову, искать новые алгоритмы для решения задачи. Вы должны выдохнуть и спросить: - Зачем она нам нужна?
- Как именно система рекомендаций будет приносить нам деньги?
- Что мы будем рекомендовать?
- Какую проблему она решает?
После ответа на данные вопросы может возникнуть такая ситуация, когда ML-алгоритм совершенно не нужен, достаточно всего лишь какого-нибудь алгоритма или эвристики, что значительно сокращает время на разработку
Перед разработкой любой ML-системы мы задаём вопрос из пространства проблем - определяется вопросами "Что?" и "Зачем?", а затем переходим в пространство решений - определяется вопросом "Как?" - средства реализации проблемы
Пример из жизни
Мы пилили проект по генерации коротких роликов на основе текста. Мы не залезли в пространство проблем, и как итог мы потратили кучу времени и денег, чтобы переделать проект под новые требования. Не было уточнений множества деталей и как итог, бизнес ожидал одно, а рзрабы делали совершенно другое
Итог
Во время проектирования ML-системы задавайтесь вопросом "Что?" и "Зачем?", а уже после "Как?"
Материалы взяты из книги Валерия Бабушкина
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🍌5
Как не обкакаться при старте ML-проекта (Часть 2/2)
Очень часто в компаниях так бывает, что команды делают ML-продукт ради ML-продукта, не понимая того, что хотел заказчик, и зачем модель в целом нужна бизнесу. Обычно это происходит из-за того, что разработчики и заказчики не слышат друг другаИ тут встаёт вопрос:
А как определить проблему так, чтобы обе стороны максимально понимали друг друга?
Алгоритм для того, чтобы наконец-то начать понимать и слышать друг друга:
Алгоритм похож на перевёрнутую пирамиду, которая начинается с понимания самых примитивных вещей и заканчивается более глубинными понятиями
В самом начале мы формулируем проблему, формулировка которой будет понятна любому руководителю уровня C (СTO, CEO, ...).
Например: "В нашем приложении есть мошенники, которые пытаются атаковать наших пользователей. Если определять мошенников, то мы сможем обеспечить более надёжную безопасность приложения."
Это нужно, чтобы погрузиться в детали и конкретные проблемы, которые может решить наша система, также нужно стараться найти несоответствия в ответах и противоречия, так как это наш самый главный враг.
Например: "Что такое мошенник?", "Как он вредит?", "Вредит ли он вообще?"...
Погружаемся ещё глубже и вычленяем подробную информацию и технические детали по имплементации решения.
Например: "Как мы технические определяем, что это мошенник?"
Итог
Перед написанием кода уточните с помощью данного алгоритма следующее:
- что вы хотите в целом делать
- зачем вы хотите делать
- что означают сущности, с которыми вы будете работать
И всеми возможными способами мучайте бизнес, чтобы расставить все точки над И.
Лучше потратить несколько дней на эти вопросы, нежели 3 месяца обучать модель и выкинуть её в окно (P.S. Джейсон Стейтем)
Материалы взяты из книги Валерия Бабушкина
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌9👍7🌭2❤1
Дайджест ресурсов или как стать гуру в LLM, устройстве тензорах и DL парадигм
На YouTube от 3Blue1Brown вышла понятная и короткая серия лекций LLM. В них рассказывают всю базу про их устройство, наглядно визуализируя основные механизмы.
Вследствие этого обновил RoadMap по уничтожению LLM
1.
Introduction
(определения, важные теоремы и общие понятия)
10.
Machine Learning Applications
(про то, как тензоры работают в привычной нам среде, оптимизацию лоссов и атеншен)
12.
Tensorgrad
(более глубоко про производные, градиенты и операции над тензорами)
Ребята c Reddit пару выпустили книгу "Illustrated book to learn about Transformers & LLMs" с объяснением главных DL-парадигм в картинках. Там рассказывается про:
- База нейросетей: (перцептроны, backprop, dropout и тд)
- Эмбеддинги, токенизация, word2vec, RNN, LSTM, GRU
- Трансформеры: BERT, GTP, T5, self-attention, Encoder`ы, Decoder`ы и рекомендации по ускорению вычисления
- LLM: SFT, RLHF, промпт-инжиниринг
- бонусом рассказ про классические задачи: машинный перевод, sentiment extraction и RAG
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15🍌6🍾2❤🔥1❤1👍1
Оффер на 250к за месяц в СберДевайсы
На моём менторстве был ученик с небольшим количеством опыта, и он пришёл с запросом найти новую работу. Спустя ОДИН месяц работы он получил оффер на 250к в СберДевайсы на жёсткую CV позицию.
Как мы с ним это сделали
- как составлять резюме
- как вести себя с HR`ом
- как правильно готовиться к собесу
- где, как, какую и сколько информации учить
- как правильно торговаться
- как побороть страхи и не боятся ошибок и собесов
По итогу моих и его усилий он прошёл несколько собесов, заучил всё про трансформеры и во снах вспоминал про изменяемые типы данных. Спустя все тяжести он стал гигачадом и получил оффер на 250к
Конечно же, он сам бы мог пойти и искать работу, и я уверен, что нашёл бы. Но со мной его процесс ускорился в разы, помог убрать страхи и стать гигачадом, также я дал ему гарантию того, что он получит оффер, если будет прислушиваться к моим советам... Выводы делайте сами
Please open Telegram to view this post
VIEW IN TELEGRAM
Teletype
Data Science Mentoring by Dima Savelko
Меня зовут Дима, и я ментор по Data Science / Machine Learning. Deep Learning Engineer (ClassicML, NLP/LLM) с 4-летним опытом коммерческой разработки.
🍌20🤡7⚡5❤1🔥1
Как устроен этот ваш BERT
В первую очередь, этот пост расчитан для новичков, для тех кто только входит в мир DS
Верхнеуровнего BERT превращает текст в цифры, то есть хавает "Я хочу пиццу", а на выходе даёт что-то типо [0.21, 0.19, 0.14, 0.12]. Эти цифры позволяют комьютеру "понимать" текст на комьютерном языке.
Теперь немного глубже. BERT основан на архитектуре, называемой трансформером. У трансформера две части: энкодер и декодер (1 картинка)
BERT использует энкодер, что делает его топовым инструментом для таких задач как:
BERT обучался на двух ключевых задачах, которые помогли ему стать такой мощной моделью: (2 картинка)
Модель произвела большой скачок в сфере, так как модель принесла
Ссылки для более глубоко понимания BERT:
- Transformer, explained in detail | Igor Kotenkov | NLP Lecture (in Russian) - советую посмотреть весь видос
- BERT Neural Network - EXPLAINED!
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- Оригинальная статья BERT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🍌4🔥2
Уничтожение Алгоритмов v2
На собесах вам могут спросить как и обычный алгос с LeetCode, так и попросить заебенить линейную регрессию на numpy или self-attention на torch, или на чистом питоне...
Вот роадмапик для низведения до нуля алгоритмов и структур данных
Как стоит подходить к изучению материалов
Решайте алгос 30-40 минут, если ничего не получилось, то смотрите разбор от NeetCode или другого челика. Поняли концепцию и после этого повторили код самостоятельно с этой же концепцией.
Также кидаю дополнительные ресурсы
а) Тренировки по алгоритмам от Яндекса 1.0
б) Тренировки по алгоритмам от Яндекса 2.0
в) Тренировки по алгоритмам от Яндекса 3.0
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18🍌4❤1👍1🤣1
Уничтожение Self-Attention
Self-Attention или механизм внимания - это такой механизм, который используется сейчас во всех современный LLMках. До него многие задачи решались с помощью рекуррентных нейросетей (RNN), но они обладали некоторыми недостатками:
- сложность в учёте длинных последовательностей
- проблема взрыва/затухание градиентов
- нельзя параллелить вычисления
- сложная в интерпретации
Как итог гугл выкладывает статью Attention Is All You Need. В ней гугл показывает концепцию, которая может решить данные недостатки
Как устроен Self-Attention
На вход подаётся векторные представления слов (зелёные матрицы с 1 картинки). Каждая "строка" в этой матрице - это векторное представление слова. Входящие матрица умножаются на матрицы весов Key, Query, Values. После умножение уже получается матрицы Query, Key, Values (розовая, оранжевая и голубая матрица справа на первой картинке).
Умножается матрица Query на транспонированную матрицу Key (Q*K.T). Мы получаем промежуточную матрицу, отражающую значимость токенов друг для друга.
Для нормировки матрицы Q*K.T, матрица делится на корень из значения размерности векторов модели (например, на sqrt(512) для модели с размерностью 512). Нам нужно делить, так как при умножении Q на K.T у нас увеличивается дисперсия на sqrt(размерность).
Потом применяется функция softmax для, чтобы нормализовать значения и получить attention-матрицу. На картинке 3 предложение "Life is short eat desert first", допусти каждое слово - это токен. Проделав шаги 1 - 4 у нас получится примерно такая attention-матрица, как на картинке 3, где каждый с каждым токеном имеет свою оценку "внимания" между собой. Если скор большой, то эти токены как-то связаны между собой, возможно они вместе образуют какую-то общую информацию.
Зависит от задачи (например обучение генеративной модели), но на attention-матрицу может наложиться маска, например как на картинке 4
attention-матрица умножается на матрицу Values по итогу получается матрица, которая идёт в последующие слои.
Почему выбор сделан на self-attention или его преимущества, которые вас обязательно спросят на собесе
Это была краткая сводка материала, чтобы понять концепцию Self-Attention и рассказать на собесе. Если вы хотите больше узнать более подробно про Self-Attention, то прошу к прочтению
- Всем смотреть базу от Котенкова, здесь мы с ручкой и листком переписываем архитектуру, чтобы в полной мере понимать, как она работает
- Трансформеры в картинках - эту статью прочитать в качестве закрепления материала от Котенкова
- Transformers Explained Visually (Part 3): Multi-head Attention, deep dive
- Attention Networks: A simple way to understand Self-Attention
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌16👍6🔥4