Вот и разбор алгоритмов на стажировку в Тинькофф! Обязательно делимся с друзьями. Ждём 5 тыс просмотров на ютуб ролике и выкладываем математику.
Смотрим! Смотрим! https://youtu.be/aWqk8-i1bis
Смотрим! Смотрим! https://youtu.be/aWqk8-i1bis
YouTube
Разбор алгоритмов на стажировку в Тинькофф!!
Код и условия задач: https://t.me/botalkaaa/23304
Как подготовиться к собесу Тинькофф: https://t.me/postypashki_old/1198
Как подготовиться к собесу Тинькофф: https://t.me/postypashki_old/1198
Вот и разбор математики на стажировку в Тинькофф! Обязательно делимся с друзьями. Ждём 6 тыс просмотров на ютуб ролике и выкладываем разбор ШБР Яндекса.
Смотрим! Смотрим! https://www.youtube.com/watch?v=98LWuYoXmn4&t=18s
Смотрим! Смотрим! https://www.youtube.com/watch?v=98LWuYoXmn4&t=18s
YouTube
Разбор математики на стажировку в Тинькофф!!
PDF c решениями и чат: https://t.me/botalkaaa/23728
Как затащить дальнейшие этапы: https://t.me/postypashki_old/1198
Как затащить дальнейшие этапы: https://t.me/postypashki_old/1198
Решение SQL Тинькофф весна 2024.pdf
801.7 KB
Вот и решения SQL на стажировку в Тинькофф! Обязательно делимся с друзьями. Давайте наберем как можно скорее 500 шэров (поделиться с другом) и расскажу, чего ждать после отбора: когда и кого позовут на собес, чтобы уж точно правильно заполнить анкету и не проморгать!
Обсудить можно в нашей БОТАЛКЕ
Обсудить можно в нашей БОТАЛКЕ
This media is not supported in your browser
VIEW IN TELEGRAM
Вот и разбор алгоритмов на летнюю школу Яндекса бэкенд-разработки! Обязательно делимся с друзьями. Ждём 20 тыс просмотров на ютуб ролике и выкладываем разбор Яндекс стажировки.
Смотрим! Смотрим! https://www.youtube.com/watch?v=mHZYsmALlMw&t=5s
Смотрим! Смотрим! https://www.youtube.com/watch?v=mHZYsmALlMw&t=5s
YouTube
Разбор алгоритмов на летнюю школу Яндекса бэкенд-разработки!!
Код и условие: https://t.me/botalkaaa/25726
Как затащить дальнейшие этапы:https://t.me/postypashki_old/1198
Как затащить дальнейшие этапы:https://t.me/postypashki_old/1198
Стажировка Ozon Camp
Прямо сейчас, товарищи, проходит отбор на самую главную бизнесс стажировку сезона. Для участия нужно заполнить анкету до 26 апреля. Специально для вас попросил руководителя программы рассказать обо всех лайфхаках и особенностях.
Как сказано это бизнесовая стажировка, не айтишная, поэтому тут лишь направления продакта, проджекта, маркетинга, коммерции, финансов и аналитики. Аналитика лайтовая (не разработка и DS), максимум базовый питон (Pandas, Seaborn, NumPy и тд). Самое популярное направление: продакт-менеджмент, здесь конкурс огромный и проводится доп.скрининг. А вот на Коммерцию пройти легче всего, поэтому это хороший вариант, чтобы начать карьеру, залететь в Озон и закрепиться, дальше развиваться уже в инфраструктуре будет попроще.
1. Скрининг резюме
Если первым приоритетом выберите продакта/проджекта (можно выбрать до 3х направлений), то готовьте резюме именно под него, так как там доп.скрининг. Пройдете на ПМ - пройдете и на всё остальное. Заявки принимаются до 26 апреля, так что ещё есть время адаптировать резюме под нужную позицию. Как заполнять анкету смотрим обязательно здесь.
2. Тестирование навыков
Все проходят тест на эксель (вопросы на условное форматирование, ВПР, сводные таблицы), плюс тест по выбранному направлению (типичные термины, формулы и метрики). По аналитике даются задачки на тренажёре SQL. Тут важно прочитать инструкцию внимательно и правильно скопировать данные через блокнот, чтобы не слетела база.
3. Бизнес-игра
Игры проходят в офисе Moscow city, разбор кейса в команде 5-10 человек за 2 часа. Тут важно внимательно прочитать главную цель кейса, чтобы не тратить время на лишние нерелевантные задачки, не перетягивать одеяло на себя и не затыкать других (оценивают командную работу в первую очередь), плюс выступать на защите кейса и не бояться отвечать на вопросы. Если прошли курсы, то проблем точно не возникнет.
4. Мотивационное письмо
В это году вместо HR-собеса будет анкета с вопросами про мотивацию, желаемых задачах и скиллах. Между игрой и анкетой будет какое-то время, чтобы больше почитать про компанию, поспрашивать у друзей, кто там работает, какие команды/юниты самые интересные, чтобы знать куда хотите попасть. Именно по этой анкет вам потом будут подбирать команду.
5. Финальное интервью с тимлидом и командой
Обычно проходит онлайн за 20-40 минут. Иногда тимлид прогоняет по хардам и спросит вопросы про метрики/инструменты, но чаще это просто типичный собес, смотрины. Если не подошла первая команда, то подбирают следующую, и так может быть до трёх попыток.
6. Выход на стажировку будет 15 июля
Для оформления как обычно нужен СНИЛС, ИНН, военник, справка из вуза и трудовая (электронная или бумажная). Часть из этого делается не быстро, поэтому лучше готовить доки заранее.
Более подробно обо всем этом можно посмотреть в ролике.
Прямо сейчас, товарищи, проходит отбор на самую главную бизнесс стажировку сезона. Для участия нужно заполнить анкету до 26 апреля. Специально для вас попросил руководителя программы рассказать обо всех лайфхаках и особенностях.
Как сказано это бизнесовая стажировка, не айтишная, поэтому тут лишь направления продакта, проджекта, маркетинга, коммерции, финансов и аналитики. Аналитика лайтовая (не разработка и DS), максимум базовый питон (Pandas, Seaborn, NumPy и тд). Самое популярное направление: продакт-менеджмент, здесь конкурс огромный и проводится доп.скрининг. А вот на Коммерцию пройти легче всего, поэтому это хороший вариант, чтобы начать карьеру, залететь в Озон и закрепиться, дальше развиваться уже в инфраструктуре будет попроще.
1. Скрининг резюме
Если первым приоритетом выберите продакта/проджекта (можно выбрать до 3х направлений), то готовьте резюме именно под него, так как там доп.скрининг. Пройдете на ПМ - пройдете и на всё остальное. Заявки принимаются до 26 апреля, так что ещё есть время адаптировать резюме под нужную позицию. Как заполнять анкету смотрим обязательно здесь.
2. Тестирование навыков
Все проходят тест на эксель (вопросы на условное форматирование, ВПР, сводные таблицы), плюс тест по выбранному направлению (типичные термины, формулы и метрики). По аналитике даются задачки на тренажёре SQL. Тут важно прочитать инструкцию внимательно и правильно скопировать данные через блокнот, чтобы не слетела база.
3. Бизнес-игра
Игры проходят в офисе Moscow city, разбор кейса в команде 5-10 человек за 2 часа. Тут важно внимательно прочитать главную цель кейса, чтобы не тратить время на лишние нерелевантные задачки, не перетягивать одеяло на себя и не затыкать других (оценивают командную работу в первую очередь), плюс выступать на защите кейса и не бояться отвечать на вопросы. Если прошли курсы, то проблем точно не возникнет.
4. Мотивационное письмо
В это году вместо HR-собеса будет анкета с вопросами про мотивацию, желаемых задачах и скиллах. Между игрой и анкетой будет какое-то время, чтобы больше почитать про компанию, поспрашивать у друзей, кто там работает, какие команды/юниты самые интересные, чтобы знать куда хотите попасть. Именно по этой анкет вам потом будут подбирать команду.
5. Финальное интервью с тимлидом и командой
Обычно проходит онлайн за 20-40 минут. Иногда тимлид прогоняет по хардам и спросит вопросы про метрики/инструменты, но чаще это просто типичный собес, смотрины. Если не подошла первая команда, то подбирают следующую, и так может быть до трёх попыток.
6. Выход на стажировку будет 15 июля
Для оформления как обычно нужен СНИЛС, ИНН, военник, справка из вуза и трудовая (электронная или бумажная). Часть из этого делается не быстро, поэтому лучше готовить доки заранее.
Более подробно обо всем этом можно посмотреть в ролике.
Вот и разбор задач собеседования на аналитика в Авито! Прием заявок до 23 апреля. Обязательно делимся с друзьями. Ждём 5 тыс просмотров на ютуб ролике и разбираем собес Тинькофф.
Смотрим! Смотрим! https://youtu.be/6X2d5aNNF0Y
Смотрим! Смотрим! https://youtu.be/6X2d5aNNF0Y
YouTube
Разбор задач с собеседования в Авито!! Как начать карьеру аналитику в Авито.
Задания и решения, подробности: https://t.me/postupashki_career/117
Как гарантировано затащить собес в Авито: https://t.me/postypashki_old/1198
Как гарантировано затащить собес в Авито: https://t.me/postypashki_old/1198
Forwarded from Поступашки - Карьера
Задания Авито.pdf
5.4 MB
Стажировка в Авито
Прямо сейчас, товарищи, проходит отбор на самую главную стажировку аналитиков сезона. Для участия нужно заполнить анкету до 23 апреля. Специально для вас еще раз пробежимся по всем этапам отбора.
1. Скрининг резюме
Как заполнять анкету смотрим обязательно здесь.
2. Тестовое задание
Немало простых вопросов по матеше, теор веру, мат стату, а также sql, python. Найдете в конце файла.
3. Видео интервью
Раньше на обычные вакансии стажера звонил HR, который просто рассказывал о себе, о процессе отбора, а также уточнял формальные моменты. Похоже для оптимизации процесса это решили проводить в "записи".
4. Техническое собеседование
Задачи в лайве на теор вер и мат стат, которые обсуждаются в ролике. Еще могут попасться банальные задачи на парадокс Симпсона.
Авито есть две реĸламные ĸампании в интернете: на сайте А и на сайте Б. На сайте А ĸонверсия выросла, на сайте Б тоже, могла ли совместная ĸонверсия с обоих сайтов упасть. Пример приводили здесь.
Было проведено исследование, что 90% аварий совершают трезвые водители, а 10% пьяные, может ли это значить, что трезвая езда в 9 раз опаснее пьяной езды. Пример здесь.
Потом ждет кейс: АВ тест с уходами в мат стат и продуктовое понимание. Допустим хотим ввести новые фильтры в строке поиска. Как бы вы дизайнили этот эксперимент? Расскажите про формулы mde, t-теста, что такое p-value и тд, какие методы есть чтобы снизить дисперсию, как рассчитать размер выборки и длину (продолжительность теста). Опиши кратко очень словами, как бы ты написал CUPED функцией на питоне. Если прошли курсы, то проблем точно не возникнет.
Перед этим всем конечно еще раз спросят про опыт, конкретно про опыт работы в аналитике. Кратко накинут вопросы типо: как вы справляетесь со сложными задачами? Использовал ли оконки, какие библиотеки в питоне использовали и для чего?
5. Собеседование на soft skills
Тот самый behaviour из ролика
6. Собеседование с руководителем и командой
Все просто в духе чем занимался, что умеешь и можем ли мы быть тебе интересны.
Прямо сейчас, товарищи, проходит отбор на самую главную стажировку аналитиков сезона. Для участия нужно заполнить анкету до 23 апреля. Специально для вас еще раз пробежимся по всем этапам отбора.
1. Скрининг резюме
Как заполнять анкету смотрим обязательно здесь.
2. Тестовое задание
Немало простых вопросов по матеше, теор веру, мат стату, а также sql, python. Найдете в конце файла.
3. Видео интервью
Раньше на обычные вакансии стажера звонил HR, который просто рассказывал о себе, о процессе отбора, а также уточнял формальные моменты. Похоже для оптимизации процесса это решили проводить в "записи".
4. Техническое собеседование
Задачи в лайве на теор вер и мат стат, которые обсуждаются в ролике. Еще могут попасться банальные задачи на парадокс Симпсона.
Авито есть две реĸламные ĸампании в интернете: на сайте А и на сайте Б. На сайте А ĸонверсия выросла, на сайте Б тоже, могла ли совместная ĸонверсия с обоих сайтов упасть. Пример приводили здесь.
Было проведено исследование, что 90% аварий совершают трезвые водители, а 10% пьяные, может ли это значить, что трезвая езда в 9 раз опаснее пьяной езды. Пример здесь.
Потом ждет кейс: АВ тест с уходами в мат стат и продуктовое понимание. Допустим хотим ввести новые фильтры в строке поиска. Как бы вы дизайнили этот эксперимент? Расскажите про формулы mde, t-теста, что такое p-value и тд, какие методы есть чтобы снизить дисперсию, как рассчитать размер выборки и длину (продолжительность теста). Опиши кратко очень словами, как бы ты написал CUPED функцией на питоне. Если прошли курсы, то проблем точно не возникнет.
Перед этим всем конечно еще раз спросят про опыт, конкретно про опыт работы в аналитике. Кратко накинут вопросы типо: как вы справляетесь со сложными задачами? Использовал ли оконки, какие библиотеки в питоне использовали и для чего?
5. Собеседование на soft skills
Тот самый behaviour из ролика
6. Собеседование с руководителем и командой
Все просто в духе чем занимался, что умеешь и можем ли мы быть тебе интересны.
Вот и долгожданный ролик по стажировкам в Касперовский. Вместе с Максимом разберемся во всех вопросах, связанных со стажировкой. Вышло много инсайдов и лайфхаков. Обязательно делимся с друзьями, ждем 10 тыс просмотров на ролике и выкладываем обзор VK.
Смотрим! Смотрим! https://www.youtube.com/watch?v=Cq2QiFj6y_g&t=1s
Смотрим! Смотрим! https://www.youtube.com/watch?v=Cq2QiFj6y_g&t=1s
YouTube
ВСЕ ПРО СТАЖИРОВКУ В КАСПЕРСКИЙ!! (SafeBoard, Kaspersky Laborotory)
Податься на стажировку: https://safeboard.kaspersky.ru/
Подружиться с Максимом: https://t.me/segfault_drec
Как точно попасть на стажировку: https://t.me/postypashki_old/1198
Подружиться с Максимом: https://t.me/segfault_drec
Как точно попасть на стажировку: https://t.me/postypashki_old/1198
До отборочных в ШАД буквально 7 дней, товарищи, поэтому сегодня в ролике делюсь главным секретом, который подготовит вас к экзаменам за пару недель😎😎 Свои силы сможет попробовать каждый.
Смотрим! Смотрим! https://youtu.be/U7TgvUE3yqA
Смотрим! Смотрим! https://youtu.be/U7TgvUE3yqA
YouTube
ЧТО РЕШАТЬ И КАК ГОТОВИТЬСЯ? Две недели до отборочных в ШАД (Школу Анализа Данных)
Тестовые задания прошлых лет ВСЕ года: https://t.me/postypashki_old/1007
Материалы для первого этапа: https://t.me/postypashki_old/1013
Как гарантировано поступить в ШАД: https://t.me/postypashki_old/1002
Материалы для первого этапа: https://t.me/postypashki_old/1013
Как гарантировано поступить в ШАД: https://t.me/postypashki_old/1002
Вот и реально собеседование на стажера аналитика в Тинькофф. Во всю присылают приглосы, поэтому мониторим почту, товарищи, и смотрим в ролике, чего ждать от собеса.
Смотрим! Смотрим! https://www.youtube.com/watch?v=73cmSsEg2n8
Смотрим! Смотрим! https://www.youtube.com/watch?v=73cmSsEg2n8
YouTube
Реальное собеседование на стажера аналитика в Тинькофф! (команда Тинькофф Инвестиции)
Как затащить матешу: https://t.me/postypashki_old/1198
Резюме Леонтия: https://t.me/botalkaaa/28674
Резюме Леонтия: https://t.me/botalkaaa/28674
Вот и разбор первого этапа ШАД 2024 года! Обязательно делимся с друзьями, ждем 10 тыс просмотров и разбираем другой вариант. Пока другие варианты можно получить только на наших курсах.
Смотрим! Смотрим! https://www.youtube.com/watch?v=AS4c22KKlgY
Смотрим! Смотрим! https://www.youtube.com/watch?v=AS4c22KKlgY
YouTube
Разбор первого этапа ШАД 2024 года!! (ШКОЛА АНАЛИЗА ДАННЫХ ОТ ЯНДЕКСА)
Конспект, код и условия: https://t.me/botalkaaa/30224
Курс по дискретной математике: https://t.me/postypashki_old/1040
Как затащить следующие этапы: https://t.me/postypashki_old/1002
Курс по дискретной математике: https://t.me/postypashki_old/1040
Как затащить следующие этапы: https://t.me/postypashki_old/1002
Задача с собеса в Яндекс
Сейчас ребята с нашего прошлого курса по МЛ стали активно проходить собесы и в благодарность делятся задачками. Вот такую симпатичную задачку спросили на стажера:
Условие:
Может ли в методе 𝑘 ближайших соседей при 𝑘 = 2 получиться лучший результат, чем при
𝑘 = 1? Отказы от классификации тоже считать ошибками.
Решение, которое зачли на собесе в комментариях.
Если хотите предложить задачу/вопрос пишите @vice22821. Также буду очень признателен за тестовые задания на любую позицию (аналитика, разработка, ml, de), готов к обмену или могу расплатиться натурой, в общем договоримся: вы мне, я вам!
куда: #МЛ
тема: #МЛ
Сейчас ребята с нашего прошлого курса по МЛ стали активно проходить собесы и в благодарность делятся задачками. Вот такую симпатичную задачку спросили на стажера:
Условие:
Может ли в методе 𝑘 ближайших соседей при 𝑘 = 2 получиться лучший результат, чем при
𝑘 = 1? Отказы от классификации тоже считать ошибками.
Решение, которое зачли на собесе в комментариях.
Если хотите предложить задачу/вопрос пишите @vice22821. Также буду очень признателен за тестовые задания на любую позицию (аналитика, разработка, ml, de), готов к обмену или могу расплатиться натурой, в общем договоримся: вы мне, я вам!
куда: #МЛ
тема: #МЛ
Стажировка Яндекс (ML&Programming 2024)
Сейчас ребята с нашего прошлого курса по МЛ стали активно проходить собесы и в благодарность делятся задачками.
Условие:
Как построить ROC-кривую (нужен алгоритм), если например, у вас есть правильные ответы и ваши прогнозы?
Решение, которое зачли на собесе в комментариях.
Если хотите предложить задачу/вопрос пишите @vice22821. Также буду очень признателен за тестовые задания на любую позицию (аналитика, разработка, ml, de), готов к обмену или могу расплатиться натурой, в общем договоримся: вы мне, я вам!
Сейчас ребята с нашего прошлого курса по МЛ стали активно проходить собесы и в благодарность делятся задачками.
Условие:
Как построить ROC-кривую (нужен алгоритм), если например, у вас есть правильные ответы и ваши прогнозы?
Решение, которое зачли на собесе в комментариях.
Если хотите предложить задачу/вопрос пишите @vice22821. Также буду очень признателен за тестовые задания на любую позицию (аналитика, разработка, ml, de), готов к обмену или могу расплатиться натурой, в общем договоримся: вы мне, я вам!
Эти пет проекты должен сделать каждый ML специалист
Устроиться можно попасть и без проектов, но если у вас их нет, то мл кейсы будут решаться неуверенно и на финалах будете выглядеть слабее других. Никто не ждет гениального проекта с инфраструктурой— реализовать какие-то бейзлайны и понимать специфику задач уже достаточно для стажера и джуна.
Уже делали подобную подборку для аналитиков здесь, советую присмотреться.
1. Кредитный скоринг
Стоит ли давать кредит— довольно популярная задача и отличный выбор для новчиков, чтобы самостоятельно проделать все этапы. Сначала берем любой датасет на kaggle по запросу Credit Scoring. Проводим EDA, генерируем гипотезы, фичи, готовим данные для модели и делаем бейзлайн: логистическая регрессия. Затем уже можно попробовать случайный лес, градиентный бустинг, KNN или еще что по вкусу— сравниваем метрики. И на последок не забываем проанализировать результаты и культурно презентовать. Можно провести АВ тест на смой первой модели.
Все варианты решения и реализации можно найти в интернетах: GitHub, Хабр. Очень полезным будет посмотреть всякие выступления на конференциях по этой теме для вдохновения, да и это очень поможет на мл кейсах.
2. Наивный Байесовский классификатор (НБК)
Для конкретики будем классифицировать письма на спам. Опять же обработаем данные: удаляем числа, знаки препинания, стоп-слова, стемминги, лемматизацию.
Объединяем все методы предварительной обработки и создаём словарь слов и счётчик каждого слова в наборе данных для обучения:
1. Вычисляем вероятность для каждого слова в тексте и отфильтровываем слова со значением вероятности меньше порогового. Такие слова будут нерелевантными.
2. Для каждого слова в словаре создаём вероятность, что это слово окажется в спаме. Определяем условную вероятность для использования её в НБК.
3. Вычисляем прогнозируемый результат с помощью условных вероятностей.
НБК реализовать не сложно. Куда интересней погрузиться во всю теорию, которая за этим стоит, в вероятностные модели. К тому же, кейс фильтрации спама и подобного часто встречается на собесах.
3. MLOps
Можно наладить какой-то минимальный прод для проектов: например телеграм бот или FastAPI. Можно еще автоматизировать пайплайн с помощь AirFlow и попробовать запустить инфраструктуру не только локально, но и облаке. Конечно нужно будет поизучать Docker, Cuber, Hadoop, Spark, HDFS, Kafka. Но на самом деле ничего трудного— после нашего курса дата инженер будете делать такие вещи по щелчку пальцев.
4. Ранжирование и матчинг
Для начала лучше пробежаться глазами по статье и посмотреть, что пишут в интернетах. Можно выделить три подхода к задаче: поточечный, попарный, списочный. Советую начать с первого как самого простого. Для конкретики будем предсказать оценку релевантности для запросов тестового датасета. Здесь можно кстати поучиться парсить web-страниц и собирать сырые данные, размечать их с помощью какого-нибудь Яндекс-Толока. Делаем регрессию, а затем Random Forest Regressor, XGBoost, lightGBM, CatBoost.
Совсем продвинутые могут попробовать языковые модели в духе FastText, Word2Vec, DSSM и более сложные: BERT, можно даже попробовать архитектуру трансформеров.
5. Рекомендашки
Очень популярный кейс на собесах. Для начала лучше пробежаться глазами по этому разделу и посмотреть, что пишут в интернетах. Затем начинаем реализовывать самое простое как бейзлайн, например, content-based рекомендации, KNN. Дальше можно попробовать факторизации матрицы рейтингов по svd разложению или по более эффективной als архитектуре и функции ошибок bpr. Затем можно попробовать W2V подход, чтобы использовать последовательность взаимодействий пользователя для построения рекомендации следующего предмета.
Для знатоков DL можно попробовать DSSM, SasRec/Bert4Rec, MultVAE, Merlin или графовые нейронки: GCN-подобные архитектуры.
Также стоит попробовать обучение с подкреплением: многоруких бандитов.
Ну и конечно рекомендательные системы можно попробовать рассмотреть как задачу ранжирования.
Устроиться можно попасть и без проектов, но если у вас их нет, то мл кейсы будут решаться неуверенно и на финалах будете выглядеть слабее других. Никто не ждет гениального проекта с инфраструктурой— реализовать какие-то бейзлайны и понимать специфику задач уже достаточно для стажера и джуна.
Уже делали подобную подборку для аналитиков здесь, советую присмотреться.
1. Кредитный скоринг
Стоит ли давать кредит— довольно популярная задача и отличный выбор для новчиков, чтобы самостоятельно проделать все этапы. Сначала берем любой датасет на kaggle по запросу Credit Scoring. Проводим EDA, генерируем гипотезы, фичи, готовим данные для модели и делаем бейзлайн: логистическая регрессия. Затем уже можно попробовать случайный лес, градиентный бустинг, KNN или еще что по вкусу— сравниваем метрики. И на последок не забываем проанализировать результаты и культурно презентовать. Можно провести АВ тест на смой первой модели.
Все варианты решения и реализации можно найти в интернетах: GitHub, Хабр. Очень полезным будет посмотреть всякие выступления на конференциях по этой теме для вдохновения, да и это очень поможет на мл кейсах.
2. Наивный Байесовский классификатор (НБК)
Для конкретики будем классифицировать письма на спам. Опять же обработаем данные: удаляем числа, знаки препинания, стоп-слова, стемминги, лемматизацию.
Объединяем все методы предварительной обработки и создаём словарь слов и счётчик каждого слова в наборе данных для обучения:
1. Вычисляем вероятность для каждого слова в тексте и отфильтровываем слова со значением вероятности меньше порогового. Такие слова будут нерелевантными.
2. Для каждого слова в словаре создаём вероятность, что это слово окажется в спаме. Определяем условную вероятность для использования её в НБК.
3. Вычисляем прогнозируемый результат с помощью условных вероятностей.
НБК реализовать не сложно. Куда интересней погрузиться во всю теорию, которая за этим стоит, в вероятностные модели. К тому же, кейс фильтрации спама и подобного часто встречается на собесах.
3. MLOps
Можно наладить какой-то минимальный прод для проектов: например телеграм бот или FastAPI. Можно еще автоматизировать пайплайн с помощь AirFlow и попробовать запустить инфраструктуру не только локально, но и облаке. Конечно нужно будет поизучать Docker, Cuber, Hadoop, Spark, HDFS, Kafka. Но на самом деле ничего трудного— после нашего курса дата инженер будете делать такие вещи по щелчку пальцев.
4. Ранжирование и матчинг
Для начала лучше пробежаться глазами по статье и посмотреть, что пишут в интернетах. Можно выделить три подхода к задаче: поточечный, попарный, списочный. Советую начать с первого как самого простого. Для конкретики будем предсказать оценку релевантности для запросов тестового датасета. Здесь можно кстати поучиться парсить web-страниц и собирать сырые данные, размечать их с помощью какого-нибудь Яндекс-Толока. Делаем регрессию, а затем Random Forest Regressor, XGBoost, lightGBM, CatBoost.
Совсем продвинутые могут попробовать языковые модели в духе FastText, Word2Vec, DSSM и более сложные: BERT, можно даже попробовать архитектуру трансформеров.
5. Рекомендашки
Очень популярный кейс на собесах. Для начала лучше пробежаться глазами по этому разделу и посмотреть, что пишут в интернетах. Затем начинаем реализовывать самое простое как бейзлайн, например, content-based рекомендации, KNN. Дальше можно попробовать факторизации матрицы рейтингов по svd разложению или по более эффективной als архитектуре и функции ошибок bpr. Затем можно попробовать W2V подход, чтобы использовать последовательность взаимодействий пользователя для построения рекомендации следующего предмета.
Для знатоков DL можно попробовать DSSM, SasRec/Bert4Rec, MultVAE, Merlin или графовые нейронки: GCN-подобные архитектуры.
Также стоит попробовать обучение с подкреплением: многоруких бандитов.
Ну и конечно рекомендательные системы можно попробовать рассмотреть как задачу ранжирования.
Вот и разбор аналитики на стажировку в Яндекс! Обязательно делимся с друзьями. Ждём 5 тыс просмотров на ютуб ролике и выкладываем МЛ. Советую поторопиться: контест вот-вот обновят.
Смотрим! Смотрим! https://www.youtube.com/watch?v=k4C9aWR6YJ4
Смотрим! Смотрим! https://www.youtube.com/watch?v=k4C9aWR6YJ4
YouTube
Разбор аналитики на стажировку в Яндекс!! (Весна-Лето 2024)
Подробней о курсах: https://t.me/postypashki_old/1076
Код и условия задач: https://t.me/botalkaaa/39301
Код и условия задач: https://t.me/botalkaaa/39301
Олимпиада по ИИ для учеников 8-11 классов поможет раскрыть потенциал в IT-сфере
А ещё — посетить экскурсии в ведущие IT-компании, мастер-классы и встретиться с экспертами из Ассоциации «Альянс в сфере искусственного интеллекта»
Отборочный и основной этапы пройдут в формате онлайн на платформе All Cups от VK. Скорее регистрируйтесь по ссылке — ловите удачу за хвост
А ещё — посетить экскурсии в ведущие IT-компании, мастер-классы и встретиться с экспертами из Ассоциации «Альянс в сфере искусственного интеллекта»
Отборочный и основной этапы пройдут в формате онлайн на платформе All Cups от VK. Скорее регистрируйтесь по ссылке — ловите удачу за хвост
ШОК! Владислав надел платье, туфельки и пошел в офис Т-банка записывать свой тикток...
Распространяем: https://youtube.com/shorts/99VxC8WiaCo
Распространяем: https://youtube.com/shorts/99VxC8WiaCo
YouTube
Стажировка в Т-банке (Тинькофф Старт)
#shorts #тинькофф #т-банк #стажировки #карьера
Вот и интервью с настоящей легендой! У нас в гостях ДиМашина, поступивший на физтех со 127 баллами ЕГЭ. Почему именно физтех? Какие учебные лафхаки работают? Почему нравится бить людей? Ну и прямо на ваших экранах, товарищи, Дмитрий поступит в ШАД!
Смотрим! Смотрим! https://youtu.be/5l7O2ToX1_8
Смотрим! Смотрим! https://youtu.be/5l7O2ToX1_8
YouTube
ДиМашина против ШАД!! (Школа Анализа Данных от Яндекса)
наш телеграм канал: t.me/postypashki_old
телеграм канал Димы: t.me/DiMashinaft
ютуб канал Димы: youtube.com/@DiMashina2005
телеграм канал Димы: t.me/DiMashinaft
ютуб канал Димы: youtube.com/@DiMashina2005