#кейсы #ML
На картинке один из вариантов машины Руба Голдберга
И она тесно связана с историей создания этого канала.
Представьте, воскресенье, вас внезапно добавляют в чатик с внешними консультантами, работающими над дата-стратегией одной большой компании (к счастью не той, в которой работаю). И просят срочно прокомментировать какая инфраструктура понадобится для такого процесса:
1. Учим RecSys-модели
2. Берем эмбеддинги пользователей
3. Скармливаем их специально обученной LLM
4. Специально обученная LLM по этим эмбеддингом генерит текстовый портрет клиента
5. По текстовому портрету клиента определяется потребность в продуктах
6. Дальше клиенты сегментируются для массовых рассылок рекламных предложений
7. На выходе — сегменты (🤡) по склонности к покупке
Более сложного пути построить look-a-like (LaL) вроде и не придумать 😆
Подгорело у меня тогда настолько знатно, что на следующий день я отвел дочь в школу, вернулся, налил кофе и запилил первый пост
На картинке один из вариантов машины Руба Голдберга
И она тесно связана с историей создания этого канала.
Представьте, воскресенье, вас внезапно добавляют в чатик с внешними консультантами, работающими над дата-стратегией одной большой компании (к счастью не той, в которой работаю). И просят срочно прокомментировать какая инфраструктура понадобится для такого процесса:
1. Учим RecSys-модели
2. Берем эмбеддинги пользователей
3. Скармливаем их специально обученной LLM
4. Специально обученная LLM по этим эмбеддингом генерит текстовый портрет клиента
5. По текстовому портрету клиента определяется потребность в продуктах
6. Дальше клиенты сегментируются для массовых рассылок рекламных предложений
7. На выходе — сегменты (🤡) по склонности к покупке
Более сложного пути построить look-a-like (LaL) вроде и не придумать 😆
Подгорело у меня тогда настолько знатно, что на следующий день я отвел дочь в школу, вернулся, налил кофе и запилил первый пост
🔥33❤7😁6👍3😱2
Media is too big
VIEW IN TELEGRAM
МТС True Tech и ComDS приглашают на Summer Data Science Night — вечерний open-air митап для специалистов по DS и ML. Встречаемся 29 июля в 19:00 во дворе бара «Стрелка», который на одну ночь превратится в летний кинотеатр для data-фанатов.
Обсудим:
⭐️ «Вызовы для DS 2025 в России».
Спикеры:
— Никита Зелинский, CDS & Head of ML Platforms МТС, автор канала Дата канальи – про „специалистов“ данных в ML/AI
— Евгений Смирнов, CDS & Head of ML Lab, Alfa-Bank, автор канала Нескучный Data Science
— Шамаев Юлий, начальник управления моделирования партнерств и ИТ-процессов, Банк ВТБ.
⭐️ «Наши RecSys-технологии: как мы завариваем вашу любимую музыку». — Дмитрий Берестнев, начальник управления машинного обучения, Hi-Fi стриминга Звук.
⭐️ «Трансформеры в кино. Как мы строим персональные рекомы в KION». — Даниил Пиманов, Team Lead RecSys в KION, MWS Big Data.
⭐️ «Георекомендации: как мы подсказываем клиентам, где тратить деньги». — Алексей Пустынников, DS Team Lead команды GeoML Банка ВТБ.
⭐️ «Serving по-взрослому: ускорение NLP inference в 50 раз в Антиспаме» — Илья Денисов, ML Team Lead команды Антифрод MWS Big Data.
⭐️ «Практические кейсы внедрения Rag: помощник оператора и HelpDesk» — Александр Вавилкин, Middle Data Scientist, Альфа Банк.
Готовьте ваши вопросы спикерам, под попкорн будем выбирать лучшие!
🗓 29 июля
🕗 19:00–22:30
🔗 Офлайн. Количество мест ограничено. Регистрируйтесь по ссылке.
Обсудим:
Спикеры:
— Никита Зелинский, CDS & Head of ML Platforms МТС, автор канала Дата канальи – про „специалистов“ данных в ML/AI
— Евгений Смирнов, CDS & Head of ML Lab, Alfa-Bank, автор канала Нескучный Data Science
— Шамаев Юлий, начальник управления моделирования партнерств и ИТ-процессов, Банк ВТБ.
Готовьте ваши вопросы спикерам, под попкорн будем выбирать лучшие!
🗓 29 июля
🕗 19:00–22:30
🔗 Офлайн. Количество мест ограничено. Регистрируйтесь по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24❤6👍5👎2🦄1
Друзья ищут любителя восточной экзотики — DS-контрактора на год в Саудовскую Аравию
По условиям: платят в валюте, помогают с жильем, мобилкой, перелетами и пр.
Ниже формальное описание вакансии:
🔥 Senior Data Scientist (Banking) | Эр-Рияд | Контракт 12 мес. | Работа в офисе крупного банка
🚀 О проекте:
Работа с ключевым заказчиком — одним из ведущих банков Саудовской Аравии. Реальные задачи, где твои модели и аналитика данных будут влиять на бизнес-решения.
💡 Ты идеальный кандидат, если:
✔️ Опыт 5+ лет в Data Science, включая опыт в банковской сфере (не только кредитный скоринг).
✔️ Полный цикл разработки моделей: от сбора данных и feature engineering до пилотирования и продакшн-внедрения.
✔️ Умеешь переводить бизнес-задачи в технические требования и наоборот — объяснять сложное просто.
✔️ Разбираешься в метриках оценки моделей (как технических, так и бизнес-ориентированных).
✔️ Английский C1+ и soft skills: умеешь слушать, задавать правильные вопросы и адаптироваться под аудиторию.
🔧 Что будешь делать:
▪️ Разрабатывать ML модели и анализировать данные для реальных банковских процессов.
▪️ Работать с данными end-to-end — от сырых данных до работающего решения.
▪️ Тесно коммуницировать с заказчиком, выявляя скрытые потребности и предлагая DS-решения.
💎 Что предлагаем:
▪️ Контракт до 12 месяцев с возможностью продления.
▪️ Работа в офисе банка
▪️ Проживание в компаунде в Эр-Рияде
▪️ Возможность влиять на масштабные проекты на динамично развивающемся рынке.
📌 Как попасть в команду:
Техническое собеседование (проверим hard skills).
Собеседование с Заказчиком проекта (оценим soft skills).
Оффер — и переезд в Эр-Рияд!
❗️ Важно: Только для готовых к релокации в Саудовскую Аравию (или уже находящихся там).
Закидывать резюме и / или атаковать вопросами Сашу
По условиям: платят в валюте, помогают с жильем, мобилкой, перелетами и пр.
Ниже формальное описание вакансии:
🔥 Senior Data Scientist (Banking) | Эр-Рияд | Контракт 12 мес. | Работа в офисе крупного банка
🚀 О проекте:
Работа с ключевым заказчиком — одним из ведущих банков Саудовской Аравии. Реальные задачи, где твои модели и аналитика данных будут влиять на бизнес-решения.
💡 Ты идеальный кандидат, если:
✔️ Опыт 5+ лет в Data Science, включая опыт в банковской сфере (не только кредитный скоринг).
✔️ Полный цикл разработки моделей: от сбора данных и feature engineering до пилотирования и продакшн-внедрения.
✔️ Умеешь переводить бизнес-задачи в технические требования и наоборот — объяснять сложное просто.
✔️ Разбираешься в метриках оценки моделей (как технических, так и бизнес-ориентированных).
✔️ Английский C1+ и soft skills: умеешь слушать, задавать правильные вопросы и адаптироваться под аудиторию.
🔧 Что будешь делать:
▪️ Разрабатывать ML модели и анализировать данные для реальных банковских процессов.
▪️ Работать с данными end-to-end — от сырых данных до работающего решения.
▪️ Тесно коммуницировать с заказчиком, выявляя скрытые потребности и предлагая DS-решения.
💎 Что предлагаем:
▪️ Контракт до 12 месяцев с возможностью продления.
▪️ Работа в офисе банка
▪️ Проживание в компаунде в Эр-Рияде
▪️ Возможность влиять на масштабные проекты на динамично развивающемся рынке.
📌 Как попасть в команду:
Техническое собеседование (проверим hard skills).
Собеседование с Заказчиком проекта (оценим soft skills).
Оффер — и переезд в Эр-Рияд!
❗️ Важно: Только для готовых к релокации в Саудовскую Аравию (или уже находящихся там).
Закидывать резюме и / или атаковать вопросами Сашу
❤6🔥6👏1🤯1
#кейсы #ML
Про внутреннюю конкуренцию пост
Иногда канальи развлекаются тем что одну и ту же задачу решают 2 команды из разных бизнес-вертикалей — ну-ка посоревнуйтесь, и в результате конкурса поймем ктокруче хитрее
Но есть нюанс, канал же про каналий 🤡
В одной далекой-далекой компании стояла задача по фото товара (которое делает сотрудник склада) определять номенклатуру.
Делалось это так:
1) на фото детектилась этикетка
2) OCR (а судя по тому что в 2025 выходят статьи про альтернативы Tesseract — побить его по сочетанию бесплатность-производительность-качество все же сложно)
3) матчинг изображения и текста на каталог
Никаких Visual Transformers, сложных моделей — но работает, качество хорошее, ну и ладно. Назовем эту команду П (первая, без отсылок к Пелевину или нездоровых корпоративных ассоциаций)
Но в недрах бизнес-вертикалей всегда находятся люди, которые прослышав про зп в ML внезапно вспоминают что кончали КБГТУ (как бы где-то там учился) по специальности «подставка арифмометра» -- она же связана с математикой, верно?, назовем эту команду С (самозванцы 😄). Как в корпорациях доказывают свою ценность? Два варианта — делать что-то полезное (редко) либо объявив коллег дураками (часто). Здесь же сходу не прокатило -- биг босс сказал «а докажите».
Не мудрствуя лукаво вторая команда стала отправлять запросы в gpt 4o и намеряла в офлайне точность в 85%+. Первая команда закономерно на разборе получила люлей 🤕 (потому как текущее решение было в районе 80%) и отправилась готовиться ко второму периоду.
Покрутили-поучили, добили до 90%, и вот уже во втором периоде гнев босса обрушился на команду самозванцев. Что было дальше?
Следите заруками словами лидера самозванцев:
1) Уважаемый Иван Иванович, А/Б провести не можем (да и зачем компании терять деньги тратясь на заведомо проигрышный вариант), давайте сравниваться оффлайн
2) Тестовую выборку разделим на 2 — по одной прогоним одну модель, по второй другую (ловкость рук)
3) Этот тяжкий труд по сплиту теста берем на себя, заодно и результат посчитаем 🤣🤣🤣👏
По итогам следующего теста у команды С точность 99%, у команды П — в районе 20%. Счет на табло стал уж совсем разгромный 😰
Вот сейчас не стоит сразу кликать на спойлер, не лишайте себя удовольствия подумать что могло пойти не так 🤔🤫
Парням из первой команды подсунули фото, где либо товара либо этикетки в кадре не было.
Мораль истории как в избиркоме — не важно как работает ваше решение, важно кто считает результат.
А вообще если вы видите 8 команд в компании, которые занимаются одним и тем же — я бы советовал выбрать либо другое направление либо другую компанию.
Про внутреннюю конкуренцию пост
Иногда канальи развлекаются тем что одну и ту же задачу решают 2 команды из разных бизнес-вертикалей — ну-ка посоревнуйтесь, и в результате конкурса поймем кто
Но есть нюанс, канал же про каналий 🤡
В одной далекой-далекой компании стояла задача по фото товара (которое делает сотрудник склада) определять номенклатуру.
Делалось это так:
1) на фото детектилась этикетка
2) OCR (а судя по тому что в 2025 выходят статьи про альтернативы Tesseract — побить его по сочетанию бесплатность-производительность-качество все же сложно)
3) матчинг изображения и текста на каталог
Никаких Visual Transformers, сложных моделей — но работает, качество хорошее, ну и ладно. Назовем эту команду П (первая, без отсылок к Пелевину или нездоровых корпоративных ассоциаций)
Но в недрах бизнес-вертикалей всегда находятся люди, которые прослышав про зп в ML внезапно вспоминают что кончали КБГТУ (как бы где-то там учился) по специальности «подставка арифмометра» -- она же связана с математикой, верно?, назовем эту команду С (самозванцы 😄). Как в корпорациях доказывают свою ценность? Два варианта — делать что-то полезное (редко) либо объявив коллег дураками (часто). Здесь же сходу не прокатило -- биг босс сказал «а докажите».
Не мудрствуя лукаво вторая команда стала отправлять запросы в gpt 4o и намеряла в офлайне точность в 85%+. Первая команда закономерно на разборе получила люлей 🤕 (потому как текущее решение было в районе 80%) и отправилась готовиться ко второму периоду.
Покрутили-поучили, добили до 90%, и вот уже во втором периоде гнев босса обрушился на команду самозванцев. Что было дальше?
Следите за
1) Уважаемый Иван Иванович, А/Б провести не можем (да и зачем компании терять деньги тратясь на заведомо проигрышный вариант), давайте сравниваться оффлайн
2) Тестовую выборку разделим на 2 — по одной прогоним одну модель, по второй другую (ловкость рук)
3) Этот тяжкий труд по сплиту теста берем на себя, заодно и результат посчитаем 🤣🤣🤣👏
По итогам следующего теста у команды С точность 99%, у команды П — в районе 20%. Счет на табло стал уж совсем разгромный 😰
Вот сейчас не стоит сразу кликать на спойлер, не лишайте себя удовольствия подумать что могло пойти не так 🤔🤫
Мораль истории как в избиркоме — не важно как работает ваше решение, важно кто считает результат.
А вообще если вы видите 8 команд в компании, которые занимаются одним и тем же — я бы советовал выбрать либо другое направление либо другую компанию.
❤41🔥23😁16👍2👏2🤔2🤯1💯1🫡1
Когда не взял удочки и пришлось знакомиться с зубрами 🦬
❤37🔥9👍3🖕1
#ML
В продолжение предыдущей истории — у тимлида первой команды были все основания ждать подвоха, ведь тимлид второй разошелся на цитаты:
по факту -- one-hot на всем что было 🤦♂️
🤦♂️
😁
👏🙌
👏
🤦♂️
🤦♂️
Возможный эффект задачи 1 - три копейки
Возможные эффект управления промо - сотни миллионов 😆💡
🤔
В продолжение предыдущей истории — у тимлида первой команды были все основания ждать подвоха, ведь тимлид второй разошелся на цитаты:
мы сделали прогнозную модель с точностью 75% которая достигается тем что модель анализирует 800+ признаков
по факту -- one-hot на всем что было 🤦♂️
а вообще усреднять тема вот у нас в прогнозной модели 36 бустингов и точность высокая поэтому
🤦♂️
а зачем ты разбиваешь на train val test по времени? Можно же рандомно
😁
-обучать llm через lora неправильно
-а как правильно?
- ну там данных много надо, а вот мы сделали ии агента с рагом
👏🙌
построение эмбеддингов через tf-idf не является интеллектуальным анализом данных
👏
tf-idf - это не эмбеддинги это численное представление
🤦♂️
tf-idf - это низкоуровневные эмбеддинги
🤦♂️
Ну мы твой проект для задачи 1 внедрим, а для управления промо как пойдет
Возможный эффект задачи 1 - три копейки
Возможные эффект управления промо - сотни миллионов 😆💡
а зачем ты логарифмируешь цену? так хуже качество будет
🤔
😁35🔥2🥰1👀1
Кстати, про последний вопрос, тк я не в курсе что за модель и цена фича или таргет, как думаете, логарифмирование в общем способно повлиять на качество?
Anonymous Poll
52%
Логарифмирование фичи или таргета может влиять на качество
13%
Логарифмирование фичи или таргета как правило, существенно не влияет на качество
41%
Логарифмирование в лин. моделях помогает бороться с гетероскедастичностью -> модель качественнее
39%
Лог-ние снижает разброс -> градиентный спуск быстрее сходится, реже застревает в лок. минимумах
🐳4
#ML
Поскольку единства в опросе и комментариях к нему нет, навайбкодил тут подсказку с утра,чем больше выбросов будет в таргете -- тем более будет выражен эффект.
Что касается скорости обучения -- ванильный градиентный спуск неотшкалированная фича конечно зааффектит, на градиентном бустинге да еще и при логарифмировании таргета (а не фичи) отличий особо не видно. Думаю, навайбкодить чтобы проверить этот факт труда не составит
Поскольку единства в опросе и комментариях к нему нет, навайбкодил тут подсказку с утра,
❤14🦄5👍3
Дата канальи — про «специалистов» в данных / ML / AI
МТС True Tech и ComDS приглашают на Summer Data Science Night — вечерний open-air митап для специалистов по DS и ML. Встречаемся 29 июля в 19:00 во дворе бара «Стрелка», который на одну ночь превратится в летний кинотеатр для data-фанатов. Обсудим: ⭐️ «Вызовы…
Буду рад сегодня вас видеть на митапе! 🍿🍿🍿🍻
Кто не знаком лично - давайте знакомиться 🤝
На всякий случай уточню:
Кто не знаком лично - давайте знакомиться 🤝
На всякий случай уточню:
Если вам не пришло письмо подтверждения регистрации, но вы регистрировались — приходите, вас добавили в списки для входа.
❤14🔥5⚡2
Спасибо тем кто вчера пришел, задавал вопросы, поддерживал спикеров и просто встретил друзей! ☺️♥️
Надеемся что фоточки будут готовы на сл неделе, а пока упрашиваем спикеров (а они свои пиар-службы) поделиться с вами презентациями.
Stay tuned, до встречи на новых митапах!
Надеемся что фоточки будут готовы на сл неделе, а пока упрашиваем спикеров (а они свои пиар-службы) поделиться с вами презентациями.
Stay tuned, до встречи на новых митапах!
❤30❤🔥6🔥4💘4👍3👀1🤝1🦄1
ML Training HSE TS.pdf
6.2 MB
#ML
В комментах к последним постам про логарифмирование таргета (а в комментах был материал про другие модификации и их свойства) задавались вопросы по прогнозированию временных рядов.
Ок, лучшее, что я могу посоветовать - презентация с наших совместных с ВШЭ ML-тренировок by Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab
Прежде чем покупать и листать большие книги -- а по рядам их написано много -- макроэкномисты и биржевые спекулянты продолжают искать философский камень -- я бы начал с этой презентации -- максимум практики и опыта в одном месте.
В комментах к последним постам про логарифмирование таргета (а в комментах был материал про другие модификации и их свойства) задавались вопросы по прогнозированию временных рядов.
Ок, лучшее, что я могу посоветовать - презентация с наших совместных с ВШЭ ML-тренировок by Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab
Прежде чем покупать и листать большие книги -- а по рядам их написано много -- макроэкномисты и биржевые спекулянты продолжают искать философский камень -- я бы начал с этой презентации -- максимум практики и опыта в одном месте.
2🏆24🔥10✍3👍2❤1🤓1
Холивар от Саши 😈 -- что реально работает в прогнозировании TS -- выберите плиз любимый метод или библиотеку
Anonymous Poll
31%
AR(I)MA
5%
GARCH
11%
Хольт-Винтерс и прочие экспоненциальные сглаживания
33%
Prphet
4%
Tsururu
8%
Etna
21%
TS Fresh + бустинг
22%
Сразу (не crazy) бустинг
8%
Foundation Models for TS -- выше в канале где-то была моя лекция в МФТИ
19%
Другое