Дата канальи — про «специалистов» в данных / ML / AI
5.46K subscribers
213 photos
7 videos
12 files
196 links
Корпжиза аналитиков и DS. Если хотите анонимно поделиться историей на широкий круг -- го в личку @NikitaZelinskiy, аналогично по остальным вопросам
Download Telegram
#кейсы #ML

На картинке один из вариантов машины Руба Голдберга
И она тесно связана с историей создания этого канала.

Представьте, воскресенье, вас внезапно добавляют в чатик с внешними консультантами, работающими над дата-стратегией одной большой компании (к счастью не той, в которой работаю). И просят срочно прокомментировать какая инфраструктура понадобится для такого процесса:

1. Учим RecSys-модели
2. Берем эмбеддинги пользователей
3. Скармливаем их специально обученной LLM
4. Специально обученная LLM по этим эмбеддингом генерит текстовый портрет клиента
5. По текстовому портрету клиента определяется потребность в продуктах
6. Дальше клиенты сегментируются для массовых рассылок рекламных предложений
7. На выходе — сегменты (🤡) по склонности к покупке

Более сложного пути построить look-a-like (LaL) вроде и не придумать 😆

Подгорело у меня тогда настолько знатно, что на следующий день я отвел дочь в школу, вернулся, налил кофе и запилил первый пост
🔥337😁6👍3😱2
Media is too big
VIEW IN TELEGRAM
МТС True Tech и ComDS приглашают на Summer Data Science Night — вечерний open-air митап для специалистов по DS и ML. Встречаемся 29 июля в 19:00 во дворе бара «Стрелка», который на одну ночь превратится в летний кинотеатр для data-фанатов.

Обсудим:

⭐️«Вызовы для DS 2025 в России».
Спикеры:
— Никита Зелинский, CDS & Head of ML Platforms МТС, автор канала Дата канальи – про „специалистов“ данных в ML/AI
— Евгений Смирнов, CDS & Head of ML Lab, Alfa-Bank, автор канала Нескучный Data Science
— Шамаев Юлий, начальник управления моделирования партнерств и ИТ-процессов, Банк ВТБ.
⭐️ «Наши RecSys-технологии: как мы завариваем вашу любимую музыку». — Дмитрий Берестнев, начальник управления машинного обучения, Hi-Fi стриминга Звук.
⭐️ «Трансформеры в кино. Как мы строим персональные рекомы в KION». — Даниил Пиманов, Team Lead RecSys в KION, MWS Big Data.
⭐️ «Георекомендации: как мы подсказываем клиентам, где тратить деньги». — Алексей Пустынников, DS Team Lead команды GeoML Банка ВТБ.
⭐️«Serving по-взрослому: ускорение NLP inference в 50 раз в Антиспаме» — Илья Денисов, ML Team Lead команды Антифрод MWS Big Data.
⭐️«Практические кейсы внедрения Rag: помощник оператора и HelpDesk» — Александр Вавилкин, Middle Data Scientist, Альфа Банк.

Готовьте ваши вопросы спикерам, под попкорн будем выбирать лучшие!

🗓 29 июля
🕗 19:00–22:30
🔗
Офлайн. Количество мест ограничено. Регистрируйтесь по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥246👍5👎2🦄1
#ML

Воскресный статистический баян
Друзья ищут любителя восточной экзотики — DS-контрактора на год в Саудовскую Аравию

По условиям: платят в валюте, помогают с жильем, мобилкой, перелетами и пр.

Ниже формальное описание вакансии:

🔥 Senior Data Scientist (Banking) | Эр-Рияд | Контракт 12 мес. | Работа в офисе крупного банка

🚀 О проекте:
Работа с ключевым заказчиком — одним из ведущих банков Саудовской Аравии. Реальные задачи, где твои модели и аналитика данных будут влиять на бизнес-решения.

💡 Ты идеальный кандидат, если:
✔️ Опыт 5+ лет в Data Science, включая опыт в банковской сфере (не только кредитный скоринг).
✔️ Полный цикл разработки моделей: от сбора данных и feature engineering до пилотирования и продакшн-внедрения.
✔️ Умеешь переводить бизнес-задачи в технические требования и наоборот — объяснять сложное просто.
✔️ Разбираешься в метриках оценки моделей (как технических, так и бизнес-ориентированных).
✔️ Английский C1+ и soft skills: умеешь слушать, задавать правильные вопросы и адаптироваться под аудиторию.

🔧 Что будешь делать:
▪️ Разрабатывать ML модели и анализировать данные для реальных банковских процессов.
▪️ Работать с данными end-to-end — от сырых данных до работающего решения.
▪️ Тесно коммуницировать с заказчиком, выявляя скрытые потребности и предлагая DS-решения.

💎 Что предлагаем:
▪️ Контракт до 12 месяцев с возможностью продления.
▪️ Работа в офисе банка
▪️ Проживание в компаунде в Эр-Рияде
▪️ Возможность влиять на масштабные проекты на динамично развивающемся рынке.

📌 Как попасть в команду:

Техническое собеседование (проверим hard skills).

Собеседование с Заказчиком проекта (оценим soft skills).

Оффер — и переезд в Эр-Рияд!

❗️ Важно: Только для готовых к релокации в Саудовскую Аравию (или уже находящихся там).

Закидывать резюме и / или атаковать вопросами Сашу
6🔥6👏1🤯1
Команда Superintelligence в Meta, согласно большому паблику.

Почему там столько выходцев из MTS?
😁417🔥3
#кейсы #ML

Про внутреннюю конкуренцию пост

Иногда канальи развлекаются тем что одну и ту же задачу решают 2 команды из разных бизнес-вертикалей — ну-ка посоревнуйтесь, и в результате конкурса поймем кто круче хитрее

Но есть нюанс, канал же про каналий 🤡

В одной далекой-далекой компании стояла задача по фото товара (которое делает сотрудник склада) определять номенклатуру.
Делалось это так:
1) на фото детектилась этикетка
2) OCR (а судя по тому что в 2025 выходят статьи про альтернативы Tesseract — побить его по сочетанию бесплатность-производительность-качество все же сложно)
3) матчинг изображения и текста на каталог
Никаких Visual Transformers, сложных моделей — но работает, качество хорошее, ну и ладно. Назовем эту команду П (первая, без отсылок к Пелевину или нездоровых корпоративных ассоциаций)

Но в недрах бизнес-вертикалей всегда находятся люди, которые прослышав про зп в ML внезапно вспоминают что кончали КБГТУ (как бы где-то там учился) по специальности «подставка арифмометра» -- она же связана с математикой, верно?, назовем эту команду С (самозванцы 😄). Как в корпорациях доказывают свою ценность? Два варианта — делать что-то полезное (редко) либо объявив коллег дураками (часто). Здесь же сходу не прокатило -- биг босс сказал «а докажите».

Не мудрствуя лукаво вторая команда стала отправлять запросы в gpt 4o и намеряла в офлайне точность в 85%+. Первая команда закономерно на разборе получила люлей 🤕 (потому как текущее решение было в районе 80%) и отправилась готовиться ко второму периоду.

Покрутили-поучили, добили до 90%, и вот уже во втором периоде гнев босса обрушился на команду самозванцев. Что было дальше?

Следите за руками словами лидера самозванцев:
1) Уважаемый Иван Иванович, А/Б провести не можем (да и зачем компании терять деньги тратясь на заведомо проигрышный вариант), давайте сравниваться оффлайн
2) Тестовую выборку разделим на 2 — по одной прогоним одну модель, по второй другую (ловкость рук)
3) Этот тяжкий труд по сплиту теста берем на себя, заодно и результат посчитаем 🤣🤣🤣👏

По итогам следующего теста у команды С точность 99%, у команды П — в районе 20%. Счет на табло стал уж совсем разгромный 😰

Вот сейчас не стоит сразу кликать на спойлер, не лишайте себя удовольствия подумать что могло пойти не так 🤔🤫

Парням из первой команды подсунули фото, где либо товара либо этикетки в кадре не было.
Мораль истории как в избиркоме — не важно как работает ваше решение, важно кто считает результат.
А вообще если вы видите 8 команд в компании, которые занимаются одним и тем же — я бы советовал выбрать либо другое направление либо другую компанию.
41🔥23😁16👍2👏2🤔2🤯1💯1🫡1
Когда не взял удочки и пришлось знакомиться с зубрами 🦬
37🔥9👍3🖕1
#ML

В продолжение предыдущей истории — у тимлида первой команды были все основания ждать подвоха, ведь тимлид второй разошелся на цитаты:
мы сделали прогнозную модель с точностью 75% которая достигается тем что модель анализирует 800+ признаков

по факту -- one-hot на всем что было 🤦‍♂️

а вообще усреднять тема вот у нас в прогнозной модели 36 бустингов и точность высокая поэтому

🤦‍♂️
а зачем ты разбиваешь на train val test по времени? Можно же рандомно

😁
-обучать llm через lora неправильно
-а как правильно?
- ну там данных много надо, а вот мы сделали ии агента с рагом

👏🙌
построение эмбеддингов через tf-idf не является интеллектуальным анализом данных

👏
tf-idf - это не эмбеддинги это численное представление

🤦‍♂️

tf-idf - это низкоуровневные эмбеддинги

🤦‍♂️

Ну мы твой проект для задачи 1 внедрим, а для управления промо как пойдет

Возможный эффект задачи 1 - три копейки
Возможные эффект управления промо - сотни миллионов 😆💡

а зачем ты логарифмируешь цену? так хуже качество будет

🤔
😁35🔥2🥰1👀1
#ML

Поскольку единства в опросе и комментариях к нему нет, навайбкодил тут подсказку с утра, чем больше выбросов будет в таргете -- тем более будет выражен эффект.

Что касается скорости обучения -- ванильный градиентный спуск неотшкалированная фича конечно зааффектит, на градиентном бустинге да еще и при логарифмировании таргета (а не фичи) отличий особо не видно. Думаю, навайбкодить чтобы проверить этот факт труда не составит
14🦄5👍3
Дата канальи — про «специалистов» в данных / ML / AI
МТС True Tech и ComDS приглашают на Summer Data Science Night — вечерний open-air митап для специалистов по DS и ML. Встречаемся 29 июля в 19:00 во дворе бара «Стрелка», который на одну ночь превратится в летний кинотеатр для data-фанатов. Обсудим: ⭐️«Вызовы…
Буду рад сегодня вас видеть на митапе! 🍿🍿🍿🍻

Кто не знаком лично - давайте знакомиться 🤝

На всякий случай уточню:
Если вам не пришло письмо подтверждения регистрации, но вы регистрировались — приходите, вас добавили в списки для входа.
14🔥52
Немного спойлеров )
🔥31🐳7💅3💯2💘1
Если кто забыл программу )
🔥37❤‍🔥3🦄1
Спасибо тем кто вчера пришел, задавал вопросы, поддерживал спикеров и просто встретил друзей! ☺️♥️
Надеемся что фоточки будут готовы на сл неделе, а пока упрашиваем спикеров (а они свои пиар-службы) поделиться с вами презентациями.
Stay tuned, до встречи на новых митапах!
30❤‍🔥6🔥4💘4👍3👀1🤝1🦄1
ML Training HSE TS.pdf
6.2 MB
#ML

В комментах к последним постам про логарифмирование таргета (а в комментах был материал про другие модификации и их свойства) задавались вопросы по прогнозированию временных рядов.

Ок, лучшее, что я могу посоветовать - презентация с наших совместных с ВШЭ ML-тренировок by Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab

Прежде чем покупать и листать большие книги -- а по рядам их написано много -- макроэкномисты и биржевые спекулянты продолжают искать философский камень -- я бы начал с этой презентации -- максимум практики и опыта в одном месте.
2🏆24🔥103👍21🤓1