Дата канальи — про «специалистов» в данных / ML / AI

#кейсы #ML

На картинке один из вариантов машины Руба Голдберга
И она тесно связана с историей создания этого канала.

Представьте, воскресенье, вас внезапно добавляют в чатик с внешними консультантами, работающими над дата-стратегией одной большой компании (к счастью не той, в которой работаю). И просят срочно прокомментировать какая инфраструктура понадобится для такого процесса:

1. Учим RecSys-модели
2. Берем эмбеддинги пользователей
3. Скармливаем их специально обученной LLM
4. Специально обученная LLM по этим эмбеддингом генерит текстовый портрет клиента
5. По текстовому портрету клиента определяется потребность в продуктах
6. Дальше клиенты сегментируются для массовых рассылок рекламных предложений
7. На выходе — сегменты (🤡) по склонности к покупке

Более сложного пути построить look-a-like (LaL) вроде и не придумать 😆

Подгорело у меня тогда настолько знатно, что на следующий день я отвел дочь в школу, вернулся, налил кофе и запилил первый пост

🔥33❤7😁6👍3😱2

3.04K viewsedited 16:21

Дата канальи — про «специалистов» в данных / ML / AI

0:05

Media is too big

VIEW IN TELEGRAM

МТС True Tech и ComDS приглашают на Summer Data Science Night — вечерний open-air митап для специалистов по DS и ML. Встречаемся 29 июля в 19:00 во дворе бара «Стрелка», который на одну ночь превратится в летний кинотеатр для data-фанатов.

Обсудим:
⭐️«Вызовы для DS 2025 в России».
Спикеры:
— Никита Зелинский, CDS & Head of ML Platforms МТС, автор канала Дата канальи – про „специалистов“ данных в ML/AI
— Евгений Смирнов, CDS & Head of ML Lab, Alfa-Bank, автор канала Нескучный Data Science
— Шамаев Юлий, начальник управления моделирования партнерств и ИТ-процессов, Банк ВТБ.
⭐️ «Наши RecSys-технологии: как мы завариваем вашу любимую музыку». — Дмитрий Берестнев, начальник управления машинного обучения, Hi-Fi стриминга Звук.
⭐️ «Трансформеры в кино. Как мы строим персональные рекомы в KION». — Даниил Пиманов, Team Lead RecSys в KION, MWS Big Data.
⭐️ «Георекомендации: как мы подсказываем клиентам, где тратить деньги». — Алексей Пустынников, DS Team Lead команды GeoML Банка ВТБ.
⭐️«Serving по-взрослому: ускорение NLP inference в 50 раз в Антиспаме» — Илья Денисов, ML Team Lead команды Антифрод MWS Big Data.
⭐️«Практические кейсы внедрения Rag: помощник оператора и HelpDesk» — Александр Вавилкин, Middle Data Scientist, Альфа Банк.

Готовьте ваши вопросы спикерам, под попкорн будем выбирать лучшие!

🗓 29 июля
🕗 19:00–22:30
🔗 Офлайн. Количество мест ограничено. Регистрируйтесь по ссылке.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥24❤6👍5👎2🦄1

11.7K viewsedited 14:37

Дата канальи — про «специалистов» в данных / ML / AI

#ML

Воскресный статистический баян

2.1K viewsedited 10:15

Дата канальи — про «специалистов» в данных / ML / AI

Forwarded from Трупная выборка

😁64✍5🔥3👾1

2.53K views10:15

Дата канальи — про «специалистов» в данных / ML / AI

Друзья ищут любителя восточной экзотики — DS-контрактора на год в Саудовскую Аравию

По условиям: платят в валюте, помогают с жильем, мобилкой, перелетами и пр.

Ниже формальное описание вакансии:

🔥 Senior Data Scientist (Banking) | Эр-Рияд | Контракт 12 мес. | Работа в офисе крупного банка

🚀 О проекте:
Работа с ключевым заказчиком — одним из ведущих банков Саудовской Аравии. Реальные задачи, где твои модели и аналитика данных будут влиять на бизнес-решения.

💡 Ты идеальный кандидат, если:
✔️ Опыт 5+ лет в Data Science, включая опыт в банковской сфере (не только кредитный скоринг).
✔️ Полный цикл разработки моделей: от сбора данных и feature engineering до пилотирования и продакшн-внедрения.
✔️ Умеешь переводить бизнес-задачи в технические требования и наоборот — объяснять сложное просто.
✔️ Разбираешься в метриках оценки моделей (как технических, так и бизнес-ориентированных).
✔️ Английский C1+ и soft skills: умеешь слушать, задавать правильные вопросы и адаптироваться под аудиторию.

🔧 Что будешь делать:
▪️ Разрабатывать ML модели и анализировать данные для реальных банковских процессов.
▪️ Работать с данными end-to-end — от сырых данных до работающего решения.
▪️ Тесно коммуницировать с заказчиком, выявляя скрытые потребности и предлагая DS-решения.

💎 Что предлагаем:
▪️ Контракт до 12 месяцев с возможностью продления.
▪️ Работа в офисе банка
▪️ Проживание в компаунде в Эр-Рияде
▪️ Возможность влиять на масштабные проекты на динамично развивающемся рынке.

📌 Как попасть в команду:

Техническое собеседование (проверим hard skills).

Собеседование с Заказчиком проекта (оценим soft skills).

Оффер — и переезд в Эр-Рияд!

❗️ Важно: Только для готовых к релокации в Саудовскую Аравию (или уже находящихся там).

Закидывать резюме и / или атаковать вопросами Сашу

❤6🔥6👏1🤯1

4.04K views08:50

Дата канальи — про «специалистов» в данных / ML / AI

Команда Superintelligence в Meta, согласно большому паблику.

Почему там столько выходцев из MTS?

😁41❤7🔥3

2.5K views06:36

Дата канальи — про «специалистов» в данных / ML / AI

Как обладатель годовой подписки на Replit -- напрягся 😂

The Register

Vibe coding service Replit deleted user’s production database, faked data, told fibs galore

: AI ignored instruction to freeze code, forgot it could roll back errors, and generally made a terrible hash of things

😁7

2.92K views12:56

Дата канальи — про «специалистов» в данных / ML / AI

#кейсы #ML

Про внутреннюю конкуренцию пост

Иногда канальи развлекаются тем что одну и ту же задачу решают 2 команды из разных бизнес-вертикалей — ну-ка посоревнуйтесь, и в результате конкурса поймем кто ~~круче~~ хитрее

Но есть нюанс, канал же про каналий 🤡

В одной далекой-далекой компании стояла задача по фото товара (которое делает сотрудник склада) определять номенклатуру.
Делалось это так:
1) на фото детектилась этикетка
2) OCR (а судя по тому что в 2025 выходят статьи про альтернативы Tesseract — побить его по сочетанию бесплатность-производительность-качество все же сложно)
3) матчинг изображения и текста на каталог
Никаких Visual Transformers, сложных моделей — но работает, качество хорошее, ну и ладно. Назовем эту команду П (первая, без отсылок к Пелевину или нездоровых корпоративных ассоциаций)

Но в недрах бизнес-вертикалей всегда находятся люди, которые прослышав про зп в ML внезапно вспоминают что кончали КБГТУ (как бы где-то там учился) по специальности «подставка арифмометра» -- она же связана с математикой, верно?, назовем эту команду С (самозванцы 😄). Как в корпорациях доказывают свою ценность? Два варианта — делать что-то полезное (редко) либо объявив коллег дураками (часто). Здесь же сходу не прокатило -- биг босс сказал «а докажите».

Не мудрствуя лукаво вторая команда стала отправлять запросы в gpt 4o и намеряла в офлайне точность в 85%+. Первая команда закономерно на разборе получила люлей 🤕 (потому как текущее решение было в районе 80%) и отправилась готовиться ко второму периоду.

Покрутили-поучили, добили до 90%, и вот уже во втором периоде гнев босса обрушился на команду самозванцев. Что было дальше?

Следите за ~~руками~~ словами лидера самозванцев:
1) Уважаемый Иван Иванович, А/Б провести не можем (да и зачем компании терять деньги тратясь на заведомо проигрышный вариант), давайте сравниваться оффлайн
2) Тестовую выборку разделим на 2 — по одной прогоним одну модель, по второй другую (ловкость рук)
3) Этот тяжкий труд по сплиту теста берем на себя, заодно и результат посчитаем 🤣🤣🤣👏

По итогам следующего теста у команды С точность 99%, у команды П — в районе 20%. Счет на табло стал уж совсем разгромный 😰

Вот сейчас не стоит сразу кликать на спойлер, не лишайте себя удовольствия подумать что могло пойти не так 🤔🤫

Парням из первой команды подсунули фото, где либо товара либо этикетки в кадре не было.
Мораль истории как в избиркоме — не важно как работает ваше решение, важно кто считает результат.
А вообще если вы видите 8 команд в компании, которые занимаются одним и тем же — я бы советовал выбрать либо другое направление либо другую компанию.

❤41🔥23😁16👍2👏2🤔2🤯1💯1🫡1

9.89K viewsedited 06:27

Дата канальи — про «специалистов» в данных / ML / AI

Когда не взял удочки и пришлось знакомиться с зубрами 🦬

❤37🔥9👍3🖕1

2.82K views15:29

Дата канальи — про «специалистов» в данных / ML / AI

#ML

В продолжение предыдущей истории — у тимлида первой команды были все основания ждать подвоха, ведь тимлид второй разошелся на цитаты:

мы сделали прогнозную модель с точностью 75% которая достигается тем что модель анализирует 800+ признаков

по факту -- one-hot на всем что было 🤦‍♂️

а вообще усреднять тема вот у нас в прогнозной модели 36 бустингов и точность высокая поэтому

🤦‍♂️

а зачем ты разбиваешь на train val test по времени? Можно же рандомно

😁

-обучать llm через lora неправильно
-а как правильно?
- ну там данных много надо, а вот мы сделали ии агента с рагом

👏🙌

построение эмбеддингов через tf-idf не является интеллектуальным анализом данных

👏

tf-idf - это не эмбеддинги это численное представление

🤦‍♂️

tf-idf - это низкоуровневные эмбеддинги

🤦‍♂️

Ну мы твой проект для задачи 1 внедрим, а для управления промо как пойдет

Возможный эффект задачи 1 - три копейки
Возможные эффект управления промо - сотни миллионов 😆💡

а зачем ты логарифмируешь цену? так хуже качество будет

🤔

😁35🔥2🥰1👀1

11.3K viewsedited 05:55

Дата канальи — про «специалистов» в данных / ML / AI

Кстати, про последний вопрос, тк я не в курсе что за модель и цена фича или таргет, как думаете, логарифмирование в общем способно повлиять на качество?

Anonymous Poll

52%

Логарифмирование фичи или таргета может влиять на качество

13%

Логарифмирование фичи или таргета как правило, существенно не влияет на качество

41%

Логарифмирование в лин. моделях помогает бороться с гетероскедастичностью -> модель качественнее

39%

Лог-ние снижает разброс -> градиентный спуск быстрее сходится, реже застревает в лок. минимумах

🐳4

396 voters2.42K views05:58

Дата канальи — про «специалистов» в данных / ML / AI

#ML

Поскольку единства в опросе и комментариях к нему нет, навайбкодил тут подсказку с утра, чем больше выбросов будет в таргете -- тем более будет выражен эффект.

Что касается скорости обучения -- ванильный градиентный спуск неотшкалированная фича конечно зааффектит, на градиентном бустинге да еще и при логарифмировании таргета (а не фичи) отличий особо не видно. Думаю, навайбкодить чтобы проверить этот факт труда не составит

❤14🦄5👍3

2.32K views06:24

Дата канальи — про «специалистов» в данных / ML / AI

МТС True Tech и ComDS приглашают на Summer Data Science Night — вечерний open-air митап для специалистов по DS и ML. Встречаемся 29 июля в 19:00 во дворе бара «Стрелка», который на одну ночь превратится в летний кинотеатр для data-фанатов. Обсудим: ⭐️«Вызовы…

Буду рад сегодня вас видеть на митапе! 🍿🍿🍿🍻

Кто не знаком лично - давайте знакомиться 🤝

На всякий случай уточню:

Если вам не пришло письмо подтверждения регистрации, но вы регистрировались — приходите, вас добавили в списки для входа.

❤14🔥5⚡2

1.98K views09:15

Дата канальи — про «специалистов» в данных / ML / AI

Немного спойлеров )

🔥31🐳7💅3💯2💘1

1.98K views13:37

Дата канальи — про «специалистов» в данных / ML / AI

Если кто забыл программу )

🔥37❤‍🔥3🦄1

2.37K views15:08

Дата канальи — про «специалистов» в данных / ML / AI

Спасибо тем кто вчера пришел, задавал вопросы, поддерживал спикеров и просто встретил друзей! ☺️♥️
Надеемся что фоточки будут готовы на сл неделе, а пока упрашиваем спикеров (а они свои пиар-службы) поделиться с вами презентациями.
Stay tuned, до встречи на новых митапах!

❤30❤‍🔥6🔥4💘4👍3👀1🤝1🦄1

2.02K views06:53

Дата канальи — про «специалистов» в данных / ML / AI

ML Training HSE TS.pdf

6.2 MB

#ML

В комментах к последним постам про логарифмирование таргета (а в комментах был материал про другие модификации и их свойства) задавались вопросы по прогнозированию временных рядов.

Ок, лучшее, что я могу посоветовать - презентация с наших совместных с ВШЭ ML-тренировок by Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab

Прежде чем покупать и листать большие книги -- а по рядам их написано много -- макроэкномисты и биржевые спекулянты продолжают искать философский камень -- я бы начал с этой презентации -- максимум практики и опыта в одном месте.

2🏆24🔥10✍3👍2❤1🤓1

6.05K viewsedited 11:15

Дата канальи — про «специалистов» в данных / ML / AI

Холивар от Саши 😈 -- что реально работает в прогнозировании TS -- выберите плиз любимый метод или библиотеку

Anonymous Poll

Хольт-Винтерс и прочие экспоненциальные сглаживания

33%

Prphet