Дата канальи — про «специалистов» в данных / ML / AI
5.55K subscribers
220 photos
7 videos
12 files
204 links
Корпжиза аналитиков и DS. Если хотите анонимно поделиться историей на широкий круг -- го в личку @NikitaZelinskiy, аналогично по остальным вопросам
Download Telegram
#кейсы #корпжиза

В корпоративной культуре, по крайней мере той, с которой я сталкивался, набор инструментов управления состоит не только из сокрытия информации (применяют самые слабые, часто HR), шантажа (это уровень руководителей проекта, не выше), угроз и эскалации. Культура управления людьми у нас все больше патерналистская, поэтому куда без отеческой (а иногда и не очень) ругани.

Настолько, что иногда это уже не инструмент управления сотрудником и способ скоммуницировать развивающую обратную связь, а просто развлечение через доминацию -- в клинических случаях обматерить публично -- такой вот корпоративный BDSM .

Не раз наблюдал как в крупную организацию приглашали какую-н зарубежную звезду — часто это ранее уехавший соотечественник, добившийся больших высот в профессии и признанный сообществом — научным (например, профессор?), open-source (мб, создатель и контрибьютор библиотеки на 40k+ звезд на гитхабе?), бизнес (вроде профессора топовой школы MBA?), профессиональным (лидер мнений? известный преподаватель?). Как правило, речь шла об очень вкусном (а кто-то соглашается из просветительских или патриотических мотивов) контракте, ограниченном по времени (у кого на год, у кого на три). И обязательно с призывом решить какую-то проблему, которую все предшественники решить не смогли 🤣. Чуете подвох?

А после выхода на работу и прожив короткий период "медового месяца", герой такой истории резко находил себя работником «веселого балаганчика» из Незнайки на Луне.

То есть получает публичный разнос от своего нанимателя по абсолютно надуманным предлогам, вроде:

Не смог вспомнить имя мидла в пятом подпродукте третьей команды четвертого зама, в его втором стриме. А этот мидл еще и на работу пока не вышел к тому же.


Не реорганизовал работу подразделения на 5000 чел , которым вообще руководит старожил-каналья, под которого нашего эксперта-варяга и засунули (а часто еще и на пару уровней ниже)


Не создал альтернативную операционную систему не хуже Windows/RedHat/Debian за пару мес и без подчиненных


За полгода не удосужился создать продвинутый аналог коммерческого продукта (который 20 лет развивался на рынке в 100+ раз больше)


Причем как в детской игре в путаницу: с профессора спрашивают за коммерцию, с экперта -- за реорг, со стратега -- за лютую операционку, с бизнес-преподавателя -- за глубокие технические детали. 😁


В особо циничных случаях к нанимателю присоединяется свора каналий, доросших до директорского / топ-уровня методом просиживания жопы на одном месте и ужасно боящихся внешнего мира (поскольку понимают что на конкурентном рынке они вообще никто и вся их рабочая эффективность заключается в налаженных горизонтальных — во всех смыслах — связях в пределах организации).

Тут Незнайка увидел хозяина балаганчика. Он стоял возле большой белой корзины, доверху наполненной резиновыми мячами. Каждый, кто хотел швырнуть мячом в коротышку, платил хозяину сантик.


Разница лишь в том что хозяин балаганчика хотя бы на этом зарабатывал, а в корпорации деньги акционеров идут на такие вот развлечения.
👍4017🔥7👀2👌1🌭1🎄1
ЛУКАШЕНКО ЗАПРЕТИЛ ЦЕНАМ РАСТИ.mp4
2.5 MB
#корпжиза
# про платформы ценообразования

долго пытался понять какие есть риски в создании платформы динамического ценообразования как рыночного продукта:

Corilly.ai, выпускники YCombinator, закрылись, имея больше ста клиентов и делая классные RL-решения, оставив после себя только этот тред.

Quicklizard вроде и IPO провели, торгуются на Тель-Авивской бирже, но нарастили убыток по году -- и сидят с отрицательной двузначной маржой не первый год.


Ответ наконец пришел с Беларуси 🤣

PS Ваша компания пользуется такими услугами платформы ценообразования -- другой компании? или сидите на in-house разработках?

PPS математически, не меняя среднюю цену для клиентов, прибыль все равно можно нарастить -- повысив для одних и дав скидки для других, так что даже в Беларуси есть шансы сделать успешный проект по ценообразованию 😁

PPPS пока искал наткнулся на хороший манагерский туториал с архитектурой и агентами
1😁17🔥62
Вот почему я больше DS чем MLE

В DS доменные знания решают, и это делает работу такой интересной.

В отчетности компании встретил незнакомый операционный показатель 🤣

Неводочные продажи
😁335🔥5🐳21
#образование

Подъехали фоточки выпускного у третьго потока ШАД МТС.

До конца дошли самые мотивированные, и я им очень за это благодарен. А особенно за их фидбек -- он помогает делать программу с каждым годом все лучше.

Например, в четвертом потоке мы вынесем итоговые проекты на сентябрь и снизим нагрузку домашками -- по крайней мере летом)

Хочется надеяться что наши выпускники (а большинство уже трудостроились по новой специальности) перерастут наших же преподавателей -- а это тот еще челлендж, преподают у нас самые лучшие, по крайней мере задумка левой фотографии была именно такая)

А справа совершенно замечательная команда HR, которая и организовывает сам учебный процесс и все вокруг, создавая искреннее сообщество, крепко единое внутри.

А нам нужно идти дальше и потому мы объявляем набор на 4й поток ШАД МТС, за год интенсивных тренингов (а это два дня в неделю по три часа + домашки) мы научим вас как стать DA/DE/DS, поможем стартовать карьеру и сформировать ваш личный трек развития.

Welcome!
👍3421🔥20
#корпжиза #кейсы

Недавно у меня полыхнуло от того что друг переслал посты-поучения от молодых да успешных владельцев ИТ-бизнеса.
Со свойственной мне прямотой полыхание я на него же и обрушил, что в виде защитной видимо реакции вылилось в пост

Кмк всем немного приелись посты успеха, и критика постов успеха — что молодые да успешные часто не совсем соответствуют образу, вплоть до уголовных дел

Но мы живем в эпоху постмодерна и пост-иронии.

Потому предлагаю вам новый жанр:

Кейсы пост-успеха

История для затравки
Представьте себе успешную контору ИТшников начала 00х. Им +-30 лет, запилили софтину, продали лицензий.
Стек начала 00х представляете? А ИТ-сообщество? Ситуацию в экономике?
Экономика цветет 🌺, клиенты приходят сами, одна забота — платежи принимать .

На этом фоне дружная компания основателей (сейчас все чаще можно услышать «фаундеров») предалась гедонизму 🥃🥂🍻🧍‍♀️👯‍♀️💃, а на любое «мужики, мб хоть стек обновим?» следовал ответ в духе важного колхоз-ИТ-принципа «работает -- не трогай!».

С кофаундером-замом генерального той конторы (кстати, отличный работящий мужик) я познакомился уже в середине 10х, когда, очевидно, и конторы то не было, а тот зам. радовался что нашел хоть какую-то работу в ИТ (я думаю он и сейчас был бы рад).

Поэтому думайте своей головой и не забывайте Соломона:
«и это тоже пройдет!»


Особенно с нынешними темпами развития технологий

А если не верите старым мудростям — под катом очень жестокий пруф.

PS: Оффтопом — помните про то что если долго сидеть на берегу реку то по ней проплывет труп врага? Сегодня узнал что один нехороший человек летом утонул, земля ему стекловатой.
😁12🔥7🤣42👍1
Директ
Russian language fluency меня искренне радует, ждем когда еще в бэкграунде будут писать top-tier Russian universities, но я работаю над этим 🤌
👍18😁14🔥4💘21👌1
Бреет ли брадобрей самого себя? 🤔😃

Собеседования и встречи с клиентами Яндекс проводит в своем телемосту
😁29🌚2
#корпжиза

большинство манагеров, которые приходят с запросами на внедрение агентов ожидают чего-то такого:
2😁23🙈83💯1
Forwarded from Банки, деньги, два офшора
Американка выиграла 8 млн рублей в лотерее с помощью ChatGPT. «Я просто попросила ChatGPT предложить комбинацию номеров. Ввела их в билет — и вот результат!». Выигрыш пойдёт на погашение ипотеки и в сбережения. @bankrollo
😁41🔥9👏31
#корпжиза #кейсы

Выше у меня полыхало на нравоучения с претензией на великость от молодых да успешных и приводил кейс куда это может привести.

Честно будет сказать на кого я ориентируюсь, благо их книги за давностью лет в открытом доступе.

Если вам статья про обезьянку 1974 года показалась старой, то сейчас будет сеанс археологии.
Хотя обезьянку я использую ровно каждый день - и очень вам советую перечитать в 101й раз, лишним не будет.

Итак

Чарльз Шваб — от клерка-чертежника до главы нескольких стальных компаний

И его книга «Как преуспеть с тем что есть» (1917)

Эндрю Карнеги — от ребенка-рабочего до стального магната

И сборник его эссе "The Gospel of Wealth" 1889

Книжки столетней давности не применить? Ок, подержите мое пиво.

Помните затасканный сюжет (он кстати из книги Шваба выше):

I had a mill manager who was finely educated, thoroughly capable and master of every detail of the business. But he seemed unable to inspire his men to do their best.
“How is it that a man as able as you,” I asked him one day, “cannot make this mill turn out what it should?”
“I don’t know,” he replied. “I have coaxed the men; I have pushed them, I have sworn at them. I have done everything in my power. Yet they will not produce.”
It was near the end of the day; in a few minutes the night force would come on duty. I turned to a workman who was standing beside one of the red-mouthed furnaces and asked him for a piece of chalk.
“How many heats has your shift made today?” I queried.
“Six,” he replied.
I chalked a big “6” on the floor, and then passed along without another word. When the night shift came in they saw the “6” and asked about it.
“The big boss was in here today,” said the day men. “He asked us how many heats we had made, and we told him six. He chalked it down.”
The next morning I passed through the same mill. I saw that the “6” had been rubbed out and a big “7” written instead. The night shift had announced itself. That night I went back. The “7” had been erased, and a “10” swaggered in its place. The day force recognized no superiors. Thus a fine competition was started, and it went on until this mill, formerly the poorest producer, was turning out more than any other mill in the plant. 

А стоит помнить.

Итак, 20е числа апреля 2015го года. У меня горит проект, а впереди майские праздники — у сотрудников дачи, шашлыки, пьянки. Да и ребята все молодые, активные — шансов кого-то толкового уболтать проработать все праздники даже за деньги нет никаких. Да и качество той работы будет ну сами понимаете.

Иду к шефу с калькуляцией сколько выйдет команда из 3-4 человек на все майские (а праздничные дни по двойной таксе). Оклады у ребят были в районе 100ки чистыми — вот и представьте что четверо на 2 недели вышли бы примерно 4 (чел) * 2 (двойная оплата) * 50_000 (пол-мес) = 400 тыс. рублей — поэтому не встречаю в нем сочуствия от слова «совсем». Быть уволенным за сорванный проект совсем не хочется.

Прошу хотя бы сотню, но налом, и говорю что все будет. Пишу рыбу и прошу шефа закинуть на всех в cлак. Догадались что в рыбе?

Естественно, соревнование с призовым фондом в 100к.

К концу майских у меня было штуки 2 крутых оформленных рабочих решения и несколько попроще за бюджет вчетверо меньше чем решение в лоб (так и еще и уговаривать никого не пришлось). Почему так вышло? Ведь победитель получил ровно столько же сколько получил бы согласившись поработать на праздниках -- только работы сильно больше вышло бы. А ответ есть в цитате из Шваба выше.

А еще один мой кейс по запуску соревнования думаю вам хорошо известен — MTS ML Cup 2023. На понятном языке задачу и бейзлайн описал на хабре.

За фонд в 650 тыс боролись 2311 участников с 6336 решениями — сравните с крупными банками у которых призовой фонд в 10 раз больше а участников в 10 раз меньше.

stay tuned ⚡️
123🔥12👍8👎43🏆3🤔2🤡1
интересно, при Воложе и Сегаловиче такое было бы возможно? 😶
😭7
A21-14466-2024_20251017_Opredelenie.pdf
266.9 KB
Яндекс и его Мажоритарии ненавидят своих миноритариев!

Осипов В.Г. миноритарный акционер тогда еще Yandex N.V., задавал Обществу неудобные вопросы относительно реформы в компании по разделению, интересовался почему кому-то достались акции МКПАО «Яндекс», а кому-то нет (часть акционеров при разделении получили акции Yandex N.V.), говорил, что это не справедливо и надо переиграть. Ответов в компании не получил, и пошел в Суд, требовать обмена своих акции на акции переехавшей в Калининград компании.

Не обладая специальным познаниями, свои интересы представлял лично. По понятным причинам Суд и проиграл.

Что могло дальше сделать Яндекс для своего миноритария? Понять, простить и отпустить?

Но не тут-то было!

Яндекс и его Мажоритарий решили наказать несчастного минора, за то, что он поставил под сомнение, их видите ли решения, и выставили ему суммарный чек на судебные расходы размером 13,2 млн. руб.

Что решил Суд?

Суд решил, что они (Яндекс и его Мажоритарии) охреняли перемещаясь исключительно бизнес классом и выбирая фешенебельные отели (Рэдиссон, Меркюр, Новотель). В общем Суд срезал их хотелки в 45 раз, до разумных 300 тыс. руб.
🤯21🤔9👍71
когда опечатка превращается в накрутку и работа находится! 😆
😁65😎9👀6
Forwarded from Kantor.AI
Субботний оффтоп

Если вы задумали или даже только мечтаете сделать что-то на ваш взгляд очень классное, но не видите вокруг одобрения затеи (особенно от крутых знакомых из числа успешных корпоративных менеджеров), а еще забыли или не видели этот шедевр - вдохновляйтесь :)

https://youtu.be/F_jMbmu4Di0?si=fW76evTAVidq_M7o
1🔥5😁53🥱1
#кейсы #ML

про кейс-менеджмент

N лет назад было время в которое месяцами надо было убеждать манагеров в том что важно делать A/B-тесты, нужно смотреть на метрики, модели не бывают 100% точные и найденный методом пристального взгляда кейс DS вполне может проинтерпретировать, а потому не надо блокировать выводы модели в прод.

Теперь все перевернулось с ног на голову — DSы умникам из кибербезы (экспертам в промывной технологии «не пущай») необходимость DSу иметь доступ к самым сырым данным. В особо запущенных случаях помогают только истории вроде той что не так давно произошла с в одном нежелтом не-т-топовом небанке, неимеющим собственного немобильного неоператора.

Мама одного из топов (назовем ее Дазрадраперма Ильинична для краткости) попала в сводки жертв социальной инженерии с банальным «московскую пенсионерку телефонных мошенники развели на xxx млн. рублей». Тему того что судя по новостям у каждой пенсионерки в стране минимум миллион долларов в трехлитровых банках — в этом посте мы не рассмотрим, увы. В организации конечно же поднялся тотальный шухер с выяснениями — авторы модели, валидаторы, инфраструктурщики безы и все причастные были вызваны на ковер (классическое «сейчас разберусь как следует и накажу кого попало»).

Итак, полнота модели по всем отчетам космическая, применяется на всех абонентах: вон, mlopsы — кстати, можно ли читать без слова «псы»? — даже бонусы в том году получили за эффективное масштабирование модели на всех.

В чем причина? Пришлось безам дать-таки запись разговора авторам модели.

Итак:

⁃ Дазрадраперма Ильинична очень любила любых окружающих грузить своими проблемами, вот и незадачливые мошенники первые пять минут были вынуждены слушать что кабачки раздать некому — не успев даже представиться и сказать про безопасный счет
⁃ Модель скорила разговор нарастающим окном раз в десять секунд и прекращала работу через 3 минуты разговора — для экономии железа (помним про бонусы за эффеквтиность)
⁃ Первые пять минут разговора (не то что 3) Дазрадрапермы Ильиничны с мошенниками ничем не отличались от других ее разговоров.
⁃ Результат немного предсказуем

Так что кейс-менеджмент не менее важен чем метрики, а экономия, как и всегда, выходит боком 😂.

Модели делать нужно лихо и на кураже, без оглядок ни на кого 💪.

А про безов мы еще вспомним в ближайших постах ⚡️
5😁5112🔥6👍1🤝1
#кейсы #ML

обещанный кейс про «не пущать»

Беда, коль пироги начнет печи сапожник, А сапоги тачать пирожник, И дело не пойдет на лад


Скорее рано чем поздно перед DS встает задача матчинга персон между источниками — например, в одной табличке указано ФИО + дата рождения + электронная почта + место рождения, в другой — мобильный телефон, имя и фамилия.

Состав полей может быть разный, но суть вы уловили — нет единого ID и надо бы его создать.

Такая задача — иметь сквозной ID клиента и связать его со внутренними ID разных бизнес-систем компании, называется MDM Master Data Management (а в банкетной рекламе DMP — data management platform).

Конечно же, такая информация — это персональные данные, они особо бдительно охраняются, поэтому на рынке есть специальные компании, которые занимаются такими задачами.

Но хороший Data Scientists это Data Investigator и Explorator, поэтому интереснее сделать самому и как можно точнее.

И вот в одной компании про это прознали кибербезопасники и строго запретили DSам самим матчить — но тк задача никуда не делась, решили сделать сами, чтобы по всем правилам, пром процессом и тд, и вот что из этого вышло.

Подход 1
Возьмем хэш от всех полей с одинаковым смыслом и будем маячить таблички по таким хэшам.

Догадались что произошло?

90% хэшей оказались нуллами (пусто) — поскольку строки, по которым шло хэширование, содержали хотя бы одно пустое поле. Толку от такого "матчинга", понятное дело, немного

После такого шикарного выступления бывшие сотрудники всевозможных органов не сдались, а решили перейти к плану Б

итак, Подход 2

После тотального провала в первом подходе экс заплечных дел мастера решили найти "самые главные поля" и пояснить матчить по ФИО + дате рождения.
Выяснилось что только в Москве несколько тысяч полных тезок по ФИО + ДР

Эволюционно гении пришли к Подходу 3: давайте матчить по ДУЛ (документу, удостоверяющему личность) + ФИО + ДР, ну чтоб уже наверняка

И вот что из этого вышло

PS
Потом я не раз видел как из аналитических песочниц пытались убрать любые перс данные и вспомогательные ID, оставив только единственно правильный. Заканчивался этот идиотизм как правило когда по заданию биг боссов срочно нужно было добавить в процесс какую-н выгрузку из внешней системы / полученную с рынка -- и естественно, внешний мир про прекрасный внутренний ID ничего не знал что, очевидно, делало невозможным любой матчинг -- то есть добытые извне данные никак не добавить к внутренним. Осознанием руководством такого тривиального факта приводило к развивающей обратной связи адептам "не пущать" на радость и благость, как говорит один мой товарищ, не дающий писать мне совсем дичь )

Мораль проста: не мешайте DSам делать свою работу, авось без премии не останетесь😄
221😁18🔥11😱2
Накопилось обещанных постов (для тренировок -- про валидацию, для ШАД МТС -- разбор вступительных этого года), буду выкладывать последовательно. Пока же небольшой опрос про валидацию
65
Летят V самолётов, нет V мало — K! и оба реактивные...


#ML

У опроса выше есть всего один правильный ответ, и мы к нему придем.

А пока разберем мифы

Напомню только что валидация (в тч кросс-валидация) модели — это не только способ выбрать лучшую среди класса моделей (лучшую == точнее , устойчивее, сильнее, с меньшим риском и пр), но и получить интервальные оценки ее качества.

Миф 1. LOO на практике почти не используется

LOO — в варианте не Jackknifing, а Hold Out — в котором test — последний элемент, val — предпоследний, а остальное — трейн — это частый сетап в академических статьях про рекомендашки (тк академики часто обделены вычислительными ресурсами + им нужно сравниваться с предшественниками в их сетапе -- как в байке с шириной железной дороги и ее связи с шириной римской телеги.

Примеры, которые были под рукой:

NIPS 2023
KDD 2023
RecSys 2023
CIKM 2020
IJCAI 2019

Миф 2. Двойная кросс-валидация позволит сделать вашу модель более робастой

Вопрос некогда популярной в задачах на малых выборках двойной кросс-валидации (Nested) закрылся около 2018 с итогом что игра не стоит свеч. В соревновательной практике тоже особо не применялась — проще оказалось усреднять по cидам. Спасибо Себастьяну Рашке, который честно сравнил как лучше всего получать интервальные оценки качества моделей.

Кстати, модификаций кросс-валидаций для малых выборок десятки, начиная с Balance-Incomlete CV, Monte-Carlo CV (с возвращениями) и заканчивая всякими Bayessian CV

Миф 3. Выбор K в K-fold валидации ни на что не влияет

В 2015 вышла (и обновлялась до 2018) 99-страничная инструкция как правильно выбрать V в V-fold валидации.
Жаль, что ей никто не пользуется 😂😂🤣

Миф 4. .632 это калибр 🔫

Нет, это тоже модификация кросс-валидации в статьях 90х. Вообще, применить бутстрап к кросс-валидации тянуло многих.

Тем, кому любопытно — снова пример в блоге Себастьяна Рашки.

Миф 5. K-fold vs V-fold

Burman в 1989 обозначил уже известную к тому времени процедуру как V-fold

В бессмертном ESL (а первое издание было в 2001 году) уже K-fold

Оттуда оно, вероятно, попало в sklearn в 2007-10 и понеслось, 64k звезд на гитхабе — не шутки.

Миф 6. Все вопросы с валидацией / кросс-валидацией решены еще 20-30-60 лет назад

Одни парни и в 2025 пишут, другие их рецензируют. Не знаете о чем писать диплом по ML -- возьмите любую задачу и сравните несколько протоколов валидации численно и теоретически.

Миф 7. На опрос выше нет правильного ответа.

Хотя опрос достаточно спорный (не очевидна, например, необходимость OOT в картинках, хотя можно придумать кейс), можно предположить что:

1. Больше всего DS работают там где больше всего денег — в продажах и рекламе, а это всякие response-модели NBO / NBA / RecSys + исторически в банках (снова response-модели вроде PD + регрессии в будущее -- cashflow) — это все табличные в основном задачи
2. Больше всего DS работают либо в корпорациях либо с корпоративными данными

А у корпоративных данных есть одна важная особенность: они проходят по достаточно сложному пути: CDC -> ETL/ELT -> DWH / Data Lake -> Common DM / User DM

И по всему пути накапливается задержка (gap), который DS/MLE обязан учитывать.
А если вспомнить еще и про data drift / concept drift / label shift — то очевидность последнего ответа не вызывает сомнений (хотя это частично можно решить adversarial validation и тестами)

При этом на практике я использовал и варианты со стратификацией, и с группами (в недвижке), и двойную (nested) кросс-валидацию, и все варианты OOT / OOS CV
1🔥2313👍3😁2
В этом году мы уже четвертый год подряд стартовали набор в ШАД МТС .
Выбрать из 5000+ заявок 50 студентов и 30 слушателей нам обычно помогали мотивационные письма и онлайн-экзамен, состоявший из заданий на базовую статистику, немного математики, python, SQL.

Но было бы странно игнорировать мощь современных LLM, а задача проверить базу статистики, problem solving, понятие о сложности алгоритмов, минимальные знания о том куда вообще экзамен, умение понимать письменную речь и строить рассуждения — никуда не делась.

Поэтому кандидатам было предложено 4 задания на 180 минут + возможность описать текстом / прикрепить файл с идеями решения — и при решении заданий было разрешено пользоваться абсолютно всем -- в тч любыми LLM — что сообщалась и до экзамена и во время него.

Мне предстояло не просто составить задания которые не берутся в лоб условным ChatGPT 5 Pro, но и сделать так чтобы решение разумным образом получалось путем использования хотя бы большинства популярных LLM и достаточное число участников пришло к правильному ответу — не слишком много, но и не слишком мало.

Судя по числу решивших — получилась ровно желаемая ситуация, когда есть возможность смотреть и на то, верный ли ответ, верный ли ход решения и в равной мере учитывать мотивационное письмо.

Интересно, что про эти задачки скажут глубокоуважаемые подписчики.

Предлагаю такой формат: публикую задачу, через день публикую ее решение и следующую задачу.

Попробуем?
3👍7613👎3🤡3