Дата канальи — про «специалистов» в данных / ML / AI
4.96K subscribers
205 photos
7 videos
12 files
189 links
Корпжиза аналитиков и DS. Если хотите анонимно поделиться историей на широкий круг -- го в личку @NikitaZelinskiy, аналогично по остальным вопросам
Download Telegram
Все-таки есть своя прелесть в том чтобы исследовать где модель ошибается, в регрессии так вообще, анализ регрессионных остатков – центральная часть моделирования.
Но сегодня поговорим про LLM.

Есть масса способов сделать рабочий прототип решения не вникая во внутрянку LLM и их тюнинга – можно использовать API Open AI (экстремально дешево) или API Hugging Face (вообще бесплатно, но надо будет выбрать модель).

Но что если вы обычный аналитик, а заказчик требует “вчера” сделать прототип на развернутой локально опенсорсной модели? С чего начать и как выбрать модель для прототипа? Чего стоит опасаться и на какие ошибки обратить внимание?

А если вы обычный менеджер по продажам и эта задача внезапно упала на вас?
Да-да, сейчас бизнес избегает сразу звать MLE за 100500 денег, которые будут час рассказывать о LLM arena, MERA и прочих бенчмарках в генерации и связанных задачах, но из слов которых не получить быстрого ответа – поможет ли LLM в моем конкретном кейсе?

Дима @frolovdmn – DS из нашей команды, подготовил небольшой туториал на эту тему на примере простой но более чем реальной задачи. Туториал оказался весьма популярен, не могу не поделиться с вами.
8🔥7👍3🤔2
#кейсы #ML

Раз уж зашла речь про хотелки манагеров.
Однажды (году примерно в 20м) с нашей подачи (а мы с Андреем @andtm тогда развивали эту тему) два больших босса договорились пропилотировать QA (вопросно-ответную систему) по базе знаний клиентской службы. Чтобы когда клиент звонит в колл-центр, оператор не ходил искал вручную по > 20 000 архивных и действующих регламентов в PDF (хоть и связанных между собой ссылками), а сразу на свой запрос получал фактоидый ответ.

Это сейчас школьники в 9м классе RAGи крутят, а тогда казалось (и не только нам), что строить онтологии, наполнять и эмбеддить Knowledge Graphs – более осязаемый путь к reading comprehension. Для тех, кому интересно – статья Михаила Галкина (самый известный русскоязычный эксперт в области) с ICLR’24 .

Но сейчас не об этом. Комедия в двух актах
Акт 1
Приходим к подчиненным биг босса.
Мы: давайте пилот делать!
Коллеги: А у нас ресурсов нет ваши модели крутить, а данные секретные и наружу не отдадим – идите гуляйте!
Акт 2
Нашли сервера (правда, лютый оверкилл).
Мы: нашли два голых сервера – вот их ID. Забирайте, ставьте любую ось, видюхи там есть, мы сами все настроим, главное в свой контур включите.
CTO того бизнес-юнита: не-не-не, вы же не обеспечите утилизацию 90+ процентов!! А у меня на этот год в каждом квартале ППР (KPI) на нее! Не-не-не, катитесь со своими серверами.
Занавес, аплодисменты.

Чудесно, когда бизнес и их ИТ в разных вертикалях?
Да и функциональное управление – когда KPI сотрудника поделены между разными манагерами – не отстает.
Мы – команда! Правда же?
😁8👍63😢3
AI engineer -- это что-то новенькое 😁
Forwarded from ODS #jobs
Middle AI Engineer (NLP)
от 4 000 $/месяц
Удаленка, Фултайм

Компания Americor ищет Applied AI Engineer для развития системы автоматизации общения пользователей с компанией. Мы стремимся покрыть различные каналы связи, включая чат и звонки, с целью улучшения взаимодействия с пользователями на всех этапах…(читать далее)
#кейсы #ML

Про внедрения на железки заказчика в закрытые контура.
Знаете, в чем одно из преимуществ линейных моделей?
В том что их внедрить можно хоть формулой в запросе!
Вроде

select 0.1234 * feature1 + 0.5678 * feature2 + 0.2 * feature3_woe as score

и такой логрег вполне себе месяцев 9 крутился пока вокруг настраивали интеграции и готовили инфру для витрин и инференса моделей посложнее.
Итого: затраты на MLOps: 0, мониторинг: отсутствует, контроль версий: отсутствует, метаинформация: не хранится, код обучения и треки экспериментов: с моделью не связаны. В общем жить с тысячей таких моделей врагу не пожелаешь, а внедриться разово, пока идет бюрократический процесс -- вполне.
🔥18
минутка дружеской "рекламы":
Есть такой жанр, где всегда срезаемся в последнем раунде -- это DS-квиз.

Выступал в начале декабря на встрече коммьюнити DS ВТБ – ComDS, рассказывал про тренды ML в следующем году.
Было несколько команд из ВТБ, Ламоды, Яндекса, МТС, делились итогами, а потом квиз.

Собираемся примерно раз в месяц, в офисе ВТБ в Сити, можно заявиться с докладом или прийти просто послушать и пообщаться (= коктейлей дернуть).
Если хотите поучаствовать, пишите DS деврелу ВТБ @innagrinko

Ещё у них есть свой проект Data Fusion (конфа, где мы каждый год выступаем, премия, соревнования), вот их телега - https://t.me/Data_fusion
14❤‍🔥2👍1😁1
когда рынок пошел не туда и по году выходит антибонус, нет ничего лучше совета опытного мастера
😁5🫡3👍2
#корпжиза

Про KPI
Под одним из недавних прошлых постов был комментарий
а ак-то подетальнее можно про kpi сотрудника между манагерами? и вообще про правильную и неправильную декомпозицию целей, задач и kpi.

В один пост ответ не умещу, давайте начнем с самих KPI, а в следующем посте будет про цели и декомпозицию
Так как цель любого KPI – замотивировать сотрудника двигаться в нужном менеджменту направлении, то и смотреть на KPI стоит глазами мотивируемых.

Как вообще KPI влияют на жизнь сотрудника? здесь возможны варианты:
• Невыполнение KPI ведет к увольнению, перевыполнение – к баллам, которые как материализовать собственник еще не придумал (одна малазийская компания с русскими корнями, известная единовременным массовым увольнением через видеозвонок по наводке якобы “модели”)
• KPI влияет на годовой бонус, составляющий 50+ процентов годового дохода (да, в декабре приходит денег больше чем за 11 предыдущих месяцев в сумме). Скажем, если у вас три KPI с равным весом, то невыполнение одного из них будет эквивалентно потере 16.7% годового дохода – то есть два месяца в году вы поработали забесплатно. (один очень крупный банк когда-то)
• KPI влияет на полугодовой бонус, который составляет около 6% годового дохода, если не выполнить – потеряете менее 2% годового дохода
• KPI нет, как и безопасных уровней, идет соревнование – кто наберет больше продаж, баллов за проекты, etc. 10% худших увольняем, 10% лучших оставляем (небольшие компании где до власти дорвались HR, начитавшиеся псевдоманагерской макулатуры).
• У сотрудника три типа KPI – один от проектного руководителя (бладельца бюджета, который нанимает / увольняет / повышает), KPI от компании (на который сотрудник не влияет), KPI от функционального руководителя (свадебный генерал с совещательным голосом).
• KPI есть только у манагеров, а уж как они замотивируют сотрудников – их забота.
наверное, вариантов сильно больше, но степень ожесточенности или пофигизма в достижении KPI прослеживается, верно?

Лично я не ставлю сотрудникам KPI совсем (даже когда на мне стоят финансовые):
• Не хочу чтобы работа свелась к формальному закрытию KPI, да и нет KPI, который невозможно хакнуть
• Что-то может пойти не так, может влететь горячая задача с самого верха – и сотрудник будет перед выбором: либо подвести меня, либо пожертвовать своим доходом
• Мы обсуждаем направление движения, приоритеты задач, их влияние и зависимости друг от друга, влияние на компетенции команды и возможности, которые открывают реализованные проекты (а мы часто строим новые на результатах сделанных)
• KPI, как это ни странно звучит, не увеличивает ответственность сотрудника, а уменьшает (ему не надо думать о смежных вещах, думать за пользователя, за бизнес и тд)
• Меньше ответственность -> меньше инициативы и самостоятельности -> меньше вовлеченности -> хуже результат вдолгую

to be continued…
16🔥5👏3
#кейсы #ML

Раз уж пошло про KPI – вот безобидный прием против вредного манагера. Прием для настоящих каналий!

Если вразумлять и просвещать манагера на метрики регресии, распределения остатков и прочее сил уж больше нет, то могу предположить что каналья-манагер не знает разницу между MAPE и MDAPE (и наверняка про MASE, eB, варианты SMAPE, WAPE и тд).

Так что ничего не стоит вам выдать MDAPE за MAPE (и только если спросят – сказать что M это, совершенно очевидно, медиана, разве можно было предположить иначе?!).
В примере ниже мы не будем оптимизировать MAPE напрямую (хотя это не то чтобы сложно – один из методов – взвесить наблюдения на таргет), а просто посмотрите выигрыш (не повторяйте это дома!!!):

import numpy as np
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
x, y = make_regression(n_samples=10_000, n_features=10, n_informative=8, noise=5, shuffle=True, random_state=42)
x_train , x_test, y_train, y_test = train_test_split(x, y, test_size = 0.35, random_state = 42)
import xgboost as xgb
regressor=xgb.XGBRegressor(eval_metric='rmse')
regressor.fit(x_train, y_train)
preds = regressor.predict(x_test)
residuals = preds - y_test
r_mape = np.mean(abs(residuals) / abs(y_test))
r_mdape = np.median(abs(residuals) / abs(y_test))
print(f'MAPE {r_mape:.2f}')
print(f'MDAPE {r_mdape:.2f}')
>>> MAPE 3.74
>>> MDAPE 0.16


а вообще, если интересна тема метрик регрессии -- то лучше всего она освещена в неизданной книге Александра Дьконова
🔥186
Минутка хвастовства) но место-таки второе. Вообще не ожидал что буду преподавать, да еще в ВШЭ, МФТИ и MLInside! Кстати, через 50 мин уже и вебинар
❤‍🔥33
Forwarded from MLinside - школа ML
🤯 50% людей учат темы ML, которые не нужны бизнесу

Мы провели исследование среди нашей аудитории и узнали: большинство изучает популярные темы, которые выглядят перспективно, но почти не применяются в реальных задачах.

Какие задачи бизнеса требуют решения с применением ML и как их решать? Расскажем на вебинаре 19 декабря в 20:00 (мск)!

Что вас ждет:

▪️Поделимся информацией о том, какие задачи компании хотят реализовать с помощью машинного обучения и как вы сможете их решить.
▪️Расскажем как проверить, что модель действительно работает?
▪️Разберем практические кейсы и проведем эксперименты.
▪️Презентация курса «ML в бизнесе»: Расскажем, как программа курса помогает освоить востребованные навыки, которые делают вас ценным специалистом в любой компании.

👉 Регистрируйтесь здесь

Присоединяйтесь и начните свой путь к успешной карьере в ML!
7
#ML

На вебинаре поступил вопрос про SOTA-трансформеры для временных рядов.
В ответ пообещал скинуть сюда в канал свою июньскую лекцию на RuCode по foundation models for time series. Заодно узнаете почему соревы по прогнозированию называются М1, ... M4, M5, M6 и тд.
PS: картинка с веточками в лекции из этой статьи
PPS: кажется, начало лекции не записалось — были тех траблы (
6
#корпжиза

Про KPI и роль HR в жизни DS

В одной крупной организации манагеры нажаловались топам что DS нанимать очень долго (потому лишь что ни они, ни HR нанимать DS не умеют, заинтересовать кандидата не могут, процесс найма выстроить тоже).
За что HR получили KPI на скорость найма DS.

Как реально выглядел найм к тому моменту: постишь вакансию в слаке ODS, получаешь в личку 100+ резюме в первые сутки и сидишь их вручную разбираешь. Потом сам прозваниваешь, сам договариваешься о встрече, сам собесишь, потом отдаешь в HR на оформление.

Услышав новости что HR-таки теперь будет заниматься этим всем я преждевременно возрадовался и попросил HR эту работу сделать (а это в любой компании первейший способ разругаться с HR – попросить их делать их работу).
На что, естественно, был послан в грубой форме – чтобы выполнить KPI HR взяли примерно 10% от ставок DS и объявили что избранные ставки имеют специальный код – и только их и будут нанимать. Когда я историю немного попушил – прилетели лишь разборки и предъявы – а чего это у нас DS не на тех ставках сидят, кто их вообще проверял и тд и тп. По принципу “лучшая оборона – это нападение”. Так что KPI свой на скорость найма DS HRы выполнили, а такие же CDO / CDS в бизнесе продолжили нанимать DS по-старому.

Прошло много лет, организация все так же не умеет ни в найм (ищут поболее чем полгода), ни в кадровые агенства, зато обещает заплатить копейку (или 80 копеек) если кого-то туда порекомендуете. Кстати, я бы советовал относиться скептически – к моменту выплаты может выясниться что рекомендуемый вами друг уже 3 года в HR-базе организации и выплата вам не положена (а поди проверь их базу).
👍7
по мотивам прошлого поста -- поделитесь, пожалуйста, как у вас устроена система найма?
например, я первый квартал собесил всех сам -- калибровался на рынок, затем сделал так:
1) скриннинг с рекрутером (10 случайных блиц-вопросов, вопросы генерит бот в телеге)
2) собес по ml (в зависимости от ветки -- classic / pricing / recsys / nlp)
3) собес sql + python
4) собес с продактом по кейсам / для более инженерных ролей -- system design с тех лидом
а как у вас? как вы к этому пришли?
👍61
#корпжиза

Про KPI и роль HR в жизни DS часть 2
В первой части было как попытка попросить каналий-HR начать нанимать DS привела к тому что внезапно и я оказался не-DS (как и ставки для найма).
Но сюр в том, что как-то за год до той истории, лично самый топовый топ поручил HR нанять не меньше половины списка ТОП 100 DS в РФ. Так как такого списка нигде не было (да и нет, к счастью), в лучших традициях корпоративного управления составить его было поручено тем же самым HR.
Как вы думаете, как же они реально закрыли поручению по найму половины списка ТОП 100 DS в РФ?
Подсказка – я в тот список попал. Потому во второй части было особенно забавно что я не DS.
4
#кейсы #ML

Пацан сказал — пацан сделал! Влад обещал подхватить эстафету — и вот его первая (?) встреча с DS-канальей
Forwarded from Sberloga (🇻 🇱 🇦 🇩)
Короч история будет длинная, сегодня будет первая серия 😁

Когда только в сбер устроился, дали задание поставить в прод рекомендательную систему для дочерней компании, которая с юл работает. Были артефакты, код для инференса, описание как поставить модель и сам отчет о построении. Выглядит все заебись 👍
Ну собственно раз отчет был, я не особо решил вдаваться в подробности, да и был он листов на 15 А4 😩 Наверное только его написание заняло минимум пару недель, читать его не особо хотелось и решил по максимуму сконцентрировать силы на самой задаче 💪
Как оказалось в рамках постановки в прод, должен был быть развернут postgres, и туда нужно было пролить таблицу с какимито эмбедингами по юр лицам. DS по какимто причинам подумал, что будет супер крутой идеей ее сохранить в формате csv, а каждое число хранить с точностью в 19 знаков. В итоге эта таблица оказалась 10млн х 50 в виде текста которая занимает 10Гб в не сжатом виде. Это нужно было выкачать из внутреннего контура и передать во внешнюю компанию. Как я это сделал я уж писать не буду, но я конечно удивлен, что никого после этого не уволили 😅
Кстати в сериализированном виде она весила 300мб всего
Все это отдавал разрабу в дочке (у меня прав не было) и писал ему какие команды запускать. Запустилось ли с первого раза? Конечно же нет (спасибо за охеренное качества код), в общем с разрабом неделю переписывались исправляя раз за разом все новые ошибки 😱
В итоге запустили рекомендашку раньше положенного, все как нужно. Но на следующий день разраб снова пишет
- Влад, а моделька то "твоя" чет хуевая, она же на сайте в риалтайм должна работать, а там время ответа 3сек. Да и то почти по всем клиентам рекомендашки одни и теже...
Ну собтвенно, я попробовал объяснить, что вообще модель то не моя, а девочки которая писала все с нами больше не работает, а ушла в яндекс. Столько мата в свой адрес я еще не слышал. Самый сок была фраза "вы что доверили кодить девушке???" 😂 ну собственно по итогу так и оказалось, не стоило 😅
Короч начал копать этот великолепный код с отчетом, чтобы понять что там не так и знаете что? После csv на 10гб я догадывался, что там будут странности, но вся дичь еще впереди...
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17