Заметки дата-сатаниста
272 subscribers
43 photos
1 video
31 links
Про повседневность ML инженера, мотивацию, вызовы, работу с данными и истории из жизни.
Download Telegram
Все новое - хорошо забытое старое
☑️ #чек_лист

Делюсь собственным чек-листом готовности идеи ML проекта к внедрению👇
1. Определение задачи: как машинное обучение может улучшить бизнес-процессы или определенные операции.
2. Оценка ценности: определение потенциальных экономических преимуществ, которые может принести внедрение проекта.
3. Доступность данных: оценка доступности и качества данных, необходимых для обучения моделей.
4. Культура компании: насколько компания готова к изменениям и внедрению новых технологий.
5. Планирование: разработка роадмапа внедрения проекта с определением ролей и зон ответственности.
6. Наличие ресурсов и компетенций: есть ли у вас необходимые ресурсы, вычислительные мощности, данные и квалифицированные специалисты, чтобы выполнить проект.
7. Оценка рисков: возможные риски, связанные с внедрением проекта, и меры по их минимизации.
8. Поддержка и улучшение качества: создать план поддержки и повышения качества, чтобы обеспечить успешное внедрение и дальнейшее развитие проекта.

В идеальном мире галочки должны стоять напротив каждого пункта. Но в реальности будет хорошо, если 4-5 пунктов будут зелеными.
#тру_стори

Один знакомый последние полгода активно продвигает идею проекта и пытается внедрить его. Проект по своей сути - адаптация кода из одного популярного курса под локальную архитектуру компании. Если проще - обезьянничество.

Наверняка все мы так делали - брали код из открытого источника и применяли у себя. Вроде не страшно, да и для дела полезно.
Но вот что меня всегда угнетало в такой ситуации, так это то, с какой помпой преподносится решение.
Зачем продавать этот проект как верх архитектурной мысли, если это простой копи-паст? Как можно чужое решение называть своим, если своего там минимум? В чем ценность такого проекта?

И самый интересный вопрос: почему это меня так тригерит? 🤔

Го в комментарии - это оттачивание навыков, одобряем, или обезьянничество и не одобряем?
Media is too big
VIEW IN TELEGRAM
Новая компания и привычная структура
#мануал

Когда я впервые услышал про авто-ML, то представлял себе чудесную кнопку "fit_predict", которая делает все за нас. Так сильно я еще не ошибался.

Готовлю мануал по интересной библиотеке PyCaret.
Если хочется получить бейзлайн в 5 строк кода, то вот ссылка на ноутбук с примером.

В этой библиотеке мне нравится блок с оценкой качества модели - информативные графики по одной кнопке.
Правда есть у нее серьезный минус - библиотека очень требовательна к ресурсам. А если подрубить внутренний препроцессинг, то упасть в OOM достаточно легко.

Теперь можно провести эксперименты с данными за 15-минутный перерыв на кофе между созвонами ☕️
#мануал

В самом разгаре идет соревнование от МТС по очень распространенной и в каком-то смысле игровой задаче - классификации. Предлагают по куки определять пол и возраст юзера, доступно 200+ млн строк.
Здесь можно скачать бейзлайн от организаторов и посмотреть на работу с данными с помощью PyArrow - библиотеки для работы с большими данными, оптимизированной под работу in-memory analytics.

Кстати призовые за первое место - 350к деревянных.

А здесь ссылка на само соревнование.
Сегодня вышла, кажется, единственная ААА игра от российских разработчиков - Atomic Heart.
Сюжет про СССР 50х годов, где наступили времена киберпанка.
Музыкальным сопровождением игры занимался Мик Гордон, который работал над саундтреками к Doom. Он сделал ремиксы на популярные советские хиты группы "Мираж", Аллы Пугачевой и некоторые другие. Музыка уже появилась в сторах и можно испытать новые ощущения со знакомым привкусом.

Средняя оценка Atomic Heart на Metacritic составляет 79 баллов из 100 на базе 19 рецензий, что вполне неплохо для дебюта, но все-таки по 19 рецензиям судить рано. Возможно их оставили просто вежливые люди.

Интересно то, что для создания изображений человекоподобных роботов вероятно использовались Dreambooth и Textual Inversion подходы, которые по сути переобучают нейронку на переданный образ и позволяют генерить различные изображения объекта, на который сеть переобучилась.
AB-тесты в несколько строк кода?

Помню как тратил временя на дизайн АБ-теста и в голову все время шла идея, что механики расчетов можно оформить в библиотеку. Команда Big Data МТС в конце 2022 года выложила в open source такую библиотеку, уже поставил им звезду.

Подготовил #мануал по расчету размера датасета с использованием этой крутой библиотеки, которая называется ambrosia.

В мануале для понижения дисперсии применил CUPED с несколькими ковариатами. Да, библиотека и в такое умеет.

🔗 Вот ссылка на колаб с кодом.

А что ты используешь для дизайна АБ-теста? Может есть еще более крутая либа?
#тру_стори

Как я пришел в ML?
Бизнес всегда мне был интересен с точки зрения его эволюции.
Компания - сложный организм из людей, интересов, авторитетов, денег, влияния и многого другого. По сути - небольшой мир, в котором мы живем каждый день.
Мой внутренний перфекционист ворчит, когда что-то внутри бизнеса, за который я болею душой, происходит не оптимально. В начале карьерного пути я глубоко погружался в важные для бизнеса темы и испытывал жгучее желание делать его лучше. Это желание все еще живет, оно научило многому и привело меня в ML.

Ты просто думаешь, как сделать коллег/клиентов счастливее, и ответ находится сам собой - автоматизируй donkey work, которая убивает творческий потенциал человека.
ML в моем мире - это инструмент, которым я помогаю коллегам не чахнуть, а бизнесу - расти.
Еще живой интерес к разным темам на стыке бизнеса/математики/кода не дает мозгу засохнуть и подпитывает его новой информацией.
В итоге получается стратегия win-win, что на рынке труда - редкое явление.
Мысли о потери времени.

Бывают дни, когда меня преследует ощущение бесполезности. Можно ли потерю времени как-то измерить?
Спишь ночью 8 часов и на утро не жалеешь о потери времени. Почему?

Потому что время измеряется не только в часах. Время можно измерить в часах, умноженных на единицу внимания. Поэтому я высоко ценю те периоды, когда фокус на занятии достигает своего предела. Ведь внимание - это настолько мощный ресурс, который дает способность совершить колоссальный рывок, двигаться вперед кратно быстрее.

Последние два месяца практикую периоды полной фокусировки и они уже дали свои плоды. Помогает таск-менеджер, правильное питание и наушники. В среднем в день получается 4 часа наибольшего фокуса, когда можно учится/делать сложный проект/проводить важный звонок.
Работаю над увеличением своего времени до 5 часов - идет сложно.

А как ты управляешь своим вниманием? Знаешь для этого лайфхаки?

P.S. Слышал про пьяное программирование, но это скорее шутка, чем лайфхак 🍸
Ха, а вот и вакансия, где нужны навыки работы с ChatGPT.
Походил по сайту и нашел несколько таких. Удивительно, как быстро инструмент создает новые ниши. Бесплатная идея для стартапа - курс по составлению промптов для этой сетки 💸💰

Как и множество других идей для стартапа, делать ее конечно же не буду.
#тру_стори
Как я пришел в ML? Часть 2.

Первой задачей, где применил что-то похожее на ML, была оптимизация расписания клиент-менеджеров в небольшой стоматологии, которой руководил один знакомый.

Случалось, что четыре из пяти менеджеров у него были ничем не заняты, но знакомый все равно выводил больше менеджеров на случай резкого роста потока клиентов. В то время он активно работал над продвижением стоматологии и ожидал роста потока.

Родилась идея посчитать интервал для роста и отпустить домой тех менеджеров, кто точно не будет загружен. Через неделю выкатил ему сервис, который прогнозировал на несколько дней вперед поток клиентов в зависимости от его маркетинговых активностей.

Под капотом у этого решения была несложная SARIMAX, которой хватало для целей бизнеса.
В тот момент я еще работал аналитиком и мало что знал про ML, его алгоритмы, математику внутри алгоритмов и другие важные аспекты. Но процесс внедрения решения так понравился, что я до сих пор помню этот восторг.

К чему все? Я начал изучение ML и всего, что под капотом, именно в тот момент. У меня не было университетского математического образования, но оно, как выяснилось, для решения задач начального уровня и не требуется. Хотя чем дальше, тем больше требуется.
«Зрелищная и абсурдная»: реклама по реальным брифам «Азбуки вкуса», «Ozon» и «Тинькофф».
Был у меня недавно пост про нейро-копирайтера, так вот теперь видимо будет про нейро-дизайнера. На днях нашел примеры, как дизайнеры креативят, вот забавные примеры: Азбука вкуса -> «Свежий кофе», Тинькофф -> «Голосовой ассистент Олег», Ozon -> «Расширение возможностей малого и среднего бизнеса».
ML или бизнес-правила?

Сталкивался с подходом, когда вместо внедрения ML звучит фраза "а давайте сделаем все на понятных бизнес-правилах?". Бизнес-правила, алгоритмы, оно же - Operations Research, помогает в решении многих задач. Я как-то на собеседовании решал задачу поиска оптимального пути и удивился, сколько существует вариантов решения без применения ML.

За алгоритмами стоят изящные идеи. Из-за этого они, в каком-то смысле, слишком просты для окружающей нас действительности. Шаг в сторону ML уменьшает прозрачность для бизнеса, но может сильно добавить в качестве.

Основная проблема для меня была в том, чтобы продемонстрировать бизнесу эту потенциальную пользу от уменьшения прозрачности. Часто такая дуэль заканчивается победой бизнес-правил.
Я же убежден, что два этих подхода могут взаимно дополнять друг друга. Эту простую идею стараюсь транслировать приверженцам бизнес-правил, но все еще не нашел серебряной пули для ответа на вопрос в начале поста.
Почему уже поздно "строить ML в компании"?

Десять или двадцать лет назад ML был не так популярен, про нейронные сети знала малая часть людей. Сейчас же про ChatGPT говорят буквально все. Эта ситуация чем-то напоминает историю с тюлпанами в Нидерландах, а именно частью про падение перегретого рынка. В истории с тюльпанами все кончилось из-за особо активных торговцев, которые постепенно подняли ценник за счет привлечения новых не очень квалифицированных покупателей, через время новых покупателей уже не осталось и пузырь лопнул.

Сейчас многие компании хотят внедрить разного рода ML, при этом малая часть из них действительно способны грамотно работать с этим инструментом. Из-за этого продавец ML-инженер может постепенно поднимать ценник за счет таких вот "новичков" рынка.

В итоге конкуренция за кадры в последние 10 лет выросла кратно, это приводит к инфляции требований как со стороны компаний, так и со стороны ML-инженеров. Рано или поздно не останется компаний, кто не пробовал внедрить у себя ML. Это и будет момент, когда пузырь лопнет.

Я уже начал постепенно готовиться к этому моменту. Если он не настанет завтра, то через год, пять или может пятьдесят. В любом случае выживет тот, кто сумел применить ML в компании эффективно. И я хочу быть в такой команде.

P.S. а может эти рассуждения в целом для IT-рынка применимы.