Заметки дата-сатаниста

#MLOps

Если кто еще не слышал, то на прошлой неделе был опубликован код системы рекомендаций твиттера. Сейчас вокруг меня много говорят про разные особенности этой системы - закладки от гос.органов или политическую направленность. Пост не об этом.

ML-часть этой системы тоже стала открытой, ее можно найти здесь, а заодно посмотреть на практики работы с кодом. Ниже некоторые мысли на этот счет 👇👇👇

325 views17:50

Репозиторий интересен для изучения по нескольким причинам.

Весь код написан на python. Мне казалось, что некоторые части такой системы могли быть написаны на С++ из-за потребности в быстродействии.

Разработчики написали собственные тулзы для многих привычных вещей (логгер, env, метрики, оптимизаторы и тд), хотя можно было бы воспользоваться библиотеками. Такой подход можно понять - код контролируют разработчики твиттера, в отличии от библиотек.

Интересная организация кода. Тесты расположены рядом с модулем, который тестируется, попробую в своей практике такую организацию. Конфиги на разных уровнях дополняют друг друга, хотя для меня привычнее иметь 1-2 хорошо структурированных конфига. Репозиторий в целом организован тяжеловесно. Чувствуется, что забота о качестве кода - один из основных приоритетов в разработке.

Репозиторий дополнили ссылкой на статью с описанием алгоритма построения и использования эмбеддингов разных сущностей соцсети для рекомендаций и ранжирования. Статья на 8 страниц может быть полезна для тех, кто интересуется графовыми нейронками. В ней есть разбор самого алгоритма, сравнение по бенчмаркам с SOTA-решениями и некоторые математические выкладки.

341 views17:50

Заметки дата-сатаниста

#тру_стори

На выходных встречался с другом, который достаточно далек от мира IT - он строитель. Примерно за 30 минут разговора он узнал про ChatGPT и пережил революцию взглядов.
Первые 10 минут он удивлялся и не верил мне, следующие 10 минут восхищался и даже придумал где в его области можно применить эту чудо-машину.
Последние 10 минут глубоко задумался и начал грустить - даже его область в будущем может быть затронута.

В конце он сказал фразу: «у нас такие штуки не приживутся, ведь почти весь государственный аппарат может быть автоматизирован, а значит на всех уровнях будет сопротивление». Интересный взгляд на ChatGPT.
Похоже друг пока на стадии отрицания.

321 viewsedited 18:11

Заметки дата-сатаниста

#карьера

Про связь зарплат и объема работы.

Существует мнение, что чем усерднее трудишься, тем больше зарабатываешь.

С одной стороны я согласен с этим: усерднее трудишься -> делаешь больше задач -> быстрее растешь по скилам -> больше денег.

С другой стороны в этой логике есть изъяны, о них можно прочитать ниже ⬇️

337 views10:17

Заметки дата-сатаниста

Во-первых, нет гарантии, что каждый из этапов этой цепи двигает тебя вперед. Ты можешь делать больше задач, но никак не вырастишь, если твоя задача - переложить эксельку из одной папки в другую. Подобные примеры можно найти на каждом из звеньев цепи.

Во-вторых, размер дохода в целом определяется отраслью рынка труда. Не зря его называют рынком - на нем ~~почти везде~~ есть спрос и предложение. Рынки бывают разные и не всегда они конкурентные по модели биржевых торгов. Есть еще 3 вида рынков с перекосом спроса и предложения. Спасибо немногим исследованиям на эту тему, что дают хотя бы общее представление о рынке.

В-третьих, закрытость информации о зарплатах создает идеальную ситуацию ценовой дискриминации - когда коллега по цеху с точно такими же задачами/навыками/зоной_ответственности может получать в 1.5 раза больше тебя.

Есть много нюансов, но если грубо, то размер доходов весьма посредственно связан с объемом работы. Утверждение применимо для любых областей, не только IT.

Все это означает, что мы в мире IT-дикого-запада, где самый большой кусок пирога достается самому зубастому. Или точнее сказать наиболее прокаченному по софт-скилам?

В комментариях можно высказать аргументы за любую из позиций.

378 views10:17

Заметки дата-сатаниста

#инфо

Все мечтали себе получить Джарвиса?

В Майкрософт неделю назад опубликовали статью, вместе с ней и репозиторий с сервисом под названием Джарвис. Репозиторий еще в разработке, но сама идея уже впечатляет.

Предлагается использовать ChatGPT для обработки входящих запросов на выполнение задач, а сами задачи отдавать на аутсорс другим моделям. Эти модели брать из публичного хаба Hugging Face Hub, в котором храняться тысячи разных моделей со своими специализациями: распознавание или генерация картинок, текстов, работа со звуком и много всего еще.

Сейчас у сервиса есть UI, для запуска нужны openai.key и huggingface.token. После настройки конфигов поднять сервис не составляет большого труда. Для режима работы на максималках нужно 42+ ГБ RAM и, подозреваю, нормально настроить GPU для инференса моделей.

Надеюсь скоро появится возможность внедрить этот сервис в рабочие задачи. Интересно будет попробовать это сделать в облаке и посмотреть, сколько денег съест этот сервис.

448 views17:23

Заметки дата-сатаниста

#реклама

Про рекламу

Всем привет!

Говорят полезно задавать себе вопрос: "зачем ты это делаешь?".
Такой же вопрос я иногда задаю, когда пишу что-то в канал. Ответ для меня на этот вопрос - хочется помочь коллегам по цеху советом, как делать работу более эффективно и менее стрессово. Возможно, услышав крутую идею, кто-то захочет внедрить это в своей ежедневной работе.

Надеюсь, что идеи будут полезны, поэтому стараюсь по мере возможности распространить их на большее число людей.
Чтобы этой великой цели достичь, приходится обмениваться контентом с разными другими каналами, в которых есть те самые коллеги по цеху. Настал момент, когда и мне пора разместить партнерский контент в канале.

Надеюсь каждый отнесется к этому с пониманием, ведь рекламный пост добавляет +10 к скорости генерации моего контента.

477 viewsedited 11:13

Заметки дата-сатаниста

👨‍💻 Data Scientist — один из немногих каналов по Data Science и машинному обучению в телеграм. Ребята публикуют полезные материалы для тех, кто хочет стартануть в DS и ML.

Вот несколько фактов про DS:
◾️DataScientist — самая сексуальная профессия XXI века (согласно Harvard Business Review)
◾️В мире не хватает около 300 тысяч (!!!) спецов по DataScience
◾️В течение последних нескольких лет Data Scientist возглавляет рейтинг самых оплачиваемых работ

Хотите знать про DataScience еще больше? Или хотите стать спецом по DS? Подписывайтесь!

Data Scientist | IT

Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia

485 views14:33

Заметки дата-сатаниста

Команда Sber AI, которые, как ясно из названия, активно занимаются машинным обучением в Сбере, чуть больше недели назад опубликовали модель Kandinsky 2.1.
Признаться, я не следил за развитием этой истории в сбере, но эту модель хочется обсудить.

Кому интересно, приглашаю читать ⬇️

369 views12:32

Заметки дата-сатаниста

Наверно почти у каждого есть опыт работы с такими нейронками. Kandinsky 2.1, говорят, аналог midjourney, с хорошим понимание русского языка.

Интересен процесс тренировки такого типа моделей - им нужно скормить очень много данных и в результате получить много миллиардов параметров.

Пишут, что для версии 2.1 взяли веса версии 2.0 (училась на 1 млрд пар текст-картинка) и дообучили сначала на 170 млн пар с высоким разрешением картинки, потом еще на 2 млн пар с высококачественными изображениями (что это значит не уточняется). Отдельно отмечают, что добавляли в выборку лица людей и картинки текстов.

Страшно подумать, сколько ресурса требуется для сбора и хранения этих данных.

Говорят, добиться качественного прироста в генерации изображений высокого разрешения получилось из-за добавления автоэнкодера в процесс увеличения разрешения. По сути поверх модели v2.0 добавили декодер, который увеличивает разрешение изображения на выходе.
К сожалению, я пока не нашел статью, где авторы рассказали бы подробности архитектуры. Вся информация собрана из обрывков интервью разных причастных людей. Если вам попадалась, поделитесь, будет интересно почитать 🤓

Сбер на Хабре объявили конкурс по использованию этой сетки. Конкурс с блекджеком и айфонами, так что если кому-то очень хочется новый айфон, можно поучаствовать.

Хабр

Астрологи объявили неделю нейроарта на Хабре

Однажды весною, в час небывалого жаркого заката, на Хабре объявили конкурс, посвящённый технологиям искусственного интеллекта. В Сезоне Data Mining мы собрали статьи об обработке больших данных. Из Сезона ML узнали, как работают нейросети и с чем их готовить.…

420 views12:32

Заметки дата-сатаниста

А вот и подоспела ссылка на разбор архитектуры от авторов модели. Пошел изучать, есть много интересных картинок 👍

Хабр

Kandinsky 2.1, или Когда +0,1 значит очень много

В ноябре 2022 года мы выпустили свою первую диффузионную модель для синтеза изображений по текстовым описаниям Kandinsky 2.0 , которая собрала как позитивные, так и отрицательные отклики. Её ключевой...

470 views15:48

Заметки дата-сатаниста

Про компромисс «качество/скорость»

Недавно у меня поинтересовались, когда уже выкатится в прод модель, которую я делаю в рамках рабочих задач.

Красной линией через весь разговор шел посыл, что хочется сделать «здесь и сейчас, как-нибудь на коленке». Объяснение о том, что сложные задачи не решаются простым инструментом, ясности не добавило.

Вокруг я только и вижу коленочные решения, которые сложно поддерживать и невозможно обновить. Сам такие решения последние 2 года делать отказываюсь, но танцы с заказчиком вокруг его желания все еще продолжаются и, думаю, никогда не закончатся.

Такой же подход я вижу в работах некоторых ребят в рамках курса по MLOps 2.0, за что без сожаления ставлю «незачет». Ведь где еще, кроме учебы, будет шанс выделить время на глубокую проработку вопроса.

Это извечный компромисс скорость/качество. И если с продажей «скорости» проблем не возникает, то с продажей «качества» часто приходиться повозиться.

Интересно еще и то, что почти все собеседования нацелены проверить качество, и редко - скорость. А в работе в итоге спрашивают скорость 🧐

А на чьей стороне ты в этом противостоянии?

443 views10:55

Заметки дата-сатаниста

Процесс перфоманс ревью у меня вызывает противоречивые чувства.

И дело даже не в том, что контекст построен вокруг зарплаты/должности/достижений.
Размышления на эту тему ниже 👇

408 views13:38

Заметки дата-сатаниста

Важной частью в перфоманс-ревью является ретроспектива, которая покажет твое текущее положение в пищевой цепочке. Во всяком случае должна показать. А заодно дать направление для роста.

Матрица компетенции в этом процессе незаменима. Хочется иметь список скилов, которым нужно соответствовать на той или иной должности. Ренат в своем канале недавно опубликовал хорошую заметку на тему "Как стать Machine Learning Engineer", она в основном про хард-скилы.
Если для начальных уровней понятно, как сформировать требования по скилам, то для позиции уровня стафф инженера и выше все сложно, потому что ожидается, что технологии ты уже освоил и теперь основной вес приходится на коммуникации.

А как оценивают коммуникации? Я видел в основном случаи, когда собирают обратную связь от коллег. Коллег, которые постоянно слышат, что нужно быть позитивным и добрым. В итоге вся обратная связь сводится даже не к модели 2_похвалы-1_зона_роста, а просто к хвалебным речам про то, какой ты все-таки молодец. А значит без навыка чтения между строк двигаться дальше будет крайне сложно.

Если среди нас есть мастера коммуникации, буду рад услышать ваше мнение про то, как давать полезную обратную связь.

Пристанище Дата Сайентиста

Канал Рената Алимбекова (@alimbekovkz) про карьеру, применение и обучение Data Science. Веду блог https://alimbekov.com

По вопросам рекламы на канале обращаться к менеджеру: @hey_renataa

514 views13:38

Заметки дата-сатаниста

Шум вокруг GPТ-4...N не утихает, всем известный Валерий будет через 10 минут обсуждать эту тему с весьма известным Игорем Котенковым. Ссылка на анонс.

Время Валеры

В четверг, 13 апреля, в 15 по Лондону делаем аудио чат в этом канале вместе с Игорем планируем разбирать различные твиты и контр-твиты, вроде этого, где делаются следующие заявление:
Relax.

The industrial revolution changed every aspect of daily life for…

530 viewsedited 13:50

Заметки дата-сатаниста

#карьера

Про дисциплину и преодоление в работе/учебе

Вчера закрыл дедлайн по учебе. Уложиться было не смертельно, можно было профакапить, но мне самому хотелось двинуться дальше.
На этом фоне возникло несколько мыслей с философским уклоном.

Любая жесткая дисциплина требует расхода собранности, усилий над собой и много терпения. Все эти ресурсы не бесконечны. По моему убеждению, результативность достигается благодаря постоянству, а не усилию над собой.
Я как-то привык двигаться благодаря радости и удовольствию от процесса, стараюсь в любом процессе найти этот драйв (не всегда удается). Но эта привычка прямо противоречит жесткой дисциплине, потому что для меня в дисциплине есть сила воли и нет радости. На сколько каждого из нас хватит: на 1-2-3 месяца? А потом начнется регрессия к среднему и следующие месяцы мы будем пропускать дедлайны.

Стремление найти драйв, кстати, положительно сказывается на результативности. Если ты находишь драйв даже в малоприятном занятии, это дает энергию для быстрого и качественного выполнения задачи и открывает путь к самым вкусным задачам. Найти драйв можешь только ты, никто его тебе не принесет. Источник драйва находится внутри. Любые внешние мотиваторы здесь бесполезны. Только ты сам можешь решить, что будешь делать эту задачу с драйвом, с радостью и удовольствием. Надо самому решить сделать дело и захотеть сделать его хорошо.

Делать что-то с мыслью, что это твой собственный выбор, твое решение и твое желание - вот, как мне кажется, рецепт долговременного роста.

В этой идеи нет ничего про жесткую дисциплину и преодоление. В нашей повседневной жизни полезно избавляться от скуки и преодоления - без них живется счастливее.

Ну а я, радостный от закрытия дедлайна, могу провести выходной за чашкой чая с другом ☕️

Хороших выходных!

561 views10:50

Заметки дата-сатаниста

#MLOps

На той неделе наступил срок сдачи ТЗ проекта по курсу MLOps2.0, где я участвую в роли ментора.

Авторы курса сделали шаблон ТЗ, который, по задумке, нужно было переделать под свой проект. Всего было сдано больше 300 работ, я отсмотрел около 60-70 и могу сказать, что большая часть работ выглядит хорошо.

Опишу тут основные проблемы, которые встречал:
- есть крутая идея, но нет ответа на вопрос «зачем это бизнесу». Видел работу с идеей сделать рекомендашку полезных действий для улучшения экологии: что именно тебе нужно сделать, чтобы экология стала лучше. Обществу может и будет полезно, но мы же не в мире розовых пони;
- многие забывают про формализацию метрик, по которым оценивать модели и бизнес-эффект от них. Вопрос про то, по какой метрике в итоге будете выбирать модель, вообще ставит в тупик. Если у тебя 2-3-5 ML-метрик, то как сравнивать модели? Эти вопросы оказались сложными для участников;
- часто нет понимания, как и откуда будут приходить данные. Почти все участники хотят начать проекты сразу с EDA, хотя начинать стоит с того, где и как взять данные;
- нет представления об интеграциях и внедрении проекта. Тут все банально, вопрос про внедрение сервиса в инфру заказчика почти всегда остаётся без ответа.

Понятно, что все получили зачет с напутствиями и рекомендациями.

Интересно то, что почти никто не использовал шаблон от Head of DS в Ленте, хотя штука годная и достаточно фундаментальная.

GitHub

GitHub - IrinaGoloshchapova/ml_system_design_doc_ru

Contribute to IrinaGoloshchapova/ml_system_design_doc_ru development by creating an account on GitHub.

703 views15:41

Заметки дата-сатаниста

Две недели назад вышло обновление pandas до версии 2.0.0.
По канонам версионирования, изменение мажорной версии часто приводит к несовместимости кода, который писали на более ранних версиях.

Что поменяли?
В качестве бекенда теперь можно использовать pyarrow - полезная либа для работы с большими данными. Pandas, судя по всему, стараются быть в тренде. Теперь можно пробовать pandas вместо dask, но это не точно.
Еще изменили много моментов для работы с календарной датой. Помню, как страдал из-за особенностей работы pandas с форматированием дат и перестановкой день-месяц в разных форматах.

Есть блок про пометки "deprecations" и большой список разных удаленных фичей, которые теперь никому не нужны.

Следующее обновление версии 2.0.1 планируется уже в мае, так что может в нем исправят вновь созданные баги и даже обещают пофиксить обратную совместимость с особо ценными функциями прошлых версий.

702 views16:39

Заметки дата-сатаниста

Все мы когда-то сталкивались с задачей прогнозирования оттока юзеров. Это, в каком-то смысле, игровая задача. У меня уже несколько раз был случай, когда мы запускали в работу такую модель, а что с ней делать дальше никто не знал. Хотя эта ситуация может случиться со многими ML-проектами, чаще всего я видел ее именно в задаче оттока.

Интересный подход к прогнозированию оттока описали в статье от 2016 года. Статья хороша тем, что в ней подробно разобран самый классический подход через классификацию и предложены доп. варианты решения задачи.
Интересно то, что предлагают для прогнозирования оттока использовать не классификацию, а ранжирование. В статье приведен пример архитектуры RNN-сети для этой задачи. Еще есть много полезной инфы про то, как все-таки стоит подходить к построению моделей оттока.

Похоже на выходных эта статья будет у меня на изучении.

849 views11:46

Заметки дата-сатаниста

Сбер рассказал о создании сервиса GigaChat - конкурента импортного ChatGPT. Предполагается, что с задачами на русском языке GigaChat будет справляться лучше любой нейронки от OpenAI.

Ходят слухи, что Сбер обучал свою нейросеть на суперкомпьютере Christofari Neo. В структуру GigaChat входят модели ruGPT-3.5 с 13 млрд параметров, Kandinsky 2.1, ruCLIP и FRED-T5 — лучшая языковая модель по работе с русским языком по мнению авторов GigaChat.

Пока открытого доступа к сервису нет, но можно вступить в закрытый (фактически открытый) телеграм-канал и начинать отсчитывать часы до появления доступа. Я уже прибежал туда и жду вместе со 100к+ другими энтузиастами.

Интересно было бы почитать про обучение этих моделей на русском корпусе, как обстоят дела с устранение токсичности ответов модели, как проводили RLFH. Ждем статью от авторов.

Безусловно радует, что теперь можно не беспокоиться о блокировке ChatGPT и держать перманентно открытыми ни одну, а целых две вкладки с полезными чатами.

897 views08:36

About

Blog

Apps

Platform