NoML Digest

📺 Тот самый доклад про большие модели (первые 23 минуты)
Jack Clark - Big Model: What Has Happened, Where Are We Going, and Who Gets to Build Them
в рамках воркшопа Центра по исследованию больших моделей в Стэнфорде

📄Та самая 160 страничная публикация того самого центра
On the Opportunities and Risks of Foundation Models
(сам никак не дочитаю, будет чем заняться вечером перед нашей дискусией)

753 viewsPavel Snurnitsyn, 18:00

NoML Digest

🦜🦜🦜 Про стохастических попугаев:

📄 Публикация: On the Dangers of Stochastic Parrots: Can Language Models Be Too Big
📺 Доклад от одного из соавторов с последующим обсуждением
🔥(Не)много критики

787 viewsPavel Snurnitsyn, edited 11:16

NoML Digest

📄Еще публикация в сторону контроля и регулирование сферы ИИ: Why and How Governments Should Monitor AI Development
⚡️И тут еще пролетали новости, что в Китае уже собрались регулировать)

Тоже хорошая тема к обсуждению на сегодняшней дискуссии)
Подключайтесь!

816 viewsPavel Snurnitsyn, edited 17:36

NoML Digest

Foundation Models

NoML Community

894 viewsPavel Snurnitsyn, 19:40

NoML Digest

Игорь Куралёнок😎 из Яндекс.Облака снова звучит в наших наушниках=)
Это я к тому, что новый выпуск подкаста Дайте Данных вышел на всех основных платформах:
📌 Anchor
📌 Apple Podcasts
📌 Яндекс Музыка
📌 Spotify

1.4K viewsPavel Snurnitsyn, 16:00

NoML Digest

На этой неделе - любимая тема MLOps=)

В четверг, 28 октября в 21:00 МСК в нашем голосовом чате планируем обсудить тему технологической зрелости и области MLOps в целом, и инструментария в частности (в особенности с открытым исходным кодом).
В качестве примера поделимся захватывающими историями про опыт промышленного внедрения Kubeflow.

К дискуссии уже обещают подключиться:
😎Антон Недосеков, архитектор цифровых решений управления корпоративной архитектуры Банка «Санкт-Петербург»,
😎Григорий Шутов, архитектор ML платформ практики Advanced Analytics в GlowByte,

и вы подключайтесь послушать и поговорить!

768 viewsPavel Snurnitsyn, 16:42

NoML Digest

Про захватывающие истории с Kubeflow можно начать читать в статье Антона)
🚀 Как мы в Банке «Санкт-Петербург» внедряли платформу машинного обучения

vc.ru

Как мы в Банке «Санкт-Петербург» внедряли платформу машинного обучения — Машинное обучение на vc.ru

Работа с моделями машинного обучения в Банке «Санкт-Петербург» ведется с 2010 года. Первопроходцами в этой области были подразделения по работе с кредитными и банковскими рисками, которые реализуют и поддерживают модели кредитного скоринга физических и юридических…

701 viewsPavel Snurnitsyn, 09:15

NoML Digest

Периодически мониторю какие-то рассылки и подписки по ключевым словам MLOps и ModelOps. Тема на хайпе, пишут про MLOps все подряд, и в результате последнее время 99% этих статей состоят просто из каких-то рандомных перестановок предложений со словами ML, DevOps, MLOps, грустных историй про то, что те несчастные 80% ML моделей все так никак и не могут дойти до прода, ну и еще про то, почему у CDO или CIO есть очередные N причин уделить внимание MLOps в этом году.

Но среди этого потока иногда попадается что-то полезное. Хочу порекомендовать вот этот текст:
📌 Ville Tuulos, Hugo Bowne-Anderson - MLOps and DevOps: Why Data Makes It Different

Во-первых, в статье аргументы про различие DevOps и MLOps, а именно почему у парадигмы data-centric programming свой особый путь. Вопрос про границы между DevOps и MLOps и то, является ли последний подмножеством первого, интересный, надеюсь сегодня его как следует обсудим в голосовом чатике=)

Во-вторых, хорошее выделение слоёв ML проектов и как следствие в принципе платформы для анализа данных:
- Data
- Compute
- Orchestration
- Versioning
- Software Architecture
- Model Operations
- Feature Engineering
- Model Development
И плюс важный тезис, про который в целом как-то мало говорят, а именно про процессы A/B тестирования и экспериментирования, которые распространяются на несколько слоев и проекта и платформы.

И в-третьих, еще один важный тезис, про который тоже мало говорят: “Wrapping The Stack” (так и переведём, обёртывание=)).
В каждом слое есть много инструментов, которые хорошо решают свою частную задачу общего проекта по анализу данных. При этом возникает потребность обернуть весь этот стек инструментов в единое решение так, чтобы, во-первых, команды анализа данных могли сосредоточиться на последних слоях платформы и абстрагироваться от более технических слоев, а, во-вторых, сделать взаимодействие стека инструментов этих слоев более бесшовным.
Если этого достичь, то можно надеяться на то, что команды анализа данных будут более эффективно решать бизнес задачи целиком, от проверки гипотез и прототипирования до внедрения и улучшения в процессе эксплуатации.
В качестве примеров таких обёрток авторы приводят инструменты типа Metaflow и Kubeflow.

Дальше хочу уже от себя добавить про необходимость еще одного уровня обёрток, который призван соединить не только технические слои ML, но и бизнес контекст решаемой задачи. Такая обёртка позволит оперировать сущностями более высокого уровня, чем датасет, фичи и модель, а именно: группа связанных моделей, сквозные эксперименты и правила принятия решений в конечном бизнес процессе.

После последней мысли вспоминается, во-первых, вопрос про разницу между терминами MLOps и ModelOps, а во-вторых, напрашивается еще один XOps, который как раз про операционализацию процесса принятия решений на базе ML и аналитики. До этого вопроса тоже быть дойдем в нашей дискуссии сегодня, подключайтесь!

Ну и собственно ждем больше статей на тему эффективного обёртывания ML в домашних условиях)

O’Reilly Media

MLOps and DevOps: Why Data Makes It Different

Machine Learning’s deployment stack is maturing

716 viewsPavel Snurnitsyn, 15:49

NoML Digest

State of MLOps

NoML Community

789 viewsPavel Snurnitsyn, 19:39

NoML Digest

Про сумасшедший ландшафт MLOps инструментов.

📌 Ресурс The State of MLOps. И небольшая статья с аналитикой по данным из этого ресурса:
The state of MLOps in 2021 is dominated by startups
Статья, правда, начинается с фразы "87% of data science projects never make it into production"🤦

📌 Еще один ресурс со сводной информацией про инструменты MLOps: MLOps.toys.

📌 Тут не только про ML, но в принципе про данные и аналитику: MAD Landscape. И статья в придачу:
The 2021 machine learning, AI, and data landscape

📌 Также напомню, что есть отдельный ресурс про Feature Store
Правда сводная табличка про проекты FS кажется немного мертвой…

О том, что мы планируем с этим всем делать (по крайней мере в части MLOps) напишу на следующей неделе😉

912 viewsPavel Snurnitsyn, 08:08

NoML Digest

Всем привет!

У нас небольшие изменения по происходящему в этом канале.

Теперь, будет так: каждую неделю есть одно основное событие и связанная с ним подборка материалов. Список событий, у нас на текущий момент, состоит из войсчата и подкаста. То есть теперь на неделе, когда выходит подкаст, у нас не будет голосового чата.

Список видов событий мы планируем расширять, например, совсем скоро у нас появятся онлайн семинары с презентациями, погружением в технические детали и в общем все, как многие просили) Первый семинар запланирован на 24 ноября, ближе к делу напишем анонс. К началу года планируем выйти на регулярность семинаров раз в две недели.

Еще из изменений: войсчаты больше не будем записывать, надеемся, так будет более расслабленная и неформальная обстановка с возможностью пофлудить на около MLные темы.

Собственно на этой неделе у нас новый выпуск подкаста, как появится на основных платформах, напишем дополнительно)

А еще мы завели канал на YouTube, там тоже есть подкаст, и там будут появляться записи онлайн семинаров.

705 viewsPavel Snurnitsyn, 17:21

NoML Digest

Пятый выпуск Дайте Данных появился на всех основных площадках.

В гостях 😎Сергей Путятинский, Заместитель председателя правления Московского кредитного банка.

📌 Anchor
📌 Яндекс Музыка
📌 Apple Podcasts
📌 YouTube

Anchor

Выпуск пятый: “ML в банке: о вызовах, успехах и экспериментах” by Дайте данных

Чем ML в банке сегодня отличается от того, что было десять-пятнадцать лет назад? С какими вызовами сталкиваются компании при переходе на data driven подход? В каких задачах сейчас используют ML и будет использовать в будущем?
Об этом Александр Бородин беседует…

790 viewsPavel Snurnitsyn, 12:43

NoML Digest

Коллеги из МКБ приглашают принять участие в хакатоне для специалистов по Data Science:

Московский кредитный банк (МКБ) организует онлайн хакатон для молодых специалистов по Data Science. Если ты студент последних курсов или начинающий специалист, прояви свои таланты и выиграй отличные призы! В хакатоне предстоит построить модель оценки вероятности выполнения обязательств клиентом банка при получении банковской гарантии. Победителей определяем в два этапа:
1️⃣ Шортлист из 10 решений будет выбран по специальной метрике с помощью искусственного интеллекта.
2️⃣ Тройку победителей выберет комиссия экспертов.

Что на кону:
✅ MacBook Pro, MacBook Air или iPhone.
✅ Предложение присоединиться к уникальному коллективу одного из крупнейших банков России.

Старт Хакатона – 01.11.2021, Финиш – 30.11.2021.

Подробности по ссылке:

Попробуй свои силы в новом хакатоне от МКБ!

1.1K viewsPavel Snurnitsyn, edited 12:52

NoML Digest

В этот четверг, 11 ноября в 21:00 МСК дискутируем на тему графических интерфейсов вокруг ML и продвинутой аналитики.

Пристально посмотрим на весь жизненный цикл моделей и разберёмся, где действительно графический интерфейс упрощает работу или даже необходим, а где без кода все равно никак не обойтись.

К дискуссии уже обещают подключиться Максим Гончаров и Александр Собенников из GlowByte Advanced Analytics 😎, и вы подключайтесь!

Встречаемся в голосовом чате.

802 viewsPavel Snurnitsyn, 16:58

NoML Digest

Классический пример интерфейса для данных и аналитики - инструменты BI. А тут коллеги как раз организуют конференцию GlowByte Tableau Adventure, которая пройдёт в онлайн формате 25 ноября с 15.00 до 17.00.

На конференции BI эксперты из Работа.ру, Райфайзен Банк, Самолет Девелопмент, GlowByte Consulting поделятся практическими кейсами применения Tableau в важнейших процессах компаний, обсудят лайфхаки по нетиповой визуализации сложных данных и расскажут о преимуществах и сложностях внедрения Data-Driven подхода.

За 2 часа, вы узнаете:
📌 Как вовлечь руководителей в реальное использование BI. Алексей Бурин, Райфайзен Банк.
📌 Сложности и нетривиальные подходы к визуализации данных по продажам недвижимости в Tableau. Валерия Мережникова, Самолет Девелопмент.
📌 Как стать Data-Driven компанией и почему Tableau один из ключевых элементов в этом процессе. Елена Артемьева, Работа.ру.
📌 О наиболее важных подходах и принципах создания дизайн-систем. Сможете определить, когда она становится критически важной для развития BI в компании. Екатерина Благирева, GlowByte.

Присоединяйтесь к нашему приключению в мире красивых данных!

Регистрируйтесь по ссылке и участвуйте в розыгрыше полезных для каждого аналитика призов от компании GlowByte=)

Glowbyteconsulting

Digital-конференция Tableau Adventure от GlowByte

Tableau Adventure — это бесплатное событие, на котором эксперты сферы BI поделятся своим опытом и расскажут о новых трендах практики Self-service BI и Data Driven-решениях

756 viewsPavel Snurnitsyn, 10:14

NoML Digest

Тут недавно обнаружился новый термин: MLGUI🤦
📌 Building MLGUI, user interfaces for machine learning applications

Насколько я понял, это по сути то, что мы когда то обозвали аналитическими приложениями и у нас уже даже была дискуссия на эту тему:
🎙 запись голосового чата и анонс

Еще по поводу этого термина поучаствовал недавно вместе с другими авторами вот в этой статье:
📌 ML с человеческим лицом: могут ли интерфейсы сделать машинное обучение понятным и доступным
Статья получилась про интерфейсы вокруг ML в принципе, собственно что и хотим пообсуждать завтра в голосовом чате, подключайтесь=)

Мне кстати еще не очень нравится термин именно MLGUI, потому что тема важная не только в контексте проектов с использованием именно ML, а в целом в проектах с использованием сложной аналитики данных.
А вы что думаете? Раз уж вводить новые термины, MLGUI или лучше все таки DSGUI?

VentureBeat

Building MLGUI, user interfaces for machine learning applications

In this interview, KPMG's Philip Vollet talks about why building user interfaces is necessary to unlock AI's true potential.

679 viewsPavel Snurnitsyn, 07:38

NoML Digest

Еще немного мыслей, которые не совсем вошли в статью про MLGUI.

Как мы знаем, жизненный цикл модели (ЖЦМ) верхнеуровнево и упрощенно выглядит как-то так
1️⃣ Подготовка данных и фичей
2️⃣ Обучение модели и всякий прочий data science
3️⃣ Вывод полученных результатов в ПРОД
4️⃣ Использование модели в процессе принятия бизнес решений
5️⃣ Регулярные мониторинг и валидация модели (и данных) и соотвественно после того как модель рано или поздно деградирует или потеряет актуальность, возврат к шагу 1

В процессе этого ЖЦМ участвует много различного рода “пользователей”:
1️⃣ Инженеры данных, которые являются пользователями платформы данных и инструментов по обработке данных
2️⃣ Датасайнтисты/Специалисты по ML, которые являются пользователями ML платформы и инструментов по обучению моделей
3️⃣ ML и MLOps инженеры, которые отвечают за продуктивизацию конечного решения и являются пользователями MLOps инструментов
4️⃣ Собственно бизнес эксперты и аналитики которые как раз участвуют в процессах принятия решений при помощи DS/ML приложений
5️⃣ Все неравнодушные к судьбе модели и решений на ее основе

И у каждого из этих пользователей есть свой UI: и CLI, и API, и GUI. С написанием кода на Python, SQL и прочей Scala все понятно, это общепринятые рабочие инструменты специалистов по DS/ML. Но на каждом этапе и для каждой роли может быть и набор GUI:
1️⃣ Для инженеров данных есть свои NoCode и LowCode инструменты, а также наши любимые инструменты класса Feature Store, которые в том числе представляют и GUI для работы с данными на стороне датаинжинеров и датасайнтистов.
2️⃣ Для датасайнтистов есть и NoCode/LowCode инструменты для конструирования процесса аналитики, и различные инструменты для интерпретации результатов и прочей визуализации архитектур сетей, и решения класса AutoML тоже часто имеют в себе GUI и еще много чего.
3️⃣ Для MLOps инженеров в части задач именно вывода моделей и аналитики в ПРОД также есть GUI и в уже общепринятых DevOps инструментах, и в новых специализирвоанных MLOps инструментах.
4️⃣ Для использующих модели бизнес аналитиков, экспертов и инженеров - как раз аналитические приложения или DSGUI/MLGUI.
5️⃣ Ну а в случае дэшбордов мониторинга и различных инструментов для Model Performance и Observability GUI подразумевается само собой

В этом многообразии GUI вокруг ЖЦМ есть еще один пункт
🔄 Тот самый пока еще один XOps, который про обертку всего этого добра (мысли про который возникли тут). Пока DS команда небольшая и задач перед ней стоит не очень много, участники и роли могут работать со своими разрозненными инструментами как кому удобно: кто-то пишет код и скрипты, кто-то использует NoCode и AutoML, кто-то из бизнес аналитиков смотрит на данные через Excel, а кто-то просит MLGUI. Но с ростом команды и количества проектов появляется необходимость сквозного управления и всем этим тех. стеком и всеми бизнес процессами, которые над ним крутятся. И в идеале нужен единый интерфейс - точка входа для всех ролей, который как раз будет сшивать и многообразие инструментов и процессы решения бизнес задач.

Можно было бы ввести термин MLUX=), как раз про то как со всеми аспектами ML взаимодействуют разные роли, но его уже кто-то занял для другой темы: https://medium.com/ml-ux/what-is-ml-ux-71d5e6d6ce9

P.S.: А если вернуться к MLGUI/DSGUI, то тут тоже напрашивается свой Ops) Пока концепция аналитических приложений работает скорее в режиме прототипирования, то есть сделать по быстрому простое приложение и дать его в руки 1-3 бизнес пользователям которые его покрутят, без решения вопросов серьезной пользовательской нагрузки и инфобеза. Но сама по себе концепция таких быстро и просто собранных приложений на стороне команды DS вполне себе может претендовать на уровень ПРОД системы, с большей пользовательской нагрузкой и решенными вопросами ИБ. Так что ждем инструменты, на которых можно будет выстраивать такие фабрики аналитических приложений и вообще делать MLGUIOps)

В общем, подключайтесь в голосовому чату сегодня вечером, будем новые термины придумывать))

692 viewsPavel Snurnitsyn, 11:14

NoML Digest

Статьи про инструменты Яндекса, про которые Игорь говорил:
📌 Познаём Нирвану – универсальную вычислительную платформу Яндекса
📌 Ранжирование в Яндексе: как поставить машинное обучение на поток

710 viewsPavel Snurnitsyn, 19:33

NoML Digest

В контексте вот этого обсуждения обещали статью с деталями про опыт внедрения Kubeflow в варианте on prem. Cтатья доехала)
📌 Опыт внедрения Kubeflow в кластере Kubernetes

🐓🐓🐓

714 viewsPavel Snurnitsyn, 13:43

NoML Digest

На этой неделе у нас выходит подкаст по необычной теме: "Поведенческая экономика". Ведь каждый аналитик хоть раз в жизни да и сталкивался с предложением почитать книгу Даниэля Канемана "Думай медленно - решай быстро".

Выпуск появится завтра на всех основных площадках, а пока подборка от Натальи Тогановой (@nataliatoganova), что можно почитать по теме:

📌 Kahneman D. Thinking fast and slow. - Только не стоит забывать, что со времени написания книги прошло сколько-то лет и часть исследований, на которых она базируется были признаны слегка сфальсифицированными (например, идея фрейминга).
📌 Kahneman D., Sibony O., Sunstein C. Noise: A Flaw in Human Judgment. - Вышла в 21 году и свежий мастрид по теме.
📌 Thaler R.H., Sunstein C. Nudge: Improving Decisions About Health, Wealth, and Happiness. - Берите переизданную авторами книгу с поправками, где они учли развитие событий и вычеркнули все те исследования, которые были признаны ошибочными.
📌 Thaler R.H. Misbehaving: The Making of Behavioral Economics. - Местами хардкор. Но любимая глава это про то, как профессора делили кабинеты в новом здании. Глава эта в конце - но дочитайте, получите несказанное удовольствие.

Если вы любите экономику и как-то пршли мимо, то конечно же это книги: Akerlof G. и Shiller R. Хочется написать все, но приведем три:
📌 "Animal Spirits: How Human Psychology Drives the Economy, and Why It Matters for Global Capitalism"
📌 "Phishing for Phools: the Econmics of Manipulation and Deception"
📌 "Narrative Economics: How Stories Go Viral and Drive Major Economic Events".

Книги в которых есть много о том, как избегать байясов или хотя бы стремиться к этому, ведь именно по этому мы как аналитики должны стремиться:
📌 Rosling H., Roennlund A., Rosling O. Factfulness: Ten Reasons We're Wrong About the World -- and Why Things Are Better Than You Think. - Хорошая книга, поскольку на привычных и знакомых многим реалиях показывает, на сколько мы ошибаемся.
📌 Weinberg G., Mcann L. Super Thinking: The Big Book of Mental Models. В этой книге собраны концепции, к которым порой легко обратиться (или точнее обращаются), чтобы оценить какой-то процесс на вскидку. Так называемые rules of thumb.
📌 Levitin D. The Organized Mind: Thinking Straight in the Age of Information Overload. - В книге масса подходов к разным вопросам. Много всего дельного. Например, система как придумывать пароли от все возможных сервисов так, чтобы их не забывать.
📌 Harford T. How to Make the World Add Up: Ten Rules for Thinking Differently About Numbers. Прекрасные примеры, когда люди обсчитывались и ошибались в суждениях. Хорошее чтиво для выходного дня.

737 viewsPavel Snurnitsyn, 10:11

About

Blog

Apps

Platform