Доклад про кейс построения FS в МТС на конференции SmartData на следующей неделе:
📌 14 октября 20:00, Как мы строим Feature Store, Сергей Ярымов, Data Engineer в МТС Big Data
Вообще конференция платная, но на Community Day 14 октября регистрация бесплатная, так что регистрируйтесь, Сергей вчера сказал, что будет интересно=)
📌 14 октября 20:00, Как мы строим Feature Store, Сергей Ярымов, Data Engineer в МТС Big Data
Вообще конференция платная, но на Community Day 14 октября регистрация бесплатная, так что регистрируйтесь, Сергей вчера сказал, что будет интересно=)
📌 Еще пара статей про FS:
1️⃣ MLOps: The Role of Feature Stores
2️⃣ MLOps: Building a Feature Store? Here are the top things to keep in mind
FeatureOps и ProductionOps - все таки есть новые экземпляры XOps=)
Вторая статья прямо сильно перекликается с вопросами, которые вчера поднимали.
📌 И кейс Feature Store для Edge:
A Streaming Feature Store Based on Flink and the AWS SageMaker Feature Store API
1️⃣ MLOps: The Role of Feature Stores
2️⃣ MLOps: Building a Feature Store? Here are the top things to keep in mind
FeatureOps и ProductionOps - все таки есть новые экземпляры XOps=)
Вторая статья прямо сильно перекликается с вопросами, которые вчера поднимали.
📌 И кейс Feature Store для Edge:
A Streaming Feature Store Based on Flink and the AWS SageMaker Feature Store API
Недавняя подборка статей из канала Клуб CDO, все близко к нашей теме этой недели:
📌Features are the New Data
📌A Guide to DataOps: The New Age of Data Management
📌Видеозапись серии вебинаров The A-Z of Data — блок MLOps
📌Обзор программы SmartData 2021
📌How Streaming Data Works - Overview, Examples, and Architecture
📌What Is Data Engineering? Skills and Tools Required
📌Features are the New Data
📌A Guide to DataOps: The New Age of Data Management
📌Видеозапись серии вебинаров The A-Z of Data — блок MLOps
📌Обзор программы SmartData 2021
📌How Streaming Data Works - Overview, Examples, and Architecture
📌What Is Data Engineering? Skills and Tools Required
Какое-то время назад кругом бродил вот такой пост:
Призрак бродит по планете, призрак трансгуманизма. Манифест Джека Кларка на Stanford HAI.
По мотивам этих мыслей родилась идея обсудить тему "Больших моделей" или Foundation Models. Время пришло=)
Встречаемся в этот четверг, 14 октября, в 21:00 МСК в голосовом чате
Детальный анонс будет немного позже.
P.S.: Если останется время, то новый роман Пелевина тоже можно будет обсудить
Призрак бродит по планете, призрак трансгуманизма. Манифест Джека Кларка на Stanford HAI.
По мотивам этих мыслей родилась идея обсудить тему "Больших моделей" или Foundation Models. Время пришло=)
Встречаемся в этот четверг, 14 октября, в 21:00 МСК в голосовом чате
Детальный анонс будет немного позже.
P.S.: Если останется время, то новый роман Пелевина тоже можно будет обсудить
Telegram
Малоизвестное интересное
Призрак бродит по планете, призрак трансгуманизма.
Манифест Джека Кларка на Stanford HAI.
Два весьма знаменательных события этой недели – (1) в литературе и (2) в разработке ИИ, - удивительным образом сошлись в своем базовом тезисе.
• Первое событие –…
Манифест Джека Кларка на Stanford HAI.
Два весьма знаменательных события этой недели – (1) в литературе и (2) в разработке ИИ, - удивительным образом сошлись в своем базовом тезисе.
• Первое событие –…
На следующей неделе можно будет пофайнтюнить "большую модель", а именно в рамках Yandex Scale Workshop Week состоится мероприятие при участии команды GlowByte Advanced Analytics:
💻 Создание QA-ассистента для чата с помощью Yandex DataSphere
Ведущий воркшопа: 😎 Александр Волков, Data Scientist в направлении глубокого обучения GlowByte Advanced Analytics.
Мероприятие состоится 18 октября в 18:00 МСК.
О мероприятии:
Разработаем QA-ассистента — генератор ответов на типовые вопросы, который может упростить общение с клиентами любого бизнеса. Рассмотрим, как создать подобную модель с помощью DataSphere, и обсудим другие современные подходы к генерации текста.
Как будет устроена работа над моделью:
- соберём сообщения из Telegram-чата и отфильтруем по вопросам и ответам — так сформируем обучающую и валидационную выборки;
- проведём fine-tuning языковой модели на этих данных на основе архитектуры трансформеров.
Работать будем в консоли, поэтому количество мест ограничено. Для прохождения заданий вам предоставят тестовое облако.
Присоединяйтесь!
💻 Создание QA-ассистента для чата с помощью Yandex DataSphere
Ведущий воркшопа: 😎 Александр Волков, Data Scientist в направлении глубокого обучения GlowByte Advanced Analytics.
Мероприятие состоится 18 октября в 18:00 МСК.
О мероприятии:
Разработаем QA-ассистента — генератор ответов на типовые вопросы, который может упростить общение с клиентами любого бизнеса. Рассмотрим, как создать подобную модель с помощью DataSphere, и обсудим другие современные подходы к генерации текста.
Как будет устроена работа над моделью:
- соберём сообщения из Telegram-чата и отфильтруем по вопросам и ответам — так сформируем обучающую и валидационную выборки;
- проведём fine-tuning языковой модели на этих данных на основе архитектуры трансформеров.
Работать будем в консоли, поэтому количество мест ограничено. Для прохождения заданий вам предоставят тестовое облако.
Присоединяйтесь!
Напоминаю, что завтра, 14 октября в 21:00 МСК в нашем голосовом чате обсуждаем тему Foundation Models.
Повестка встречи:
❓Что означает термин "Foundation Model"?
❓Какие преимущества и проблемы больших моделей?
❓Как большие модели используются в Яндексе и SberDevices?
❓Какие задачи умеют решать большие модели?
❓Стохастические попугаи: почему мы все еще далеки от Artificial General Intelligence?
❓Какие тренды развития больших моделей? Что будет дальше?
Эксперты участники дискуссии:
😎Игорь Куралёнок, руководитель подразделения AI&ML, Яндекс Облако
😎Денис Афанасьев, Head of TechPlatforms в SberDevices
😎Павел Егоров, руководитель направления Deep Learning, GlowByte Advanced Analytics
Повестка встречи:
❓Что означает термин "Foundation Model"?
❓Какие преимущества и проблемы больших моделей?
❓Как большие модели используются в Яндексе и SberDevices?
❓Какие задачи умеют решать большие модели?
❓Стохастические попугаи: почему мы все еще далеки от Artificial General Intelligence?
❓Какие тренды развития больших моделей? Что будет дальше?
Эксперты участники дискуссии:
😎Игорь Куралёнок, руководитель подразделения AI&ML, Яндекс Облако
😎Денис Афанасьев, Head of TechPlatforms в SberDevices
😎Павел Егоров, руководитель направления Deep Learning, GlowByte Advanced Analytics
📺 Тот самый доклад про большие модели (первые 23 минуты)
Jack Clark - Big Model: What Has Happened, Where Are We Going, and Who Gets to Build Them
в рамках воркшопа Центра по исследованию больших моделей в Стэнфорде
📄Та самая 160 страничная публикация того самого центра
On the Opportunities and Risks of Foundation Models
(сам никак не дочитаю, будет чем заняться вечером перед нашей дискусией)
Jack Clark - Big Model: What Has Happened, Where Are We Going, and Who Gets to Build Them
в рамках воркшопа Центра по исследованию больших моделей в Стэнфорде
📄Та самая 160 страничная публикация того самого центра
On the Opportunities and Risks of Foundation Models
(сам никак не дочитаю, будет чем заняться вечером перед нашей дискусией)
🦜🦜🦜 Про стохастических попугаев:
📄 Публикация: On the Dangers of Stochastic Parrots: Can Language Models Be Too Big
📺 Доклад от одного из соавторов с последующим обсуждением
🔥(Не)много критики
📄 Публикация: On the Dangers of Stochastic Parrots: Can Language Models Be Too Big
📺 Доклад от одного из соавторов с последующим обсуждением
🔥(Не)много критики
📄Еще публикация в сторону контроля и регулирование сферы ИИ: Why and How Governments Should Monitor AI Development
⚡️И тут еще пролетали новости, что в Китае уже собрались регулировать)
Тоже хорошая тема к обсуждению на сегодняшней дискуссии)
Подключайтесь!
⚡️И тут еще пролетали новости, что в Китае уже собрались регулировать)
Тоже хорошая тема к обсуждению на сегодняшней дискуссии)
Подключайтесь!
Игорь Куралёнок😎 из Яндекс.Облака снова звучит в наших наушниках=)
Это я к тому, что новый выпуск подкаста Дайте Данных вышел на всех основных платформах:
📌 Anchor
📌 Apple Podcasts
📌 Яндекс Музыка
📌 Spotify
Это я к тому, что новый выпуск подкаста Дайте Данных вышел на всех основных платформах:
📌 Anchor
📌 Apple Podcasts
📌 Яндекс Музыка
📌 Spotify
На этой неделе - любимая тема MLOps=)
В четверг, 28 октября в 21:00 МСК в нашем голосовом чате планируем обсудить тему технологической зрелости и области MLOps в целом, и инструментария в частности (в особенности с открытым исходным кодом).
В качестве примера поделимся захватывающими историями про опыт промышленного внедрения Kubeflow.
К дискуссии уже обещают подключиться:
😎Антон Недосеков, архитектор цифровых решений управления корпоративной архитектуры Банка «Санкт-Петербург»,
😎Григорий Шутов, архитектор ML платформ практики Advanced Analytics в GlowByte,
и вы подключайтесь послушать и поговорить!
В четверг, 28 октября в 21:00 МСК в нашем голосовом чате планируем обсудить тему технологической зрелости и области MLOps в целом, и инструментария в частности (в особенности с открытым исходным кодом).
В качестве примера поделимся захватывающими историями про опыт промышленного внедрения Kubeflow.
К дискуссии уже обещают подключиться:
😎Антон Недосеков, архитектор цифровых решений управления корпоративной архитектуры Банка «Санкт-Петербург»,
😎Григорий Шутов, архитектор ML платформ практики Advanced Analytics в GlowByte,
и вы подключайтесь послушать и поговорить!
Про захватывающие истории с Kubeflow можно начать читать в статье Антона)
🚀 Как мы в Банке «Санкт-Петербург» внедряли платформу машинного обучения
🚀 Как мы в Банке «Санкт-Петербург» внедряли платформу машинного обучения
vc.ru
Как мы в Банке «Санкт-Петербург» внедряли платформу машинного обучения — Машинное обучение на vc.ru
Работа с моделями машинного обучения в Банке «Санкт-Петербург» ведется с 2010 года. Первопроходцами в этой области были подразделения по работе с кредитными и банковскими рисками, которые реализуют и поддерживают модели кредитного скоринга физических и юридических…
Периодически мониторю какие-то рассылки и подписки по ключевым словам MLOps и ModelOps. Тема на хайпе, пишут про MLOps все подряд, и в результате последнее время 99% этих статей состоят просто из каких-то рандомных перестановок предложений со словами ML, DevOps, MLOps, грустных историй про то, что те несчастные 80% ML моделей все так никак и не могут дойти до прода, ну и еще про то, почему у CDO или CIO есть очередные N причин уделить внимание MLOps в этом году.
Но среди этого потока иногда попадается что-то полезное. Хочу порекомендовать вот этот текст:
📌 Ville Tuulos, Hugo Bowne-Anderson - MLOps and DevOps: Why Data Makes It Different
Во-первых, в статье аргументы про различие DevOps и MLOps, а именно почему у парадигмы data-centric programming свой особый путь. Вопрос про границы между DevOps и MLOps и то, является ли последний подмножеством первого, интересный, надеюсь сегодня его как следует обсудим в голосовом чатике=)
Во-вторых, хорошее выделение слоёв ML проектов и как следствие в принципе платформы для анализа данных:
- Data
- Compute
- Orchestration
- Versioning
- Software Architecture
- Model Operations
- Feature Engineering
- Model Development
И плюс важный тезис, про который в целом как-то мало говорят, а именно про процессы A/B тестирования и экспериментирования, которые распространяются на несколько слоев и проекта и платформы.
И в-третьих, еще один важный тезис, про который тоже мало говорят: “Wrapping The Stack” (так и переведём, обёртывание=)).
В каждом слое есть много инструментов, которые хорошо решают свою частную задачу общего проекта по анализу данных. При этом возникает потребность обернуть весь этот стек инструментов в единое решение так, чтобы, во-первых, команды анализа данных могли сосредоточиться на последних слоях платформы и абстрагироваться от более технических слоев, а, во-вторых, сделать взаимодействие стека инструментов этих слоев более бесшовным.
Если этого достичь, то можно надеяться на то, что команды анализа данных будут более эффективно решать бизнес задачи целиком, от проверки гипотез и прототипирования до внедрения и улучшения в процессе эксплуатации.
В качестве примеров таких обёрток авторы приводят инструменты типа Metaflow и Kubeflow.
Дальше хочу уже от себя добавить про необходимость еще одного уровня обёрток, который призван соединить не только технические слои ML, но и бизнес контекст решаемой задачи. Такая обёртка позволит оперировать сущностями более высокого уровня, чем датасет, фичи и модель, а именно: группа связанных моделей, сквозные эксперименты и правила принятия решений в конечном бизнес процессе.
После последней мысли вспоминается, во-первых, вопрос про разницу между терминами MLOps и ModelOps, а во-вторых, напрашивается еще один XOps, который как раз про операционализацию процесса принятия решений на базе ML и аналитики. До этого вопроса тоже быть дойдем в нашей дискуссии сегодня, подключайтесь!
Ну и собственно ждем больше статей на тему эффективного обёртывания ML в домашних условиях)
Но среди этого потока иногда попадается что-то полезное. Хочу порекомендовать вот этот текст:
📌 Ville Tuulos, Hugo Bowne-Anderson - MLOps and DevOps: Why Data Makes It Different
Во-первых, в статье аргументы про различие DevOps и MLOps, а именно почему у парадигмы data-centric programming свой особый путь. Вопрос про границы между DevOps и MLOps и то, является ли последний подмножеством первого, интересный, надеюсь сегодня его как следует обсудим в голосовом чатике=)
Во-вторых, хорошее выделение слоёв ML проектов и как следствие в принципе платформы для анализа данных:
- Data
- Compute
- Orchestration
- Versioning
- Software Architecture
- Model Operations
- Feature Engineering
- Model Development
И плюс важный тезис, про который в целом как-то мало говорят, а именно про процессы A/B тестирования и экспериментирования, которые распространяются на несколько слоев и проекта и платформы.
И в-третьих, еще один важный тезис, про который тоже мало говорят: “Wrapping The Stack” (так и переведём, обёртывание=)).
В каждом слое есть много инструментов, которые хорошо решают свою частную задачу общего проекта по анализу данных. При этом возникает потребность обернуть весь этот стек инструментов в единое решение так, чтобы, во-первых, команды анализа данных могли сосредоточиться на последних слоях платформы и абстрагироваться от более технических слоев, а, во-вторых, сделать взаимодействие стека инструментов этих слоев более бесшовным.
Если этого достичь, то можно надеяться на то, что команды анализа данных будут более эффективно решать бизнес задачи целиком, от проверки гипотез и прототипирования до внедрения и улучшения в процессе эксплуатации.
В качестве примеров таких обёрток авторы приводят инструменты типа Metaflow и Kubeflow.
Дальше хочу уже от себя добавить про необходимость еще одного уровня обёрток, который призван соединить не только технические слои ML, но и бизнес контекст решаемой задачи. Такая обёртка позволит оперировать сущностями более высокого уровня, чем датасет, фичи и модель, а именно: группа связанных моделей, сквозные эксперименты и правила принятия решений в конечном бизнес процессе.
После последней мысли вспоминается, во-первых, вопрос про разницу между терминами MLOps и ModelOps, а во-вторых, напрашивается еще один XOps, который как раз про операционализацию процесса принятия решений на базе ML и аналитики. До этого вопроса тоже быть дойдем в нашей дискуссии сегодня, подключайтесь!
Ну и собственно ждем больше статей на тему эффективного обёртывания ML в домашних условиях)
O’Reilly Media
MLOps and DevOps: Why Data Makes It Different
Machine Learning’s deployment stack is maturing
Про сумасшедший ландшафт MLOps инструментов.
📌 Ресурс The State of MLOps. И небольшая статья с аналитикой по данным из этого ресурса:
The state of MLOps in 2021 is dominated by startups
Статья, правда, начинается с фразы "87% of data science projects never make it into production"🤦
📌 Еще один ресурс со сводной информацией про инструменты MLOps: MLOps.toys.
📌 Тут не только про ML, но в принципе про данные и аналитику: MAD Landscape. И статья в придачу:
The 2021 machine learning, AI, and data landscape
📌 Также напомню, что есть отдельный ресурс про Feature Store
Правда сводная табличка про проекты FS кажется немного мертвой…
О том, что мы планируем с этим всем делать (по крайней мере в части MLOps) напишу на следующей неделе😉
📌 Ресурс The State of MLOps. И небольшая статья с аналитикой по данным из этого ресурса:
The state of MLOps in 2021 is dominated by startups
Статья, правда, начинается с фразы "87% of data science projects never make it into production"🤦
📌 Еще один ресурс со сводной информацией про инструменты MLOps: MLOps.toys.
📌 Тут не только про ML, но в принципе про данные и аналитику: MAD Landscape. И статья в придачу:
The 2021 machine learning, AI, and data landscape
📌 Также напомню, что есть отдельный ресурс про Feature Store
Правда сводная табличка про проекты FS кажется немного мертвой…
О том, что мы планируем с этим всем делать (по крайней мере в части MLOps) напишу на следующей неделе😉
Всем привет!
У нас небольшие изменения по происходящему в этом канале.
Теперь, будет так: каждую неделю есть одно основное событие и связанная с ним подборка материалов. Список событий, у нас на текущий момент, состоит из войсчата и подкаста. То есть теперь на неделе, когда выходит подкаст, у нас не будет голосового чата.
Список видов событий мы планируем расширять, например, совсем скоро у нас появятся онлайн семинары с презентациями, погружением в технические детали и в общем все, как многие просили) Первый семинар запланирован на 24 ноября, ближе к делу напишем анонс. К началу года планируем выйти на регулярность семинаров раз в две недели.
Еще из изменений: войсчаты больше не будем записывать, надеемся, так будет более расслабленная и неформальная обстановка с возможностью пофлудить на около MLные темы.
Собственно на этой неделе у нас новый выпуск подкаста, как появится на основных платформах, напишем дополнительно)
А еще мы завели канал на YouTube, там тоже есть подкаст, и там будут появляться записи онлайн семинаров.
У нас небольшие изменения по происходящему в этом канале.
Теперь, будет так: каждую неделю есть одно основное событие и связанная с ним подборка материалов. Список событий, у нас на текущий момент, состоит из войсчата и подкаста. То есть теперь на неделе, когда выходит подкаст, у нас не будет голосового чата.
Список видов событий мы планируем расширять, например, совсем скоро у нас появятся онлайн семинары с презентациями, погружением в технические детали и в общем все, как многие просили) Первый семинар запланирован на 24 ноября, ближе к делу напишем анонс. К началу года планируем выйти на регулярность семинаров раз в две недели.
Еще из изменений: войсчаты больше не будем записывать, надеемся, так будет более расслабленная и неформальная обстановка с возможностью пофлудить на около MLные темы.
Собственно на этой неделе у нас новый выпуск подкаста, как появится на основных платформах, напишем дополнительно)
А еще мы завели канал на YouTube, там тоже есть подкаст, и там будут появляться записи онлайн семинаров.
Пятый выпуск Дайте Данных появился на всех основных площадках.
В гостях 😎Сергей Путятинский, Заместитель председателя правления Московского кредитного банка.
📌 Anchor
📌 Яндекс Музыка
📌 Apple Podcasts
📌 YouTube
В гостях 😎Сергей Путятинский, Заместитель председателя правления Московского кредитного банка.
📌 Anchor
📌 Яндекс Музыка
📌 Apple Podcasts
📌 YouTube
Anchor
Выпуск пятый: “ML в банке: о вызовах, успехах и экспериментах” by Дайте данных
Чем ML в банке сегодня отличается от того, что было десять-пятнадцать лет назад? С какими вызовами сталкиваются компании при переходе на data driven подход? В каких задачах сейчас используют ML и будет использовать в будущем?
Об этом Александр Бородин беседует…
Об этом Александр Бородин беседует…
Коллеги из МКБ приглашают принять участие в хакатоне для специалистов по Data Science:
Московский кредитный банк (МКБ) организует онлайн хакатон для молодых специалистов по Data Science. Если ты студент последних курсов или начинающий специалист, прояви свои таланты и выиграй отличные призы! В хакатоне предстоит построить модель оценки вероятности выполнения обязательств клиентом банка при получении банковской гарантии. Победителей определяем в два этапа:
1️⃣ Шортлист из 10 решений будет выбран по специальной метрике с помощью искусственного интеллекта.
2️⃣ Тройку победителей выберет комиссия экспертов.
Что на кону:
✅ MacBook Pro, MacBook Air или iPhone.
✅ Предложение присоединиться к уникальному коллективу одного из крупнейших банков России.
Старт Хакатона – 01.11.2021, Финиш – 30.11.2021.
Подробности по ссылке:
Попробуй свои силы в новом хакатоне от МКБ!
Московский кредитный банк (МКБ) организует онлайн хакатон для молодых специалистов по Data Science. Если ты студент последних курсов или начинающий специалист, прояви свои таланты и выиграй отличные призы! В хакатоне предстоит построить модель оценки вероятности выполнения обязательств клиентом банка при получении банковской гарантии. Победителей определяем в два этапа:
1️⃣ Шортлист из 10 решений будет выбран по специальной метрике с помощью искусственного интеллекта.
2️⃣ Тройку победителей выберет комиссия экспертов.
Что на кону:
✅ MacBook Pro, MacBook Air или iPhone.
✅ Предложение присоединиться к уникальному коллективу одного из крупнейших банков России.
Старт Хакатона – 01.11.2021, Финиш – 30.11.2021.
Подробности по ссылке:
Попробуй свои силы в новом хакатоне от МКБ!