Forwarded from Алексей Чернобровов
🥳 Все ждали и это свершилось!
🚨Я продолжаю серию митапов про Data Science в городских и геосервисах, логистике, и технологиях умных городов.
🗓 25 января в 18:30 МСК состоится первая в этом году онлайн-встреча Citymobil Data Meetup!
Вас ждут новые гости и новые интересные доклады.
🚕 Олег Стрельников Руководитель команды Data Quality в Ситимобил «Как мы качество данных проверяем»
Расскажет про выбор фреймворка для DataQuality, что от него ждали и почему остановились на GreatExpectations. Покажет, как встроили его в архитектуру DWH, с какими проблемами столкнулись и как их побороли.
☎️ Максим Шевченко Ведущий ML разработчик в МТС BigData «Проверка гипотезы валидности таргетинга в наружной рекламе»
Маркетологи часто таргетируют наружную рекламу не только по геопризнаку, но и по социально-демографическим сегментам и интересам. При этом, исходят из предположения, что, например, по разным дорогам ездят разные люди – есть дороги, по которым в большей степени ездят высокодоходные клиенты, люди более старшего возраста и т.д. Действительно ли это так? Слушатели узнают про интересный и одновременно простой способ проверки некоторых гипотез и о том, как его можно использовать в других реальных задачах.
После докладов спикеры ответят на все ваши вопросы.
Регистрация для бесплатного участия
https://citymobil.timepad.ru/event/1904978/
🚨Я продолжаю серию митапов про Data Science в городских и геосервисах, логистике, и технологиях умных городов.
🗓 25 января в 18:30 МСК состоится первая в этом году онлайн-встреча Citymobil Data Meetup!
Вас ждут новые гости и новые интересные доклады.
🚕 Олег Стрельников Руководитель команды Data Quality в Ситимобил «Как мы качество данных проверяем»
Расскажет про выбор фреймворка для DataQuality, что от него ждали и почему остановились на GreatExpectations. Покажет, как встроили его в архитектуру DWH, с какими проблемами столкнулись и как их побороли.
☎️ Максим Шевченко Ведущий ML разработчик в МТС BigData «Проверка гипотезы валидности таргетинга в наружной рекламе»
Маркетологи часто таргетируют наружную рекламу не только по геопризнаку, но и по социально-демографическим сегментам и интересам. При этом, исходят из предположения, что, например, по разным дорогам ездят разные люди – есть дороги, по которым в большей степени ездят высокодоходные клиенты, люди более старшего возраста и т.д. Действительно ли это так? Слушатели узнают про интересный и одновременно простой способ проверки некоторых гипотез и о том, как его можно использовать в других реальных задачах.
После докладов спикеры ответят на все ваши вопросы.
Регистрация для бесплатного участия
https://citymobil.timepad.ru/event/1904978/
citymobil.timepad.ru
Citymobil Data Meetup №6 / События на TimePad.ru
Ситимобил каждый месяц проводит митапы о применении Data science в городских и геосервисах, логистике и технологиях умных городов.
Добавляйтесь в наш телеграм-канал, чтобы быть в курсе новостей https://t.me/citymobiltech .
Добавляйтесь в наш телеграм-канал, чтобы быть в курсе новостей https://t.me/citymobiltech .
🦋KEAR: новая DL-модель от Microsoft Azure
В декабре 2021 года ИИ-команда Microsoft Azure представила новую DL-модель KEAR (Knowledgeable External Attention for Commonsense Reasoning) с внешним вниманием для понимания здравого смысла. Она работает лучше, чем люди, отвечающие на тот же вопрос. KEAR достигает точности 89,4% в таблице лидеров CommonsenseQA по сравнению с 88,9% точности, достигаемой человеком. Хотя тест CommonsenseQA проводится на английском языке, ИИ-инженеры Microsoft Azure используют аналогичную технику для многоязычного рассуждения на основе здравого смысла.
Учитывая вопрос и пять возможных ответов, для задачи CommonsenseQA модель KEAR сначала извлекает связанные знания из графа знаний посредством связывания сущностей, из словаря посредством сопоставления слов и из связанных наборов данных QA посредством поиска текста. Затем полученные знания объединяются с входным вопросом и ответом кандидата и вводятся в языковую модель для получения оценки. Ответ-кандидат с наивысшим баллом выбирается в качестве вывода. Окончательное представление генерируется ансамблем из 39 языковых моделей, таких как DeBERTa и ELECTRA, с большинством голосов. Таким образом, модель KEAR может использовать соответствующие внешние знания для эффективного понимания на основе здравого смысла.
Применяя внешнее внимание к многоязычным рассуждениям на основе здравого смысла, разработчики с помощью KEAR переводили неанглийский вопрос на английский, извлекали знания из различных источников и снова переводили текст знаний на исходный язык для внешнего внимания. Предложенная модель Translate-Retrieve-Translate (TRT) заняла первое место в наборах данных X-CODAH и X-CSQA в тесте X-CSR.
https://www.microsoft.com/en-us/research/blog/azure-ai-milestone-microsoft-kear-surpasses-human-performance-on-commonsenseqa-benchmark/
В декабре 2021 года ИИ-команда Microsoft Azure представила новую DL-модель KEAR (Knowledgeable External Attention for Commonsense Reasoning) с внешним вниманием для понимания здравого смысла. Она работает лучше, чем люди, отвечающие на тот же вопрос. KEAR достигает точности 89,4% в таблице лидеров CommonsenseQA по сравнению с 88,9% точности, достигаемой человеком. Хотя тест CommonsenseQA проводится на английском языке, ИИ-инженеры Microsoft Azure используют аналогичную технику для многоязычного рассуждения на основе здравого смысла.
Учитывая вопрос и пять возможных ответов, для задачи CommonsenseQA модель KEAR сначала извлекает связанные знания из графа знаний посредством связывания сущностей, из словаря посредством сопоставления слов и из связанных наборов данных QA посредством поиска текста. Затем полученные знания объединяются с входным вопросом и ответом кандидата и вводятся в языковую модель для получения оценки. Ответ-кандидат с наивысшим баллом выбирается в качестве вывода. Окончательное представление генерируется ансамблем из 39 языковых моделей, таких как DeBERTa и ELECTRA, с большинством голосов. Таким образом, модель KEAR может использовать соответствующие внешние знания для эффективного понимания на основе здравого смысла.
Применяя внешнее внимание к многоязычным рассуждениям на основе здравого смысла, разработчики с помощью KEAR переводили неанглийский вопрос на английский, извлекали знания из различных источников и снова переводили текст знаний на исходный язык для внешнего внимания. Предложенная модель Translate-Retrieve-Translate (TRT) заняла первое место в наборах данных X-CODAH и X-CSQA в тесте X-CSR.
https://www.microsoft.com/en-us/research/blog/azure-ai-milestone-microsoft-kear-surpasses-human-performance-on-commonsenseqa-benchmark/
Microsoft Research
Azure AI milestone: Microsoft KEAR surpasses human performance on CommonsenseQA benchmark - Microsoft Research
KEAR (Knowledgeable External Attention for commonsense Reasoning)—along with recent milestones in computer vision and neural text-to-speech—is part of a larger Azure AI mission to provide relevant, meaningful AI solutions and services that work better for…
✈️Scalecast: LSTM-библиотека для Python
Одной из самых продвинутых моделей для прогнозирования временных рядов является нейронная сеть с долговременной кратковременной памятью (LSTM, Long Short-Term Memory). Ячейка LSTM добавляет долговременную память еще более эффективным способом, поскольку позволяет изучать еще больше параметров. Это делает ее самой мощной рекуррентной нейронной сетью для прогнозирования, особенно при наличии долгосрочных трендов в данных.
Однако, реализация LSTM в TensorFlow не проста в разработке и использовании. Это исправит Scalecast – масштабируемая Python-библиотека с моделями scikit-learn, statsmodels, Facebook Prophet, Microsoft LightGBM, LinkedIn Silverkite и Keras для прогнозирования временных рядов. Она проста в использовании и включает функции автоматического изменения масштаба, тестирование модели и оценку доверительных интервалов. Модель обучается лишь один раз, а затем снова к полному набору данных временных рядов, чтобы предотвратить переобучение и получить справедливый эталон для сравнения нескольких подходов.
Недостаток библиотеки в том, что обучение сложной модели может выполняться в два раза медленнее. Также у ML-разработчика нет доступа ко всем инструментам для прямого вмешательства в модель, что возможно в TensorFlow. Тем не менее, инструмент интересен и его можно как минимум протестировать, установив через менеджер пакетов pip: pip install scalecast.
Код библиотеки доступен на Github: https://github.com/mikekeith52/scalecast
А посмотреть примеры использования можно здесь: https://towardsdatascience.com/exploring-the-lstm-neural-network-model-for-time-series-8b7685aa8cf
Одной из самых продвинутых моделей для прогнозирования временных рядов является нейронная сеть с долговременной кратковременной памятью (LSTM, Long Short-Term Memory). Ячейка LSTM добавляет долговременную память еще более эффективным способом, поскольку позволяет изучать еще больше параметров. Это делает ее самой мощной рекуррентной нейронной сетью для прогнозирования, особенно при наличии долгосрочных трендов в данных.
Однако, реализация LSTM в TensorFlow не проста в разработке и использовании. Это исправит Scalecast – масштабируемая Python-библиотека с моделями scikit-learn, statsmodels, Facebook Prophet, Microsoft LightGBM, LinkedIn Silverkite и Keras для прогнозирования временных рядов. Она проста в использовании и включает функции автоматического изменения масштаба, тестирование модели и оценку доверительных интервалов. Модель обучается лишь один раз, а затем снова к полному набору данных временных рядов, чтобы предотвратить переобучение и получить справедливый эталон для сравнения нескольких подходов.
Недостаток библиотеки в том, что обучение сложной модели может выполняться в два раза медленнее. Также у ML-разработчика нет доступа ко всем инструментам для прямого вмешательства в модель, что возможно в TensorFlow. Тем не менее, инструмент интересен и его можно как минимум протестировать, установив через менеджер пакетов pip: pip install scalecast.
Код библиотеки доступен на Github: https://github.com/mikekeith52/scalecast
А посмотреть примеры использования можно здесь: https://towardsdatascience.com/exploring-the-lstm-neural-network-model-for-time-series-8b7685aa8cf
GitHub
GitHub - mikekeith52/scalecast: The practitioner's forecasting library
The practitioner's forecasting library. Contribute to mikekeith52/scalecast development by creating an account on GitHub.
💦Что такое Swarm Learning: блокчейн + ML
Swarm Learning — это фреймворк для сохранения конфиденциальности данных, который использует блокчейн для децентрализации ML-систем. Входные данные и результаты обучения не поступают в центральное место, чтобы их можно было разделить между пользователями.
В отличие от федеративного обучения, где системы обучаются локально, необработанные данные остаются на границе, а полученные параметры нейронной сети передаются в центральное место, в Swarm Learning нет центра. Обучение выполняется локально/на периферии, как и при федеративном обучении, но результаты не передаются через центральный выделенный сервер. Организации обменялись знаниями, используя технологию Blockchain. Новый узел регистрируется через смарт-контракт блокчейна, получает модель и выполняет обучение локальной модели до тех пор, пока не будут выполнены определенные условия для синхронизации. Затем параметры модели обмениваются через API Swarm и объединяются для создания обновленной модели с обновленными настройками параметров перед началом нового раунда обучения.
https://towardsdatascience.com/how-swarm-learning-works-blockchain-and-machine-learning-combined-for-a-better-solution-20484d4f258c
https://www.nature.com/articles/s41586-021-03583-3
Swarm Learning — это фреймворк для сохранения конфиденциальности данных, который использует блокчейн для децентрализации ML-систем. Входные данные и результаты обучения не поступают в центральное место, чтобы их можно было разделить между пользователями.
В отличие от федеративного обучения, где системы обучаются локально, необработанные данные остаются на границе, а полученные параметры нейронной сети передаются в центральное место, в Swarm Learning нет центра. Обучение выполняется локально/на периферии, как и при федеративном обучении, но результаты не передаются через центральный выделенный сервер. Организации обменялись знаниями, используя технологию Blockchain. Новый узел регистрируется через смарт-контракт блокчейна, получает модель и выполняет обучение локальной модели до тех пор, пока не будут выполнены определенные условия для синхронизации. Затем параметры модели обмениваются через API Swarm и объединяются для создания обновленной модели с обновленными настройками параметров перед началом нового раунда обучения.
https://towardsdatascience.com/how-swarm-learning-works-blockchain-and-machine-learning-combined-for-a-better-solution-20484d4f258c
https://www.nature.com/articles/s41586-021-03583-3
Medium
How Swarm Learning Works — Blockchain and Machine Learning Combined for a Better Solution
A brief introduction to Swarm Learning (SL)
🦋StylEx: новый подход к визуальному объяснению классификаторов от Google AI
В конце прошлого года, на конференции ICCV 2021 исследователи Google AI представили StylEx - новый подход к визуальному объяснению классификаторов, который автоматически обнаруживает и визуализирует атрибуты, влияющие на классификатор. Это позволяет проанализировать влияние отдельных атрибутов на результат, манипулируя ими по отдельности: изменение одного атрибута не влияет на другие. StylEx находит атрибуты, которые хорошо согласуются с семантикой, генерируют содержательные пояснения к конкретному изображению и могут быть интерпретированы людьми.
Для реализации подхода используется архитектура StyleGAN2, которая генерирует изображения высокого качества и содержит отдельные семантически значимые атрибуты изображений в обучающем наборе данных. Но обучение StyleGAN не зависит от классификатора и может не представлять атрибуты, важные для решения конкретного классификатора, который нужно изучить. Поэтому также обучается генератор, подобный StyleGAN, чтобы удовлетворять требования классификатора, поощряя его размещать в скрытом пространстве атрибуты, специфичные для классификатора.
Это достигается за счет обучения генератора StyleGAN двумя дополнительными компонентами. Первый — это энкодер, обученный вместе с GAN с реконструкцией-потерей, который заставляет сгенерированное выходное изображение быть визуально похожим на входное, чтобы применять генератор к любому заданному входному изображению. Но визуального сходства изображения недостаточно, поскольку оно не обязательно фиксирует тонкие визуальные детали, важные для конкретного классификатора, например, медицинские патологии. Поэтому в обучение StyleGAN добавлены потери классификации, что делает вероятность классификатора сгенерированного изображения аналогичной вероятности классификатора входного изображения. Это гарантирует, что тонкие визуальные детали, важные для классификатора (например, медицинские патологии), будут включены в сгенерированное изображение.
После обучения в скрытое пространство атрибутов обученного генератора добавляются атрибуты, которые существенно влияют на классификатор с учетом изменения вероятности классификации в зависимости от изменений каждой координатой этого пространства. Ищутся верхние атрибуты, которые максимизируют изменение вероятности классификации для данного изображения. Повторяя этот процесс для большого количества изображений в каждом классе, можно дополнительно обнаружить характерные для класса атрибуты.
Метод работает с широким спектром доменов и классификаторов (бинарных и мультиклассовых), причем основные атрибуты, обнаруженные StylEx, соответствуют согласованным семантическим понятиям при интерпретации людьми.
Важно, что метод объясняет классификатор, а не реальность, т.е. он предназначен для выявления атрибутов изображения, которые классификатор научился использовать из данных. Но эти атрибуты не обязательно характеризуют фактические физические различия между метками классов в реальности. Обнаруженные атрибуты могут выявить систематические ошибки в обучении классификатора или наборе данных. StylEx можно также применять для повышения достоверности нейронных сетей, дополняя набор обучающих данных примерами, которые компенсируют смещения, обнаруженные этим методом.
Добавление потери классификатора в обучение StyleGAN оказывается решающим в областях, где классификация зависит от мелких деталей. Например, GAN, обученный на изображениях сетчатки без потери классификатора, не обязательно будет генерировать мелкие патологические детали, соответствующие конкретному заболеванию. Добавление потери классификации заставляет GAN генерировать эти тонкие патологии в качестве объяснения классификатора.
https://ai.googleblog.com/2022/01/introducing-stylex-new-approach-for.html
В конце прошлого года, на конференции ICCV 2021 исследователи Google AI представили StylEx - новый подход к визуальному объяснению классификаторов, который автоматически обнаруживает и визуализирует атрибуты, влияющие на классификатор. Это позволяет проанализировать влияние отдельных атрибутов на результат, манипулируя ими по отдельности: изменение одного атрибута не влияет на другие. StylEx находит атрибуты, которые хорошо согласуются с семантикой, генерируют содержательные пояснения к конкретному изображению и могут быть интерпретированы людьми.
Для реализации подхода используется архитектура StyleGAN2, которая генерирует изображения высокого качества и содержит отдельные семантически значимые атрибуты изображений в обучающем наборе данных. Но обучение StyleGAN не зависит от классификатора и может не представлять атрибуты, важные для решения конкретного классификатора, который нужно изучить. Поэтому также обучается генератор, подобный StyleGAN, чтобы удовлетворять требования классификатора, поощряя его размещать в скрытом пространстве атрибуты, специфичные для классификатора.
Это достигается за счет обучения генератора StyleGAN двумя дополнительными компонентами. Первый — это энкодер, обученный вместе с GAN с реконструкцией-потерей, который заставляет сгенерированное выходное изображение быть визуально похожим на входное, чтобы применять генератор к любому заданному входному изображению. Но визуального сходства изображения недостаточно, поскольку оно не обязательно фиксирует тонкие визуальные детали, важные для конкретного классификатора, например, медицинские патологии. Поэтому в обучение StyleGAN добавлены потери классификации, что делает вероятность классификатора сгенерированного изображения аналогичной вероятности классификатора входного изображения. Это гарантирует, что тонкие визуальные детали, важные для классификатора (например, медицинские патологии), будут включены в сгенерированное изображение.
После обучения в скрытое пространство атрибутов обученного генератора добавляются атрибуты, которые существенно влияют на классификатор с учетом изменения вероятности классификации в зависимости от изменений каждой координатой этого пространства. Ищутся верхние атрибуты, которые максимизируют изменение вероятности классификации для данного изображения. Повторяя этот процесс для большого количества изображений в каждом классе, можно дополнительно обнаружить характерные для класса атрибуты.
Метод работает с широким спектром доменов и классификаторов (бинарных и мультиклассовых), причем основные атрибуты, обнаруженные StylEx, соответствуют согласованным семантическим понятиям при интерпретации людьми.
Важно, что метод объясняет классификатор, а не реальность, т.е. он предназначен для выявления атрибутов изображения, которые классификатор научился использовать из данных. Но эти атрибуты не обязательно характеризуют фактические физические различия между метками классов в реальности. Обнаруженные атрибуты могут выявить систематические ошибки в обучении классификатора или наборе данных. StylEx можно также применять для повышения достоверности нейронных сетей, дополняя набор обучающих данных примерами, которые компенсируют смещения, обнаруженные этим методом.
Добавление потери классификатора в обучение StyleGAN оказывается решающим в областях, где классификация зависит от мелких деталей. Например, GAN, обученный на изображениях сетчатки без потери классификатора, не обязательно будет генерировать мелкие патологические детали, соответствующие конкретному заболеванию. Добавление потери классификации заставляет GAN генерировать эти тонкие патологии в качестве объяснения классификатора.
https://ai.googleblog.com/2022/01/introducing-stylex-new-approach-for.html
Googleblog
Introducing StylEx: A New Approach for Visual Explanation of Classifiers
Forwarded from Big Data Science
🌦TOP-10 Data Science conferences in February 2022:
1. 02 Feb - Virtual conference DataOps Unleashed https://dataopsunleashed.com/
2. 03 Feb - Beyond Big Data: AI/Machine Learning Summit 2022, Pittsburgh, USA https://www.pghtech.org/events/BeyondBigData2022
3. 10 Feb - Online-summit AICamp ML Data Engineering https://www.aicamp.ai/event/eventdetails/W2022021009
4. 12-13 Feb - IAET International Conference on Machine Learning, Smart & Nanomaterials, Design Engineering, Information Technology & Signal Processing. Budapest, Hungary https://institute-aet.com/mns-22/
5. 16 Feb - DSS Hybrid Miami: AI & ML in the Enterprise. Miami, FL, USA & Virtual https://www.datascience.salon/miami/
6. 17-18 Feb - RE.WORK San Francisco, CA, USA and Online
Reinforcement Learning Summit: https://www.re-work.co/events/reinforcement-learning-summit-2022
Deep Learning Summit: https://www.re-work.co/events/deep-learning-summit-2022 Enterprise AI Summit: https://www.re-work.co/events/enterprise-ai-summit-2022
7. 18-20 Feb - International Conference on Compute and Data Analysis (ICCDA 2022). Sanya, China http://iccda.org/
8. 21-25 Feb - WSDM'22, The 15th ACM International WSDM Conference. Online. http://www.wsdm-conference.org/2022/
9. 22-23 Feb - AI & ML Developers Conference. Virtual. https://cnvrg.io/mlcon
10. 26-27 Feb - 9th International Conference on Data Mining and Database (DMDB 2022). Vancouver, Canada https://ccseit2022.org/dmdb/
1. 02 Feb - Virtual conference DataOps Unleashed https://dataopsunleashed.com/
2. 03 Feb - Beyond Big Data: AI/Machine Learning Summit 2022, Pittsburgh, USA https://www.pghtech.org/events/BeyondBigData2022
3. 10 Feb - Online-summit AICamp ML Data Engineering https://www.aicamp.ai/event/eventdetails/W2022021009
4. 12-13 Feb - IAET International Conference on Machine Learning, Smart & Nanomaterials, Design Engineering, Information Technology & Signal Processing. Budapest, Hungary https://institute-aet.com/mns-22/
5. 16 Feb - DSS Hybrid Miami: AI & ML in the Enterprise. Miami, FL, USA & Virtual https://www.datascience.salon/miami/
6. 17-18 Feb - RE.WORK San Francisco, CA, USA and Online
Reinforcement Learning Summit: https://www.re-work.co/events/reinforcement-learning-summit-2022
Deep Learning Summit: https://www.re-work.co/events/deep-learning-summit-2022 Enterprise AI Summit: https://www.re-work.co/events/enterprise-ai-summit-2022
7. 18-20 Feb - International Conference on Compute and Data Analysis (ICCDA 2022). Sanya, China http://iccda.org/
8. 21-25 Feb - WSDM'22, The 15th ACM International WSDM Conference. Online. http://www.wsdm-conference.org/2022/
9. 22-23 Feb - AI & ML Developers Conference. Virtual. https://cnvrg.io/mlcon
10. 26-27 Feb - 9th International Conference on Data Mining and Database (DMDB 2022). Vancouver, Canada https://ccseit2022.org/dmdb/
Data Teams Summit
Data Teams Summit | Peer-to-Peer Virtual Data Conference | Jan 25, 2023
Data Team Summit is an annual virtual community event aimed at helping DataOps professionals build, manage, and monitor data pipelines.
😜Data2vec – новая мультимодельная нейросеть от Meta
В январе 2022 года старый добрый FB AI с новым именем представил data2vec – мультимодальный высокопроизводительный алгоритм нейросети с самоконтролем. Data2vec способна анализировать речь, изображения и тексты, представляя новую парадигму целостного самоконтролируемого обучения, где новые исследования улучшают несколько модальностей, а не только одну. Алгоритм не полагается на сопоставительное обучение или реконструкцию входного примера.
Data2vec обучает модели прогнозировать их собственные представления входных данных, независимо от модальности. Сосредоточившись на этих представлениях — слоях нейронной сети — вместо того, чтобы предсказывать визуальные символы, слова или звуки, один алгоритм может работать с совершенно разными типами входных данных. Это устраняет зависимость от целей, специфичных для модальности, в учебной задаче. Для непосредственного прогнозирования требовалось надежная нормализация признаков задачи в различных модальностях.
Метод использует учительскую сеть, чтобы сначала вычислить целевые представления из изображения, фрагмента текста или речевого высказывания. Затем маскируется часть входных данных и процесс повторяется со сетью ученика, которая предсказывает скрытые представления учителя. Модель ученика должна предсказать представление всех входных данных, даже если она имеет представление только о части информации. Сеть учителя идентична модели ученика, но с немного устаревшими весами.
Метод показал отличную эффективность на популярном CV-тесте ImageNet, а также на наборе GLUE, обогнав wav2vec 2.0, HuBERT и BERT. Поэтому выводы сводятся к тому, что, как и человек, ИИ должен научиться выполнять множество различных задач, в том числе совершенно незнакомых. Нужно не только распознавать объекты, показанные в тренировочных данных, но и адаптироваться к распознаванию новых существ по словесному описанию того, как они выглядят.
https://ai.facebook.com/blog/the-first-high-performance-self-supervised-algorithm-that-works-for-speech-vision-and-text/
https://github.com/pytorch/fairseq/tree/main/examples/data2vec
В январе 2022 года старый добрый FB AI с новым именем представил data2vec – мультимодальный высокопроизводительный алгоритм нейросети с самоконтролем. Data2vec способна анализировать речь, изображения и тексты, представляя новую парадигму целостного самоконтролируемого обучения, где новые исследования улучшают несколько модальностей, а не только одну. Алгоритм не полагается на сопоставительное обучение или реконструкцию входного примера.
Data2vec обучает модели прогнозировать их собственные представления входных данных, независимо от модальности. Сосредоточившись на этих представлениях — слоях нейронной сети — вместо того, чтобы предсказывать визуальные символы, слова или звуки, один алгоритм может работать с совершенно разными типами входных данных. Это устраняет зависимость от целей, специфичных для модальности, в учебной задаче. Для непосредственного прогнозирования требовалось надежная нормализация признаков задачи в различных модальностях.
Метод использует учительскую сеть, чтобы сначала вычислить целевые представления из изображения, фрагмента текста или речевого высказывания. Затем маскируется часть входных данных и процесс повторяется со сетью ученика, которая предсказывает скрытые представления учителя. Модель ученика должна предсказать представление всех входных данных, даже если она имеет представление только о части информации. Сеть учителя идентична модели ученика, но с немного устаревшими весами.
Метод показал отличную эффективность на популярном CV-тесте ImageNet, а также на наборе GLUE, обогнав wav2vec 2.0, HuBERT и BERT. Поэтому выводы сводятся к тому, что, как и человек, ИИ должен научиться выполнять множество различных задач, в том числе совершенно незнакомых. Нужно не только распознавать объекты, показанные в тренировочных данных, но и адаптироваться к распознаванию новых существ по словесному описанию того, как они выглядят.
https://ai.facebook.com/blog/the-first-high-performance-self-supervised-algorithm-that-works-for-speech-vision-and-text/
https://github.com/pytorch/fairseq/tree/main/examples/data2vec
Meta
Data2vec: The first high-performance self-supervised algorithm that works for speech, vision, and text
We’ve built data2vec, the first general high-performance self-supervised algorithm for speech, vision, and text. When applied to different modalities, it matches or outperforms the best self-supervised algorithms.
🔥RETRO от DeepMind: качество GPT-3, но в 25 раз меньше параметров
В декабре 2021 года дочерняя компания Google AI, знаменитая своими AlphaFold –моделями, представила новую языковую модель. Благодаря базе данных с 2 триллионами токенов Retrieval-Enhanced Transformer (RETRO) обеспечивает производительность, сравнимую с GPT-3 и Jurassic-1 в Pile, используя в 25 раз меньше параметров. После тонкой настройки RETRO отлично решает сложные задачи, требующие больших объемов знаний, такие как ответы на вопросы. Модель сочетает BERT, дифференцируемый кодировщик и механизм перекрестного внимания с разбивкой на фрагменты для прогнозирования токенов на основе большего количества данных, чем обычно потребляется во время обучения.
В традиционных языковых трансформерах размеры модели и данных связаны: пока набор данных достаточно велик, производительность ограничена размером модели. Но в RETRO модель не ограничивается данными, увиденными во время обучения, а имеет доступ ко всему набору обучающих данных через механизм поиска. Это позволяет сильно повысить производительность модели, сократив количество потребляемых ресурсов.
Нейросеть имеет всего 7 миллиардов параметров и базу данных с почти 2 триллионами отрывков текста. Нейросеть и база данных обучаются одновременно. При генерации текста RETRO использует базу данных для поиска и сравнения отрывков, похожих на создаваемый, чтобы повысить точность прогнозов. Для каждого фрагмента текста (примерно абзаца документа) выполняется поиск ближайшего соседа, который возвращает похожие последовательности, найденные в обучающей базе данных, и их продолжение. Эти последовательности помогают предсказать продолжение введенного текста. Передача части памяти нейросети в базу данных сокращает потребление вычислительных ресурсов. Базу данных можно обновить без переобучения нейросети, добавив новые данные и удалив устаревшие.
Архитектура RETRO чередует обычное внимание к себе на уровне документа и перекрестное внимание с извлеченными соседями на более тонком уровне перехода, что дает более точные продолжения. RETRO повышает интерпретируемость прогнозов моделей и обеспечивает возможность прямого вмешательства в базу данных поиска для повышения безопасности продолжения текста. В экспериментах с Pile, эталоном стандартного языкового моделирования, модель RETRO с 7,5 миллиардами параметров превосходит Jurassic-1 со 175 миллиардами параметров на 10 из 16 наборов данных и 280B Gopher на 9 из 16 наборов данных.
https://deepmind.com/research/publications/2021/improving-language-models-by-retrieving-from-trillions-of-tokens
В декабре 2021 года дочерняя компания Google AI, знаменитая своими AlphaFold –моделями, представила новую языковую модель. Благодаря базе данных с 2 триллионами токенов Retrieval-Enhanced Transformer (RETRO) обеспечивает производительность, сравнимую с GPT-3 и Jurassic-1 в Pile, используя в 25 раз меньше параметров. После тонкой настройки RETRO отлично решает сложные задачи, требующие больших объемов знаний, такие как ответы на вопросы. Модель сочетает BERT, дифференцируемый кодировщик и механизм перекрестного внимания с разбивкой на фрагменты для прогнозирования токенов на основе большего количества данных, чем обычно потребляется во время обучения.
В традиционных языковых трансформерах размеры модели и данных связаны: пока набор данных достаточно велик, производительность ограничена размером модели. Но в RETRO модель не ограничивается данными, увиденными во время обучения, а имеет доступ ко всему набору обучающих данных через механизм поиска. Это позволяет сильно повысить производительность модели, сократив количество потребляемых ресурсов.
Нейросеть имеет всего 7 миллиардов параметров и базу данных с почти 2 триллионами отрывков текста. Нейросеть и база данных обучаются одновременно. При генерации текста RETRO использует базу данных для поиска и сравнения отрывков, похожих на создаваемый, чтобы повысить точность прогнозов. Для каждого фрагмента текста (примерно абзаца документа) выполняется поиск ближайшего соседа, который возвращает похожие последовательности, найденные в обучающей базе данных, и их продолжение. Эти последовательности помогают предсказать продолжение введенного текста. Передача части памяти нейросети в базу данных сокращает потребление вычислительных ресурсов. Базу данных можно обновить без переобучения нейросети, добавив новые данные и удалив устаревшие.
Архитектура RETRO чередует обычное внимание к себе на уровне документа и перекрестное внимание с извлеченными соседями на более тонком уровне перехода, что дает более точные продолжения. RETRO повышает интерпретируемость прогнозов моделей и обеспечивает возможность прямого вмешательства в базу данных поиска для повышения безопасности продолжения текста. В экспериментах с Pile, эталоном стандартного языкового моделирования, модель RETRO с 7,5 миллиардами параметров превосходит Jurassic-1 со 175 миллиардами параметров на 10 из 16 наборов данных и 280B Gopher на 9 из 16 наборов данных.
https://deepmind.com/research/publications/2021/improving-language-models-by-retrieving-from-trillions-of-tokens
Deepmind
Improving language models by retrieving from trillions of tokens
We enhance auto-regressive language models by conditioning on document chunks retrieved from a large corpus, based on local similarity with preceding tokens. With a $2$ trillion token database, our Retrieval-Enhanced Transformer (Retro) obtains comparable…
💦GeoMol – DL-модель от ученых MIT для молекулярных исследований
Ученые из MIT разработали DL-модель, которая предсказывает трехмерные формы молекулы, используя двумерный график ее молекулярной структуры. GeoMol обрабатывает молекулы за считанные секунды и работает лучше, чем предыдущие модели, определяя трехмерную структуру каждой связи независимо. Молекулы обычно изображаются в виде небольших графов, где отдельные атомы в молекуле представлены в виде узлов, а соединяющие их химические связи представлены в виде ребер.
Понимание того, как молекула будет взаимодействовать с определенными белковыми поверхностями, требует определения ее трехмерной формы. Но это трудоемкий и дорогой процесс. GeoMol предсказывает локальные атомные трехмерные структуры и торсионные углы, избегая чрезмерной параметризации геометрических степеней свободы, используя возможности нейронных сетей передачи сообщений (MPNN) для сбора локальной и глобальной графической информации. Нейронная сеть с передачей сообщений — это новая DL-технология для работы с графами.
Сначала модель предсказывает длины химических связей между атомами, а также углы этих связей. Расположение и связь атомов определяют, какие связи могут вращаться. Затем структура окружения каждого атома предсказывается отдельно. Затем он собирает окружающие вращающиеся связи, вычисляя углы кручения и выравнивая их. Вращающиеся связи могут принимать самые разные значения.
GeoMol также точно определяет хиральность на протяжении всего процесса прогнозирования благодаря идентификации 3D-структуры каждой связи отдельно. Именно хиральность – главная проблема в предсказании трехмерной структуры молекул, т.к. зеркальная копия хиральной молекулы не взаимодействует с окружающей средой таким же образом, что может привести к неправильному взаимодействию лекарств с белками и серьезным побочным эффектам.
https://analyticsdrift.com/mit-develops-deep-learning-model-geomol-that-predicts-the-3d-shapes-of-drug-like-molecules/
https://github.com/PattanaikL/GeoMol
Ученые из MIT разработали DL-модель, которая предсказывает трехмерные формы молекулы, используя двумерный график ее молекулярной структуры. GeoMol обрабатывает молекулы за считанные секунды и работает лучше, чем предыдущие модели, определяя трехмерную структуру каждой связи независимо. Молекулы обычно изображаются в виде небольших графов, где отдельные атомы в молекуле представлены в виде узлов, а соединяющие их химические связи представлены в виде ребер.
Понимание того, как молекула будет взаимодействовать с определенными белковыми поверхностями, требует определения ее трехмерной формы. Но это трудоемкий и дорогой процесс. GeoMol предсказывает локальные атомные трехмерные структуры и торсионные углы, избегая чрезмерной параметризации геометрических степеней свободы, используя возможности нейронных сетей передачи сообщений (MPNN) для сбора локальной и глобальной графической информации. Нейронная сеть с передачей сообщений — это новая DL-технология для работы с графами.
Сначала модель предсказывает длины химических связей между атомами, а также углы этих связей. Расположение и связь атомов определяют, какие связи могут вращаться. Затем структура окружения каждого атома предсказывается отдельно. Затем он собирает окружающие вращающиеся связи, вычисляя углы кручения и выравнивая их. Вращающиеся связи могут принимать самые разные значения.
GeoMol также точно определяет хиральность на протяжении всего процесса прогнозирования благодаря идентификации 3D-структуры каждой связи отдельно. Именно хиральность – главная проблема в предсказании трехмерной структуры молекул, т.к. зеркальная копия хиральной молекулы не взаимодействует с окружающей средой таким же образом, что может привести к неправильному взаимодействию лекарств с белками и серьезным побочным эффектам.
https://analyticsdrift.com/mit-develops-deep-learning-model-geomol-that-predicts-the-3d-shapes-of-drug-like-molecules/
https://github.com/PattanaikL/GeoMol
Analytics Drift
MIT develops deep learning model GeoMol that predicts the 3D shapes of drug-like molecules
A team of MIT researchers has developed a deep learning model that predicts the 3D shapes of a molecule using the 2D graph of its molecular structure.
Проверка знаний: #тест
Где НЕ нужно применять DL?
Где НЕ нужно применять DL?
Anonymous Quiz
0%
распознавание изображение
0%
распознавание речи
0%
автоматический перевод
100%
автоматизированная конвертация данных в нужный формат
👆🏻Я знаю, чего я не знаю: новый метод для DL от Google AI
В реальных условиях модели машинного обучения могут столкнуться с условиями, которые не наблюдались при обучении. Поэтому важно, чтобы ML-система точно определяла это состояние, когда ей не известны конкретные условия и не генерировала ошибочных результатов на редких образцах. Здесь помогут модели глубокого обучения, способные распознавать неподходящее состояние образца. Обнаружение ранее невидимых состояний можно рассматривать как задачу обнаружения отсутствия распространения (OOD, out-of-distribution). Успешно идентифицируя образцы OOD, можно принять превентивные меры, например, воздержаться от прогноза или обратиться к эксперту-человеку.
Новый метод обнаружения иерархических выбросов (HOD, hierarchical outlier detection) от Google AI использует существующие детализированные метки редких состояний из длинного хвоста и модифицирует функцию потерь, чтобы сгруппировать невидимые состояния и улучшить идентификацию этих близких к OOD категорий. Вместе с различными методами обучения представлению и разнообразной стратегией ансамбля этот подход позволяет достичь более высокой производительности для обнаружения входных данных OOD. Метод был протестирован на задаче компьютерного зрения при распознавании симптомов болезни по фотографиям.
https://ai.googleblog.com/2022/01/does-your-medical-image-classifier-know.html
В реальных условиях модели машинного обучения могут столкнуться с условиями, которые не наблюдались при обучении. Поэтому важно, чтобы ML-система точно определяла это состояние, когда ей не известны конкретные условия и не генерировала ошибочных результатов на редких образцах. Здесь помогут модели глубокого обучения, способные распознавать неподходящее состояние образца. Обнаружение ранее невидимых состояний можно рассматривать как задачу обнаружения отсутствия распространения (OOD, out-of-distribution). Успешно идентифицируя образцы OOD, можно принять превентивные меры, например, воздержаться от прогноза или обратиться к эксперту-человеку.
Новый метод обнаружения иерархических выбросов (HOD, hierarchical outlier detection) от Google AI использует существующие детализированные метки редких состояний из длинного хвоста и модифицирует функцию потерь, чтобы сгруппировать невидимые состояния и улучшить идентификацию этих близких к OOD категорий. Вместе с различными методами обучения представлению и разнообразной стратегией ансамбля этот подход позволяет достичь более высокой производительности для обнаружения входных данных OOD. Метод был протестирован на задаче компьютерного зрения при распознавании симптомов болезни по фотографиям.
https://ai.googleblog.com/2022/01/does-your-medical-image-classifier-know.html
Googleblog
Does Your Medical Image Classifier Know What It Doesn’t Know?
✈️Сквозная модель машинного перевода на основе внимания в Tensorflow
Предварительная обработка текста — неотъемлемый этап любого поста на естественном языке. Чтобы сократить количество кода при работе с Tensorflo, можно использовать API TextLineDataset для прямого создания датасета. Для индексации токенов в тексте подойдет слой TextVectorization из этого DL-фреймворка. Модель представляет собой типичную модель последовательности. Исходный текст подается в двунаправленную рекуррентную нейросеть - кодировщик, конечное состояние которого становится начальным состоянием декодера. Выход двунаправленного кодера h взвешивается уровнем внимания и комбинируется с вводом результата. Механизм принуждения учителя для обучения декодера, когда входные данные для декодера исходят из ожидаемого, а не фактического вывода декодера на предыдущем шаге, ускоряет обучение. Благодаря тому, что отдельные шаги могут обучаться независимо друг от друга при правильном вводе, а не полагаться на потенциально ложные данные предыдущих шагов, реализация также упрощается. Подробный пример реализации DL-модели для машинного перевода с испанского на английский смотрите здесь: https://towardsdatascience.com/end-to-end-attention-based-machine-translation-model-with-minimum-tensorflow-code-ae2f08cc8218
Предварительная обработка текста — неотъемлемый этап любого поста на естественном языке. Чтобы сократить количество кода при работе с Tensorflo, можно использовать API TextLineDataset для прямого создания датасета. Для индексации токенов в тексте подойдет слой TextVectorization из этого DL-фреймворка. Модель представляет собой типичную модель последовательности. Исходный текст подается в двунаправленную рекуррентную нейросеть - кодировщик, конечное состояние которого становится начальным состоянием декодера. Выход двунаправленного кодера h взвешивается уровнем внимания и комбинируется с вводом результата. Механизм принуждения учителя для обучения декодера, когда входные данные для декодера исходят из ожидаемого, а не фактического вывода декодера на предыдущем шаге, ускоряет обучение. Благодаря тому, что отдельные шаги могут обучаться независимо друг от друга при правильном вводе, а не полагаться на потенциально ложные данные предыдущих шагов, реализация также упрощается. Подробный пример реализации DL-модели для машинного перевода с испанского на английский смотрите здесь: https://towardsdatascience.com/end-to-end-attention-based-machine-translation-model-with-minimum-tensorflow-code-ae2f08cc8218
Medium
End-to-End Attention-Based Machine Translation Model with Minimum Tensorflow Code
This blog post walks through the training and inference of attention-based machine translation using only high level Tensorflow API. It’s a…
🧑🏼⚕️DL для анестезиологов
Ученые MIT предлагают новый алгоритм глубокого обучения, обученный оптимизировать дозы пропофола для поддержания бессознательного состояния во время общей анестезии. Это поможет врачу улучшить мониторинг пациента, контролировать его и подбирать наилучшую дозу наркоза. Команда нейробиологов, инженеров и врачей показала, как DL-алгоритм непрерывной автоматизации дозирования анестетика поддерживает бессознательное состояние пациента, обходя традиционное программное обеспечение в сложных, основанных на физиологии симуляциях пациентов. DL-модель близка соответствовала работе настоящих анестезиологов.
Программное обеспечение включает две связанные нейросети: первая принимает решение, о дозировке наркоза и моментах его выдачи, а вторая ориентирована на максимизацию награды и штрафы за передозировку. Испытания показали, что выбор дозировки DL-моделью точно соответствовал значениям лечащих анестезиологов после того, как была вызвана потеря сознания и до того, как в этом отпала необходимость. Но алгоритм корректировал дозировку каждые пять секунд, в то время как реальные врачи делают это каждые 20-30 минут. Важно, что DL-алгоритм не оптимизирован на то, чтобы просто вызвать бессознательное состояние и он не знает сам по себе, когда операция закончена. Но анестезиолог может сам управлять этим процессом, подавая сигнал об окончании операции. При этом одна из важнейших проблем, ограничивающих применение этой ИИ-системы сводится к отсутствию гарантии точности данных о бессознательном состоянии пациентов. Решить это можно, улучшив интерпретацию сигналов мозговых волн пациентов под анестезией.
https://news.mit.edu/2022/research-advances-technology-ai-assistance-anesthesiologists-0214
Ученые MIT предлагают новый алгоритм глубокого обучения, обученный оптимизировать дозы пропофола для поддержания бессознательного состояния во время общей анестезии. Это поможет врачу улучшить мониторинг пациента, контролировать его и подбирать наилучшую дозу наркоза. Команда нейробиологов, инженеров и врачей показала, как DL-алгоритм непрерывной автоматизации дозирования анестетика поддерживает бессознательное состояние пациента, обходя традиционное программное обеспечение в сложных, основанных на физиологии симуляциях пациентов. DL-модель близка соответствовала работе настоящих анестезиологов.
Программное обеспечение включает две связанные нейросети: первая принимает решение, о дозировке наркоза и моментах его выдачи, а вторая ориентирована на максимизацию награды и штрафы за передозировку. Испытания показали, что выбор дозировки DL-моделью точно соответствовал значениям лечащих анестезиологов после того, как была вызвана потеря сознания и до того, как в этом отпала необходимость. Но алгоритм корректировал дозировку каждые пять секунд, в то время как реальные врачи делают это каждые 20-30 минут. Важно, что DL-алгоритм не оптимизирован на то, чтобы просто вызвать бессознательное состояние и он не знает сам по себе, когда операция закончена. Но анестезиолог может сам управлять этим процессом, подавая сигнал об окончании операции. При этом одна из важнейших проблем, ограничивающих применение этой ИИ-системы сводится к отсутствию гарантии точности данных о бессознательном состоянии пациентов. Решить это можно, улучшив интерпретацию сигналов мозговых волн пациентов под анестезией.
https://news.mit.edu/2022/research-advances-technology-ai-assistance-anesthesiologists-0214
MIT News
Research advances technology of AI assistance for anesthesiologists
A new deep-learning algorithm trained to optimize doses of propofol to maintain unconsciousness during general anesthesia could augment patient monitoring, MIT researchers find.
📝ИИ-разработчик: AlphaCode от DeepMind
AI-система AlphaCode пишет компьютерные программы на конкурентоспособном уровне: она вошла в число 54% лучших участников соревнований по программированию, решая новые задачи, требующие сочетания критического мышления, логики, алгоритмов, кодирования и понимания естественного языка.
Эта языковая трансформерная модель содержит 41,4 миллиарда параметров, что в четыре раза больше Codex. AlphaCode обучена 715,1 Гб кодов и их описаний из общедоступных репозиториях GitHub на языках программирования C++, C#, Go, Java, JavaScript, Lua, PHP, Python, Ruby, Rust, Scala и TypeScript.
https://www.deepmind.com/blog/article/Competitive-programming-with-AlphaCode
AI-система AlphaCode пишет компьютерные программы на конкурентоспособном уровне: она вошла в число 54% лучших участников соревнований по программированию, решая новые задачи, требующие сочетания критического мышления, логики, алгоритмов, кодирования и понимания естественного языка.
Эта языковая трансформерная модель содержит 41,4 миллиарда параметров, что в четыре раза больше Codex. AlphaCode обучена 715,1 Гб кодов и их описаний из общедоступных репозиториях GitHub на языках программирования C++, C#, Go, Java, JavaScript, Lua, PHP, Python, Ruby, Rust, Scala и TypeScript.
https://www.deepmind.com/blog/article/Competitive-programming-with-AlphaCode
Google DeepMind
Competitive programming with AlphaCode
Solving novel problems and setting a new milestone in competitive programming.
#тест
К DL-моделям НЕ относится
К DL-моделям НЕ относится
Anonymous Quiz
0%
GAN
0%
CNN
100%
метод опорных векторов (SVM)
0%
RNN
👀Оптимизация видео с YouTube в реальном времени: новинка от DeepMind
Большинство онлайн-видео полагаются на программу, называемую кодеком, для сжатия или кодирования видео в его источнике, передачи его через Интернет зрителю, а затем распаковки или декодирования для воспроизведения. Эти кодеки принимают несколько решений для каждого кадра в видео. RL-алгоритмы хорошо подходит для последовательных задач принятия решений, таких как проблемы с кодеками.
Тестирование DL-системы MuZero на прямом трафике YouTube-видео показало снижение битрейта в среднем на 4%. Битрейт — это количество единиц и нулей, необходимых для отправки каждого кадра видео. Битрейт определяет, сколько вычислений и пропускной способности нужно для обслуживания и хранения видео, влияя на все, от того, сколько времени требуется для загрузки видео, до его разрешения, буферизации и использования данных. Эффективность MuZero оценивалась на кодеке VP9, который широко используется YouTube и другими потоковыми сервисами.
В VP9 битрейт оптимизируется непосредственно через параметр квантования (QP) в модуле управления скоростью. Для каждого кадра этот параметр определяет применяемый уровень сжатия. Учитывая целевой битрейт, QP для видеокадров выбираются последовательно, чтобы максимизировать общее качество видео. Более высокие битрейты (более низкий QP) должны быть выделены для сложных сцен, а более низкие битрейты с высоким QP – для статических сцен. Алгоритм выбора QP определяет, как значение QP видеокадра влияет на распределение битрейта остальных видеокадров и общее качество видео.
MuZero достигает сверхчеловеческой производительности в различных задачах, сочетая возможности поиска с возможностью изучения модели окружающей среды и планирования в соответствии с ней. Это хорошо работает в больших комбинаторных пространствах действий, что делает его идеальным кандидатом на решение проблемы управления скоростью при сжатии видео. Но, чтобы MuZero мог работать с этим реальным приложением, необходимо решить совершенно новый набор проблем. Например, набор видео, загружаемых на такие платформы, как YouTube, различается по содержанию и качеству, и любой агент должен обобщать видео, включая совершенно новые видео после развертывания. Многие другие показатели и ограничения влияют на конечный пользовательский опыт и экономию битрейта, например, PSNR (пиковое отношение сигнал-шум) и ограничение битрейта.
Чтобы решить эти проблемы с помощью MuZero, был создан механизм, называемый самоконкуренцией, который преобразует сложную цель сжатия видео в простой сигнал ВЫИГРЫШ/ПРОИГРЫШ, сравнивая текущую производительность агента с его предыдущей производительностью. Это позволило преобразовать широкий набор требований кодека в простой сигнал, который может быть оптимизирован нашим агентом.
Изучая динамику кодирования видео и определяя, как лучше распределить биты, контроллер скорости MuZero (MuZero-RC) может снизить скорость передачи без ухудшения качества. Выбор QP — это лишь одно из многочисленных решений кодирования в процессе кодирования. Но в целом команда DeepMind создает единый алгоритм, который может автоматически обучаться принимать эти решения по кодированию для получения оптимального компромисса между скоростью и искажениями.
https://deepmind.com/blog/article/MuZeros-first-step-from-research-into-the-real-world
Большинство онлайн-видео полагаются на программу, называемую кодеком, для сжатия или кодирования видео в его источнике, передачи его через Интернет зрителю, а затем распаковки или декодирования для воспроизведения. Эти кодеки принимают несколько решений для каждого кадра в видео. RL-алгоритмы хорошо подходит для последовательных задач принятия решений, таких как проблемы с кодеками.
Тестирование DL-системы MuZero на прямом трафике YouTube-видео показало снижение битрейта в среднем на 4%. Битрейт — это количество единиц и нулей, необходимых для отправки каждого кадра видео. Битрейт определяет, сколько вычислений и пропускной способности нужно для обслуживания и хранения видео, влияя на все, от того, сколько времени требуется для загрузки видео, до его разрешения, буферизации и использования данных. Эффективность MuZero оценивалась на кодеке VP9, который широко используется YouTube и другими потоковыми сервисами.
В VP9 битрейт оптимизируется непосредственно через параметр квантования (QP) в модуле управления скоростью. Для каждого кадра этот параметр определяет применяемый уровень сжатия. Учитывая целевой битрейт, QP для видеокадров выбираются последовательно, чтобы максимизировать общее качество видео. Более высокие битрейты (более низкий QP) должны быть выделены для сложных сцен, а более низкие битрейты с высоким QP – для статических сцен. Алгоритм выбора QP определяет, как значение QP видеокадра влияет на распределение битрейта остальных видеокадров и общее качество видео.
MuZero достигает сверхчеловеческой производительности в различных задачах, сочетая возможности поиска с возможностью изучения модели окружающей среды и планирования в соответствии с ней. Это хорошо работает в больших комбинаторных пространствах действий, что делает его идеальным кандидатом на решение проблемы управления скоростью при сжатии видео. Но, чтобы MuZero мог работать с этим реальным приложением, необходимо решить совершенно новый набор проблем. Например, набор видео, загружаемых на такие платформы, как YouTube, различается по содержанию и качеству, и любой агент должен обобщать видео, включая совершенно новые видео после развертывания. Многие другие показатели и ограничения влияют на конечный пользовательский опыт и экономию битрейта, например, PSNR (пиковое отношение сигнал-шум) и ограничение битрейта.
Чтобы решить эти проблемы с помощью MuZero, был создан механизм, называемый самоконкуренцией, который преобразует сложную цель сжатия видео в простой сигнал ВЫИГРЫШ/ПРОИГРЫШ, сравнивая текущую производительность агента с его предыдущей производительностью. Это позволило преобразовать широкий набор требований кодека в простой сигнал, который может быть оптимизирован нашим агентом.
Изучая динамику кодирования видео и определяя, как лучше распределить биты, контроллер скорости MuZero (MuZero-RC) может снизить скорость передачи без ухудшения качества. Выбор QP — это лишь одно из многочисленных решений кодирования в процессе кодирования. Но в целом команда DeepMind создает единый алгоритм, который может автоматически обучаться принимать эти решения по кодированию для получения оптимального компромисса между скоростью и искажениями.
https://deepmind.com/blog/article/MuZeros-first-step-from-research-into-the-real-world
Deepmind
MuZero’s first step from research into the real world
Collaborating with YouTube to optimise video compression in the open source VP9 codec.
📝PyTorch-LifeStream: DL-библиотека Сбера для построения эмбеддингов
В начале февраля 2022 года Sber AI Lab выложил в открытый доступ DL-библиотеку на базе Pytorch-фреймворка для преобразования сложно-структурированных данных (слова, тексты, события, их последовательности и атрибуты) в числовой вектор с целью последующей обработки. Инструмент, доступный под лицензией Apache 2.0, включает множество нейросетевых методов, позволяя анализировать сложные событийные данные: истории посещений сайтов, покупок, события пользовательского поведения в онлайн-играх и пр.
Разработчики отмечают следующие преимущества библиотеки PyTorch-LifeStream:
• сокращение времени на feature engineering событийных данных;
• повышение безопасности обмена данными в ML-системе$
• повышение качества различных ML-моделей за счет использования векторных представлений событийных данных.
Подробнее: https://developers.sber.ru/portal/tools/pytorch-lifestream
Исходный код на Github: https://github.com/sberbank-ai-lab/pytorch-lifestream
В начале февраля 2022 года Sber AI Lab выложил в открытый доступ DL-библиотеку на базе Pytorch-фреймворка для преобразования сложно-структурированных данных (слова, тексты, события, их последовательности и атрибуты) в числовой вектор с целью последующей обработки. Инструмент, доступный под лицензией Apache 2.0, включает множество нейросетевых методов, позволяя анализировать сложные событийные данные: истории посещений сайтов, покупок, события пользовательского поведения в онлайн-играх и пр.
Разработчики отмечают следующие преимущества библиотеки PyTorch-LifeStream:
• сокращение времени на feature engineering событийных данных;
• повышение безопасности обмена данными в ML-системе$
• повышение качества различных ML-моделей за счет использования векторных представлений событийных данных.
Подробнее: https://developers.sber.ru/portal/tools/pytorch-lifestream
Исходный код на Github: https://github.com/sberbank-ai-lab/pytorch-lifestream
developers.sber.ru
Pytorch-LifeStream представляет событийные данные в виде набора чисел — embeddings
С помощью методов, реализованных в библиотеке Pytorch-LifeStream, можно представлять в виде набора чисел сложные событийные данные, например, истории посещений сайтов, истории покупок, события в онлайн-играх