Deep Dive 2 Deep Learning
370 subscribers
26 photos
10 videos
384 links
Канал про глубокое машинное обучение: кейсы, новости, открытия и факапы из мира нейросетей и не только
Download Telegram
🥳 Все ждали и это свершилось!

🚨Я продолжаю серию митапов про Data Science в городских и геосервисах, логистике, и технологиях умных городов.

🗓 25 января в 18:30 МСК состоится первая в этом году онлайн-встреча Citymobil Data Meetup!

Вас ждут новые гости и новые интересные доклады.

🚕 Олег Стрельников Руководитель команды Data Quality в Ситимобил «Как мы качество данных проверяем»

Расскажет про выбор фреймворка для DataQuality, что от него ждали и почему остановились на GreatExpectations. Покажет, как встроили его в архитектуру DWH, с какими проблемами столкнулись и как их побороли.

☎️ Максим Шевченко Ведущий ML разработчик в МТС BigData «Проверка гипотезы валидности таргетинга в наружной рекламе»

Маркетологи часто таргетируют наружную рекламу не только по геопризнаку, но и по социально-демографическим сегментам и интересам. При этом, исходят из предположения, что, например, по разным дорогам ездят разные люди – есть дороги, по которым в большей степени ездят высокодоходные клиенты, люди более старшего возраста и т.д. Действительно ли это так? Слушатели узнают про интересный и одновременно простой способ проверки некоторых гипотез и о том, как его можно использовать в других реальных задачах.

После докладов спикеры ответят на все ваши вопросы.

Регистрация для бесплатного участия

https://citymobil.timepad.ru/event/1904978/
🦋KEAR: новая DL-модель от Microsoft Azure
В декабре 2021 года ИИ-команда Microsoft Azure представила новую DL-модель KEAR (Knowledgeable External Attention for Commonsense Reasoning) с внешним вниманием для понимания здравого смысла. Она работает лучше, чем люди, отвечающие на тот же вопрос. KEAR достигает точности 89,4% в таблице лидеров CommonsenseQA по сравнению с 88,9% точности, достигаемой человеком. Хотя тест CommonsenseQA проводится на английском языке, ИИ-инженеры Microsoft Azure используют аналогичную технику для многоязычного рассуждения на основе здравого смысла.
Учитывая вопрос и пять возможных ответов, для задачи CommonsenseQA модель KEAR сначала извлекает связанные знания из графа знаний посредством связывания сущностей, из словаря посредством сопоставления слов и из связанных наборов данных QA посредством поиска текста. Затем полученные знания объединяются с входным вопросом и ответом кандидата и вводятся в языковую модель для получения оценки. Ответ-кандидат с наивысшим баллом выбирается в качестве вывода. Окончательное представление генерируется ансамблем из 39 языковых моделей, таких как DeBERTa и ELECTRA, с большинством голосов. Таким образом, модель KEAR может использовать соответствующие внешние знания для эффективного понимания на основе здравого смысла.
Применяя внешнее внимание к многоязычным рассуждениям на основе здравого смысла, разработчики с помощью KEAR переводили неанглийский вопрос на английский, извлекали знания из различных источников и снова переводили текст знаний на исходный язык для внешнего внимания. Предложенная модель Translate-Retrieve-Translate (TRT) заняла первое место в наборах данных X-CODAH и X-CSQA в тесте X-CSR.
https://www.microsoft.com/en-us/research/blog/azure-ai-milestone-microsoft-kear-surpasses-human-performance-on-commonsenseqa-benchmark/
✈️Scalecast: LSTM-библиотека для Python
Одной из самых продвинутых моделей для прогнозирования временных рядов является нейронная сеть с долговременной кратковременной памятью (LSTM, Long Short-Term Memory). Ячейка LSTM добавляет долговременную память еще более эффективным способом, поскольку позволяет изучать еще больше параметров. Это делает ее самой мощной рекуррентной нейронной сетью для прогнозирования, особенно при наличии долгосрочных трендов в данных.
Однако, реализация LSTM в TensorFlow не проста в разработке и использовании. Это исправит Scalecast – масштабируемая Python-библиотека с моделями scikit-learn, statsmodels, Facebook Prophet, Microsoft LightGBM, LinkedIn Silverkite и Keras для прогнозирования временных рядов. Она проста в использовании и включает функции автоматического изменения масштаба, тестирование модели и оценку доверительных интервалов. Модель обучается лишь один раз, а затем снова к полному набору данных временных рядов, чтобы предотвратить переобучение и получить справедливый эталон для сравнения нескольких подходов.
Недостаток библиотеки в том, что обучение сложной модели может выполняться в два раза медленнее. Также у ML-разработчика нет доступа ко всем инструментам для прямого вмешательства в модель, что возможно в TensorFlow. Тем не менее, инструмент интересен и его можно как минимум протестировать, установив через менеджер пакетов pip: pip install scalecast.
Код библиотеки доступен на Github: https://github.com/mikekeith52/scalecast
А посмотреть примеры использования можно здесь: https://towardsdatascience.com/exploring-the-lstm-neural-network-model-for-time-series-8b7685aa8cf
💦Что такое Swarm Learning: блокчейн + ML
Swarm Learning
— это фреймворк для сохранения конфиденциальности данных, который использует блокчейн для децентрализации ML-систем. Входные данные и результаты обучения не поступают в центральное место, чтобы их можно было разделить между пользователями.
В отличие от федеративного обучения, где системы обучаются локально, необработанные данные остаются на границе, а полученные параметры нейронной сети передаются в центральное место, в Swarm Learning нет центра. Обучение выполняется локально/на периферии, как и при федеративном обучении, но результаты не передаются через центральный выделенный сервер. Организации обменялись знаниями, используя технологию Blockchain. Новый узел регистрируется через смарт-контракт блокчейна, получает модель и выполняет обучение локальной модели до тех пор, пока не будут выполнены определенные условия для синхронизации. Затем параметры модели обмениваются через API Swarm и объединяются для создания обновленной модели с обновленными настройками параметров перед началом нового раунда обучения.
https://towardsdatascience.com/how-swarm-learning-works-blockchain-and-machine-learning-combined-for-a-better-solution-20484d4f258c
https://www.nature.com/articles/s41586-021-03583-3
🦋StylEx: новый подход к визуальному объяснению классификаторов от Google AI
В конце прошлого года, на конференции ICCV 2021 исследователи Google AI представили StylEx - новый подход к визуальному объяснению классификаторов, который автоматически обнаруживает и визуализирует атрибуты, влияющие на классификатор. Это позволяет проанализировать влияние отдельных атрибутов на результат, манипулируя ими по отдельности: изменение одного атрибута не влияет на другие. StylEx находит атрибуты, которые хорошо согласуются с семантикой, генерируют содержательные пояснения к конкретному изображению и могут быть интерпретированы людьми.
Для реализации подхода используется архитектура StyleGAN2, которая генерирует изображения высокого качества и содержит отдельные семантически значимые атрибуты изображений в обучающем наборе данных. Но обучение StyleGAN не зависит от классификатора и может не представлять атрибуты, важные для решения конкретного классификатора, который нужно изучить. Поэтому также обучается генератор, подобный StyleGAN, чтобы удовлетворять требования классификатора, поощряя его размещать в скрытом пространстве атрибуты, специфичные для классификатора.
Это достигается за счет обучения генератора StyleGAN двумя дополнительными компонентами. Первый — это энкодер, обученный вместе с GAN с реконструкцией-потерей, который заставляет сгенерированное выходное изображение быть визуально похожим на входное, чтобы применять генератор к любому заданному входному изображению. Но визуального сходства изображения недостаточно, поскольку оно не обязательно фиксирует тонкие визуальные детали, важные для конкретного классификатора, например, медицинские патологии. Поэтому в обучение StyleGAN добавлены потери классификации, что делает вероятность классификатора сгенерированного изображения аналогичной вероятности классификатора входного изображения. Это гарантирует, что тонкие визуальные детали, важные для классификатора (например, медицинские патологии), будут включены в сгенерированное изображение.
После обучения в скрытое пространство атрибутов обученного генератора добавляются атрибуты, которые существенно влияют на классификатор с учетом изменения вероятности классификации в зависимости от изменений каждой координатой этого пространства. Ищутся верхние атрибуты, которые максимизируют изменение вероятности классификации для данного изображения. Повторяя этот процесс для большого количества изображений в каждом классе, можно дополнительно обнаружить характерные для класса атрибуты.
Метод работает с широким спектром доменов и классификаторов (бинарных и мультиклассовых), причем основные атрибуты, обнаруженные StylEx, соответствуют согласованным семантическим понятиям при интерпретации людьми.
Важно, что метод объясняет классификатор, а не реальность, т.е. он предназначен для выявления атрибутов изображения, которые классификатор научился использовать из данных. Но эти атрибуты не обязательно характеризуют фактические физические различия между метками классов в реальности. Обнаруженные атрибуты могут выявить систематические ошибки в обучении классификатора или наборе данных. StylEx можно также применять для повышения достоверности нейронных сетей, дополняя набор обучающих данных примерами, которые компенсируют смещения, обнаруженные этим методом.
Добавление потери классификатора в обучение StyleGAN оказывается решающим в областях, где классификация зависит от мелких деталей. Например, GAN, обученный на изображениях сетчатки без потери классификатора, не обязательно будет генерировать мелкие патологические детали, соответствующие конкретному заболеванию. Добавление потери классификации заставляет GAN генерировать эти тонкие патологии в качестве объяснения классификатора.
https://ai.googleblog.com/2022/01/introducing-stylex-new-approach-for.html
Forwarded from Big Data Science
🌦TOP-10 Data Science conferences in February 2022:
1. 02 Feb
- Virtual conference DataOps Unleashed https://dataopsunleashed.com/
2. 03 Feb - Beyond Big Data: AI/Machine Learning Summit 2022, Pittsburgh, USA https://www.pghtech.org/events/BeyondBigData2022
3. 10 Feb - Online-summit AICamp ML Data Engineering https://www.aicamp.ai/event/eventdetails/W2022021009
4. 12-13 Feb - IAET International Conference on Machine Learning, Smart & Nanomaterials, Design Engineering, Information Technology & Signal Processing. Budapest, Hungary https://institute-aet.com/mns-22/
5. 16 Feb - DSS Hybrid Miami: AI & ML in the Enterprise. Miami, FL, USA & Virtual https://www.datascience.salon/miami/
6. 17-18 Feb - RE.WORK San Francisco, CA, USA and Online
Reinforcement Learning Summit: https://www.re-work.co/events/reinforcement-learning-summit-2022
Deep Learning Summit: https://www.re-work.co/events/deep-learning-summit-2022 Enterprise AI Summit: https://www.re-work.co/events/enterprise-ai-summit-2022
7. 18-20 Feb - International Conference on Compute and Data Analysis (ICCDA 2022). Sanya, China http://iccda.org/
8. 21-25 Feb - WSDM'22, The 15th ACM International WSDM Conference. Online. http://www.wsdm-conference.org/2022/
9. 22-23 Feb - AI & ML Developers Conference. Virtual. https://cnvrg.io/mlcon
10. 26-27 Feb - 9th International Conference on Data Mining and Database (DMDB 2022). Vancouver, Canada https://ccseit2022.org/dmdb/
😜Data2vec – новая мультимодельная нейросеть от Meta
В январе 2022 года старый добрый FB AI с новым именем представил data2vec – мультимодальный высокопроизводительный алгоритм нейросети с самоконтролем. Data2vec способна анализировать речь, изображения и тексты, представляя новую парадигму целостного самоконтролируемого обучения, где новые исследования улучшают несколько модальностей, а не только одну. Алгоритм не полагается на сопоставительное обучение или реконструкцию входного примера.
Data2vec обучает модели прогнозировать их собственные представления входных данных, независимо от модальности. Сосредоточившись на этих представлениях — слоях нейронной сети — вместо того, чтобы предсказывать визуальные символы, слова или звуки, один алгоритм может работать с совершенно разными типами входных данных. Это устраняет зависимость от целей, специфичных для модальности, в учебной задаче. Для непосредственного прогнозирования требовалось надежная нормализация признаков задачи в различных модальностях.
Метод использует учительскую сеть, чтобы сначала вычислить целевые представления из изображения, фрагмента текста или речевого высказывания. Затем маскируется часть входных данных и процесс повторяется со сетью ученика, которая предсказывает скрытые представления учителя. Модель ученика должна предсказать представление всех входных данных, даже если она имеет представление только о части информации. Сеть учителя идентична модели ученика, но с немного устаревшими весами.
Метод показал отличную эффективность на популярном CV-тесте ImageNet, а также на наборе GLUE, обогнав wav2vec 2.0, HuBERT и BERT. Поэтому выводы сводятся к тому, что, как и человек, ИИ должен научиться выполнять множество различных задач, в том числе совершенно незнакомых. Нужно не только распознавать объекты, показанные в тренировочных данных, но и адаптироваться к распознаванию новых существ по словесному описанию того, как они выглядят.
https://ai.facebook.com/blog/the-first-high-performance-self-supervised-algorithm-that-works-for-speech-vision-and-text/
https://github.com/pytorch/fairseq/tree/main/examples/data2vec
🔥RETRO от DeepMind: качество GPT-3, но в 25 раз меньше параметров
В декабре 2021 года дочерняя компания Google AI, знаменитая своими AlphaFold –моделями, представила новую языковую модель. Благодаря базе данных с 2 триллионами токенов Retrieval-Enhanced Transformer (RETRO) обеспечивает производительность, сравнимую с GPT-3 и Jurassic-1 в Pile, используя в 25 раз меньше параметров. После тонкой настройки RETRO отлично решает сложные задачи, требующие больших объемов знаний, такие как ответы на вопросы. Модель сочетает BERT, дифференцируемый кодировщик и механизм перекрестного внимания с разбивкой на фрагменты для прогнозирования токенов на основе большего количества данных, чем обычно потребляется во время обучения.
В традиционных языковых трансформерах размеры модели и данных связаны: пока набор данных достаточно велик, производительность ограничена размером модели. Но в RETRO модель не ограничивается данными, увиденными во время обучения, а имеет доступ ко всему набору обучающих данных через механизм поиска. Это позволяет сильно повысить производительность модели, сократив количество потребляемых ресурсов.
Нейросеть имеет всего 7 миллиардов параметров и базу данных с почти 2 триллионами отрывков текста. Нейросеть и база данных обучаются одновременно. При генерации текста RETRO использует базу данных для поиска и сравнения отрывков, похожих на создаваемый, чтобы повысить точность прогнозов. Для каждого фрагмента текста (примерно абзаца документа) выполняется поиск ближайшего соседа, который возвращает похожие последовательности, найденные в обучающей базе данных, и их продолжение. Эти последовательности помогают предсказать продолжение введенного текста. Передача части памяти нейросети в базу данных сокращает потребление вычислительных ресурсов. Базу данных можно обновить без переобучения нейросети, добавив новые данные и удалив устаревшие.
Архитектура RETRO чередует обычное внимание к себе на уровне документа и перекрестное внимание с извлеченными соседями на более тонком уровне перехода, что дает более точные продолжения. RETRO повышает интерпретируемость прогнозов моделей и обеспечивает возможность прямого вмешательства в базу данных поиска для повышения безопасности продолжения текста. В экспериментах с Pile, эталоном стандартного языкового моделирования, модель RETRO с 7,5 миллиардами параметров превосходит Jurassic-1 со 175 миллиардами параметров на 10 из 16 наборов данных и 280B Gopher на 9 из 16 наборов данных.
https://deepmind.com/research/publications/2021/improving-language-models-by-retrieving-from-trillions-of-tokens
RETRO от DeepMind: качество GPT-3, но в 25 раз меньше параметров
💦GeoMol – DL-модель от ученых MIT для молекулярных исследований
Ученые из MIT разработали DL-модель, которая предсказывает трехмерные формы молекулы, используя двумерный график ее молекулярной структуры. GeoMol обрабатывает молекулы за считанные секунды и работает лучше, чем предыдущие модели, определяя трехмерную структуру каждой связи независимо. Молекулы обычно изображаются в виде небольших графов, где отдельные атомы в молекуле представлены в виде узлов, а соединяющие их химические связи представлены в виде ребер.
Понимание того, как молекула будет взаимодействовать с определенными белковыми поверхностями, требует определения ее трехмерной формы. Но это трудоемкий и дорогой процесс. GeoMol предсказывает локальные атомные трехмерные структуры и торсионные углы, избегая чрезмерной параметризации геометрических степеней свободы, используя возможности нейронных сетей передачи сообщений (MPNN) для сбора локальной и глобальной графической информации. Нейронная сеть с передачей сообщений — это новая DL-технология для работы с графами.
Сначала модель предсказывает длины химических связей между атомами, а также углы этих связей. Расположение и связь атомов определяют, какие связи могут вращаться. Затем структура окружения каждого атома предсказывается отдельно. Затем он собирает окружающие вращающиеся связи, вычисляя углы кручения и выравнивая их. Вращающиеся связи могут принимать самые разные значения.
GeoMol также точно определяет хиральность на протяжении всего процесса прогнозирования благодаря идентификации 3D-структуры каждой связи отдельно. Именно хиральность – главная проблема в предсказании трехмерной структуры молекул, т.к. зеркальная копия хиральной молекулы не взаимодействует с окружающей средой таким же образом, что может привести к неправильному взаимодействию лекарств с белками и серьезным побочным эффектам.
https://analyticsdrift.com/mit-develops-deep-learning-model-geomol-that-predicts-the-3d-shapes-of-drug-like-molecules/
https://github.com/PattanaikL/GeoMol
👆🏻Я знаю, чего я не знаю: новый метод для DL от Google AI
В реальных условиях модели машинного обучения могут столкнуться с условиями, которые не наблюдались при обучении. Поэтому важно, чтобы ML-система точно определяла это состояние, когда ей не известны конкретные условия и не генерировала ошибочных результатов на редких образцах. Здесь помогут модели глубокого обучения, способные распознавать неподходящее состояние образца. Обнаружение ранее невидимых состояний можно рассматривать как задачу обнаружения отсутствия распространения (OOD, out-of-distribution). Успешно идентифицируя образцы OOD, можно принять превентивные меры, например, воздержаться от прогноза или обратиться к эксперту-человеку.
Новый метод обнаружения иерархических выбросов (HOD, hierarchical outlier detection) от Google AI использует существующие детализированные метки редких состояний из длинного хвоста и модифицирует функцию потерь, чтобы сгруппировать невидимые состояния и улучшить идентификацию этих близких к OOD категорий. Вместе с различными методами обучения представлению и разнообразной стратегией ансамбля этот подход позволяет достичь более высокой производительности для обнаружения входных данных OOD. Метод был протестирован на задаче компьютерного зрения при распознавании симптомов болезни по фотографиям.
https://ai.googleblog.com/2022/01/does-your-medical-image-classifier-know.html
✈️Сквозная модель машинного перевода на основе внимания в Tensorflow
Предварительная обработка текста — неотъемлемый этап любого поста на естественном языке. Чтобы сократить количество кода при работе с Tensorflo, можно использовать API TextLineDataset для прямого создания датасета. Для индексации токенов в тексте подойдет слой TextVectorization из этого DL-фреймворка. Модель представляет собой типичную модель последовательности. Исходный текст подается в двунаправленную рекуррентную нейросеть - кодировщик, конечное состояние которого становится начальным состоянием декодера. Выход двунаправленного кодера h взвешивается уровнем внимания и комбинируется с вводом результата. Механизм принуждения учителя для обучения декодера, когда входные данные для декодера исходят из ожидаемого, а не фактического вывода декодера на предыдущем шаге, ускоряет обучение. Благодаря тому, что отдельные шаги могут обучаться независимо друг от друга при правильном вводе, а не полагаться на потенциально ложные данные предыдущих шагов, реализация также упрощается. Подробный пример реализации DL-модели для машинного перевода с испанского на английский смотрите здесь: https://towardsdatascience.com/end-to-end-attention-based-machine-translation-model-with-minimum-tensorflow-code-ae2f08cc8218
🧑🏼‍⚕️DL для анестезиологов
Ученые MIT предлагают новый алгоритм глубокого обучения, обученный оптимизировать дозы пропофола для поддержания бессознательного состояния во время общей анестезии. Это поможет врачу улучшить мониторинг пациента, контролировать его и подбирать наилучшую дозу наркоза. Команда нейробиологов, инженеров и врачей показала, как DL-алгоритм непрерывной автоматизации дозирования анестетика поддерживает бессознательное состояние пациента, обходя традиционное программное обеспечение в сложных, основанных на физиологии симуляциях пациентов. DL-модель близка соответствовала работе настоящих анестезиологов.
Программное обеспечение включает две связанные нейросети: первая принимает решение, о дозировке наркоза и моментах его выдачи, а вторая ориентирована на максимизацию награды и штрафы за передозировку. Испытания показали, что выбор дозировки DL-моделью точно соответствовал значениям лечащих анестезиологов после того, как была вызвана потеря сознания и до того, как в этом отпала необходимость. Но алгоритм корректировал дозировку каждые пять секунд, в то время как реальные врачи делают это каждые 20-30 минут. Важно, что DL-алгоритм не оптимизирован на то, чтобы просто вызвать бессознательное состояние и он не знает сам по себе, когда операция закончена. Но анестезиолог может сам управлять этим процессом, подавая сигнал об окончании операции. При этом одна из важнейших проблем, ограничивающих применение этой ИИ-системы сводится к отсутствию гарантии точности данных о бессознательном состоянии пациентов. Решить это можно, улучшив интерпретацию сигналов мозговых волн пациентов под анестезией.
https://news.mit.edu/2022/research-advances-technology-ai-assistance-anesthesiologists-0214
📝ИИ-разработчик: AlphaCode от DeepMind
AI-система AlphaCode
пишет компьютерные программы на конкурентоспособном уровне: она вошла в число 54% лучших участников соревнований по программированию, решая новые задачи, требующие сочетания критического мышления, логики, алгоритмов, кодирования и понимания естественного языка.
Эта языковая трансформерная модель содержит 41,4 миллиарда параметров, что в четыре раза больше Codex. AlphaCode обучена 715,1 Гб кодов и их описаний из общедоступных репозиториях GitHub на языках программирования C++, C#, Go, Java, JavaScript, Lua, PHP, Python, Ruby, Rust, Scala и TypeScript.
https://www.deepmind.com/blog/article/Competitive-programming-with-AlphaCode
#тест
К DL-моделям НЕ относится
Anonymous Quiz
0%
GAN
0%
CNN
100%
метод опорных векторов (SVM)
0%
RNN
👀Оптимизация видео с YouTube в реальном времени: новинка от DeepMind
Большинство онлайн-видео полагаются на программу, называемую кодеком, для сжатия или кодирования видео в его источнике, передачи его через Интернет зрителю, а затем распаковки или декодирования для воспроизведения. Эти кодеки принимают несколько решений для каждого кадра в видео. RL-алгоритмы хорошо подходит для последовательных задач принятия решений, таких как проблемы с кодеками.
Тестирование DL-системы MuZero на прямом трафике YouTube-видео показало снижение битрейта в среднем на 4%. Битрейт — это количество единиц и нулей, необходимых для отправки каждого кадра видео. Битрейт определяет, сколько вычислений и пропускной способности нужно для обслуживания и хранения видео, влияя на все, от того, сколько времени требуется для загрузки видео, до его разрешения, буферизации и использования данных. Эффективность MuZero оценивалась на кодеке VP9, который широко используется YouTube и другими потоковыми сервисами.
В VP9 битрейт оптимизируется непосредственно через параметр квантования (QP) в модуле управления скоростью. Для каждого кадра этот параметр определяет применяемый уровень сжатия. Учитывая целевой битрейт, QP для видеокадров выбираются последовательно, чтобы максимизировать общее качество видео. Более высокие битрейты (более низкий QP) должны быть выделены для сложных сцен, а более низкие битрейты с высоким QP – для статических сцен. Алгоритм выбора QP определяет, как значение QP видеокадра влияет на распределение битрейта остальных видеокадров и общее качество видео.
MuZero достигает сверхчеловеческой производительности в различных задачах, сочетая возможности поиска с возможностью изучения модели окружающей среды и планирования в соответствии с ней. Это хорошо работает в больших комбинаторных пространствах действий, что делает его идеальным кандидатом на решение проблемы управления скоростью при сжатии видео. Но, чтобы MuZero мог работать с этим реальным приложением, необходимо решить совершенно новый набор проблем. Например, набор видео, загружаемых на такие платформы, как YouTube, различается по содержанию и качеству, и любой агент должен обобщать видео, включая совершенно новые видео после развертывания. Многие другие показатели и ограничения влияют на конечный пользовательский опыт и экономию битрейта, например, PSNR (пиковое отношение сигнал-шум) и ограничение битрейта.
Чтобы решить эти проблемы с помощью MuZero, был создан механизм, называемый самоконкуренцией, который преобразует сложную цель сжатия видео в простой сигнал ВЫИГРЫШ/ПРОИГРЫШ, сравнивая текущую производительность агента с его предыдущей производительностью. Это позволило преобразовать широкий набор требований кодека в простой сигнал, который может быть оптимизирован нашим агентом.
Изучая динамику кодирования видео и определяя, как лучше распределить биты, контроллер скорости MuZero (MuZero-RC) может снизить скорость передачи без ухудшения качества. Выбор QP — это лишь одно из многочисленных решений кодирования в процессе кодирования. Но в целом команда DeepMind создает единый алгоритм, который может автоматически обучаться принимать эти решения по кодированию для получения оптимального компромисса между скоростью и искажениями.
https://deepmind.com/blog/article/MuZeros-first-step-from-research-into-the-real-world
📝PyTorch-LifeStream: DL-библиотека Сбера для построения эмбеддингов
В начале февраля 2022 года Sber AI Lab выложил в открытый доступ DL-библиотеку на базе Pytorch-фреймворка для преобразования сложно-структурированных данных (слова, тексты, события, их последовательности и атрибуты) в числовой вектор с целью последующей обработки. Инструмент, доступный под лицензией Apache 2.0, включает множество нейросетевых методов, позволяя анализировать сложные событийные данные: истории посещений сайтов, покупок, события пользовательского поведения в онлайн-играх и пр.
Разработчики отмечают следующие преимущества библиотеки PyTorch-LifeStream:
• сокращение времени на feature engineering событийных данных;
• повышение безопасности обмена данными в ML-системе$
• повышение качества различных ML-моделей за счет использования векторных представлений событийных данных.
Подробнее: https://developers.sber.ru/portal/tools/pytorch-lifestream
Исходный код на Github: https://github.com/sberbank-ai-lab/pytorch-lifestream
🚗4D-Net от Google AI для беспилотных автомобилей
4D-Net - это новый эффективный подход для обнаружения объектов на дальних расстояниях учится комбинировать 3D-облака точек во времени и изображения RGB-камеры во времени.
Люди воспринимают мир в четырех измерениях (4D), одним из которых является время. На улице мы наблюдаем поток визуальных входных данных, моментальных снимков трехмерного мира, которые, будучи объединены во времени, создают четырехмерный визуальный вход. Современные автономные транспортные средства и роботы способны собирать большую часть этой информации с помощью различных бортовых датчиков, таких как LiDAR и камеры.
На конференции ICCV 2021 исследователи Google AI представили нейронную сеть, способную обрабатывать 4D-данные, которую мы называем 4D-Net. Это первая попытка эффективно объединить оба типа датчиков, облака точек 3D LiDAR и RGB-изображения бортовой камеры. Метод обучения динамического соединения включает 4D-информацию из сцены, выполняя изучение соединения для обоих представлений объектов. 4D-Net может лучше использовать сигналы движения и информацию о плотном изображении для обнаружения удаленных объектов, сохраняя при этом вычислительную эффективность.
Чтобы изучить связи между обоими типами входных данных датчиков и их представлениями фичей, а также получить наиболее точное обнаружение 3D-боксов, используется облегченный поиск нейронный архитектуры. В области автономного вождения особенно важно надежно обнаруживать объекты на самых разных расстояниях, поскольку современные датчики LiDAR достигают нескольких сотен метров в диапазоне. Поэтому более удаленные объекты кажется меньше, а наиболее ценные признаки для их обнаружения будут в более ранних слоях сети, которые лучше фиксируют мелкомасштабные признаки, в отличие от близких объектов, представленных более поздними слоями.
Еще одним преимуществом 4D-Net является то, что он использует как высокое разрешение, обеспечиваемое RGB, которое может точно обнаруживать объекты на плоскости изображения, так и точную глубину, которую обеспечивают данные облака точек. В результате объекты на большем расстоянии, которые ранее были пропущены при приближении только к облаку точек, могут быть обнаружены с помощью 4D-Net. Это связано с объединением данных камеры, которые способны обнаруживать удаленные объекты и эффективно распространять эту информацию в трехмерной части сети для точного обнаружения.
Обучение динамическому соединению выбирает входные данные определенных функций для соединения друг с другом. С несколькими входными потоками 4D-Net должна изучать связи между несколькими целевыми представлениями функций, что просто, поскольку алгоритм не меняется и просто выбирает определенные функции из объединения входных данных. Это простой процесс, в котором используется дифференцируемый поиск архитектуры, который может обнаруживать новые соединения в самой архитектуре модели и эффективно находить новые модели 4D-Net.
https://ai.googleblog.com/2022/02/4d-net-learning-multi-modal-alignment.html
🙌🏻Справедливость для DL-моделей
Если модель машинного обучения обучается с использованием несбалансированного набора данных, есть риск, что прогнозы будут несправедливыми при ее развертывании в реальном мире. Модели кодируют предвзятость при обучении на несбалансированных данных. Это смещение в модели невозможно исправить позже, даже с помощью самых современных методов повышения справедливости, и при переобучении модели со сбалансированным набором данных. Поэтому исследователи из MIT придумали технику, позволяющую внедрить справедливость непосредственно во внутреннее представление модели. Это позволяет модели выдавать достоверные результаты, даже если она обучена на недостоверных и не сбалансированных данных.
Метод известен как глубокое метрическое обучение, которое представляет собой широкую форму репрезентативного обучения. При глубоком метрическом обучении нейросеть изучает сходство между объектами, сопоставляя похожие фотографии, расположенные близко друг к другу, и разнородные фотографии, расположенные далеко друг от друга. Во время обучения эта нейросеть отображает изображения в «пространстве встраивания», где метрика сходства между фотографиями соответствует расстоянию между ними.
Однако, метрика сходства может быть несправедливой. Поэтому необходимо с самого начала обеспечить справедливое пространство для эмбеддингов. Решение, называемое частичной декорреляцией атрибутов (PARADE), включает в себя обучение модели изучению отдельной метрики сходства для чувствительного атрибута, а затем декорреляцию его метрики сходства из целевой метрики. Любое количество конфиденциальных атрибутов может быть декоррелировано из целевой метрики сходства. А поскольку метрика сходства для чувствительного атрибута изучается в отдельном пространстве внедрения, она отбрасывается после обучения, поэтому в модели остается только целевая метрика сходства. Метод применим ко многим ситуациям, поскольку пользователь может контролировать степень декорреляции между показателями сходства.
https://news.mit.edu/2022/unbias-machine-learning-0301