🔥MuJoCo теперь open-cource: как DeepMind купила и открыла исходный код самого популярного робосимулятора
MuJoCo (Multi-Joint Dynamics with Contact) – физический симулятор, разработанный Roboti LLC, активно используется для моделирования реальных ситуаций у робототехников. Контактная модель симулятора точно и эффективно фиксирует характерные особенности различных объектов. Как и другие симуляторы твердого тела, он избегает мелких деталей деформаций в месте контакта и работает быстрее, чем в реальном времени. Однако, в отличие от других симуляторов, MuJoCo использует выпуклый принцип Гаусса, обеспечивая четко определенную обратную динамику. Модель предоставляет множество параметров, которые можно настраивать для аппроксимации широкого диапазона явлений контакта.
В октябре 2021 года дочерняя компания Google AI, DeepMind приобрела MuJoCo и открыла его исходный код. Скоро планируется выпустить MuJoCo в виде бесплатной предварительно скомпилированной библиотеки.
https://deepmind.com/blog/announcements/mujoco
https://github.com/deepmind/mujoco
MuJoCo (Multi-Joint Dynamics with Contact) – физический симулятор, разработанный Roboti LLC, активно используется для моделирования реальных ситуаций у робототехников. Контактная модель симулятора точно и эффективно фиксирует характерные особенности различных объектов. Как и другие симуляторы твердого тела, он избегает мелких деталей деформаций в месте контакта и работает быстрее, чем в реальном времени. Однако, в отличие от других симуляторов, MuJoCo использует выпуклый принцип Гаусса, обеспечивая четко определенную обратную динамику. Модель предоставляет множество параметров, которые можно настраивать для аппроксимации широкого диапазона явлений контакта.
В октябре 2021 года дочерняя компания Google AI, DeepMind приобрела MuJoCo и открыла его исходный код. Скоро планируется выпустить MuJoCo в виде бесплатной предварительно скомпилированной библиотеки.
https://deepmind.com/blog/announcements/mujoco
https://github.com/deepmind/mujoco
Google DeepMind
Opening up a physics simulator for robotics
When you walk, your feet make contact with the ground. When you write, your fingers make contact with the pen. Physical contacts are what makes interaction with the world possible. Yet, for such a...
😜Распознавание речи на редких языках: новый проект MIT
Исследователи из Массачусетского технологического института предлагают удалить ненужные части общей, но сложной модели распознавания речи, а затем внести в нее незначительные изменение, чтобы модель могла распознавать определенный язык. После того, как крупная модель будет уменьшена, ее обучение становится дешевле и быстрее. Это поможет внедрить системы автоматического распознавания речи в страны и регионы, где люди говорят на редких языках.
Ученые модернизировали Wave2vec 2.0 – популярную ML-модель, которая учится распознавать разговорный язык после тренировки на больших объемах немаркированных данных. Изначально эта нейросеть имеет около 300 миллионов отдельных соединений и требует огромное количество вычислительных мощностей. На первом этапе из предварительно обученной Wave2vec 2.0 удаляются ненужные соединения, далее подсеть корректируется для определенного языка, а затем снова сокращается. На этом втором этапе удаленные соединения могут расти, если они важны для конкретного языка. Поэтому модель нужно настраивать только один раз, а не за несколько итераций, что значительно снижает количество потребляемых вычислительных мощностей.
По сравнению с другими методами распознавания речи, предложенный подход особенно эффективен на небольших датасетах и может создать одну малую сеть, которую можно точно настроить для 10 языков одновременно. Это дополнительно сокращает расходы и время на обучение языковых моделей.
https://news.mit.edu/2021/speech-recognition-uncommon-languages-1104
Исследователи из Массачусетского технологического института предлагают удалить ненужные части общей, но сложной модели распознавания речи, а затем внести в нее незначительные изменение, чтобы модель могла распознавать определенный язык. После того, как крупная модель будет уменьшена, ее обучение становится дешевле и быстрее. Это поможет внедрить системы автоматического распознавания речи в страны и регионы, где люди говорят на редких языках.
Ученые модернизировали Wave2vec 2.0 – популярную ML-модель, которая учится распознавать разговорный язык после тренировки на больших объемах немаркированных данных. Изначально эта нейросеть имеет около 300 миллионов отдельных соединений и требует огромное количество вычислительных мощностей. На первом этапе из предварительно обученной Wave2vec 2.0 удаляются ненужные соединения, далее подсеть корректируется для определенного языка, а затем снова сокращается. На этом втором этапе удаленные соединения могут расти, если они важны для конкретного языка. Поэтому модель нужно настраивать только один раз, а не за несколько итераций, что значительно снижает количество потребляемых вычислительных мощностей.
По сравнению с другими методами распознавания речи, предложенный подход особенно эффективен на небольших датасетах и может создать одну малую сеть, которую можно точно настроить для 10 языков одновременно. Это дополнительно сокращает расходы и время на обучение языковых моделей.
https://news.mit.edu/2021/speech-recognition-uncommon-languages-1104
MIT News
Toward speech recognition for uncommon spoken languages
PARP is a new technique that reduces computational complexity of an advanced machine learning model so it can be applied to perform automated speech recognition for rare or uncommon languages. The work was developed by researchers from MIT CSAIL and elsewhere.
🌏🪐🌚Как DL открывает новые экзопланеты и ищет незаконные свалки
Большинство известных сегодня экзопланет обнаружено транзитным методом, основанным на мини-затмениях при прохождении планеты перед звездой. Наблюдаемое уменьшение светимости позволяет сделать вывод о существовании планеты и оценить ее диаметр после периодического подтверждения наблюдений. Однако, во многих планетных системах взаимодействия между планетами изменяют эту периодичность и делают невозможным их обнаружение. Поэтому группа ученых из университетов Швейцарии вместе с компанией Disaitek применили ИИ для обработки изображений, научив ML-модель предсказывать эффект взаимодействия между планетами, чтобы найти экзопланеты.
Нейросеть определяет для каждого пикселя изображения того объекта, который он представляет, чтобы выявить для каждого измерения светимости звезды, наблюдается ли затмение планеты. Далее ML-модель принимает решение, сравнивая все доступные наблюдения этой звезды с диапазоном конфигураций, наблюдаемых во время ее обучения. Так с помощью ML обнаружены две экзопланеты - Kepler-1705b и Kepler-1705c, определены их радиусы, масса, сделаны выводы о плотности и составе. DL проанализировало множество результатов численного моделирования, производящего терабайты данных.
Хотя метод доказал свою эффективность для астрономических наблюдений, он может также использоваться и для земных нужд для наблюдений за нашей планетой и окружающей средой, в частности, для решения экологических проблем, например, обнаружения незаконных свалок.
https://phys.org/news/2021-10-exoplanets-artificial-intelligence.html
Большинство известных сегодня экзопланет обнаружено транзитным методом, основанным на мини-затмениях при прохождении планеты перед звездой. Наблюдаемое уменьшение светимости позволяет сделать вывод о существовании планеты и оценить ее диаметр после периодического подтверждения наблюдений. Однако, во многих планетных системах взаимодействия между планетами изменяют эту периодичность и делают невозможным их обнаружение. Поэтому группа ученых из университетов Швейцарии вместе с компанией Disaitek применили ИИ для обработки изображений, научив ML-модель предсказывать эффект взаимодействия между планетами, чтобы найти экзопланеты.
Нейросеть определяет для каждого пикселя изображения того объекта, который он представляет, чтобы выявить для каждого измерения светимости звезды, наблюдается ли затмение планеты. Далее ML-модель принимает решение, сравнивая все доступные наблюдения этой звезды с диапазоном конфигураций, наблюдаемых во время ее обучения. Так с помощью ML обнаружены две экзопланеты - Kepler-1705b и Kepler-1705c, определены их радиусы, масса, сделаны выводы о плотности и составе. DL проанализировало множество результатов численного моделирования, производящего терабайты данных.
Хотя метод доказал свою эффективность для астрономических наблюдений, он может также использоваться и для земных нужд для наблюдений за нашей планетой и окружающей средой, в частности, для решения экологических проблем, например, обнаружения незаконных свалок.
https://phys.org/news/2021-10-exoplanets-artificial-intelligence.html
phys.org
Discovering exoplanets using artificial intelligence
By implementing artificial intelligence techniques similar to those used in autonomous cars, a team from the UNIGE and the UniBE, in partnership with the company Disaitek, has discovered a new method ...
📕📗📘RGB-Stacking от DeepMind: новый эталон для роботизированных манипуляций на базе CV
DeepMind открыла исходный код среды моделирования для RL-обучения роботов-манипуляторов. В этой среде агент управляет манипулятором робота с параллельным захватом над корзиной, которая содержит три объекта разных цветов - красный, зеленый и синий, отсюда и название RGB (Red, Green, Blue). Задача агента - поставить красный объект поверх синего в течение 20 секунд, когда зеленый объект служит препятствием и отвлекает. Агент управляет роботом с помощью четырехмерного декартового контроллера, с 3-мя контролируемыми степенями свободы (x, y, z) и вращением вокруг оси z. Моделирование представляет собой среду MuJoCo, созданную с использованием структуры Modular Manipulation (MoMa).
Суть подхода в том, чтобы перевести основанную на состоянии политику моделирования с помощью стандартного RL-алгоритма с последующей интерактивной дистилляцией в политику на базе компьютерного зрения с использованием рандомизированной версии среды предметной области. Добавлено автономное обучение с подкреплением на основе симулированных и реальных данных.
https://deepmind.com/blog/article/stacking-our-way-to-more-general-robots
https://github.com/deepmind/rgb_stacking
DeepMind открыла исходный код среды моделирования для RL-обучения роботов-манипуляторов. В этой среде агент управляет манипулятором робота с параллельным захватом над корзиной, которая содержит три объекта разных цветов - красный, зеленый и синий, отсюда и название RGB (Red, Green, Blue). Задача агента - поставить красный объект поверх синего в течение 20 секунд, когда зеленый объект служит препятствием и отвлекает. Агент управляет роботом с помощью четырехмерного декартового контроллера, с 3-мя контролируемыми степенями свободы (x, y, z) и вращением вокруг оси z. Моделирование представляет собой среду MuJoCo, созданную с использованием структуры Modular Manipulation (MoMa).
Суть подхода в том, чтобы перевести основанную на состоянии политику моделирования с помощью стандартного RL-алгоритма с последующей интерактивной дистилляцией в политику на базе компьютерного зрения с использованием рандомизированной версии среды предметной области. Добавлено автономное обучение с подкреплением на основе симулированных и реальных данных.
https://deepmind.com/blog/article/stacking-our-way-to-more-general-robots
https://github.com/deepmind/rgb_stacking
Deepmind
Stacking our way to more general robots
Introducing RGB-Stacking as a new benchmark for vision-based robotic manipulation.
🏃♀️🏃Ансамбли DL-моделей быстрее, чем вы думаете: новости от Google AI
При построении DL-модели для нового ML-приложения исследователи часто начинают с существующих сетевых архитектур типа ResNets или EfficientNets. Если точность исходной модели недостаточно высока, более крупная модель может быть альтернативой, но не лучшим решением для поставленной задачи. А более высокой производительности можно добиться, разработав новую модель, оптимизированную для этой задачи. Но это обычно очень трудозатратно.
Решить проблему помогут ансамбли и каскады ML-моделей, которые достаточно просты сами по себе и создают новые модели из существующих и объединения их результатов. Ансамбли выполняют несколько моделей параллельно, а затем объединяют выходные данные, чтобы сделать окончательный прогноз. Каскады - это подмножество ансамблей, которые выполняют собранные модели последовательно и объединяют решения, как только прогноз имеет достаточно высокую достоверность. Для простых входных данных каскады используют меньше вычислений, но для более сложных может потребоваться большее количество моделей, что приведет к росту затрат на вычисления. По сравнению с одной моделью, ансамбли могут обеспечить повышенную точность, если прогнозы собранных моделей отличаются друг от друга. Например, большинство изображений в ImageNet легко классифицируются современными моделями распознавания изображений, но есть много изображений, для которых прогнозы различаются между моделями и которые больше всего выиграют от ансамбля. Тестирование показало, что ансамблевые и каскадные модели обладают высокой эффективностью и точностью по сравнению с современными моделями из стандартных архитектурных семейств.
https://ai.googleblog.com/2021/11/model-ensembles-are-faster-than-you.html
При построении DL-модели для нового ML-приложения исследователи часто начинают с существующих сетевых архитектур типа ResNets или EfficientNets. Если точность исходной модели недостаточно высока, более крупная модель может быть альтернативой, но не лучшим решением для поставленной задачи. А более высокой производительности можно добиться, разработав новую модель, оптимизированную для этой задачи. Но это обычно очень трудозатратно.
Решить проблему помогут ансамбли и каскады ML-моделей, которые достаточно просты сами по себе и создают новые модели из существующих и объединения их результатов. Ансамбли выполняют несколько моделей параллельно, а затем объединяют выходные данные, чтобы сделать окончательный прогноз. Каскады - это подмножество ансамблей, которые выполняют собранные модели последовательно и объединяют решения, как только прогноз имеет достаточно высокую достоверность. Для простых входных данных каскады используют меньше вычислений, но для более сложных может потребоваться большее количество моделей, что приведет к росту затрат на вычисления. По сравнению с одной моделью, ансамбли могут обеспечить повышенную точность, если прогнозы собранных моделей отличаются друг от друга. Например, большинство изображений в ImageNet легко классифицируются современными моделями распознавания изображений, но есть много изображений, для которых прогнозы различаются между моделями и которые больше всего выиграют от ансамбля. Тестирование показало, что ансамблевые и каскадные модели обладают высокой эффективностью и точностью по сравнению с современными моделями из стандартных архитектурных семейств.
https://ai.googleblog.com/2021/11/model-ensembles-are-faster-than-you.html
research.google
Model Ensembles Are Faster Than You Think
Posted by Xiaofang Wang, Intern and Yair Alon (prev. Movshovitz-Attias), Software Engineer, Google Research When building a deep model for a new ma...
🙌🏻Ловкость рук и никакого мошенничества: DL для роботов-манипуляторов
Ученые из MIT создали масштабную систему, которая может переориентировать более 2000 различных объектов с помощью руки робота. Эта способность манипулировать чем угодно, от легкой чашки до тяжелого инструмента, поможет роботу быстро подбирать и размещать объекты определенным образом и в нужном месте. Это пригодится в логистике и производстве, например, упаковка предметов в слоты для комплектования. Команда разработчиков смоделировала антропоморфную руку с 24 степенями свободы и продемонстрировала жизнеспособность этой ML-системы в настоящего робота.
Исследователи использовали безмодельный DL-алгоритм обучения с подкреплением, когда система вычисляет полезные функции на основе взаимодействия с окружающей средой и метод обучения с учителем. Сеть «учителей» обучается на модельной информации об объекте и роботе. Чтобы гарантировать, что роботы могут работать вне симуляции, знания «учителя» превращаются в наблюдения из реального мира с фото и видеокамер о положениях объекта и суставов робота. Также применялась учебную программу по гравитации, где робот сначала тренирует навыки в условиях невесомости, а затем медленно адаптирует контроллер к нормальным условиям гравитации. Так всего один контроллер в качестве мозга робота может переориентировать большое количество объектов, которые он никогда раньше не видел и не знал ничего об их форме. Так множество маленьких предметов круглой формы (яблоки, теннисные мячи, шарики) имели почти 100% успеха при переориентации вверх и вниз, а для более сложных предметов (ложка, отвертка, ножницы), точность манипулирования приближаясь к 30%.
https://news.mit.edu/2021/dexterous-robotic-hands-manipulate-thousands-objects-1112
Ученые из MIT создали масштабную систему, которая может переориентировать более 2000 различных объектов с помощью руки робота. Эта способность манипулировать чем угодно, от легкой чашки до тяжелого инструмента, поможет роботу быстро подбирать и размещать объекты определенным образом и в нужном месте. Это пригодится в логистике и производстве, например, упаковка предметов в слоты для комплектования. Команда разработчиков смоделировала антропоморфную руку с 24 степенями свободы и продемонстрировала жизнеспособность этой ML-системы в настоящего робота.
Исследователи использовали безмодельный DL-алгоритм обучения с подкреплением, когда система вычисляет полезные функции на основе взаимодействия с окружающей средой и метод обучения с учителем. Сеть «учителей» обучается на модельной информации об объекте и роботе. Чтобы гарантировать, что роботы могут работать вне симуляции, знания «учителя» превращаются в наблюдения из реального мира с фото и видеокамер о положениях объекта и суставов робота. Также применялась учебную программу по гравитации, где робот сначала тренирует навыки в условиях невесомости, а затем медленно адаптирует контроллер к нормальным условиям гравитации. Так всего один контроллер в качестве мозга робота может переориентировать большое количество объектов, которые он никогда раньше не видел и не знал ничего об их форме. Так множество маленьких предметов круглой формы (яблоки, теннисные мячи, шарики) имели почти 100% успеха при переориентации вверх и вниз, а для более сложных предметов (ложка, отвертка, ножницы), точность манипулирования приближаясь к 30%.
https://news.mit.edu/2021/dexterous-robotic-hands-manipulate-thousands-objects-1112
MIT News
Dexterous robotic hands manipulate thousands of objects with ease
A new robot system can reorient over 2,000 different objects, with a robotic hand facing both upwards and downwards. The work was developed at MIT’s Computer Science and Artificial Intelligence Laboratory (CSAIL).
🤖Как заставить робота решать: новое исследование от Google AI
Несмотря на прогресс в обучении роботов, им до сих пор сложно выбрать наиболее подходящее действие при попытке имитировать точное или сложное поведение. Чтобы побудить роботов быть более решительными, исследователи часто используют дискретное пространство действий, которое заставляет робота выбирать вариант A или вариант B, не колеблясь между вариантами. Например, дискретность была ключевым элементом архитектуры Transporter Networks и используется в обучении игровых агентов: AlphaGo, AlphaStar и бот Dota OpenAI. Но дискретизация имеет свои ограничения - для роботов, которые работают в пространственно-непрерывном реальном мире, есть как минимум два недостатка дискретизации: ограничивает точность и запускает проклятие размерности, увеличивая требования к памяти. Поэтому в области CV недавний прогресс был обеспечен непрерывными, а не дискретными представлениями.
Чтобы разработать политики принятия решений без недостатков дискретизации, исследователи Google AI реализовали open-source проект с открытым исходным кодом Implicit Behavioral Cloning. Implicit BC представляет собой новый простой подход к имитационному обучению и был представлен на CoRL 2021. По сути, подход - это тип клонирования поведения, который, возможно, является для роботов самым простым способом освоить новые навыки на демонстрациях. При клонировании поведения агент учится имитировать поведение эксперта с помощью стандартного обучения с учителем. Традиционно клонирование поведения включает обучение явной нейронной сети, которая принимает наблюдения и выводит действия экспертов. Ключевая идея Implicit BC состоит в том, чтобы вместо этого обучить нейронную сеть выполнять как наблюдения, так и действия, и выводить одно число, низкое для действий эксперта и высокое для действий не эксперта (внизу справа), превращая поведенческое клонирование в проблема энергетического моделирования. После обучения политика Implicit BC генерирует действия, находя входные данные действия с наименьшей оценкой для данного наблюдения.
Implicit BC достигает хороших результатов как в моделируемых тестовых задачах, так и в реальных роботизированных задачах, требующих точного и решительного поведения. Это включает в себя достижение самых современных результатов (SOTA) в задачах, выполняемых человеком-экспертом из недавнего эталонного теста нашей команды для автономного обучения с подкреплением, D4RL. В шести из семи из этих задач Implicit BC превосходит лучший предыдущий метод для автономного RL - Консервативное Q Learning. Интересно, что Implicit BC достигает этих результатов, не требуя никакой информации о вознаграждении, то есть он может использовать относительно простое обучение с учителем, а не более сложное обучение с подкреплением.
https://ai.googleblog.com/2021/11/decisiveness-in-imitation-learning-for.html
https://github.com/google-research/ibc
Несмотря на прогресс в обучении роботов, им до сих пор сложно выбрать наиболее подходящее действие при попытке имитировать точное или сложное поведение. Чтобы побудить роботов быть более решительными, исследователи часто используют дискретное пространство действий, которое заставляет робота выбирать вариант A или вариант B, не колеблясь между вариантами. Например, дискретность была ключевым элементом архитектуры Transporter Networks и используется в обучении игровых агентов: AlphaGo, AlphaStar и бот Dota OpenAI. Но дискретизация имеет свои ограничения - для роботов, которые работают в пространственно-непрерывном реальном мире, есть как минимум два недостатка дискретизации: ограничивает точность и запускает проклятие размерности, увеличивая требования к памяти. Поэтому в области CV недавний прогресс был обеспечен непрерывными, а не дискретными представлениями.
Чтобы разработать политики принятия решений без недостатков дискретизации, исследователи Google AI реализовали open-source проект с открытым исходным кодом Implicit Behavioral Cloning. Implicit BC представляет собой новый простой подход к имитационному обучению и был представлен на CoRL 2021. По сути, подход - это тип клонирования поведения, который, возможно, является для роботов самым простым способом освоить новые навыки на демонстрациях. При клонировании поведения агент учится имитировать поведение эксперта с помощью стандартного обучения с учителем. Традиционно клонирование поведения включает обучение явной нейронной сети, которая принимает наблюдения и выводит действия экспертов. Ключевая идея Implicit BC состоит в том, чтобы вместо этого обучить нейронную сеть выполнять как наблюдения, так и действия, и выводить одно число, низкое для действий эксперта и высокое для действий не эксперта (внизу справа), превращая поведенческое клонирование в проблема энергетического моделирования. После обучения политика Implicit BC генерирует действия, находя входные данные действия с наименьшей оценкой для данного наблюдения.
Implicit BC достигает хороших результатов как в моделируемых тестовых задачах, так и в реальных роботизированных задачах, требующих точного и решительного поведения. Это включает в себя достижение самых современных результатов (SOTA) в задачах, выполняемых человеком-экспертом из недавнего эталонного теста нашей команды для автономного обучения с подкреплением, D4RL. В шести из семи из этих задач Implicit BC превосходит лучший предыдущий метод для автономного RL - Консервативное Q Learning. Интересно, что Implicit BC достигает этих результатов, не требуя никакой информации о вознаграждении, то есть он может использовать относительно простое обучение с учителем, а не более сложное обучение с подкреплением.
https://ai.googleblog.com/2021/11/decisiveness-in-imitation-learning-for.html
https://github.com/google-research/ibc
blog.research.google
Decisiveness in Imitation Learning for Robots
🐱Кот Шредингера и DL
Кот Шредингера, который сидит в закрытом ящике – популярная модель для объяснения того, насколько странно квантовые эффекты выглядят применительно к макроскопическим системам. Суть этого мысленного эксперимента в том, что вместе с котом в ящике находится колба с ядовитым газом, радиоактивный атом и счетчик Гейгера. Радиоактивный атом может распасться в любой момент, а может не распасться. При распаде счетчик засечет радиацию и его механизм разобьет колбу с газом, а кот погибнет. Если радиоактивный атом не распадается — кот живет. Атом находится в состоянии неопределенности — он распался с вероятностью 50% и не распался с вероятностью 50%. Поэтому до того, как экспериментатор откроет ящик, атом и, соответственно, кот, будут находиться в обоих состояниях сразу. А после того, как экспериментатор откроет ящик, неопределенность пропадет. Таким образом, в квантовом мире любое взаимодействие системы с окружающей средой, включая наблюдения и измерения, немного изменяет ее состояние.
Эта теория квантовых состояний давно не дает покоя физикам. Поэтому ученые из Университетов Японии и Австралии использовали глубокое обучение с подкреплением, при котором искусственный нейронный агент исследует и учится управлять квантовой эволюцией нелинейной системы типа «двойная яма», приводя ее к основному состоянию с высокой точностью. Эксперименты показали, что DRL может эффективно обучаться нелогичным стратегиям охлаждения системы до почти чистого «кошачьего» состояния, которое имеет высокую точность перекрытия с истинным основным состоянием.
https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.127.190403
Кот Шредингера, который сидит в закрытом ящике – популярная модель для объяснения того, насколько странно квантовые эффекты выглядят применительно к макроскопическим системам. Суть этого мысленного эксперимента в том, что вместе с котом в ящике находится колба с ядовитым газом, радиоактивный атом и счетчик Гейгера. Радиоактивный атом может распасться в любой момент, а может не распасться. При распаде счетчик засечет радиацию и его механизм разобьет колбу с газом, а кот погибнет. Если радиоактивный атом не распадается — кот живет. Атом находится в состоянии неопределенности — он распался с вероятностью 50% и не распался с вероятностью 50%. Поэтому до того, как экспериментатор откроет ящик, атом и, соответственно, кот, будут находиться в обоих состояниях сразу. А после того, как экспериментатор откроет ящик, неопределенность пропадет. Таким образом, в квантовом мире любое взаимодействие системы с окружающей средой, включая наблюдения и измерения, немного изменяет ее состояние.
Эта теория квантовых состояний давно не дает покоя физикам. Поэтому ученые из Университетов Японии и Австралии использовали глубокое обучение с подкреплением, при котором искусственный нейронный агент исследует и учится управлять квантовой эволюцией нелинейной системы типа «двойная яма», приводя ее к основному состоянию с высокой точностью. Эксперименты показали, что DRL может эффективно обучаться нелогичным стратегиям охлаждения системы до почти чистого «кошачьего» состояния, которое имеет высокую точность перекрытия с истинным основным состоянием.
https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.127.190403
Physical Review Letters
Measurement-Based Feedback Quantum Control with Deep Reinforcement Learning for a Double-Well Nonlinear Potential
Closed loop quantum control uses measurement to control the dynamics of a quantum system to achieve either a desired target state or target dynamics. In the case when the quantum Hamiltonian is quadratic in $x$ and $p$, there are known optimal control techniques…
🌸☀️🌴GauGAN2 от NVIDIA: скажите слово и получите картинку от DL-нейросети
Новая генеративно-состязательная нейросеть нейросеть GauGAN2, обученная на 10 миллионах фотографий природы и суперкомпьютере NVIDIA Selene, генерирует реалистичные изображения природы по их краткому описанию. На одной модели она строит карты сегментации и преобразует текст в изображение, позволяя затем доработать его в графическом редакторе. Достаточно задать пару слов, например, «сумерки в летнем лесу» и GauGAN сгенерирует картинку.
Одним нажатием кнопки пользователи могут создать карту сегментации - высокоуровневую схему, которая показывает расположение объектов в сцене. Далее можно настраивать полученную сцену, например, чтобы сделать деревья выше или ниже. Личное тестирование этого веб-приложение показало, что следует вводить детальные запросы: например, «rainy forest» не создало картинку, а вот «sunset in rainy forest» - уже позволило получить снимок заката в дождливом леса.
https://blogs.nvidia.com/blog/2021/11/22/gaugan2-ai-art-demo/
https://www.nvidia.com/en-us/research/ai-demos/
http://gaugan.org/gaugan2/
Новая генеративно-состязательная нейросеть нейросеть GauGAN2, обученная на 10 миллионах фотографий природы и суперкомпьютере NVIDIA Selene, генерирует реалистичные изображения природы по их краткому описанию. На одной модели она строит карты сегментации и преобразует текст в изображение, позволяя затем доработать его в графическом редакторе. Достаточно задать пару слов, например, «сумерки в летнем лесу» и GauGAN сгенерирует картинку.
Одним нажатием кнопки пользователи могут создать карту сегментации - высокоуровневую схему, которая показывает расположение объектов в сцене. Далее можно настраивать полученную сцену, например, чтобы сделать деревья выше или ниже. Личное тестирование этого веб-приложение показало, что следует вводить детальные запросы: например, «rainy forest» не создало картинку, а вот «sunset in rainy forest» - уже позволило получить снимок заката в дождливом леса.
https://blogs.nvidia.com/blog/2021/11/22/gaugan2-ai-art-demo/
https://www.nvidia.com/en-us/research/ai-demos/
http://gaugan.org/gaugan2/
NVIDIA Blog
‘Paint Me a Picture’: NVIDIA Research Shows GauGAN AI Art Demo Now Responds to Words
GauGAN2, the latest version of NVIDIA Research’s wildly popular AI painting demo, allows anyone to create photorealistic masterpieces.
🌏☀️🌦Прогнозирование осадков с MetNet-2 от Google AI
Google AI представил новую DL-модель для 12-часового прогнозирования осадков. Классические методы прогнозирования погоды чувствительны к приближениям физических законов и требуют множества вычислительных ресурсов. Глубокое обучение предлагает новый подход: модели учатся предсказывать погодные условия на основе наблюдаемых данных. DL работает намного быстрее традиционных методов и предоставляет результат высокого качества.
За счет четырехкратного увеличения входного контекста и расширения архитектуры для захвата более продолжительных пространственных зависимостей, MetNet-2 улучшает производительность первой версии этой нейросетевой модели. Также MetNet-2 превосходит современную ансамблевую модель HREF для 12-часового прогнозирования погоды.
Входы в MetNet-2 включают радиолокационные и спутниковые изображения. Также MetNet-2 использует предварительно обработанное начальное состояние из физических моделей в качестве прокси и как дополнительную информацию. Измерения осадков на основе радара (MRMS) служат в качестве достоверной информации, т.е. результатов прогнозирования и нужны оптимизации параметров MetNet-2. Вероятностные прогнозы MetNet-2 можно рассматривать как усреднение всех возможных будущих погодных условий, взвешенных по их вероятности. Благодаря своей вероятностной природе, MetNet-2 можно сравнить с ансамблевыми моделями, основанными на физике, которые усредняют некоторое количество будущих погодных условий. Но работа ансамблевых моделей занимает около часа, тогда как MetNet-2 выдает результат примерно за 1 секунду благодаря распараллеливанию по 128 ядрам Cloud TPU v3-128. А чтобы сверточные слои DL-модели могли улавливать большие пространственные контексты, MetNet-2 использует расширенные рецептивные поля. Их размер удваивается послойно, чтобы соединить точки на входе, которые находятся далеко друг от друга.
https://ai.googleblog.com/2021/11/metnet-2-deep-learning-for-12-hour.html
Google AI представил новую DL-модель для 12-часового прогнозирования осадков. Классические методы прогнозирования погоды чувствительны к приближениям физических законов и требуют множества вычислительных ресурсов. Глубокое обучение предлагает новый подход: модели учатся предсказывать погодные условия на основе наблюдаемых данных. DL работает намного быстрее традиционных методов и предоставляет результат высокого качества.
За счет четырехкратного увеличения входного контекста и расширения архитектуры для захвата более продолжительных пространственных зависимостей, MetNet-2 улучшает производительность первой версии этой нейросетевой модели. Также MetNet-2 превосходит современную ансамблевую модель HREF для 12-часового прогнозирования погоды.
Входы в MetNet-2 включают радиолокационные и спутниковые изображения. Также MetNet-2 использует предварительно обработанное начальное состояние из физических моделей в качестве прокси и как дополнительную информацию. Измерения осадков на основе радара (MRMS) служат в качестве достоверной информации, т.е. результатов прогнозирования и нужны оптимизации параметров MetNet-2. Вероятностные прогнозы MetNet-2 можно рассматривать как усреднение всех возможных будущих погодных условий, взвешенных по их вероятности. Благодаря своей вероятностной природе, MetNet-2 можно сравнить с ансамблевыми моделями, основанными на физике, которые усредняют некоторое количество будущих погодных условий. Но работа ансамблевых моделей занимает около часа, тогда как MetNet-2 выдает результат примерно за 1 секунду благодаря распараллеливанию по 128 ядрам Cloud TPU v3-128. А чтобы сверточные слои DL-модели могли улавливать большие пространственные контексты, MetNet-2 использует расширенные рецептивные поля. Их размер удваивается послойно, чтобы соединить точки на входе, которые находятся далеко друг от друга.
https://ai.googleblog.com/2021/11/metnet-2-deep-learning-for-12-hour.html
research.google
MetNet-2: Deep Learning for 12-Hour Precipitation Forecasting
Posted by Nal Kalchbrenner and Lasse Espeholt, Google Research Deep learning has successfully been applied to a wide range of important challenges,...
🛳DL-нейросеть на внимании для подводной акустики
Глубокое обучение помогает обнаруживать подводные объекты, исключая шумовые помехи. В подводной акустике глубокое обучение используется для обнаружения кораблей и подводных лодок, которые терпят бедствие. Исследователи из Китая и США разработали глубокую нейросеть, основанную на внимании (ABNN, Attention-based deep neural network), которая позволяет лучше обнаруживать целевые сигналы. ABNN использует модуль внимания, чтобы сосредоточиться на самых важных частях через добавление большего веса к определенным узлам. Включив ABNN в гидроакустическое оборудование для целевого обнаружения кораблей, исследователи испытали два корабля на мелководье площадью 135 квадратных миль в Южно-Китайском море. По сравнению с другими глубокими нейросетями, ABNN показала более точные результаты. Обнаружение становится более явным, т.к. DL-сеть непрерывно циклически проходит через весь набор обучающих данных, акцентируя внимание на взвешенных узлах и игнорируя нерелевантную информацию.
https://www.sciencedaily.com/releases/2021/10/211012154827.htm
Глубокое обучение помогает обнаруживать подводные объекты, исключая шумовые помехи. В подводной акустике глубокое обучение используется для обнаружения кораблей и подводных лодок, которые терпят бедствие. Исследователи из Китая и США разработали глубокую нейросеть, основанную на внимании (ABNN, Attention-based deep neural network), которая позволяет лучше обнаруживать целевые сигналы. ABNN использует модуль внимания, чтобы сосредоточиться на самых важных частях через добавление большего веса к определенным узлам. Включив ABNN в гидроакустическое оборудование для целевого обнаружения кораблей, исследователи испытали два корабля на мелководье площадью 135 квадратных миль в Южно-Китайском море. По сравнению с другими глубокими нейросетями, ABNN показала более точные результаты. Обнаружение становится более явным, т.к. DL-сеть непрерывно циклически проходит через весь набор обучающих данных, акцентируя внимание на взвешенных узлах и игнорируя нерелевантную информацию.
https://www.sciencedaily.com/releases/2021/10/211012154827.htm
ScienceDaily
Attention-based deep neural network increases detection capability in sonar systems
In underwater acoustics, deep learning may improve sonar systems to help detect ships and submarines in distress or in restricted waters. However, noise interference can be a challenge. Researchers now explore an attention-based deep neural network to tackle…
👀DL и аппаратные инновации для конфокального микроскопа
Принцип конфокальной микроскопии, запатентованный еще в 1957 году, стал стандартом в медико-биологических лабораториях благодаря отличной контрастности по сравнению с традиционной широкопольной микроскопией. Но конфокальные микроскопы не идеальны: исследования на них длятся достаточно долго, т.к. сканирование биологического образца выполняется последовательно с постепенным повышением разрешения.
Поэтому ученые добавили DL-нейросети, чтобы снизить фототоксичность, т.е. уменьшить свет от лазера микроскопа и исключить зернистость фона. Команда обучила модель глубокого обучения различать изображения более низкого качества с низким отношением сигнал/шум (SNR) и более качественные изображения с более высоким SNR. В итоге сеть может предсказывать изображения с более высоким SNR даже при довольно низком входном SNR. Модель успешно показала себя в исследованиях около 20 различных фиксированных и живых образцах со структурами размером от 100 нанометров до миллиметра. Образцы включали распределение белков в отдельных клетках; ядра и развивающиеся нейроны у эмбрионов, личинок и взрослых нематод, миобласты в дисках крыльев дрозофилы, а также в тканях почек, пищевода, сердца и мозга мышей. В перспективе подобную DL-модель можно использовать для визуализации тканей человека в медицинских лабораториях гистологии и патологии.
https://phys.org/news/2021-11-workhorse-artificial-intelligence-hardware-boost.html
Принцип конфокальной микроскопии, запатентованный еще в 1957 году, стал стандартом в медико-биологических лабораториях благодаря отличной контрастности по сравнению с традиционной широкопольной микроскопией. Но конфокальные микроскопы не идеальны: исследования на них длятся достаточно долго, т.к. сканирование биологического образца выполняется последовательно с постепенным повышением разрешения.
Поэтому ученые добавили DL-нейросети, чтобы снизить фототоксичность, т.е. уменьшить свет от лазера микроскопа и исключить зернистость фона. Команда обучила модель глубокого обучения различать изображения более низкого качества с низким отношением сигнал/шум (SNR) и более качественные изображения с более высоким SNR. В итоге сеть может предсказывать изображения с более высоким SNR даже при довольно низком входном SNR. Модель успешно показала себя в исследованиях около 20 различных фиксированных и живых образцах со структурами размером от 100 нанометров до миллиметра. Образцы включали распределение белков в отдельных клетках; ядра и развивающиеся нейроны у эмбрионов, личинок и взрослых нематод, миобласты в дисках крыльев дрозофилы, а также в тканях почек, пищевода, сердца и мозга мышей. В перспективе подобную DL-модель можно использовать для визуализации тканей человека в медицинских лабораториях гистологии и патологии.
https://phys.org/news/2021-11-workhorse-artificial-intelligence-hardware-boost.html
phys.org
Enhancing the workhorse: Artificial intelligence, hardware innovations boost confocal microscope's performance
Since artificial intelligence pioneer Marvin Minsky patented the principle of confocal microscopy in 1957, it has become the workhorse standard in life science laboratories worldwide, due to its superior ...
Обучение с подкреплением: главные плюсы и минусы RL
Reinforcement Learning – один из самых популярных сегодня методов глубокого обучения. Он наиболее близок к человеческому способу познания мира – получение практического опыта методом проб и ошибок. Технически RL подразумевает, что агент получает количественное вознаграждение за успешные действия, а затем максимизирует шансы на получение максимального бонуса с помощью оптимальной политики.
Основной плюс RL – это отсутствие повторяемости ошибок. В отличие от традиционных ML-моделей обучения с учителем, RL-агенты учатся сами и с меньшей вероятностью повторят ошибку дважды. Более того, они поддерживают баланс между исследованием и производительностью. В отличие от других ML-алгоритмов, RL может разработать идеальную политику, которая открывает новые возможности, а также использует правильные действия из прошлого опыта.
Недостаток в том, что RL-модели не всегда быстро находят оптимальную политику, поэтому им нужна более-менее постоянная среда, параметры которой не меняются быстро. Это маловероятно в реальном мире, поэтому отсроченное вознаграждение агента может привести к плохой согласованности политики.
Тем не менее, RL отлично подходит для ситуаций, когда нужно смоделировать определенный процесс. Например, бизнес хочет выяснить реакцию потребителей на новый пользовательский интерфейс своего продукта. Подобные кейсы сложно оптимизировать вручную из-за большого пространства состояний и множества вариантов на выбор, а RL справляется с этим. Однако, в случае нечетких функций вознаграждения RL становится не самым удачным решением. Поскольку алгоритмы RL не имеют представления об окружающей среде до того, как они начнут совершать действия, то ошибки на начальных этапах моделирования случаются часто. Если это недопустимо или выходит слишком долго/дорого, вместо RL лучше выбрать другой метод машинного обучения.
https://medium.com/geekculture/reinforcement-learning-what-rewards-you-makes-you-stronger-9aa03ad9e0e
Reinforcement Learning – один из самых популярных сегодня методов глубокого обучения. Он наиболее близок к человеческому способу познания мира – получение практического опыта методом проб и ошибок. Технически RL подразумевает, что агент получает количественное вознаграждение за успешные действия, а затем максимизирует шансы на получение максимального бонуса с помощью оптимальной политики.
Основной плюс RL – это отсутствие повторяемости ошибок. В отличие от традиционных ML-моделей обучения с учителем, RL-агенты учатся сами и с меньшей вероятностью повторят ошибку дважды. Более того, они поддерживают баланс между исследованием и производительностью. В отличие от других ML-алгоритмов, RL может разработать идеальную политику, которая открывает новые возможности, а также использует правильные действия из прошлого опыта.
Недостаток в том, что RL-модели не всегда быстро находят оптимальную политику, поэтому им нужна более-менее постоянная среда, параметры которой не меняются быстро. Это маловероятно в реальном мире, поэтому отсроченное вознаграждение агента может привести к плохой согласованности политики.
Тем не менее, RL отлично подходит для ситуаций, когда нужно смоделировать определенный процесс. Например, бизнес хочет выяснить реакцию потребителей на новый пользовательский интерфейс своего продукта. Подобные кейсы сложно оптимизировать вручную из-за большого пространства состояний и множества вариантов на выбор, а RL справляется с этим. Однако, в случае нечетких функций вознаграждения RL становится не самым удачным решением. Поскольку алгоритмы RL не имеют представления об окружающей среде до того, как они начнут совершать действия, то ошибки на начальных этапах моделирования случаются часто. Если это недопустимо или выходит слишком долго/дорого, вместо RL лучше выбрать другой метод машинного обучения.
https://medium.com/geekculture/reinforcement-learning-what-rewards-you-makes-you-stronger-9aa03ad9e0e
Medium
Reinforcement Learning — what rewards you, makes you stronger
Reinforcement Learning refers to an entity learning by trial and error over being explicitly taught in order to maximize the likelihood of…
🍏Автоматическая маркировка текста для NLP
«Сырые» текстовые данные нельзя проанализировать сразу с помощью ML не только потому, что текст представлен в виде символов, а не чисел, но и из-за отсутствия разметки, которая маркирует ключевые слова относительно контекста. Обычно для разметки текстовых данных нужен человек, что замедляет скорость предподготовки датасета и повышает стоимость этого процесса. Но есть возможность сделать маркировку автоматически, используя подход обучения с нулевым выстрелом (ZSL, zero-shot learning), который изначально относился к специфическому типу задачи: изучить классификатор на одном наборе меток, а оценить на другом. В NLP этот подход позволяет заставить модель делать то, чему она явно не была обучена. При этом можно использовать одну модель для встраивания и данных, и имен классов в одно пространство, устраняя необходимость в этапе выравнивания на большом количестве данных.
Посмотреть, как это работает, можно в демо-приложении Zero-shot classification от Hugging Face https://huggingface.co/zero-shot/. А подробная теория изложена здесь:
https://medium.com/algoanalytics/automatic-labelling-of-text-for-nlp-5270e70a2f5f
https://joeddav.github.io/blog/2020/05/29/ZSL.html
«Сырые» текстовые данные нельзя проанализировать сразу с помощью ML не только потому, что текст представлен в виде символов, а не чисел, но и из-за отсутствия разметки, которая маркирует ключевые слова относительно контекста. Обычно для разметки текстовых данных нужен человек, что замедляет скорость предподготовки датасета и повышает стоимость этого процесса. Но есть возможность сделать маркировку автоматически, используя подход обучения с нулевым выстрелом (ZSL, zero-shot learning), который изначально относился к специфическому типу задачи: изучить классификатор на одном наборе меток, а оценить на другом. В NLP этот подход позволяет заставить модель делать то, чему она явно не была обучена. При этом можно использовать одну модель для встраивания и данных, и имен классов в одно пространство, устраняя необходимость в этапе выравнивания на большом количестве данных.
Посмотреть, как это работает, можно в демо-приложении Zero-shot classification от Hugging Face https://huggingface.co/zero-shot/. А подробная теория изложена здесь:
https://medium.com/algoanalytics/automatic-labelling-of-text-for-nlp-5270e70a2f5f
https://joeddav.github.io/blog/2020/05/29/ZSL.html
Medium
Automatic Labeling of Text for NLP
Label text without training any model!
🏂RL как основной движок AutoML в будущем
Благодаря универсальной идее, обучение с подкреплением (RL) можно рассматривать как способ разработать единый ML-алгоритм общего назначения для широкого круга задач. Но таксономия известных RL-алгоритмов довольно велика, а разработка новых требует обширной настройки и проверки. Поэтому более реально сперва создать метод мета-обучения, который мог бы разрабатывать новые RL-алгоритмы с возможностью их автоматического обобщения в будущем.
Успех AutoML обусловлен тем, что архитектура нейросети или весь ML-алгоритм представлены в виде графа, а для его оптимизации используются отдельные методы. Однако, из-за того что в RL много возможностей оптимизации (архитектуры нейросетей для агентов, стратегии выборки из буфера воспроизведения, общая формулировка функции потерь), не всегда ясно, какая процедура обновления модели будет наилучшей.
Поэтому исследователи из Google AI предложили новые аналитически интерпретируемые и обобщаемые RL-алгоритмы на графах и методах оптимизации AutoML. В частности, представление функции потерь для оптимизации параметров агента с учетом его опыта, в виде вычислительного графа и регулируемую эволюцию (Regularized Evolution) для развития совокупности вычислительных графов в наборе простых обучающих сред. Так RL-алгоритмы становятся более совершенными и могут работать в более сложных средах.
https://ai.googleblog.com/2021/04/evolving-reinforcement-learning.html
Благодаря универсальной идее, обучение с подкреплением (RL) можно рассматривать как способ разработать единый ML-алгоритм общего назначения для широкого круга задач. Но таксономия известных RL-алгоритмов довольно велика, а разработка новых требует обширной настройки и проверки. Поэтому более реально сперва создать метод мета-обучения, который мог бы разрабатывать новые RL-алгоритмы с возможностью их автоматического обобщения в будущем.
Успех AutoML обусловлен тем, что архитектура нейросети или весь ML-алгоритм представлены в виде графа, а для его оптимизации используются отдельные методы. Однако, из-за того что в RL много возможностей оптимизации (архитектуры нейросетей для агентов, стратегии выборки из буфера воспроизведения, общая формулировка функции потерь), не всегда ясно, какая процедура обновления модели будет наилучшей.
Поэтому исследователи из Google AI предложили новые аналитически интерпретируемые и обобщаемые RL-алгоритмы на графах и методах оптимизации AutoML. В частности, представление функции потерь для оптимизации параметров агента с учетом его опыта, в виде вычислительного графа и регулируемую эволюцию (Regularized Evolution) для развития совокупности вычислительных графов в наборе простых обучающих сред. Так RL-алгоритмы становятся более совершенными и могут работать в более сложных средах.
https://ai.googleblog.com/2021/04/evolving-reinforcement-learning.html
Googleblog
Evolving Reinforcement Learning Algorithms
👣DL для выхода из медицинского тупика
Ученые MIT совместно с коллегами из медорганизаций разработали модель глубокого обучения для прогнозирования «медицинского тупика» - ситуации, когда пациент с большой вероятностью умрет, независимо от стратегии и тактики лечения. Это особенно важно в критических случаях, когда негативный исход развивается очень быстро и у врачей нет времени на долгий подбор наилучшего средства. Например, сепсис – обширное заражение, смерть от которого может наступить в течение суток.
Обычно при обучении с подкреплением алгоритм обучается методом проб и ошибок, учится предпринимать действия, которые максимизируют накопление вознаграждения. Но в условиях здравоохранения практически невозможно собрать достаточно данных для этих DL-моделей, чтобы определить оптимальное лечение, поскольку экспериментировать с возможными стратегиями лечения неэтично. Поэтому исследователи изменили подход к Deep Learning, использовав ограниченные данные из отделения интенсивной терапии для обучения с подкреплением, чтобы определить методы лечения, которых следует избегать, чтобы пациент избежал медицинского тупика.
Одна из основных идей здесь состоит в том, чтобы уменьшить вероятность выбора каждого лечения пропорционально его шансу вынудить пациента войти в медицинский тупик - свойство, которое называется безопасностью лечения. Сложность в том, что данные не дают такого представления напрямую. Но теоретические результаты позволили преобразовать эту идею в проблему обучения с подкреплением. Для этого ученые создали две копии нейросети, одна из которых фокусируется только на отрицательных результатах (пациент умер), а вторая – только на положительных (пациент выжил). Использование двух нейросетей по отдельности позволило исследователям обнаружить рискованное лечение в одной, а затем подтвердить ее с помощью другой. На вход нейросетям идет статистика здоровья пациентов и предлагаемое лечение. Сети выводят оценочную стоимость этого лечения и вероятность того, что пациент попадет в медицинский тупик. Сравнение этих оценок позволяет установить вхождение пациента в опасную зону (желтый флаг), а красный флаг указывает, что с высокой вероятностью пациент не выздоровеет.
Исследователи протестировали свою модель, используя набор данных пациентов, предположительно страдающих сепсисом, из отделения интенсивной терапии Медицинского центра Beth Israel Deaconess. Этот набор данных содержит около 19 300 госпитализаций с наблюдениями за 72-часовой период, сосредоточенный вокруг того, когда у пациентов впервые проявляются симптомы сепсиса. Их результаты подтвердили, что некоторые пациенты из набора данных попали в медицинские тупики.
Ученые также обнаружили, что 20-40% пациентов, которые не выжили, отмечены хотя бы одним желтым флагом перед смертью, причем многие из них как минимум за 48 часов до этого исхода. Результаты также показали, что при сравнении тенденций выживших и умерших пациентов, как только отметился первый желтый флаг, наблюдается очень резкое отклонение в ценности проведенного лечения. Окно времени вокруг первого флага является критическим моментом при принятии решения о лечении. Поэтому лечение имеет значение: потенциально можно было избежать более 11% неоптимальных методов, применив альтернативы. Это довольно большое число количества пациентов с сепсисом в любой больнице мира.
Важно, DL-модель предназначена для помощи врачам, а не для их замены. Решение о лечении в любом случае принимают люди. Но ML помогает быстрее распознать риски и принять соответствующие меры. В будущем эти RL-модели можно использовать, для оценки причинно-следственных связей между решениями о лечении и развитием здоровья пациентов, чтобы снижать неопределенность и помогать врачам принимать более обоснованные решения.
https://news.mit.edu/2021/machine-learning-treatments-1209
Ученые MIT совместно с коллегами из медорганизаций разработали модель глубокого обучения для прогнозирования «медицинского тупика» - ситуации, когда пациент с большой вероятностью умрет, независимо от стратегии и тактики лечения. Это особенно важно в критических случаях, когда негативный исход развивается очень быстро и у врачей нет времени на долгий подбор наилучшего средства. Например, сепсис – обширное заражение, смерть от которого может наступить в течение суток.
Обычно при обучении с подкреплением алгоритм обучается методом проб и ошибок, учится предпринимать действия, которые максимизируют накопление вознаграждения. Но в условиях здравоохранения практически невозможно собрать достаточно данных для этих DL-моделей, чтобы определить оптимальное лечение, поскольку экспериментировать с возможными стратегиями лечения неэтично. Поэтому исследователи изменили подход к Deep Learning, использовав ограниченные данные из отделения интенсивной терапии для обучения с подкреплением, чтобы определить методы лечения, которых следует избегать, чтобы пациент избежал медицинского тупика.
Одна из основных идей здесь состоит в том, чтобы уменьшить вероятность выбора каждого лечения пропорционально его шансу вынудить пациента войти в медицинский тупик - свойство, которое называется безопасностью лечения. Сложность в том, что данные не дают такого представления напрямую. Но теоретические результаты позволили преобразовать эту идею в проблему обучения с подкреплением. Для этого ученые создали две копии нейросети, одна из которых фокусируется только на отрицательных результатах (пациент умер), а вторая – только на положительных (пациент выжил). Использование двух нейросетей по отдельности позволило исследователям обнаружить рискованное лечение в одной, а затем подтвердить ее с помощью другой. На вход нейросетям идет статистика здоровья пациентов и предлагаемое лечение. Сети выводят оценочную стоимость этого лечения и вероятность того, что пациент попадет в медицинский тупик. Сравнение этих оценок позволяет установить вхождение пациента в опасную зону (желтый флаг), а красный флаг указывает, что с высокой вероятностью пациент не выздоровеет.
Исследователи протестировали свою модель, используя набор данных пациентов, предположительно страдающих сепсисом, из отделения интенсивной терапии Медицинского центра Beth Israel Deaconess. Этот набор данных содержит около 19 300 госпитализаций с наблюдениями за 72-часовой период, сосредоточенный вокруг того, когда у пациентов впервые проявляются симптомы сепсиса. Их результаты подтвердили, что некоторые пациенты из набора данных попали в медицинские тупики.
Ученые также обнаружили, что 20-40% пациентов, которые не выжили, отмечены хотя бы одним желтым флагом перед смертью, причем многие из них как минимум за 48 часов до этого исхода. Результаты также показали, что при сравнении тенденций выживших и умерших пациентов, как только отметился первый желтый флаг, наблюдается очень резкое отклонение в ценности проведенного лечения. Окно времени вокруг первого флага является критическим моментом при принятии решения о лечении. Поэтому лечение имеет значение: потенциально можно было избежать более 11% неоптимальных методов, применив альтернативы. Это довольно большое число количества пациентов с сепсисом в любой больнице мира.
Важно, DL-модель предназначена для помощи врачам, а не для их замены. Решение о лечении в любом случае принимают люди. Но ML помогает быстрее распознать риски и принять соответствующие меры. В будущем эти RL-модели можно использовать, для оценки причинно-следственных связей между решениями о лечении и развитием здоровья пациентов, чтобы снижать неопределенность и помогать врачам принимать более обоснованные решения.
https://news.mit.edu/2021/machine-learning-treatments-1209
MIT News | Massachusetts Institute of Technology
Machine-learning system flags remedies that might do more harm than good
Dead-end Discovery is a new learning model can identify high-risk treatments in urgent situations, and in some cases alert doctors when a patient is approaching a medical dead-end that will likely result in their death.
🚀Автономное обучение с подкреплением
Обучение с подкреплением (Reinforcement Learning) – популярный DL-метод. Машинное обучение с учителем использует набор обучающих данных (образцов), а RL-агент учится самостоятельно через прямое взаимодействие с окружающей средой. Совершая какие-то действия, RL-модель оценивает результат и повторяет наилучшие действия – те, которые принесли максимальное вознаграждение. Алгоритмы RL не имеют представления об окружающей среде до того, как они начнут совершать действия, но с большей вероятностью улучшатся по мере обучения. Поэтому нейросети с RL особенно успешны в таких задачах, где частые ошибки на начальном этапе обучения не являются проблемой.
Автономное обучение с подкреплением относится к агенту, который изучает все путем массового приема данных по одному наблюдению за раз. Данные зарегистрированных взаимодействий (состояния, действия и награды) должны отправляться вместе – одним пакетом вместо непрерывного потока. Это значительно удешевляет RL и повышает его производительность.
Автономный RL по сравнению с другими подходами может принимать большие, разнообразные наборы данных и создавать решения, которые в целом обобщаются для новых ситуаций. Например, политики, которые эффективно рекомендуют видео Youtube новым пользователям, или политики, которые могут выполнять роботизированные задачи в странных ситуациях. Способность «обобщать» важна практически для любой ML-системы, особенно для RL-моделей, которые не могут обучаться с данными, некоррелирующими с распределением состояний, вознаграждений и действий текущей политики. Поэтому пакет исходных данных может вызвать проблемы с недостаточной репрезентативностью и разнообразием результатов.
Роботам и беспилотным автомобилям требуется большой объем данных для обучения, поэтому автономный RL с предварительно обученной моделью отлично подходит для этих кейсов. Автономный RL также можно применять в задачах робототехники и рекомендательных систем для новостных лент.
https://medium.com/geekculture/reinforcement-learning-what-rewards-you-makes-you-stronger-9aa03ad9e0e
Обучение с подкреплением (Reinforcement Learning) – популярный DL-метод. Машинное обучение с учителем использует набор обучающих данных (образцов), а RL-агент учится самостоятельно через прямое взаимодействие с окружающей средой. Совершая какие-то действия, RL-модель оценивает результат и повторяет наилучшие действия – те, которые принесли максимальное вознаграждение. Алгоритмы RL не имеют представления об окружающей среде до того, как они начнут совершать действия, но с большей вероятностью улучшатся по мере обучения. Поэтому нейросети с RL особенно успешны в таких задачах, где частые ошибки на начальном этапе обучения не являются проблемой.
Автономное обучение с подкреплением относится к агенту, который изучает все путем массового приема данных по одному наблюдению за раз. Данные зарегистрированных взаимодействий (состояния, действия и награды) должны отправляться вместе – одним пакетом вместо непрерывного потока. Это значительно удешевляет RL и повышает его производительность.
Автономный RL по сравнению с другими подходами может принимать большие, разнообразные наборы данных и создавать решения, которые в целом обобщаются для новых ситуаций. Например, политики, которые эффективно рекомендуют видео Youtube новым пользователям, или политики, которые могут выполнять роботизированные задачи в странных ситуациях. Способность «обобщать» важна практически для любой ML-системы, особенно для RL-моделей, которые не могут обучаться с данными, некоррелирующими с распределением состояний, вознаграждений и действий текущей политики. Поэтому пакет исходных данных может вызвать проблемы с недостаточной репрезентативностью и разнообразием результатов.
Роботам и беспилотным автомобилям требуется большой объем данных для обучения, поэтому автономный RL с предварительно обученной моделью отлично подходит для этих кейсов. Автономный RL также можно применять в задачах робототехники и рекомендательных систем для новостных лент.
https://medium.com/geekculture/reinforcement-learning-what-rewards-you-makes-you-stronger-9aa03ad9e0e
Medium
Reinforcement Learning — what rewards you, makes you stronger
Reinforcement Learning refers to an entity learning by trial and error over being explicitly taught in order to maximize the likelihood of…
📌TinyML: крошечный ML для IoT-устройств
Новая технология, применяемая к микроконтроллерам, позволяет использовать эффективные алгоритмы зрения и обнаружения без подключения к Интернету. Применение DL на микроконтроллерах (MCU) сдерживает ограниченный размер памяти: всего 256 килобайт оперативной и 1 мегабайт постоянной. Для сравнения: мобильный ИИ на смартфонах с облачными вычислениями может иметь 256 гигабайт и терабайт памяти, т.е. в тысячи раз больше MCU.
Узким местом в MCU с несбалансированным распределением памяти в конструкциях сверточной нейросети являются ее первые блоки, которые потребляют на порядок больше ресурсов, чем остальная часть сети. Ученые из MIT предлагают решить эту проблему через общее последовательное планирование вывода, которое работает только с небольшой пространственной областью карты функций и значительно сокращает пиковую память. Также нужно перераспределить сеть, чтобы сдвинуть рецептивное поле и FLOP на более позднюю стадию и уменьшить накладные расходы на вычисления. Сделать это вручную сложно, поэтому процесс автоматизируется с помощью нейронной архитектуры MCUNetV2.
Этот подход показал рекордную точность ImageNet на микроконтроллерах (71,8%) с использованием всего 32 КБ SRAM. MCUNetV2 также разблокирует обнаружение объектов на крошечных устройствах, достигая на 16,9% более высокого показателя MAP на Pascal VOC по сравнению с современным результатом. Результаты исследований пригодятся в различных приложениях машинного зрения, помимо классификации изображений.
Подход получил название «крошечный ML» (TinyML) и по сравнению с традиционным DL он предлагает ряд преимуществ:
• Конфиденциальность - данные не передаются в облако для вычислений, а обрабатываются на локальном устройстве;
• Надежность - вычисления выполняются быстро, а время ожидания невелико;
• низкая стоимость - устройства IoT стоят примерно 1-2 доллара;
• экологичность – низкие выбросы углерода, в отличие от больших DL-систем, которые могут выделять столько углерода, как 5 автомобилей, требуют много графических процессоров и их обучение в итоге стоит миллиарды долларов.
TinyML позволит отключиться от сети, чтобы сократить выбросы углерода и сделать ИИ более экологичным, умным, быстрым, а также доступным для всех.
https://arxiv.org/abs/2110.15352
Новая технология, применяемая к микроконтроллерам, позволяет использовать эффективные алгоритмы зрения и обнаружения без подключения к Интернету. Применение DL на микроконтроллерах (MCU) сдерживает ограниченный размер памяти: всего 256 килобайт оперативной и 1 мегабайт постоянной. Для сравнения: мобильный ИИ на смартфонах с облачными вычислениями может иметь 256 гигабайт и терабайт памяти, т.е. в тысячи раз больше MCU.
Узким местом в MCU с несбалансированным распределением памяти в конструкциях сверточной нейросети являются ее первые блоки, которые потребляют на порядок больше ресурсов, чем остальная часть сети. Ученые из MIT предлагают решить эту проблему через общее последовательное планирование вывода, которое работает только с небольшой пространственной областью карты функций и значительно сокращает пиковую память. Также нужно перераспределить сеть, чтобы сдвинуть рецептивное поле и FLOP на более позднюю стадию и уменьшить накладные расходы на вычисления. Сделать это вручную сложно, поэтому процесс автоматизируется с помощью нейронной архитектуры MCUNetV2.
Этот подход показал рекордную точность ImageNet на микроконтроллерах (71,8%) с использованием всего 32 КБ SRAM. MCUNetV2 также разблокирует обнаружение объектов на крошечных устройствах, достигая на 16,9% более высокого показателя MAP на Pascal VOC по сравнению с современным результатом. Результаты исследований пригодятся в различных приложениях машинного зрения, помимо классификации изображений.
Подход получил название «крошечный ML» (TinyML) и по сравнению с традиционным DL он предлагает ряд преимуществ:
• Конфиденциальность - данные не передаются в облако для вычислений, а обрабатываются на локальном устройстве;
• Надежность - вычисления выполняются быстро, а время ожидания невелико;
• низкая стоимость - устройства IoT стоят примерно 1-2 доллара;
• экологичность – низкие выбросы углерода, в отличие от больших DL-систем, которые могут выделять столько углерода, как 5 автомобилей, требуют много графических процессоров и их обучение в итоге стоит миллиарды долларов.
TinyML позволит отключиться от сети, чтобы сократить выбросы углерода и сделать ИИ более экологичным, умным, быстрым, а также доступным для всех.
https://arxiv.org/abs/2110.15352
📌21 декабря в 19:00 МСК состоится завершающая в этом году онлайн-встреча Citymobil Data 🎅 Meetup!
🚀 В 2021 Ситимобил провел 4 митапа, там выступили 12 классных спикеров с огненными докладами: Ксения Мензорова, Екатерина Колпакова, Николай Радчиков, Михаил Дьячков, Алексей Венжега, Алексей Кудинов, Максим Шаланкин, Сергей Свиридов, Даниил Тарарухин, Артем Солоухин, Андрей Критилин, Федор Лаврентьев.
🎁 В преддверии Новогодних праздников будут подводиться итоги года в мире Data Science и Big Data, а также будет проведена викторина с подарками 🥳!
Регистрация для бесплатного участия: https://citymobil.timepad.ru/event/1870148/
Итоги года подведут:
🚕 Алексей Чернобровов (Ситимобил, Head of Data Science)
🆗 Андрей Кузнецов (Ok.ru, Data Scientist)
📹 Артур Кузин (SberDevices, Head of Computer Vision Platfrom)
⛓ Валерий Бабушкин (Blockchain.com, Head of Data Science)
☎️ Виктор Кантор (МТС, Директор центра Big Data)
🖼 Дмитрий Коробченко (NVIDIA, Senior Manager of AI)
🚀 В 2021 Ситимобил провел 4 митапа, там выступили 12 классных спикеров с огненными докладами: Ксения Мензорова, Екатерина Колпакова, Николай Радчиков, Михаил Дьячков, Алексей Венжега, Алексей Кудинов, Максим Шаланкин, Сергей Свиридов, Даниил Тарарухин, Артем Солоухин, Андрей Критилин, Федор Лаврентьев.
🎁 В преддверии Новогодних праздников будут подводиться итоги года в мире Data Science и Big Data, а также будет проведена викторина с подарками 🥳!
Регистрация для бесплатного участия: https://citymobil.timepad.ru/event/1870148/
Итоги года подведут:
🚕 Алексей Чернобровов (Ситимобил, Head of Data Science)
🆗 Андрей Кузнецов (Ok.ru, Data Scientist)
📹 Артур Кузин (SberDevices, Head of Computer Vision Platfrom)
⛓ Валерий Бабушкин (Blockchain.com, Head of Data Science)
☎️ Виктор Кантор (МТС, Директор центра Big Data)
🖼 Дмитрий Коробченко (NVIDIA, Senior Manager of AI)
citymobil.timepad.ru
Citymobil Data Meetup / События на TimePad.ru
Ситимобил каждый месяц проводит митапы о применении Data science в городских и геосервисах, логистике и технологиях умных городов.
Сегодняшний митап пройдет на нашем YouTube-канале https://youtu.be/RXn5ERnhfaM
Сегодняшний митап пройдет на нашем YouTube-канале https://youtu.be/RXn5ERnhfaM