Deep Dive 2 Deep Learning
370 subscribers
26 photos
10 videos
384 links
Канал про глубокое машинное обучение: кейсы, новости, открытия и факапы из мира нейросетей и не только
Download Telegram
✈️Сквозная модель машинного перевода на основе внимания в Tensorflow
Предварительная обработка текста — неотъемлемый этап любого поста на естественном языке. Чтобы сократить количество кода при работе с Tensorflo, можно использовать API TextLineDataset для прямого создания датасета. Для индексации токенов в тексте подойдет слой TextVectorization из этого DL-фреймворка. Модель представляет собой типичную модель последовательности. Исходный текст подается в двунаправленную рекуррентную нейросеть - кодировщик, конечное состояние которого становится начальным состоянием декодера. Выход двунаправленного кодера h взвешивается уровнем внимания и комбинируется с вводом результата. Механизм принуждения учителя для обучения декодера, когда входные данные для декодера исходят из ожидаемого, а не фактического вывода декодера на предыдущем шаге, ускоряет обучение. Благодаря тому, что отдельные шаги могут обучаться независимо друг от друга при правильном вводе, а не полагаться на потенциально ложные данные предыдущих шагов, реализация также упрощается. Подробный пример реализации DL-модели для машинного перевода с испанского на английский смотрите здесь: https://towardsdatascience.com/end-to-end-attention-based-machine-translation-model-with-minimum-tensorflow-code-ae2f08cc8218
🧑🏼‍⚕️DL для анестезиологов
Ученые MIT предлагают новый алгоритм глубокого обучения, обученный оптимизировать дозы пропофола для поддержания бессознательного состояния во время общей анестезии. Это поможет врачу улучшить мониторинг пациента, контролировать его и подбирать наилучшую дозу наркоза. Команда нейробиологов, инженеров и врачей показала, как DL-алгоритм непрерывной автоматизации дозирования анестетика поддерживает бессознательное состояние пациента, обходя традиционное программное обеспечение в сложных, основанных на физиологии симуляциях пациентов. DL-модель близка соответствовала работе настоящих анестезиологов.
Программное обеспечение включает две связанные нейросети: первая принимает решение, о дозировке наркоза и моментах его выдачи, а вторая ориентирована на максимизацию награды и штрафы за передозировку. Испытания показали, что выбор дозировки DL-моделью точно соответствовал значениям лечащих анестезиологов после того, как была вызвана потеря сознания и до того, как в этом отпала необходимость. Но алгоритм корректировал дозировку каждые пять секунд, в то время как реальные врачи делают это каждые 20-30 минут. Важно, что DL-алгоритм не оптимизирован на то, чтобы просто вызвать бессознательное состояние и он не знает сам по себе, когда операция закончена. Но анестезиолог может сам управлять этим процессом, подавая сигнал об окончании операции. При этом одна из важнейших проблем, ограничивающих применение этой ИИ-системы сводится к отсутствию гарантии точности данных о бессознательном состоянии пациентов. Решить это можно, улучшив интерпретацию сигналов мозговых волн пациентов под анестезией.
https://news.mit.edu/2022/research-advances-technology-ai-assistance-anesthesiologists-0214
📝ИИ-разработчик: AlphaCode от DeepMind
AI-система AlphaCode
пишет компьютерные программы на конкурентоспособном уровне: она вошла в число 54% лучших участников соревнований по программированию, решая новые задачи, требующие сочетания критического мышления, логики, алгоритмов, кодирования и понимания естественного языка.
Эта языковая трансформерная модель содержит 41,4 миллиарда параметров, что в четыре раза больше Codex. AlphaCode обучена 715,1 Гб кодов и их описаний из общедоступных репозиториях GitHub на языках программирования C++, C#, Go, Java, JavaScript, Lua, PHP, Python, Ruby, Rust, Scala и TypeScript.
https://www.deepmind.com/blog/article/Competitive-programming-with-AlphaCode
#тест
К DL-моделям НЕ относится
Anonymous Quiz
0%
GAN
0%
CNN
100%
метод опорных векторов (SVM)
0%
RNN
👀Оптимизация видео с YouTube в реальном времени: новинка от DeepMind
Большинство онлайн-видео полагаются на программу, называемую кодеком, для сжатия или кодирования видео в его источнике, передачи его через Интернет зрителю, а затем распаковки или декодирования для воспроизведения. Эти кодеки принимают несколько решений для каждого кадра в видео. RL-алгоритмы хорошо подходит для последовательных задач принятия решений, таких как проблемы с кодеками.
Тестирование DL-системы MuZero на прямом трафике YouTube-видео показало снижение битрейта в среднем на 4%. Битрейт — это количество единиц и нулей, необходимых для отправки каждого кадра видео. Битрейт определяет, сколько вычислений и пропускной способности нужно для обслуживания и хранения видео, влияя на все, от того, сколько времени требуется для загрузки видео, до его разрешения, буферизации и использования данных. Эффективность MuZero оценивалась на кодеке VP9, который широко используется YouTube и другими потоковыми сервисами.
В VP9 битрейт оптимизируется непосредственно через параметр квантования (QP) в модуле управления скоростью. Для каждого кадра этот параметр определяет применяемый уровень сжатия. Учитывая целевой битрейт, QP для видеокадров выбираются последовательно, чтобы максимизировать общее качество видео. Более высокие битрейты (более низкий QP) должны быть выделены для сложных сцен, а более низкие битрейты с высоким QP – для статических сцен. Алгоритм выбора QP определяет, как значение QP видеокадра влияет на распределение битрейта остальных видеокадров и общее качество видео.
MuZero достигает сверхчеловеческой производительности в различных задачах, сочетая возможности поиска с возможностью изучения модели окружающей среды и планирования в соответствии с ней. Это хорошо работает в больших комбинаторных пространствах действий, что делает его идеальным кандидатом на решение проблемы управления скоростью при сжатии видео. Но, чтобы MuZero мог работать с этим реальным приложением, необходимо решить совершенно новый набор проблем. Например, набор видео, загружаемых на такие платформы, как YouTube, различается по содержанию и качеству, и любой агент должен обобщать видео, включая совершенно новые видео после развертывания. Многие другие показатели и ограничения влияют на конечный пользовательский опыт и экономию битрейта, например, PSNR (пиковое отношение сигнал-шум) и ограничение битрейта.
Чтобы решить эти проблемы с помощью MuZero, был создан механизм, называемый самоконкуренцией, который преобразует сложную цель сжатия видео в простой сигнал ВЫИГРЫШ/ПРОИГРЫШ, сравнивая текущую производительность агента с его предыдущей производительностью. Это позволило преобразовать широкий набор требований кодека в простой сигнал, который может быть оптимизирован нашим агентом.
Изучая динамику кодирования видео и определяя, как лучше распределить биты, контроллер скорости MuZero (MuZero-RC) может снизить скорость передачи без ухудшения качества. Выбор QP — это лишь одно из многочисленных решений кодирования в процессе кодирования. Но в целом команда DeepMind создает единый алгоритм, который может автоматически обучаться принимать эти решения по кодированию для получения оптимального компромисса между скоростью и искажениями.
https://deepmind.com/blog/article/MuZeros-first-step-from-research-into-the-real-world
📝PyTorch-LifeStream: DL-библиотека Сбера для построения эмбеддингов
В начале февраля 2022 года Sber AI Lab выложил в открытый доступ DL-библиотеку на базе Pytorch-фреймворка для преобразования сложно-структурированных данных (слова, тексты, события, их последовательности и атрибуты) в числовой вектор с целью последующей обработки. Инструмент, доступный под лицензией Apache 2.0, включает множество нейросетевых методов, позволяя анализировать сложные событийные данные: истории посещений сайтов, покупок, события пользовательского поведения в онлайн-играх и пр.
Разработчики отмечают следующие преимущества библиотеки PyTorch-LifeStream:
• сокращение времени на feature engineering событийных данных;
• повышение безопасности обмена данными в ML-системе$
• повышение качества различных ML-моделей за счет использования векторных представлений событийных данных.
Подробнее: https://developers.sber.ru/portal/tools/pytorch-lifestream
Исходный код на Github: https://github.com/sberbank-ai-lab/pytorch-lifestream
🚗4D-Net от Google AI для беспилотных автомобилей
4D-Net - это новый эффективный подход для обнаружения объектов на дальних расстояниях учится комбинировать 3D-облака точек во времени и изображения RGB-камеры во времени.
Люди воспринимают мир в четырех измерениях (4D), одним из которых является время. На улице мы наблюдаем поток визуальных входных данных, моментальных снимков трехмерного мира, которые, будучи объединены во времени, создают четырехмерный визуальный вход. Современные автономные транспортные средства и роботы способны собирать большую часть этой информации с помощью различных бортовых датчиков, таких как LiDAR и камеры.
На конференции ICCV 2021 исследователи Google AI представили нейронную сеть, способную обрабатывать 4D-данные, которую мы называем 4D-Net. Это первая попытка эффективно объединить оба типа датчиков, облака точек 3D LiDAR и RGB-изображения бортовой камеры. Метод обучения динамического соединения включает 4D-информацию из сцены, выполняя изучение соединения для обоих представлений объектов. 4D-Net может лучше использовать сигналы движения и информацию о плотном изображении для обнаружения удаленных объектов, сохраняя при этом вычислительную эффективность.
Чтобы изучить связи между обоими типами входных данных датчиков и их представлениями фичей, а также получить наиболее точное обнаружение 3D-боксов, используется облегченный поиск нейронный архитектуры. В области автономного вождения особенно важно надежно обнаруживать объекты на самых разных расстояниях, поскольку современные датчики LiDAR достигают нескольких сотен метров в диапазоне. Поэтому более удаленные объекты кажется меньше, а наиболее ценные признаки для их обнаружения будут в более ранних слоях сети, которые лучше фиксируют мелкомасштабные признаки, в отличие от близких объектов, представленных более поздними слоями.
Еще одним преимуществом 4D-Net является то, что он использует как высокое разрешение, обеспечиваемое RGB, которое может точно обнаруживать объекты на плоскости изображения, так и точную глубину, которую обеспечивают данные облака точек. В результате объекты на большем расстоянии, которые ранее были пропущены при приближении только к облаку точек, могут быть обнаружены с помощью 4D-Net. Это связано с объединением данных камеры, которые способны обнаруживать удаленные объекты и эффективно распространять эту информацию в трехмерной части сети для точного обнаружения.
Обучение динамическому соединению выбирает входные данные определенных функций для соединения друг с другом. С несколькими входными потоками 4D-Net должна изучать связи между несколькими целевыми представлениями функций, что просто, поскольку алгоритм не меняется и просто выбирает определенные функции из объединения входных данных. Это простой процесс, в котором используется дифференцируемый поиск архитектуры, который может обнаруживать новые соединения в самой архитектуре модели и эффективно находить новые модели 4D-Net.
https://ai.googleblog.com/2022/02/4d-net-learning-multi-modal-alignment.html
🙌🏻Справедливость для DL-моделей
Если модель машинного обучения обучается с использованием несбалансированного набора данных, есть риск, что прогнозы будут несправедливыми при ее развертывании в реальном мире. Модели кодируют предвзятость при обучении на несбалансированных данных. Это смещение в модели невозможно исправить позже, даже с помощью самых современных методов повышения справедливости, и при переобучении модели со сбалансированным набором данных. Поэтому исследователи из MIT придумали технику, позволяющую внедрить справедливость непосредственно во внутреннее представление модели. Это позволяет модели выдавать достоверные результаты, даже если она обучена на недостоверных и не сбалансированных данных.
Метод известен как глубокое метрическое обучение, которое представляет собой широкую форму репрезентативного обучения. При глубоком метрическом обучении нейросеть изучает сходство между объектами, сопоставляя похожие фотографии, расположенные близко друг к другу, и разнородные фотографии, расположенные далеко друг от друга. Во время обучения эта нейросеть отображает изображения в «пространстве встраивания», где метрика сходства между фотографиями соответствует расстоянию между ними.
Однако, метрика сходства может быть несправедливой. Поэтому необходимо с самого начала обеспечить справедливое пространство для эмбеддингов. Решение, называемое частичной декорреляцией атрибутов (PARADE), включает в себя обучение модели изучению отдельной метрики сходства для чувствительного атрибута, а затем декорреляцию его метрики сходства из целевой метрики. Любое количество конфиденциальных атрибутов может быть декоррелировано из целевой метрики сходства. А поскольку метрика сходства для чувствительного атрибута изучается в отдельном пространстве внедрения, она отбрасывается после обучения, поэтому в модели остается только целевая метрика сходства. Метод применим ко многим ситуациям, поскольку пользователь может контролировать степень декорреляции между показателями сходства.
https://news.mit.edu/2022/unbias-machine-learning-0301
😜TRILLsson от Google AI: небольшие универсальные представления речи для паралингвистических задач
Несмотря на успехи автоматического распознавания речи, ML-системам все еще трудно понять паралингвистические аспекты, такие как тон, эмоции, наличие маски у говорящего и пр. Кроме того, отличные результаты дают сверхбольшие модели, обученные на частных данных, что делает непрактичным их запуск на мобильных устройствах или публичную публикацию.
Исследователи Google AI анонсировали доклад на конференцию ICASSP 2022, представив CAP12 — 12-й уровень модели параметров 600M, обученный на обучающем наборе данных YT-U с использованием самоконтроля. Модель CAP12 превзошла все предыдущие результаты в паралингвистическом тесте. Небольшие, производительные, общедоступные модели TRILLsson позволили уменьшить размер высокопроизводительной модели CAP12 в 6–100 раз, сохранив при этом 90–96 % производительности. Для создания TRILLsson использовалась дистилляция знаний на аудиофрагментах небольшого размера и различные типы архитектуры для обучения небольших, более быстрых сетей, которые можно применять на мобильных устройствах.
Для обучения сверхбольшой самоконтролируемой модели CAP12 использовался датасет YT-U с различными данными продолжительностью более 900 миллионов часов, который содержит аудио на различные темы, фоновые условия и акустические свойства динамиков. Модифицируя парадигму обучения с самоконтролем Wav2Vec 2.0, которая может решать задачи на необработанных неразмеченных данных, разработчики скомбинировали результаты со сверхбольшими моделями Conformer. Поскольку для самообучения не требуются размеченные данных, можно в полной мере воспользоваться преимуществами YT-U, масштабируя ML-модели до самых больших размеров.
Были проведены эксперименты с EfficientNet, Audio Spectrogram Transformer (AST) и ResNet. Эти типы моделей сильно различаются и охватывают входные данные как фиксированной, так и произвольной длины. EfficientNet исходит из поиска нейронной архитектуры по моделям зрения, чтобы найти одновременно эффективные и эффективные структуры моделей. Модели AST представляют собой трансформаторы, адаптированные к аудиовходам. ResNet — это стандартная архитектура, которая показала хорошую производительность во многих различных моделях.
Разные типы архитектуры работают лучше при разных размерах. Модели ResNet показали лучшие результаты на низком уровне, EfficientNet — на среднем, а модели AST — на более высоком уровне.
Паралингвистическая информация показывает неожиданное бимодальное распределение. Для модели CAP, которая работает с входными сегментами по 500 мс, и двух моделей Conformer с полным входом промежуточные представления постепенно увеличивают паралингвистическую информацию, затем уменьшают, затем снова увеличивают и, наконец, теряют эту информацию по направлению к выходному слою. Удивительно, но этот паттерн наблюдается и при изучении промежуточных представлений сетей, обученных на изображениях сетчатки.
https://ai.googleblog.com/2022/03/trillsson-small-universal-speech.html
🍏SBERT: DL-модель от Сбера
Все знают о BERT – глубокой нейросети от Google AI для решения NLP-задач. Центр ML-разработок Сбера выпустил свой DL-инструмент с похожим названием: SBERT, который позволяет представить текстовый запрос в виде поискового вектора, чтобы искать нужные данные. Представления текста в SBERT сближают запросы одинаковые по смыслу, но разные по написанию, что увеличивает охват поиска и повышает вероятность нахождения искомого ответа.
SBERT основан на трансформерной архитектуре BERT, которая отлично решает типовые NLP-задачи: семантический поиск по смыслу, поиск токсичных фраз, поиск намерений. DL-нейросеть можно обучить под задачи пользователя и повысить качество модели путем настройки различных параметров. https://developers.sber.ru/portal/tools/sbert
Подробное описание и сравнение с аналогами: https://habr.com/ru/company/sberdevices/blog/527576/
🎂Совместное обучение Transformer для улучшенного распознавания действий
Хотя текущая парадигма распознавания действий перед обучением и тонкой настройкой проста и демонстрирует сильные эмпирические результаты, она не всегда применима для построения моделей распознавания действий общего назначения. По сравнению с набором данных, таким как ImageNet, который охватывает широкий спектр классов распознавания объектов, наборы данных распознавания действий, такие как Kinetics и Something-Something-v2 (SSv2), относятся к ограниченным темам. Например, Kinetics включает в себя объектно-ориентированные действия, такие как «ныряние со скалы» и «ледолазание», в то время как SSv2 содержит объектно-независимые действия, типа надевания одного предмета на другой.
Различия в объектах и видеофонах между наборами данных еще больше усложняют изучение модели классификации распознавания действий общего назначения. Для достижения высокой производительности необходимо значительное увеличение данных и регуляризация. Поэтому модель быстро подходит к целевому набору данных и, как следствие, препятствует ее способности обобщать другие задачи распознавания действий.
Исследователи Google AI предложили стратегию обучения под названием CoVeR, которая использует как изображения, так и видеоданные для совместного изучения единой универсальной модели распознавания действий. Разрозненные наборы видеоданных охватывают разнообразный набор действий, и их совместное обучение в рамках одной модели может быть универсальным. Видео – это идеальный источник изучения информации о движении, а изображения отлично подходят для использования структурного внешнего вида. Разные примеры изображений пригодятся для создания надежных пространственных представлений в видеомоделях.
CoVeR сначала предварительно обучает модель на наборе данных изображения, а во время точной настройки он одновременно обучает одну модель на нескольких наборах видео и изображений для создания надежных пространственных и временных представлений для универсальной модели понимания видео.
Подход CoVeR был применен к недавно предложенному пространственно-временному преобразователю видео под названием TimeSFormer, который содержит 24 слоя блоков преобразователя. Каждый блок содержит одно временное внимание, одно пространственное внимание и один слой многослойного персептрона (MLP). Чтобы учиться на нескольких наборах данных видео и изображений, использовалась парадигма многозадачного обучения, а сама модель распознавания действий оснащена несколькими классификационными головками. Все невременные параметры были предварительно обучены на крупномасштабном наборе данных JFT. Во время тонкой настройки пакет видео и изображений выбирается из нескольких наборов данных видео и изображений. Частота выборки пропорциональна размеру наборов данных. Каждая выборка в пакете обрабатывается TimeSFormer, а затем распределяется по соответствующему классификатору для получения прогнозов.
По сравнению со стандартной стратегией обучения CoVeR имеет два преимущества. Во-первых, поскольку модель напрямую обучается на нескольких наборах данных, изученные видеопредставления являются более общими и могут быть непосредственно оценены на этих наборах данных без дополнительной точной настройки. Во-вторых, модели на основе Transformer могут легко адаптироваться к меньшему распределению видео, тем самым ухудшая обобщение изученных представлений. Обучение на нескольких наборах данных смягчает эту проблему, снижая риск переобучения.
https://ai.googleblog.com/2022/03/co-training-transformer-with-videos-and.html
🥁Онлайн-конференция от NVIDIA
Виртуальная конференция GTC 2022 пройдет с 21 по 24 марта. С основным докладом выступит CEO NVIDIA Дженсен Хуанг. Пленарный доклад Дженсена Хуанга начнется во вторник, 22 марта, в 18:00 МСК и по завершении трансляции будет доступен в записи. Для его просмотра регистрация не требуется.
Более 900 сессий с 1400 спикерами, включая ведущих мировых исследователей и лидеров отрасли в области ИИ, высокопроизводительных вычислений и графики. Конференция начнется 21-го марта, в понедельник, со Дня обучения для участников с любым уровнем подготовки и продолжится до конца недели в виде сессий на четырех языках в разных часовых поясах.
Зарегистрироваться можно бесплатно на странице www.nvidia.com/gtc.
Подробнее о событии: https://ru.blogs.nvidia.com/blog/2022/02/16/nvidia-gtc-2022-v-marte/
🚗TensorRT от NVIDIA®: DL-SDK для роботов и не только
В ноябре 2021 года на конференции NVIDIA GTC были анонсированы новые модули платформы JETSON для автономных систем, роботов и других встроенных приложений. Помимо других компонентов, в платформу входит NVIDIA® TensorRT - мощный пакет SDK для DL-моделей. Он включает в себя оптимизатор нейросетей с глубоким обучением, которая обеспечивает высокую производительность и высокую пропускную способность для приложений.
TensorRT позволяет оптимизировать модели нейросетей, обученные во всех основных средах, выполнять калибровку для более высокой точности и развертывать их как в гипермасштабируемых центрах обработки данных, так и на платформах встраиваемых или автономных систем. С использованием CUDA ускорение обработки данных может достигнуть 50%.
TensorRT основан на трансформерных моделях T5 и GPT-2. В последней версии TensorRT 8.2, выпущенной в декабре 2021 года, эти модели оптимизированы для логического вывода в реальном времени. Можно превратить T5 или GPT-2 в механизм TensorRT, а затем использовать его в качестве подключаемого модуля для замены исходной модели PyTorch в рабочем процессе логического вывода. Эта оптимизация приводит к сокращению задержки в 3–6 раз по сравнению с выводом PyTorch GPU и в 9–21 раз по сравнению с выводом PyTorch CPU.
https://developer.nvidia.com/blog/optimizing-t5-and-gpt-2-for-real-time-inference-with-tensorrt/
👻Как найти аномалии в огромном датасете с помощью DL: опыт MIT
Новая методика машинного обучения может в режиме реального времени выявлять потенциальные сбои в энергосистеме или узкие места каскадного трафика. Например, вявить неисправности в энергосистеме страны очень сложно: сотни тысяч взаимосвязанных датчиков, разбросанных по всей территории, собирают данные об электрическом токе, напряжении и другую важную информацию в режиме реального времени, часто делая несколько записей в секунду.
Исследователи из MIT-IBM Watson AI Lab разработали эффективный в вычислительном отношении метод, который может автоматически выявлять аномалии в этих потоках данных в режиме реального времени. Поскольку DL-модель не требует аннотированных данных об аномалиях электросети для обучения, ее можно применять в реальных ситуациях, когда нет высококачественных размеченных датасетов. Модель является гибкой и может применяться в других ситуациях, когда большое количество взаимосвязанных датчиков собирает и сообщает данные, например, системы мониторинга трафика. Так можно определить узкие места в трафике или показать, как каскадом образуются пробки.
Исследователи начали с определения аномалии как события с низкой вероятностью возникновения, такого как внезапный скачок напряжения. Они рассматривают данные энергосистемы как распределение вероятностей, поэтому, если они могут оценить плотность вероятности, они могут определить значения с низкой плотностью в наборе данных. Те точки данных, появление которых наименее вероятно, соответствуют аномалиям. Оценка этих вероятностей — непростая задача, т. к. каждая выборка охватывает несколько временных рядов, а каждый временной ряд представляет собой набор многомерных точек данных, записанных во времени. Кроме того, датчики, собирающие все эти данные, зависят друг от друга, то есть они подключены в определенной конфигурации, и иногда один датчик может влиять на другие.
Чтобы изучить сложное условное распределение вероятностей данных, исследователи использовали специальный тип DL-модели, называемый нормализующим потоком, который особенно эффективен при оценке плотности вероятности выборки. Они дополнили эту нормализующую модель потока с помощью байесовской сети, которая может изучать сложную структуру причинно-следственных связей между различными датчиками. Эта структура графа позволяет исследователям видеть закономерности в данных и более точно оценивать аномалии. Байесовская сеть факторизует или разбивает совместную вероятность данных нескольких временных рядов на менее сложные условные вероятности, которые гораздо легче параметризовать, изучать и оценивать. Это позволяет исследователям оценить вероятность наблюдения определенных показаний датчика и определить те показания, которые имеют низкую вероятность возникновения, то есть являются аномалиями.
Важно, что сложную структуру графа не нужно определять заранее — модель может изучить граф самостоятельно. Протестировав модель на данных электросети, данных о трафике и данных о системе водоснабжения, исследователи сравнили аномалии, выявленные моделью, с реальными сбоями в каждой системе. DL-модель превзошла все базовые показатели, обнаружив более высокий процент истинных аномалий в каждом наборе данных.
https://news.mit.edu/2022/artificial-intelligence-anomalies-data-0225
☀️ruGPT-3: набор готовых NLP-моделей от Сбер AI
Открытый репозиторий языковых моделей авторегрессионного трансформера, обученных на огромных датасетах русского языка: русские модели GPT-3 (ruGPT3XL, ruGPT3Large, ruGPT3Medium, ruGPT3Small), обученные с длиной последовательности 2048 с разреженными и плотными блоками внимания. А также модель GPT-2 (ruGPT2Large), обученную с длиной последовательности 1024.
Нейросеть обучена на русскоязычных текстах разных стилей, от официального до художественного. RuGPT-3 умеет писать тексты на русском языке. Сегодня активно используется в языковых ассистентах Салют в Сбере.
Для работы с ruGPT-3 необходимо иметь Python и библиотеку HuggingFace Transformers версии 3.5.0. Бета-версия API предоставляется бесплатно для ознакомления и имеет ограничение по скорости ответов.
https://huggingface.co/sberbank-ai
https://github.com/sberbank-ai/ru-gpts/
https://developers.sber.ru/portal/tools/rugpt-3
💦DL для аннотирования белковой вселенной
Белки присутствуют во всех живых существах, играя центральную роль в структуре и функционировании тела. Каждый белок представляет собой цепочку строительных блоков аминокислот и может иметь несколько компонентов, которые называются белковыми доменами. Понимание взаимосвязи между аминокислотной последовательностью белка, его доменами, структурой и функциями очень важно для научных исследований. При том, что существующие подходы успешно предсказывают функцию сотен миллионов белков, существует еще много других с неизвестными функциями. В частности, около 30% микробных белков не аннотированы. Поэтому актуальна задача точного предсказания функции сильно отличающихся последовательностей.
В статье «Использование глубокого обучения для аннотирования белковой вселенной», опубликованной в журнале Nature Biotechnology, исследователи Google AI предложили метод машинного обучения для надежного прогнозирования функции белков. Подход ProtENN позволил добавить около 6,8 миллионов записей в хорошо известный и надежный набор аннотаций белковых функций Pfam. Также разработчики выпустили модель ProtENN (https://github.com/google-research/google-research/tree/master/using_dl_to_annotate_protein_universe#availability-of-trained-models) и интерактивный инструмент (https://google-research.github.io/proteinfer/), который позволяет пользователю вводить последовательность и получать результаты для прогнозируемой функции белка в режиме реального времени в браузере без необходимости настройки.
Под капотом лежат расширенные сверточные нейронные сети (CNN), которые хорошо подходят для моделирования нелокальных парных взаимодействий аминокислот и могут работать на современных графических процессорах. Одномерные CNN обучены прогнозировать классификацию белковых последовательностей (ProtCNN) и объединены в ансамбль независимо обученных моделей (ProtENN). Выбранная сетевая архитектура (расширенная CNN) позволяет использовать ранее обнаруженные методы интерпретируемости, такие как отображение активации классов (CAM) и достаточные входные подмножества (SIS), чтобы идентифицировать подпоследовательности, ответственные за предсказания нейронной сети. При таком подходе сеть фокусируется на соответствующих элементах последовательности, чтобы предсказать ее функцию.
https://ai.googleblog.com/2022/03/using-deep-learning-to-annotate-protein.html
👩🏼‍⚕️DL-метод от ученых MIT для прогнозирования результатов лечения
Новая методология моделирует контрфактические, изменяющиеся во времени и динамические стратегии лечения, позволяя врачам выбирать наилучший курс действий.
При выборе лечения пациентов в критическом состоянии, врачи должны рассмотреть все варианты и сроки введения, чтобы принять оптимальное решение. Следует учитывать ранее известное состояние здоровья пациента и полученное лечение для прогнозирования исхода состояния здоровья этого пациента при различных сценариях.
Для этого исследователи MIT предлагают метод глубокого обучения под названием G-Net. Он позволяет изучить, как пациент может себя чувствовать при различных планах лечения. В основе G-Net лежит алгоритм g-вычисления, метод причинно-следственного вывода, который оценивает эффект динамического воздействия в присутствии измеренных смешанных переменных, которые могут влиять как на лечение, так и на результаты. В отличие от предыдущих реализаций фреймворка g-вычислений, в которых использовались подходы к линейному моделированию, G-Net использует рекуррентные нейронные сети (RNN), которые имеют соединения узлов, чтобы лучше моделировать временные последовательности со сложной и нелинейной динамикой, такие как найденные в физиологические и клинические данные временных рядов. Так врачи могут разработать альтернативные планы на основе истории болезни пациента и протестировать их перед принятием решения.
Чтобы имитировать это и продемонстрировать доказательство концепции G-Net, команда использовала CVSim, механистическую модель сердечно-сосудистой системы человека, которая управляется 28 входными переменными, характеризующими текущее состояние системы, такими как артериальное давление, центральное венозное давление, общий объем крови и общее периферическое сопротивление, а также модифицировали его для моделирования различных болезненных процессов (например, сепсиса или кровопотери) и эффектов вмешательств (например, жидкостей и вазопрессоров). Исследователи использовали CVSim для создания данных наблюдений за пациентами для обучения и для сравнения «наземной истины» с контрфактическим прогнозом. В архитектуре G-Net исследователи запустили две RNN для обработки и прогнозирования переменных, которые являются непрерывными, т.е. могут принимать диапазон значений, таких как кровяное давление, и категориальные переменные, которые имеют дискретные значения, такие как наличие или отсутствие отек легких.
Структура g-вычислений является гибкой, поэтому G-Net может включать модели с долговременной кратковременной памятью (LSTM), которые представляют собой тип RNN, который может учиться на предыдущих шаблонах данных. Также допустимо включение последовательности вместо классических линейных моделей и многослойной модели восприятия (MLP). Тестирование показало, что ошибка между известными и предсказанными случаями была наименьшей в моделях LSTM по сравнению с другими.
Поскольку G-Net может моделировать временные паттерны истории пребывания пациента в отделении интенсивной терапии и прошлого лечения, в то время как линейная модель и MLP не могут, она лучше способна предсказать исход. Впрочем, несмотря на то, что G-Net хорошо работает с смоделированными данными, ее еще рано применять к реальным пациентам – необходимо сперва исследовать неопределенность модели, чтобы обеспечить безопасность.
https://news.mit.edu/2022/deep-learning-technique-predicts-clinical-treatment-outcomes-0224
🗣SmartSpeech от Сбера
Этот сервис позволяет без специального оборудования подключать речевые технологии, например, в интерактивном голосовом меню, автоответчике, чатах, телемаркетинговых кампаниях или в голосовых интерфейсах взаимодействия. SmartSpeech можно использовать на сайтах, в приложениях или умных устройствах для озвучивания контента и команд или голосового ввода.
Сервис сам распознаёт и синтезирует речь, а также способен использовать «подсказки», помогающие максимально точно понимать пользователя в зависимости от конкретной ситуации. SmartSpeech используется и в самом Сбербанке, например, он является основой в семействе виртуальных ассистентов Салют. Он же позволяет узнать баланс банковской карты по номеру 900 в любое время суток без ожидания оператора.
SmartSpeech позволяет быстро, эффективно и недорого решить вопрос, с которым обращается клиент. Уникальные модели распознавания тишины и шума, способность определять конец высказывания и эмоции собеседника позволяют сделать взаимодействие с роботом живым и эмпатичным, а обучение акустических моделей на большом объёме данных помогает качественно распознавать речь даже во время телефонного разговора.
Можно выбрать любой голос, настроив тембр, высоту и скорость речи в соответствии с предпочтениями пользователя. SmartSpeech генерирует максимально естественную речь: собственная модель расстановки ударений помогает значительно уменьшить количество фонетических ошибок в синтезе, с её помощью легко озвучивается даже сложный текст — цифры, адреса, названия.
В SmartSpeech используются самые последние наработки в сфере Deep Learning. Нейросети обучаются на огромных объёмах данных с использованием мощностей суперкомпьютера «Кристофари» от Сбера. Сервисы написаны на языке программирования C++, а нейросети используют GPU для сверхбыстрой работы. В распознавании речи используются сверхточные архитектуры, такие как Jasper, QuartzNet и другие.
Чтобы добиться качественного синтеза речи, команда SberDevices модифицировала архитектуру Tacotron 2, внедрив в неё контроль за частотой основного тона речи, паузами, а также изменяя интонацию в зависимости от темы текста. Для этого используется информация, полученная из модели BERT, которую предварительно обучили русскому языку на большом количестве текстов. SmartSpeech, предоставляет API для подключения и использования речевых сервисов. API использует протоколы HTTP и gRPC, позволяя встроить код почти в любую систему.
https://press.sber.ru/publications/golos-vashego-biznesa-sber-zapuskaet-servis-rechevykh-tekhnologii-smartspeech
💥Bow IPU для быстрых и энергоэффективных ИИ-систем от Graphcore
Полупроводниковая компания Graphcore из Британии представила Bow Intelligence Processing Unit (IPU), первый в мире 3D-процессор, работающий по принципу «пластина на пластине». Bow IPU будет использоваться в следующем поколении компьютерных систем Bow Pod AI, обеспечивая до 40% более высокую производительность и на 16% лучшую энергоэффективность для ИИ-приложений по той же стоимости и без изменений в существующем ПО. Bow Pods пригодятся для GPT и BERT в NLP-задачах, EfficientNet и ResNET в CV-приложениях, построения графовых нейросетей и пр. Вместе с Тайваньской компанией по производству полупроводников (TSMC) Graphcore произвели Bow IPU, который содержит трехмерный кристалл, усиленный 900 МБ встроенной памяти процессора.
Флагманский модуль Bow Pod256 обеспечивает более 89 петафлопс вычислений ИИ, а сверхмасштабный Bow POD1024 — 350 петафлопс вычислений, что позволит ML-специалистам совершать новые прорывы в машинном обучении. Системы Bow Pod уже доступны и активно применяются, а пользователи наблюдают увеличение производительности до 40%.
https://www.graphcore.ai/posts/the-wow-factor-graphcore-systems-get-huge-power-and-efficiency-boost