Deep Dive 2 Deep Learning
380 subscribers
23 photos
4 videos
355 links
Канал про глубокое машинное обучение: кейсы, новости, открытия и факапы из мира нейросетей и не только
Download Telegram
🙌🏻MvM: альтернативный GAN от Microsoft
В конце 2021 года Microsoft представила фреймворк для генерации изображений MvM (Manifold Matching via Metric Learning). Он превосходит GAN-модели, а также позволяет использовать новые алгоритмы обучения в задачах компьютерного зрения. MvM также использует состязательный подход, но ориентированный не на статистическое, а геометрическое распределение данных. Одна нейросеть генерирует подделки, очень близкие к реальному распределению данных, а другая учится выбирать наиболее эффективную метрику для распознавания этих подделок. MvM формирует многомерное представление изображений, что позволяет использовать методы обучения без учителя.
Pytorch-реализация с наглядными примерами MvM доступна в репозитории на Github.
https://github.com/dzld00/pytorch-manifold-matching
https://www.microsoft.com/en-us/research/blog/unlocking-new-dimensions-in-image-generation-research-with-manifold-matching-via-metric-learning/
👄Читаю по губам: свежий AV-HuBERT от Meta
AV-HuBERT
— мультимодальный фреймворк распознавания речи одновременно по ее звуку и движению губ говорящего с точностью распознавания на 75% выше, чем у state-of-the-art моделей, обученных на таком же количестве транскрипций. AV-HuBERT комбинирует движение губ со звуковой информацией и регистрирует взаимосвязи между этими данными.
Сначала AV-HuBERT обучалась на 30 часах размеченных англоязычных видео TED Talk. При этом частота ошибок в словах как мера эффективности распознавания речи была лучше, чем в предыдущих моделях: 32,5% против 33,6%. Эта мера (WER) рассчитывается путем деления количества неправильно распознанных слов на общее количество слов; 32,5% соответствует примерно одной ошибке на каждые 30 слов. Обучение 433 часам TED Talks еще больше снизило WER AV-HuBERT до 28,6%.
Как только AV-HuBERT хорошо изучил структуру и корреляцию между данными, исследователи дополнительно обучили его на неразмеченных 2442 часах англоязычных YouTube-видеороликов данных. Это снизило WER до 26,9% и показало, что для обучения фреймворка конкретному приложению, например, когда несколько человек говорят одновременно или другому языку требуется лишь небольшой объем размеченных данных.
Meta утверждает, что AV-HuBERT примерно на 50% лучше, чем аудиомодели, в распознавании речи человека, когда на заднем плане играет громкая музыка или шум. А когда речь и фоновый шум одинаково громкие, AV-HuBERT обеспечивает WER 3,2% по сравнению с 25,5% предыдущей лучшей мультимодальной модели. Модель выложена в открытый доступ на Github.
https://github.com/facebookresearch/av_hubert
https://venturebeat.com/2022/01/07/meta-claims-its-ai-improves-speech-recognition-quality-by-reading-lips/
💃🏼🕺🏼Zero Waste со вкусом: ИИ-стартап для устойчивой моды
Виртуально моделируя одежду, стартап AI Heartdub стремится уменьшить воздействие цепочек поставок текстиля на окружающую среду. Компания со штаб-квартирой в Пекине является участником программы NVIDIA Inception для поддержки ИИ-стартапов. Она объединяет моду и технологии, позволяя дизайнерам и создателям виртуально демонстрировать физические ткани и предметы одежды, а также помогает производителям одежды добиться безотходного производства.
Например, движок Heartdub Materials с большим набором данных о текстиле воспроизводит физические свойства материалов. Внутри приложения оцифрованный материал ведет себя так же, как и в реальном мире, с учетом текстуры, веса и движения. Это может сократить расходы на исследования и разработки вдвое, расходы на маркетинг на 70% и время выполнения заказов на 90% для производителей тканей и владельцев брендов.
Проверяя дизайн практически без затрат, Heartdub Materials может производить цифровые готовые предметы одежды на основе выкроек одежды. Дизайнеры могут выбирать текстуру, рисунок и дизайн в режиме онлайн, что позволяет производителям тканей бесплатно оформлять предварительные заказы. Наконец, сами образцы одежды можно демонстрировать и покупать непосредственно через виртуальные демонстрации и показы мод, организованные Heartdub One, базой данных компании по одежде и аватарам. С Heartdub One потребители могут увидеть, как одежда подходит к их конкретному размеру и форме, создав своего собственного цифрового человека на основе своих конкретных измерений.
Основанный на сети NVIDIA HDR InfiniBand, физический движок Heartdub Materials может похвастаться скоростью 200 Гбит/с, повышая эффективность передачи данных почти в 100 раз. Используя преимущества графических процессоров NVIDIA Quadro RTX 8000 и технологии высокоскоростного соединения, Heartdub Materials позволяет моделировать сложные среды виртуального мира и эффективно обрабатывать сложные рабочие нагрузки трассировки лучей и визуальных вычислений.
https://blogs.nvidia.com/blog/2021/08/04/inception-heartdub-ai-startup/
📝Интерпретация DL-моделей с LIME
Модели глубокого обучения похожи на черный ящик, который выдает результат, не объясняя причину решения. Это снижает уровень доверия к ИИ и затрудняет его практическое внедрение. Объясняемый (интерпретируемый) ИИ – яркий тренд последних несколько лет. Одним из способов его реализации является Python-библиотека LIME - локально интерпретируемые моделе-независимые объяснения (Local Interpretable Model-Agnostic Explanations).
LIME не зависит от модели, что позволяет применять ее для объяснения любого типа выходных данных. Это реализуется через нарушение локальных особенностей вокруг целевого прогноза и измерение результата. Например, в задаче классификации текста можно изменить токены вокруг целевого объекта, а затем измерить выходные данные модели. LIME выводит список токенов с оценкой вклада в предсказание модели. Это обеспечивает локальную интерпретируемость, а также позволяет определить, какие изменения характеристик окажут наибольшее влияние на прогноз.
Интуитивно объяснение представляет собой локальное линейное приближение поведения модели. Хотя модель может быть очень сложной в глобальном масштабе, ее легче аппроксимировать вблизи конкретного экземпляра. На рисунке ниже решающая функция модели представлена сине-розовым фоном и явно нелинейна. Ярко-красный крест — это объясняемый экземпляр под именем X. Отбирая экземпляры вокруг X и взвешивая их в соответствии с их близостью к X, можно изучить линейную модель (пунктирная линия). Она хорошо аппроксимирует модель в окрестности X, но не обязательно глобально.
LIME может объяснить любой классификатор черного ящика с двумя или более классами. Нужно только, чтобы классификатор реализовал функцию, которая принимает необработанный текст или пустой массив и выводит вероятность для каждого класса. Встроена поддержка классификаторов scikit-learn. Установить библиотеку можно через менеджер пакетов pip: pip install lime, а ее исходный код доступен на Github https://github.com/marcotcr/lime
Пример интерпретации распознавания именованных сущностей с LIME: https://towardsdatascience.com/interpretable-and-explainable-ner-with-lime-d643512c524
Принцип работы LIME
🔥Tutel: новый инструмент для Fairseq от Microsoft
Fairseq
или Facebook AI Research Sequence-to-Sequence Toolkit (https://github.com/pytorch/fairseq) – набор инструментов, написанный для моделирования последовательностей, который позволяет обучать пользовательские ИИ-модели переводу, обощению, языковому моделированию и другим задачам генерации текста. Впервые опубликованный на Github под лицензией MIT, в декабре 2021 года Fairseq был дополнен высокопроизводительной библиотекой Tutel от Microsoft для облегчения разработки крупномасштабных моделей типа MoE (mixture-of-experts).
MoE — это архитектура DL-модели, где вычислительные затраты растут с количеством параметров нелинейно, т.е. медленнее простой линейной зависимости. Это упрощает масштабирование и делает MoE единственным на сегодня способом увеличения DL-моделей до триллиона с лишним параметров. Чтобы упростить практическое использование MoE-архитектуры, исследователи Microsoft разработали библиотеку Tutel, облегчающую разработку крупномасштабных моделей DNN.
Tutel оптимизирована для новой общедоступной серии Azure NDm A100 v4. Для одного уровня MoE Tutel в несколько раз быстрее Fairseq и отлично совместима с кластером Azure NDm A100 v4.
Библиотека обеспечивает разнообразную и гибкую поддержку современных алгоритмов MoE, включая поддержку:
• произвольная настройка K для алгоритма стробирования Top-K, тогда как большинство реализаций поддерживают только Top-1 и Top-2;
• различные стратегии исследования, включая маршрутизацию с пакетным приоритетом, отключение ввода и дрожание ввода;
• различные уровни точности, включая половинную точность (FP16), полную точность (FP32) и смешанную точность;
• различные типы устройств, включая устройства NVIDIA CUDA и AMD ROCm.
Tutel поддерживает Pytorch 1.10+, а также GPU CUDA(fp32 + fp16), ROCm(fp32 + fp16). Исходный код библиотеки также доступен на Github под лицензией MIT: https://github.com/microsoft/tutel
https://www.microsoft.com/en-us/research/blog/tutel-an-efficient-mixture-of-experts-implementation-for-large-dnn-model-training/
🙌🏻Визуализация обучения DL-моделей с HiPlot
Модели глубокого обучения сегодня широко применяются во многих сферах, от обнаружения мошенничества до беспилотных транспортных средств. Когда модель масштабируется для ежедневной работы с множеством пользователей, даже незначительное улучшение ее показателей может привести к значительному улучшению общей производительности DL-системы.
Используя визуализацию, можно добавить еще один уровень глубины к пониманию того, как именно модели обучаются и работают в каждую эпоху, чтобы принимать более четкие решения при выборе модели. Также эта информация поможет понять, являются ли модели избыточными или недостаточными, на основе используемой метрики оценки, что может помочь с настройкой гиперпараметров.
Например, для оценки точности и производительности DL-модели можно использовать среднюю абсолютную ошибку (MAE). Оценка MAE всегда будет положительным числом, и чем ближе оценка к 0, тем лучше работает модель. MAE можно рассчитать, взяв среднюю величину ошибок как разницу по модулю между прогнозируемыми и фактическими значениями, деленную на общее количество точек данных. Можно взять и другую метрику для оценки модели, например, среднеквадратическую ошибку. В любом случае, чтобы визуально отследить эволюцию обучения модели, необходимо показать изменение этой метрики по эпохам обучения. Это можно сделать с помощью HiPlot – легковесная библиотека от Facebook, которая позволяет легко и быстро создать график с параллельными координатами на основе предоставленных данных. HiPlot доступна на Github и может быть установлена через менеджеры пакетов:
pip install -U hiplot
или
conda install -c conda-forge hiplot
Далее можно строить графики
import hiplot as hip
data = [{'dropout':0.1, 'lr': 0.001, 'loss': 10.0, 'optimizer': 'SGD'},
{'dropout':0.15, 'lr': 0.01, 'loss': 3.5, 'optimizer': 'Adam'},
{'dropout':0.3, 'lr': 0.1, 'loss': 4.5, 'optimizer': 'Adam'}]
hip.Experiment.from_iterable(data).display()
Визуализация обучения DL-моделей с HiPlot
🥳 Все ждали и это свершилось!

🚨Я продолжаю серию митапов про Data Science в городских и геосервисах, логистике, и технологиях умных городов.

🗓 25 января в 18:30 МСК состоится первая в этом году онлайн-встреча Citymobil Data Meetup!

Вас ждут новые гости и новые интересные доклады.

🚕 Олег Стрельников Руководитель команды Data Quality в Ситимобил «Как мы качество данных проверяем»

Расскажет про выбор фреймворка для DataQuality, что от него ждали и почему остановились на GreatExpectations. Покажет, как встроили его в архитектуру DWH, с какими проблемами столкнулись и как их побороли.

☎️ Максим Шевченко Ведущий ML разработчик в МТС BigData «Проверка гипотезы валидности таргетинга в наружной рекламе»

Маркетологи часто таргетируют наружную рекламу не только по геопризнаку, но и по социально-демографическим сегментам и интересам. При этом, исходят из предположения, что, например, по разным дорогам ездят разные люди – есть дороги, по которым в большей степени ездят высокодоходные клиенты, люди более старшего возраста и т.д. Действительно ли это так? Слушатели узнают про интересный и одновременно простой способ проверки некоторых гипотез и о том, как его можно использовать в других реальных задачах.

После докладов спикеры ответят на все ваши вопросы.

Регистрация для бесплатного участия

https://citymobil.timepad.ru/event/1904978/
🦋KEAR: новая DL-модель от Microsoft Azure
В декабре 2021 года ИИ-команда Microsoft Azure представила новую DL-модель KEAR (Knowledgeable External Attention for Commonsense Reasoning) с внешним вниманием для понимания здравого смысла. Она работает лучше, чем люди, отвечающие на тот же вопрос. KEAR достигает точности 89,4% в таблице лидеров CommonsenseQA по сравнению с 88,9% точности, достигаемой человеком. Хотя тест CommonsenseQA проводится на английском языке, ИИ-инженеры Microsoft Azure используют аналогичную технику для многоязычного рассуждения на основе здравого смысла.
Учитывая вопрос и пять возможных ответов, для задачи CommonsenseQA модель KEAR сначала извлекает связанные знания из графа знаний посредством связывания сущностей, из словаря посредством сопоставления слов и из связанных наборов данных QA посредством поиска текста. Затем полученные знания объединяются с входным вопросом и ответом кандидата и вводятся в языковую модель для получения оценки. Ответ-кандидат с наивысшим баллом выбирается в качестве вывода. Окончательное представление генерируется ансамблем из 39 языковых моделей, таких как DeBERTa и ELECTRA, с большинством голосов. Таким образом, модель KEAR может использовать соответствующие внешние знания для эффективного понимания на основе здравого смысла.
Применяя внешнее внимание к многоязычным рассуждениям на основе здравого смысла, разработчики с помощью KEAR переводили неанглийский вопрос на английский, извлекали знания из различных источников и снова переводили текст знаний на исходный язык для внешнего внимания. Предложенная модель Translate-Retrieve-Translate (TRT) заняла первое место в наборах данных X-CODAH и X-CSQA в тесте X-CSR.
https://www.microsoft.com/en-us/research/blog/azure-ai-milestone-microsoft-kear-surpasses-human-performance-on-commonsenseqa-benchmark/
✈️Scalecast: LSTM-библиотека для Python
Одной из самых продвинутых моделей для прогнозирования временных рядов является нейронная сеть с долговременной кратковременной памятью (LSTM, Long Short-Term Memory). Ячейка LSTM добавляет долговременную память еще более эффективным способом, поскольку позволяет изучать еще больше параметров. Это делает ее самой мощной рекуррентной нейронной сетью для прогнозирования, особенно при наличии долгосрочных трендов в данных.
Однако, реализация LSTM в TensorFlow не проста в разработке и использовании. Это исправит Scalecast – масштабируемая Python-библиотека с моделями scikit-learn, statsmodels, Facebook Prophet, Microsoft LightGBM, LinkedIn Silverkite и Keras для прогнозирования временных рядов. Она проста в использовании и включает функции автоматического изменения масштаба, тестирование модели и оценку доверительных интервалов. Модель обучается лишь один раз, а затем снова к полному набору данных временных рядов, чтобы предотвратить переобучение и получить справедливый эталон для сравнения нескольких подходов.
Недостаток библиотеки в том, что обучение сложной модели может выполняться в два раза медленнее. Также у ML-разработчика нет доступа ко всем инструментам для прямого вмешательства в модель, что возможно в TensorFlow. Тем не менее, инструмент интересен и его можно как минимум протестировать, установив через менеджер пакетов pip: pip install scalecast.
Код библиотеки доступен на Github: https://github.com/mikekeith52/scalecast
А посмотреть примеры использования можно здесь: https://towardsdatascience.com/exploring-the-lstm-neural-network-model-for-time-series-8b7685aa8cf
💦Что такое Swarm Learning: блокчейн + ML
Swarm Learning
— это фреймворк для сохранения конфиденциальности данных, который использует блокчейн для децентрализации ML-систем. Входные данные и результаты обучения не поступают в центральное место, чтобы их можно было разделить между пользователями.
В отличие от федеративного обучения, где системы обучаются локально, необработанные данные остаются на границе, а полученные параметры нейронной сети передаются в центральное место, в Swarm Learning нет центра. Обучение выполняется локально/на периферии, как и при федеративном обучении, но результаты не передаются через центральный выделенный сервер. Организации обменялись знаниями, используя технологию Blockchain. Новый узел регистрируется через смарт-контракт блокчейна, получает модель и выполняет обучение локальной модели до тех пор, пока не будут выполнены определенные условия для синхронизации. Затем параметры модели обмениваются через API Swarm и объединяются для создания обновленной модели с обновленными настройками параметров перед началом нового раунда обучения.
https://towardsdatascience.com/how-swarm-learning-works-blockchain-and-machine-learning-combined-for-a-better-solution-20484d4f258c
https://www.nature.com/articles/s41586-021-03583-3
🦋StylEx: новый подход к визуальному объяснению классификаторов от Google AI
В конце прошлого года, на конференции ICCV 2021 исследователи Google AI представили StylEx - новый подход к визуальному объяснению классификаторов, который автоматически обнаруживает и визуализирует атрибуты, влияющие на классификатор. Это позволяет проанализировать влияние отдельных атрибутов на результат, манипулируя ими по отдельности: изменение одного атрибута не влияет на другие. StylEx находит атрибуты, которые хорошо согласуются с семантикой, генерируют содержательные пояснения к конкретному изображению и могут быть интерпретированы людьми.
Для реализации подхода используется архитектура StyleGAN2, которая генерирует изображения высокого качества и содержит отдельные семантически значимые атрибуты изображений в обучающем наборе данных. Но обучение StyleGAN не зависит от классификатора и может не представлять атрибуты, важные для решения конкретного классификатора, который нужно изучить. Поэтому также обучается генератор, подобный StyleGAN, чтобы удовлетворять требования классификатора, поощряя его размещать в скрытом пространстве атрибуты, специфичные для классификатора.
Это достигается за счет обучения генератора StyleGAN двумя дополнительными компонентами. Первый — это энкодер, обученный вместе с GAN с реконструкцией-потерей, который заставляет сгенерированное выходное изображение быть визуально похожим на входное, чтобы применять генератор к любому заданному входному изображению. Но визуального сходства изображения недостаточно, поскольку оно не обязательно фиксирует тонкие визуальные детали, важные для конкретного классификатора, например, медицинские патологии. Поэтому в обучение StyleGAN добавлены потери классификации, что делает вероятность классификатора сгенерированного изображения аналогичной вероятности классификатора входного изображения. Это гарантирует, что тонкие визуальные детали, важные для классификатора (например, медицинские патологии), будут включены в сгенерированное изображение.
После обучения в скрытое пространство атрибутов обученного генератора добавляются атрибуты, которые существенно влияют на классификатор с учетом изменения вероятности классификации в зависимости от изменений каждой координатой этого пространства. Ищутся верхние атрибуты, которые максимизируют изменение вероятности классификации для данного изображения. Повторяя этот процесс для большого количества изображений в каждом классе, можно дополнительно обнаружить характерные для класса атрибуты.
Метод работает с широким спектром доменов и классификаторов (бинарных и мультиклассовых), причем основные атрибуты, обнаруженные StylEx, соответствуют согласованным семантическим понятиям при интерпретации людьми.
Важно, что метод объясняет классификатор, а не реальность, т.е. он предназначен для выявления атрибутов изображения, которые классификатор научился использовать из данных. Но эти атрибуты не обязательно характеризуют фактические физические различия между метками классов в реальности. Обнаруженные атрибуты могут выявить систематические ошибки в обучении классификатора или наборе данных. StylEx можно также применять для повышения достоверности нейронных сетей, дополняя набор обучающих данных примерами, которые компенсируют смещения, обнаруженные этим методом.
Добавление потери классификатора в обучение StyleGAN оказывается решающим в областях, где классификация зависит от мелких деталей. Например, GAN, обученный на изображениях сетчатки без потери классификатора, не обязательно будет генерировать мелкие патологические детали, соответствующие конкретному заболеванию. Добавление потери классификации заставляет GAN генерировать эти тонкие патологии в качестве объяснения классификатора.
https://ai.googleblog.com/2022/01/introducing-stylex-new-approach-for.html
Forwarded from Big Data Science
🌦TOP-10 Data Science conferences in February 2022:
1. 02 Feb
- Virtual conference DataOps Unleashed https://dataopsunleashed.com/
2. 03 Feb - Beyond Big Data: AI/Machine Learning Summit 2022, Pittsburgh, USA https://www.pghtech.org/events/BeyondBigData2022
3. 10 Feb - Online-summit AICamp ML Data Engineering https://www.aicamp.ai/event/eventdetails/W2022021009
4. 12-13 Feb - IAET International Conference on Machine Learning, Smart & Nanomaterials, Design Engineering, Information Technology & Signal Processing. Budapest, Hungary https://institute-aet.com/mns-22/
5. 16 Feb - DSS Hybrid Miami: AI & ML in the Enterprise. Miami, FL, USA & Virtual https://www.datascience.salon/miami/
6. 17-18 Feb - RE.WORK San Francisco, CA, USA and Online
Reinforcement Learning Summit: https://www.re-work.co/events/reinforcement-learning-summit-2022
Deep Learning Summit: https://www.re-work.co/events/deep-learning-summit-2022 Enterprise AI Summit: https://www.re-work.co/events/enterprise-ai-summit-2022
7. 18-20 Feb - International Conference on Compute and Data Analysis (ICCDA 2022). Sanya, China http://iccda.org/
8. 21-25 Feb - WSDM'22, The 15th ACM International WSDM Conference. Online. http://www.wsdm-conference.org/2022/
9. 22-23 Feb - AI & ML Developers Conference. Virtual. https://cnvrg.io/mlcon
10. 26-27 Feb - 9th International Conference on Data Mining and Database (DMDB 2022). Vancouver, Canada https://ccseit2022.org/dmdb/
😜Data2vec – новая мультимодельная нейросеть от Meta
В январе 2022 года старый добрый FB AI с новым именем представил data2vec – мультимодальный высокопроизводительный алгоритм нейросети с самоконтролем. Data2vec способна анализировать речь, изображения и тексты, представляя новую парадигму целостного самоконтролируемого обучения, где новые исследования улучшают несколько модальностей, а не только одну. Алгоритм не полагается на сопоставительное обучение или реконструкцию входного примера.
Data2vec обучает модели прогнозировать их собственные представления входных данных, независимо от модальности. Сосредоточившись на этих представлениях — слоях нейронной сети — вместо того, чтобы предсказывать визуальные символы, слова или звуки, один алгоритм может работать с совершенно разными типами входных данных. Это устраняет зависимость от целей, специфичных для модальности, в учебной задаче. Для непосредственного прогнозирования требовалось надежная нормализация признаков задачи в различных модальностях.
Метод использует учительскую сеть, чтобы сначала вычислить целевые представления из изображения, фрагмента текста или речевого высказывания. Затем маскируется часть входных данных и процесс повторяется со сетью ученика, которая предсказывает скрытые представления учителя. Модель ученика должна предсказать представление всех входных данных, даже если она имеет представление только о части информации. Сеть учителя идентична модели ученика, но с немного устаревшими весами.
Метод показал отличную эффективность на популярном CV-тесте ImageNet, а также на наборе GLUE, обогнав wav2vec 2.0, HuBERT и BERT. Поэтому выводы сводятся к тому, что, как и человек, ИИ должен научиться выполнять множество различных задач, в том числе совершенно незнакомых. Нужно не только распознавать объекты, показанные в тренировочных данных, но и адаптироваться к распознаванию новых существ по словесному описанию того, как они выглядят.
https://ai.facebook.com/blog/the-first-high-performance-self-supervised-algorithm-that-works-for-speech-vision-and-text/
https://github.com/pytorch/fairseq/tree/main/examples/data2vec
🔥RETRO от DeepMind: качество GPT-3, но в 25 раз меньше параметров
В декабре 2021 года дочерняя компания Google AI, знаменитая своими AlphaFold –моделями, представила новую языковую модель. Благодаря базе данных с 2 триллионами токенов Retrieval-Enhanced Transformer (RETRO) обеспечивает производительность, сравнимую с GPT-3 и Jurassic-1 в Pile, используя в 25 раз меньше параметров. После тонкой настройки RETRO отлично решает сложные задачи, требующие больших объемов знаний, такие как ответы на вопросы. Модель сочетает BERT, дифференцируемый кодировщик и механизм перекрестного внимания с разбивкой на фрагменты для прогнозирования токенов на основе большего количества данных, чем обычно потребляется во время обучения.
В традиционных языковых трансформерах размеры модели и данных связаны: пока набор данных достаточно велик, производительность ограничена размером модели. Но в RETRO модель не ограничивается данными, увиденными во время обучения, а имеет доступ ко всему набору обучающих данных через механизм поиска. Это позволяет сильно повысить производительность модели, сократив количество потребляемых ресурсов.
Нейросеть имеет всего 7 миллиардов параметров и базу данных с почти 2 триллионами отрывков текста. Нейросеть и база данных обучаются одновременно. При генерации текста RETRO использует базу данных для поиска и сравнения отрывков, похожих на создаваемый, чтобы повысить точность прогнозов. Для каждого фрагмента текста (примерно абзаца документа) выполняется поиск ближайшего соседа, который возвращает похожие последовательности, найденные в обучающей базе данных, и их продолжение. Эти последовательности помогают предсказать продолжение введенного текста. Передача части памяти нейросети в базу данных сокращает потребление вычислительных ресурсов. Базу данных можно обновить без переобучения нейросети, добавив новые данные и удалив устаревшие.
Архитектура RETRO чередует обычное внимание к себе на уровне документа и перекрестное внимание с извлеченными соседями на более тонком уровне перехода, что дает более точные продолжения. RETRO повышает интерпретируемость прогнозов моделей и обеспечивает возможность прямого вмешательства в базу данных поиска для повышения безопасности продолжения текста. В экспериментах с Pile, эталоном стандартного языкового моделирования, модель RETRO с 7,5 миллиардами параметров превосходит Jurassic-1 со 175 миллиардами параметров на 10 из 16 наборов данных и 280B Gopher на 9 из 16 наборов данных.
https://deepmind.com/research/publications/2021/improving-language-models-by-retrieving-from-trillions-of-tokens
RETRO от DeepMind: качество GPT-3, но в 25 раз меньше параметров
💦GeoMol – DL-модель от ученых MIT для молекулярных исследований
Ученые из MIT разработали DL-модель, которая предсказывает трехмерные формы молекулы, используя двумерный график ее молекулярной структуры. GeoMol обрабатывает молекулы за считанные секунды и работает лучше, чем предыдущие модели, определяя трехмерную структуру каждой связи независимо. Молекулы обычно изображаются в виде небольших графов, где отдельные атомы в молекуле представлены в виде узлов, а соединяющие их химические связи представлены в виде ребер.
Понимание того, как молекула будет взаимодействовать с определенными белковыми поверхностями, требует определения ее трехмерной формы. Но это трудоемкий и дорогой процесс. GeoMol предсказывает локальные атомные трехмерные структуры и торсионные углы, избегая чрезмерной параметризации геометрических степеней свободы, используя возможности нейронных сетей передачи сообщений (MPNN) для сбора локальной и глобальной графической информации. Нейронная сеть с передачей сообщений — это новая DL-технология для работы с графами.
Сначала модель предсказывает длины химических связей между атомами, а также углы этих связей. Расположение и связь атомов определяют, какие связи могут вращаться. Затем структура окружения каждого атома предсказывается отдельно. Затем он собирает окружающие вращающиеся связи, вычисляя углы кручения и выравнивая их. Вращающиеся связи могут принимать самые разные значения.
GeoMol также точно определяет хиральность на протяжении всего процесса прогнозирования благодаря идентификации 3D-структуры каждой связи отдельно. Именно хиральность – главная проблема в предсказании трехмерной структуры молекул, т.к. зеркальная копия хиральной молекулы не взаимодействует с окружающей средой таким же образом, что может привести к неправильному взаимодействию лекарств с белками и серьезным побочным эффектам.
https://analyticsdrift.com/mit-develops-deep-learning-model-geomol-that-predicts-the-3d-shapes-of-drug-like-molecules/
https://github.com/PattanaikL/GeoMol
👆🏻Я знаю, чего я не знаю: новый метод для DL от Google AI
В реальных условиях модели машинного обучения могут столкнуться с условиями, которые не наблюдались при обучении. Поэтому важно, чтобы ML-система точно определяла это состояние, когда ей не известны конкретные условия и не генерировала ошибочных результатов на редких образцах. Здесь помогут модели глубокого обучения, способные распознавать неподходящее состояние образца. Обнаружение ранее невидимых состояний можно рассматривать как задачу обнаружения отсутствия распространения (OOD, out-of-distribution). Успешно идентифицируя образцы OOD, можно принять превентивные меры, например, воздержаться от прогноза или обратиться к эксперту-человеку.
Новый метод обнаружения иерархических выбросов (HOD, hierarchical outlier detection) от Google AI использует существующие детализированные метки редких состояний из длинного хвоста и модифицирует функцию потерь, чтобы сгруппировать невидимые состояния и улучшить идентификацию этих близких к OOD категорий. Вместе с различными методами обучения представлению и разнообразной стратегией ансамбля этот подход позволяет достичь более высокой производительности для обнаружения входных данных OOD. Метод был протестирован на задаче компьютерного зрения при распознавании симптомов болезни по фотографиям.
https://ai.googleblog.com/2022/01/does-your-medical-image-classifier-know.html