AIRI Institute
7.6K subscribers
492 photos
6 videos
1 file
446 links
Канал Института AIRI ⚡️

Рассказываем про технологии ИИ и то, как исследователи развивают их в России и мире: https://airi.net/ru/

ВКонтакте: https://vk.com/airi_institute

По всем вопросам: @saalaatik
Download Telegram
🍳🍳🍳

Новая ИИшница уже на подходе!

Вторая серия митапов пройдёт 10 июня с экспертами в области NLP.

В этот раз обсудим разнообразные задачи, возникающие при обработке естественных языков, и методы их решения. Поговорим о диалоговых системах, активном обучении, мультимодальности и многом другом.

Save the date! 🗓
Сегодня рассказываем про Fusion Brain – одно из направлений исследований в Институте AIRI ⚡️

Fusion Brain — это исследовательский проект, основными задачами которого являются разработка эффективных мультизадачных и мультимодальных моделей и применение их для решения широкого круга практических задач. Общая цель и идея проекта — научиться создавать модели, которые смогут как можно более эффективно извлекать дополнительные важные знания из большого количества модальностей и задач при обучении, и за счет этого лучше решать разные другие задачи. Исследования проводятся во многих модальностях: тексты, изображения, аудио, видео, языки программирования, графы (например, молекулярные структуры), временные ряды и так далее.

Список решаемых задач очень большой: от классических CV и NLP до задач, вовлекающих разные модальности: VideoQA, Visual Commonsense Reasoning, IQ tests (эти задачи сложны даже для человека). Изучается способность моделей решать задачи, сформулированные на естественном или визуальном языках, и даже справляться со скрытыми задачами (для которых в обучающей выборке отсутствовали примеры). Исследования также сосредоточены на сокращении данных, человеческих и вычислительных ресурсов, необходимых для обучения, развертывания и обслуживания различных моделей.

Интересное про Fusion Brain:

🖇 Доклад Димитрова Дениса "Тренды в ИИ: мультимодальность, мультизадачность, эффективность".
🖇 Одной из моделей Fusion Brain является ruDALLE. Напоминаем, что можно написать текстовый запрос и получить сгенерированную ИИ картинку.
🖇 Также сгенерировать картинку можно через боты в Telegram: Malevich, Emojich.

Картинка к посту как раз из Малевича по запросу AIRI, обязательно попробуйте 🎨
Открыт прием заявок на Лето с AIRI⚡️

4 недели науки об искусственном интеллекте для молодых исследователей на территории Университета «Сириус». Программа включает в себя летнюю школу и профильную конференцию, в рамках которых слушатели смогут получить новые знания, применить их на практике проектной работы и ближе познакомиться с сообществом ученых.

🔥 Летняя школа AIRI по искусственному интеллекту
🗓4-17 июля
🚀Заявки принимаются до 1 июня 23:59

Тематические блоки:
▫️Летняя школа Российской ассоциации искусственного интеллекта: общие и междисциплинарные направления
▫️Russian Deep Learning School: нейросетевая обработка информации

🔥 Конференция AIRI по искусственному интеллекту
🗓18-26 июля

Конференция проводится совместно с организаторами научной школы машинного обучения SMILES и школы глубокого обучения и байесовских методов Deep Learning AND Bayesian Methods.

Участие бесплатное! Прочитать подробнее и подать заявку можно по ссылке.
До встречи в Сириусе! Скоро расскажем все подробности 🛫
ИИшница «NLP требуют наши сердца» стартует 10 июня!
Делимся расписанием митапа:

▪️15:30 Открытие, модератор мероприятия – Артур Кадурин

▪️15:40 Максим Рябинин «RuCoLA: Russian Corpus of Linguistic Acceptability»

▪️16:00 Зульфат Мифтахутдинов «NLP в биомедицине»

▪️16:20 Артем Шелманов «Active Learning в NLP»

▪️16:40 Михаил Бурцев «Секретная тема 🎁», оставайтесь на связи, чтобы узнать!

▪️17:00 Валентин Малых «Searching by Code in the Instructions»

▪️17:20 Татьяна Шаврина «NLP and Multimodality in 2022»

▪️17:40 Алексей Сорокин «Автоматическое исправление грамматических ошибок»

Подписывайтесь на YouTube AIRI, чтобы не пропустить трансляцию! Скоро расскажем про каждый из докладов подробнее 🔥
Всем спасибо за поданные на Летнюю школу заявки! 🔥

Отличная новость для тех, кто не успел зарегистрироваться на Летнюю школу: до 12 июня открыт набор на Конференцию AIRI по искусственному интеллекту. Подавайте заявки по ссылке.

Сегодня делимся направлениями Летней школы AIRI по искусственному интеллекту
👾
Внутри школы два блока: РАИИ и RDLS, а также на 4 направления в каждом блоке.

Подробнее про все направления и преподавателей можно прочитать по ссылке 📖

Направления РАИИ:
📌 RLP (Планирование и обучение с подкреплением)
📌 Fuzzy (Нечеткая логика)
📌 BI (Нейроморфные вычисления)
📌 XAI (Интерпретируемое машинное обучение)

Направления RDLS:
📌CV (Глубокое обучение в компьютерном зрении)
📌 NLP (Нейросетевой анализ естественного язык)
📌 BrAIn (Мозг и искусственный интеллект)
📌 Big Models (Эффективное обучение больших моделей)

Самые интересные лекции Летней школы и Конференции будут размещены на канале AIRI. Подписывайтесь, чтобы не пропустить 📍
Найдено еще одно подтверждение тому, что в AIRI работают лучшие ученые ⚡️
Подбробнее прочитать про награду, которую получил научный сотрудник AIRI Алексей Ковалев, можно по ссылке🥇

Обязательно поделимся фотографиями с Северного полюса 🧊
🍳🍳🍳

Идеальный план на пятницу — ИИшница "NLP требуют наши сердца"
❤️‍🔥
Встречаемся завтра в 15:30
на YouTube-канале AIRI!

📍По ссылке можно посмотреть подробное описание каждого доклада.

👀 Совет от ученых AIRI для тех, кто только знакомится с темой: пятниминутное видео про магию NLP.
ИИшница «NLP требуют наши сердца» закончилась, презентациями и рекомендациями статей от докладчиков поделимся на следующей неделе! 🍳

Рассказываем про новость, которую Татьяна Шаврина анонсировала в своем докладе
Сегодня вышел самый большой коллаборативный NLP-бенчмарк Big Bench!
Он охватывает 200+ задач на разных языках мира. В новой статье 442 автора и 100 страниц текста (доказательство на картинке ⬆️).

📄 Ссылка на статью
🎞 Рассказ Татьяны на сегодняшней ИИшнице (2:12:30 -3:01:37)
Как обещали, делимся подборкой статей и презентаций с митапа ИИшница «NLP требуют наши сердца» 📄

Максим Рябинин «RuCoLA: Russian Corpus of Linguistic Acceptability»
Ссылка на другие датасеты для задачи linguistic acceptability: на английском языке (оригинальный корпус CoLA), на итальянском и шведском языках. Интересная статья, описывающая применение обученных на этой задаче моделей для улучшения генерации текстов.

Зульфат Мифтахутдинов «NLP в биомедицине»
В статье рассматривается обучение метрике на основе триплетной функции потерь в задаче связывание именованных сущностей для биомедицинского домена. Основной упор делается на тексты клинических испытаний и устойчивости модели к смене домена. Еще одна статья посвящена решению задачи нормализации медицинских концептов. Также используется метрическое обучение. Однако, авторы используют другую вариацию функции потерь. Для отбора кандидатов при обучении в статье применяется комбинация из tf-idf и BERT представлений сущностей и синонимов концептов.

Артем Шелманов и Аким Цвигун «Active Learning в NLP»
В статье команды Weakly Supervised NLP предлагаются два метода ускорения активного обучения (AL) в задачах обработки текста. Совмещение методов позволяет ускорить AL до 63%. Также еще одна статья команды, показывающая возможность решения acquisition-successor mismatch проблемы путем использования дистилированной версии teacher модели в качестве acquisition (i.e. во время активного обучения), а самой teacher модели - в качестве successor. Интересная работа, в которой рассматриваются методы Байесовской оценки неопределенности в задаче активного обучения.

Валентин Малых «Searching by Code in the Instructions»
Статья описывает создание CodeXGLUE – бенчмарка для задач на коде, описываются различные задачи и подходы к их решению. В качестве бейзлайнов приведены две достаточно известные (и лучшие на тот момент) модели CodeBERT и CodeGPT и дано их описание.

📍Презентации можно скачать по ссылке.
Давно не делились анонсами выступлений ученых AIRI!
Исправляемся
👀

В день рождения Алана Тьюринга, великого математика и криптографа, основателя современной информатики и создателя знаменитой машины Тьюринга, два сотрудника AIRI выступят на мероприятии про искусственный интеллект.

⚡️В 12:40 Михаил Бурцев примет участие в панельной дискуссии о развитии ИИ в России и мире, современном состоянии и перспективах использования в индустрии
⚡️В 15:30 Виктор Гомболевский выступит с докладом на тему «Может ли этика остановить медицинский ИИ?»

📍Мероприятие пройдет 23 июня в Медиацентре НИТУ «МИСИС», можно прийти очно или подключиться к онлайн-трансляции. Регистрация по ссылке.
Исследователи AIRI обучили нейросетевую модель на самой полной на сегодняшний день сборке генома человека 🧬

Модель GENA_LM, выложена в open source и доступна биологам по всему миру. В данный момент в мире уже представлен набор достаточно хороших моделей для последовательностей белков (например, ESM), но для последовательностей ДНК публично доступна только разработанная коллективом ученых из США модель DNABERT.

GENA_LM – первая в мире языковая модель ДНК, обученная на самой полной версии генома человека (T2T-CHM13), которая была опубликована в конце марта 2022 года. Она может обрабатывать последовательности в 6 раз длиннее, чем DNABERT.

Опубликованная модель – это первый шаг исследования. Впереди эксперименты по применению трансформерных архитектур с памятью, которые позволят увеличить размер входной последовательности ещё в несколько раз.

Репозитории с моделью GENA_LM:
👾 Hugging Face
👾 GitHub
Если вы искали новые подкасты и видео про ИИ, то вам сюда 👇

🎥 Научный сотрудник группы Medical Image Analysis AIRI Екатерина Кондратьева выступила на секции «Ужасы медицинских снимков» на мероприятии ODS DataFest 2022 и рассказала о непопсовых направлениях в анализе. Послушать о том, что ещё есть в ИИ для радиологии, кроме флюорографии и маммографии, можно на YouTube.

🎙 Директор по поисковым исследованиям AIRI Михаил Бурцев дал интервью блогеру Тиму Вентуре про тренды в ИИ, а также прокомментировал кейс Google про то, как один из инженеров назвал их модель LaMDA сознательной. Смотрите интервью на английском по ссылке.

🎥 Запись трансляции мероприятия «Alan Turing: к 110-летию великого математика». Ведущий научный сотрудник AIRI Виктор Гомболевский выступил с докладом «Может ли этика остановить медицинский ИИ?», а также Денис Димитров, исполнительный директор по исследованию данных Sber AI и Научный консультант AIRI рассказал о том, как развивается FusionBrain. Оба выступления, а также рассказы других спикеров мероприятия – по ссылке.

🎙Руководитель группы NLP AIRI Татьяна Шаврина обсудила тренды в ИИ, копирование проектов и модель GPT-3 в подкасте «Тренды против нормы. Tweekly». Можно посмотереть на YouTube или послушать на Яндекс.Музыке.

Приятного просмотра! 🍿
We are hiring! Приходите работать в Институт искусственного интеллекта AIRI 👩‍🔬

Мы расширяем команды, которые занимаются прикладными исследованиями, и ищем научных сотрудников сразу по трем направлениям.

DL in Life Sciences:
Научный сотрудник / Deep Learning researcher по направлению Life Science

New Materials Design:
AI researcher
Data Scientist

Bioinformatics:
Научный сотрудник/ Data Scientist по направлению в группу Биоинформатика
Исследователь/младший научный сотрудник в группу Биоинформатика

Посмотреть подробную информацию о вакансиях и отправить резюме можно на сайте.
Активно вирусится новость про то, что Meta* выпустила переводчик на 200 языков. Но мы хотим рассказать про недавнюю работу Google, которая осталась незамеченной. Они работают над созданием практических систем машинного перевода (MT), способных переводить тексты более чем на 1000 языков 🥁

Иллюстрация – из статьи.
Точки – это языки: по Х – количество данных для языка, по Y – качество переводов с этим языком (чем выше, тем лучше). Заметно – чем больше данных, тем лучше. Для использования ресурсных языков (синие на картинке) помогают внушительные коллекции параллельных текстов (когда одно и то же написано на двух языках сразу).

Есть и забавные факты, например, английский, набранный кириллицей: данных на нём сравнительно мало, а качество перевода очень высокое. Некоторые языки исследователи уже добавили в свой переводчик, пока писали статью. Они отмечены звёздочкой.

👅 Ссылка на статью про 1000 языков
👅 Ссылка на статью про 200 языков

*Признана запрещённой на территории Российской Федерации
Поговорили с кандидатом филологических наук и руководителем группы NLP AIRI Татьяной Шавриной на тему последнего поста. Делимся интересным 🍿

"Обе работы транслируют очень важный тезис: "No language left behind".
В этом году начинается десятилетие языков коренных народов, и в рамках этой инициативы малоресурсные языки и многоязычность в Natural Language Processing становятся центральной темой. Технически, сюда входят такие области, как transfer learning, zero-shot anf few-shot learning, active learning, а данные — это тексты и речь на всем многообразии языков мира.

Наша группа в AIRI считает, что разнообразие языков в NLP невероятно важно по 2 причинам:

▫️ Влияние NLP-технологий оказывает эффект на социоэкономическое состояние малых языков, создавая новые возможности.
▫️ Моделирование всего многообразия способов передачи человеческой мысли необходимо для AGI. Это касается как "минималистичных" языков (где ничего нет, но всего достаточно, например, pirahã), так и жадных до различных категорий языков, например, санскрита или насиой.

В этом смысле 200 языков Meta* и "следующая тысяча языков" у Google — отличное продолжение инициативы и новые горизонты для всего ИИ".

🖇 Кстати, группа NLP в Институте AIRI проводит международный воркшоп по языкам коренных народов в октябре 2022: COLING: Field Matters
Присоединяйтесь!

*организация признана экстремистской, и ее деятельность запрещена на территории РФ
Почему онкологический скрининг будет неразрывно связан с технологиями искусственного интеллекта? 👨‍⚕️

Кандидат медицинских наук, ведущий научный сотрудник AIRI Виктор Гомболевский рассказал о перспективах внедрения технологий ИИ в медицинский скрининг на примере скрининга рака легкого в рамках крупнейшего в мире конгресса по лучевой диагностике "European Congress Of Radiology".

Рассказываем самое интересное, подробнее можно почитать по ссылке 📃

▫️Рак легкого, согласно статистике ВОЗ, является лидером по смертности. Человеческий фактор и высокая стоимость ошибки в скрининге привели к тому, что каждое исследование принято интерпретировать 2-мя врачами-рентгенологами. Даже такой расход ресурсов на каждое скрининговое исследование пока не достигает желаемых высот качества – двойное чтение повышает шансы на обнаружение легочных узлов размером 1-18 мм с 63% до 74%.

▫️Исследования применения ИИ в скрининге рака легкого называют позитивным результатом тот факт, что ИИ может выявлять лёгочные узлы, которые может пропускать человек.

▫️Доказано: когда у врача-рентгенолога при интерпретации результатов исследований есть возможность ознакомиться с результатами анализа ИИ, средняя и медианная длительности описания уменьшаются на 29% и 55%.

▫️Как показало исследование, опубликованное в журнале Lung Cancer 2022, применение ИИ при выявлении рака легких может освобождать врача от 86,7% нагрузки.

Почитать подробнее про ИИ для анализа медицинских изображений можно в недавнем посте.
Старший научный сотрудник, руководитель группы "Industrial AI" Илья Макаров рассказал газета.ru про сильный искусственный интеллект и стремление молодых специалистов развиваться 🔬

Поговорили о том, как учёные преодолевают препятствия, рассказали про статью о предсказании развития персонажей в серии книг о «Звездных войнах» и о Летней школе AIRI по ИИ в "Сириусе".

Полное интервью читайте по ссылке.
Делимся анонсом доклада, который точно стоит посетить 👀

👩‍🔬 Кто? Младший научный сотрудник AIRI Мария Синдеева и научный сотрудник AIRI Николай Чеканов из команды "Bioinformatics" выступят в "(s)Berloga" с темой "DeepCT: Cell type-specific interpretation of noncoding variants using deep learning methods".

🗓 Когда? В четверг 28 июля в 18:00.

🧬 Про что? В последнее время все большую популярность приобретают ML-подходы, способные предсказать эпигенетические свойства клеток на основе последовательности ДНК. Исследователи AIRI поговорят о новом подходе к задаче предсказания эпигенетических изменений, который позволяет выучить сложные зависимости между несколькими эпигенетическими характеристиками и предсказать их для любого входа, одновременно с этим выучив биологически значимые векторные представления типов клеток.

🖇 Как подключиться? Ссылка на Zoom будет доступна на канале перед началом доклада.
Делимся итогами «Лето с AIRI» в «Сириусе» – крупнейшей в РФ летней образовательной программы по искусственному интеллекту 👾

💫
149 талантливых студентов и молодых учёных из более чем 10 регионов страны прошли 150 часов обучения с ведущими исследователями в области ИИ и защитили более 50 проектов.

▫️Среди проектов участников были представлены работы с текстовыми данными и исследования моделей, которые определяют эмоции по отзывам на товары и классифицируют изображения.

▫️Некоторые работали с классическими табличными данными про предсказание успеваемости школьников и исследовали успешность привлечения клиента в рамках рекламной кампании. Они дополняли выводами про интерпретируемость результаты опубликованных работ со сравнением различных предсказательных моделей.

▫️Также были проекты по применению методов интерпретации машинного обучения.

☀️Еще было солнце, море и много улыбок.

Самые интересные цифры собрали в карточках 🐳