Sberloga
2.53K subscribers
145 photos
14 videos
5 files
217 links
Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot
Чат - @sberlogadataclub
Download Telegram
Сбер активно развивает направление дата-сайнс. Новый этап — создание "Института Искусственного Интеллекта AIRI". Цель института - проведение исследований мирового уровня по широкому профилю направлений в области дата-сайнс и на стыке с другими науками, в том числе с биоинформатикой.

В данный момент формируются команды, открыты вакансии, предлагается достойная оплата.

Более подробная информация в https://t.me/sberlogajobs/106, подписывайтесь на канал @sberlogajobs

ПС
По направлению анализа медицинских изображений можно ознакомиться с недавним докладом:
https://t.me/sberloga/79
видео запись: https://www.youtube.com/watch?v=VHnAf8UsHzs
и все вопросы уточнить у @anvarki
Sberloga pinned «Сбер активно развивает направление дата-сайнс. Новый этап — создание "Института Искусственного Интеллекта AIRI". Цель института - проведение исследований мирового уровня по широкому профилю направлений в области дата-сайнс и на стыке с другими науками, в…»
🚀 @SBERLOGA - представляет два онлайн эвента за один раз
⌚️ Вторник 6 июля, 19.00 и 19.30 по Москве
⌚️ В 19.00 мы продолжим просмотр и обсуждение Лекция 7 "Knowledge Graph Embeddings" курса М.Галкина
👨‍🔬 В 19.30 доклад по граф-мл: Илья Сенаторов (Helmholtz Institute) "Предсказания взаимодействий молекул и белков с помощью глубокого обучения и графовых нейросетей"

Предсказание взаимодействия между белком и молекулой - нетривиальная задача, которая активно решается последние 5 лет. Множество подходов комбинируют машинное обучение с теорией графов для решение этой задачи. Однако датасеты, используемые для сравнения разных моделей сильно отличаются от датасетов которые встречаются в реальной жизни - они гораздо более полные и сбалансированые. В этой лекции я расскажу о проблемах, которые встречаются при попытке применить модели, натренированые на стандартных датасетах KIBA и Davis и способах их решения - weighted loss, biologically relevant protein graph augmentation и graph-level pre-training.

PS
Ссылка на зум будет доступна через тг чат https://t.me/sberlogawithgraphs ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
https://youtu.be/GtiDsb4pQR0

Обзор свежей работы "Training Graph Neural Networks with 1000 Layers" (ICML2021) - Анвар Курмуков


https://arxiv.org/abs/2106.07476
Deep graph neural networks (GNNs) have achieved excellent results on various tasks on increasingly large graph datasets with millions of nodes and edges. However, memory complexity has become a major obstacle when training deep GNNs for practical applications due to the immense number of nodes, edges, and intermediate activations. To improve the scalability of GNNs, prior works propose smart graph sampling or partitioning strategies to train GNNs with a smaller set of nodes or sub-graphs. In this work, we study reversible connections, group convolutions, weight tying, and equilibrium models to advance the memory and parameter efficiency of GNNs. We find that reversible connections in combination with deep network architectures enable the training of overparameterized GNNs that significantly outperform existing methods on multiple datasets. Our models RevGNN-Deep (1001 layers with 80 channels each) and RevGNN-Wide (448 layers with 224 channels each) were both trained on a single commodity GPU and achieve an ROC-AUC of 87.74±0.13 and 88.24±0.15 on the ogbn-proteins dataset. To the best of our knowledge, RevGNN-Deep is the deepest GNN in the literature by one order of magnitude. Please visit our project website this https URL for more information.

📝 Материалы:
Код доступен на сайте:
https://www.deepgcns.org/arch/gnn1000

📢 Подписывайся на наше сообщество в telegram, чтобы быть в курсе мероприятий:
https://t.me/sberloga

🗨 Обсудить доклады можно в нашем чатике
https://t.me/sberlogadataclub

@sberloga
🚀 @SBERLOGA продолжает онлайны доклады по NLP (Natural Language Processing)
👨‍🔬 Михаил Нефедов (Сбер) "NLP модели без токенизации"
⌚️ Четверг 8 июля, 19.00 по Москве


В докладе я расскажу о недавней статье от Google Research (https://arxiv.org/abs/2105.13626), в которой показывается, что трансформеры можно успешно обучать без какой-либо токенизации, на байтовых последовательностях. Отказ от токенизации упрощает пайплайн предобработки, значительно сокращает размеры входных и выходных слоев, а также делает модель более устойчивой к искажениям текста. Перфоманс полученных модулей не уступает, а иногда и превосходит аналогичные модели с токенизацией. Недостатком такого подхода является значительное увеличение длины последовательностей, которое приводит к снижению скорости обучения и инференса.

PS
Ссылка на зум будет доступна через тг чат https://t.me/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
🚀 @SBERLOGA рекомендует онлайн доклад по НЛП
⌚️ Четверг 15 июля, 19.00 по Москве
Forwarded from исследовано (Katya Artemova)
Всем привет!

Приглашаем вас на онлайн-семинар НУЛ ММВП "Матричные и тензорные разложения в задачах обработки естественного языка", который состоится 15 июля 2021 года в 19.00.

О докладчике: Гринчук Алексей Валерьевич (https://scholar.google.com/citations?user=Z8GCLksAAAAJ&hl=en&oi=ao) Окончил бакалавриат МФТИ в 2015 году. В 2017 окончил магистратуру МФТИ и Сколтеха. С 2017 является аспирантом МФТИ и занимается применением матричных и тензорных разложений к различным задачам обработки естественного языка (NLP) под руководством И.В. Оселедца. С 2020 года работает ведущим инженером в компании NVIDIA, занимается распознаванием речи и машинным переводом.

Аннотация: В настоящей работе предлагаются методы решения различных задач в области обработки естественного языка при помощи матричных и тензорных разложений. Предложен метод построения векторных представлений слов на основе Римановой оптимизации в пространстве матриц малого ранга. Предложена математическая модель векторных представлений слов на основе разложения тензорного поезда, которая требует меньше параметров, чем классическое представление в виде плотной матрицы. Предложено обобщение тензорных нейронных сетей, которое позволяет анализировать рекуррентные и полносвязные сети с различными нелинейностями между слоями. Проведён теоретический анализ обобщающей способности и выразительной силы обобщённых рекуррентных тензорных сетей с нелинейностью типа ReLU.

Для участия в семинаре необходимо зарегистрироваться до 16.00 15 июля 2021 г.

https://cs.hse.ru/ai/computational-pragmatics/announcements/484649607.html
🚀 @SBERLOGA онлайн доклад по биоинформатике и граф-мл
👨‍🔬 Леонид Урошлев (Институт Общей Генетики РАН) "Геномные графы, их применение для хранения последовательностей и алгоритмы их обработки"
⌚️ Пятница 16 июля, 17.00 по Москве

Геномные графы, их устройство и применимость. Особое внимание будет уделено графам вариаций, их применению в анализе популяционной изменчивости, а также алгоритмам индексации графов.

PS
Ссылка на зум будет доступна через тг чат https://t.me/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Ребята, выкладываю видео прошедших семинаров

NLP модели без токенизации
Михаил Нефедов (Сбер)

https://youtu.be/POvjBt7D1nM
В докладе Михаил рассказал о недавней статье от Google Research (https://arxiv.org/abs/2105.13626), в которой показывается, что трансформеры можно успешно обучать без какой-либо токенизации, на байтовых последовательностях. Отказ от токенизации упрощает пайплайн предобработки, значительно сокращает размеры входных и выходных слоев, а также делает модель более устойчивой к искажениям текста. Перфоманс полученных модулей не уступает, а иногда и превосходит аналогичные модели с токенизацией. Недостатком такого подхода является значительное увеличение длины последовательностей, которое приводит к снижению скорости обучения и инференса.
📝 Материалы:
https://drive.google.com/file/d/1CbZZe74gYm1tpr8pMWdvaBj2iUGke578/view?usp=sharing

Предсказания взаимодействий молекул и белков с помощью графовых нейросетей
Илья Сенаторов (Helmholtz Institute)
https://youtu.be/5MFvmPIvQLk
Предсказание взаимодействия между белком и молекулой - нетривиальная задача, которая активно решается последние 5 лет. Множество подходов комбинируют машинное обучение с теорией графов для решение этой задачи. Однако датасеты, используемые для сравнения разных моделей сильно отличаются от датасетов которые встречаются в реальной жизни - они гораздо более полные и сбалансированые. В этой лекции я расскажу о проблемах, которые встречаются при попытке применить модели, натренированые на стандартных датасетах KIBA и Davis и способах их решения - weighted loss, biologically relevant protein graph augmentation и graph-level pre-training.
📝 Материалы:
https://drive.google.com/file/d/1pAGsHLAU4id2CD-9nYMnsdNWMxZmFECP/view?usp=sharing

📢 Подписывайся на наше сообщество в telegram, чтобы быть в курсе мероприятий: https://t.me/sberloga
🗨 Обсудить доклады можно в нашем чатике https://t.me/sberlogadataclub

@sberloga
Записывайтесь добровольцами на разбор АльфФолд2 от Гугл ДипМайнд https://t.me/sberlogabio/7357

Подробней тут: https://t.me/sberloga/95 , присоединяйтесь к группе https://t.me/sberlogabio для координации усилий
Революционное достижение от Гугл ДипМайнд (анонс осень 2020) - АльфаФолд2 - очень точное предсказание трехмерной структуры белков (то есть координат в трехмерном пространстве атомов белка), зная только последовательность аминокислот белка (то есть одномерную структуру).
На днях (15 июля) Дипмайнд выложил более подробное описание своей работы, а незадолго до этого группа независимых исследователей выложило менее совершенное,
но и менее ресурсоемкое решение - РозеттаФолд.

Давайте попробуем разобраться в этих работах - присоединяйтесь к 70 "добровольцам" на разбор этих работы в https://t.me/sberlogabio/7357 .

Статья Альфафолд2: https://www.nature.com/articles/s41586-021-03819-2
Модель: https://github.com/deepmind/alphafold

Замечательные посты Григория Сапунова, с кратким описанием достижений:
РозеттаФолд: https://t.me/gonzo_ML/642
АльфаФолд2: https://t.me/gonzo_ML/649

Каггл можно использовать для сбора материалов (данных, скриптов, ссылок, обсуждений) по этой активности:
https://www.kaggle.com/alexandervc/towards-understanding-alphafold2-and-rosettafold
🚀 @SBERLOGA онлайн доклад по дс&граф-мл
👨‍🔬 Александр Кореков, Данил Сметанев (Сбер) "Подход и кейсы process mining"
⌚️ Вторник 20 июля, 19.00 по Москве

Process Mining - это относительно молодая область знаний. Она сочетает в себе подходы для анализа как операционных процессов компании, так и клиентских путей (customer journey) в любый фронтальных и бэкендовых системах, а в качестве источника данных обычно используют event logs разной степени детализации. В нашем рассказе хотим познакомить вас с основными бизнес-задачами в process mining, поговорить о подходах и проблематике при построении аналитики по event logs, посвятить в кейсы разбора клиентских путей, а также рассказать о нашей новой библиотеке sberPM: https://github.com/SberProcessMining/Sber_Process_Mining
Доклад будет перекликаться с нашей статьей https://habr.com/ru/company/sberbank/blog/565476/

PS
Ссылка на зум будет доступна через тг чат https://t.me/sberlogawithgraphs ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
🚀 @SBERLOGA продолжает онлайны доклады по NLP (Natural Language Processing)
👨‍🔬 Eгор Плотников (Сбер) "Снова про управление мамонтами, или как заставить языковую модель генерировать нужный нам текст."
⌚️ Четверг 22 июля, 19.00 по Москве


За последние несколько лет генеративные модели в NLP сделали большой шаг вперед. Сейчас языковые модели могут без проблем порождать связный, релевантный текст либо с нуля, либо путем завершения отрывка, начатого пользователем. Однако в стандартной постановке задачи человек имеет достаточно слабый контроль над итоговым результатом генерации. Например, было бы неплохо уметь задавать тему, которой должен соответствовать текст, эмоциональную окраску, стиль повествования и т.д. В данном докладе будет рассмотрено несколько статей, так или иначе решающих эту проблему:
https://arxiv.org/abs/1909.05858 "CTRL: A Conditional Transformer Language Model for Controllable Generation"
https://arxiv.org/abs/1912.02164 "Plug and Play Language Models: A Simple Approach to Controlled Text Generation"

PS
Ссылка на зум будет доступна через тг чат https://t.me/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Channel photo updated
Ребята, около 2х лет назад Александр Червов создал наше сообщество с небольших совместных обедов Датасаентистов, и теперь нас уже более 1000 человек!
Немного запоздало мы ДР наш празднуем, но все же решили обновить дизайн 🥳 Напишите если понравился 🤗
🚀 @SBERLOGA начинает серию онлайн докладов посвященных Альфафолд (революционному достижению от Гугл ДипМайнд на стыке датасайнс и биологии)
👨‍🔬 проф. О. Калинина (Helmholtz Institute), к.б.н А. Залевский (ИБХ РАН): "Предсказание трехмерной пространственной структуры белков: классические подходы и методы глубокого обучения"
⌚️ Пятница 23 июля, 18.00 по Москве

AlphaFold – программа для предсказания пространственной структуры белков с помощью глубоких нейронных сетей, созданная компанией DeepMind, которая уже отметилась значительными успехами в создании программ, играющих в шахматы и го. AlphaFold наделала много шума осенью 2020 года, когда ей удалось с большим отрывом выиграть соревнования по предсказанию трехмерных структур белков CASP. 15 июля этого года была опубликована статья в Nature с описанием метода (https://www.nature.com/articles/s41586-021-03819-2) и код на GitHub (https://github.com/deepmind/alphafold). Прежде чем разбираться в деталях реализации нейросети, мы хотим рассказать про классические методы предсказания пространственной структуры и историю CASP. Также мы обсудим особенности локального развертывания AlphaFold и покажем результаты первых бенчмарков на собственных научных задачах.

Подробнее о докладчиках:
Ольга Калинина, профессор drug bioinformatics, Helmholtz Institute for Pharmaceutical Research Saarland and Saarland University (https://www.helmholtz-hips.de/en/research/people/person/prof-dr-olga-kalinina/), Артур Залевский, кандидат биологических наук, младший научный сотрудник, Институт биоорганической химии РАН (http://www.ibch.ru/structure/groups/lbaccb/1510)

PS
Ссылка на зум будет доступна через тг чат https://t.me/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
🚀 @SBERLOGA поздравляет Михаила Галкина с выходом на первое место в наиболее престижном граф-мл конкурсе OGB WikiKG2 и приглашает на его доклад:
👨‍🔬 Михаил Галкин (McGill University) Compositional Tokenization in Knowledge Graphs
⌚️ Вторник 27 июля, 19.00 по Москве

Разнообразные современные и не очень графовые эмбеддинги подразумевают маппинг каждого узла (ноды, сущности) в свой собственный вектор. На настоящих графах, бОльших, чем стандартные бенчмарки под 50к узлов, это выливается в огромные эмбеддинг матрицы, которые съедают всю память GPU и заставляют распределять тренировку и хранение на кластер GPU. Все это очень напоминает времена word2vec и GloVe с эмбеддингом на каждое слово. Затем, однако, появились subword tokenization алгоритмы (BPE, WordPiece), которые составляют словарь фиксированного размера и могут токенизировать любые известные и неизвестные слова. Теперь такие токенизаторы - основа большинства языковых моделей, где можно позволить потратить больше параметров на эффективные энкодеры вместо эмбеддинг таблиц.

Можно ли как-нибудь адаптировать эту идею для Graph Representation Learning? Собственно, да - и в этом докладе я расскажу о нашей новой работе по токенизации графов NodePiece, которая позволяет уменьшить эмбеддинг таблицы в 10-100 и более раз без существенной потери в качестве. Интересно, что на некоторых задачах мы получаем лучшие метрики вообще без использования эмбеддингов узлов.

C NodePiece мы вышли в топ-1 бенчмарка OGB WikiKG 2 с моделью в 7М параметров тогда как предыдущая сота была на 500М - 1.25B параметров 🙂

Препринт на arxiv, github

PS
Ссылка на зум будет доступна через тг чат https://t.me/sberlogawithgraphs ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
🚀 @SBERLOGA приглашает на доклад по граф-мл:
👨‍🔬 Михаил Галкин (McGill University) Graph Transformers and Spectral Positional Encodings
⌚️ Четверг 29 июля, 19.00 по Москве

Message passing как самый распространенный фреймворк GNN архитектур имеет много теоретических ограничений, заметных по качеству в современных бенчмарках. Сейчас в сообществе ищут способы выйти за пределы message passing и получить более мощные архитектуры. Один из способов уйти за горизонт message passing - использовать трансформеры на полносвязных графах (не то же самое, что GAT - он по-прежнему делает message passing на разреженных графах). Такие графовые трансформеры заняли топовые места в последнем OGB Large Scale Challenge, и в докладе мы посмотрим, как они решают проблему определения позиции нод с помощью их спектральных характеристик

PS
Ссылка на зум будет доступна через тг чат https://t.me/sberlogawithgraphs ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
🚀 @SBERLOGA продолжает серию онлайн докладов посвященных АльфаФолд и темам вокруг него:
👨‍🔬 В. Е. Раменский (МГУ): "Структуры белков и варианты генома"
⌚️ Четверг 5 августа, 19.00 по Москве

Первые кристаллографические структуры белков дали возможность описать возможные механизмы действия немногочисленных известных тогда болезнетворных замен аминокислот в белках. Пятьдесят лет спустя огромное количество обнаруженных у человека вариантов последовательности позволяет понять, какие участки белков являются мишенями для болезнетворных мутаций и какие структурные свойства характерны для болезнетворных и нейтральных замен.

Василий Евгеньевич Раменский, к.ф.-м.н., доцент МГУ им М.В.Ломоносова,
Руководитель лаб. геномной и медицинской биоинформатики
НМИЦ Терапии и профилактической медицины

PS
Ссылка на зум будет доступна через тг чат https://t.me/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Субботний нетворкинг. Датасайнс начинает активно применятся в биологии, медицине и химии: для поиска новых лекарств, анализа изображений, понимания работы клетки и огромного количества других задач. В будущем данные направления будут только расти, как и поток данных, которые создаются в этих отраслях и требуют анализа. Кто-то уже работает в этой тематике, кто-то может быть столкнётся в будущем, и в таком случае понимания domain knowledge - не помешает. Поэтому хотим порекомендовать несколько каналов, которые интересно описывают, что происходит в этих сферах:

@medicalksu Канал о цифровой трансформации здравоохранения. Новости о телемедицине, технологиях AI/ML, девайсах для врачей и пациентов и проектах биг фармы в digital.

@polyjuice "Зельеваренье Адвансд" лучший канал в тг о химии. (Иван Сорокин, к.х.н., доцент химфака МГУ)

@smart_lab_news Новости нанобиотеха: различные научные события, конкурсы, конференции и канал "ИБХФ РАН. Новости": @ibcp_ras_news

@rfmolbiol Интересные статьи, лекции, ссылки, софт, стажировки, учеба зарубежом, учебники, научные пособия, информация о различных мероприятиях (конференции, воркшопы, школы).

@liza_loves_biology всякая интересная всячина из мира биологии и чат научного клуба ФББ @sciclub_fbb_msu

@darthbiology Интересно обо всём, что относится к биологии и медицине. Просто о сложном.