AI Для Всех
12.8K subscribers
1.18K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Интересная статья (и код) от Яндекса про DL с табличными данными.

GitHub

#tabular
Интересная статья про метрики. Пару хороших картинок и неплохих оюъяснений. К сожалению есть откровенные лажи (например, рисунок с расстоянием минковского и помещение определения метрики в требования к дистанции минковского). Потому использовать можно, но аккуратно

Medium

#metrics
Хорошая статья.

Ее можно вставить как пример подхода к проблеме, когла можно разделить задачу классификации на предсказание стиля и предсказание собственно класса.

Например для клеточной биологии - предсказываем отдельно тип клетки и "нормальная", "раковая", "разрушенная". Ведь данных размеченных там тоже не так уж и много и учить предсказывать все комбинации напрямую - сложно. Тем более, это может помочь биться с переобучением - когда у нас есть только раковые клетки от одного пациента и не раковые от другого. Разбиением предсказания на две части мы заставляем нейросетку использовать информацию о раковых клетках и просто для опредедения типа, а не только комбинации тип+рак. То есть заучивать пациента чуть менее выгодно.

Второй подход из статьи - про мультимодальность, а именно - использовать сразу несколько типов данных, в случае их сетки - текстовые описания и картинки. Подход интересный, тоже можно рассказать. Например - передавать вместе с фотографией список симптомов/анализы.
К сожалению, для мед данных тут будет нюанс, что без transfer learning мы точно переобучимся на такое - данных мало и инфа о пациенте поможет нейросетке просто заучивать пациентов. А если делать transfer, то не факт, что предобученеые на данных преимущественно другого рода сетки будут хорошо работать.
Еще один минус - даже на словах из статьи видно, что чтобы получить выигрыш от модальности им пришлось очень много "химичить". Не факт, что в рамках небольшего коллектива это возможно

Еще статья хороша для вводных примеров - используется много разного, что позволяет склеивать разные темы

#classification #images
Ну и продолжение в источнике
Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences
Alexander Rives, Joshua Meier, View ORCID ProfileTom Sercu, Siddharth Goyal, Zeming Lin, Jason Liu, Demi Guo, Myle Ott, C. Lawrence Zitnick, Jerry Ma, and Rob Fergus
Статья: https://www.pnas.org/content/118/15/e2016239118
Модель: https://github.com/facebookresearch/esm

Чего мы всё про NLP, да про NLP, давайте про биологию. Там уже тоже как и в NLP пару лет назад происходит свой “ImageNet moment”, который я бы скорее назвал “BERT moment”, ибо как раз NLP сильнее на него повлиял. Да и DeepMind вот-вот уже обещает заопенсорсить свой AlphaFold2 (https://t.co/uP7uzgGMSf), так что самое время. Вот недавно в PNAS вышла статья по уже древнему препринту.

Идея классическая: давайте возьмём все белковые последовательности (для незнакомых с биологией, белки состоят из последовательности аминокислот, здесь их 20 стандартных и 5 нестандартных) и обучим языковую модель по типу BERT’а (энкодер трансформера, восстанавливающий замаскированные токены — конкретные аминокислоты, лосс обычный MLM). Прелесть такого обучения, что оно целиком self-supervised, то есть не требует никаких размеченных данных и выучивает закономерности, наблюдаемые в самих данных. И как полагается возьмём всего побольше — трансформер поглубже, датасет побольше.

Датасет это 250M последовательностей из UniParc (UniProt Archive содержит большинство опубликованных в мире последовательносей, https://www.uniprot.org/help/uniparc), которые суммарно состоят из 86B аминокислот (ну то есть как бы 86Гб текста). Из него набирают три разных датасета, 1) low-diversity UR100 (последовательности UniRef100 получены кластеризацией идентичных последовательностей из UniParc), 2) high-diversity sparse UR50/S (репрезентативные последовательности кластеров из UniRef50, который кластеризован по 50% sequence identity), и 3) high-diversity dense UR50/D (делается равномерная выборка по кластерам из UniRef50). Для оценки модели рандомно спрятаны 10% кластеров из UniRef50 и все последовательности этих кластеров не участвуют в обучении.

Моделей в итоге обучено несколько разных (6, 12, 34 слоя), и дополнительно самая глубокая (в 652.4М параметров) потом ещё оптимизирована по своим гиперпараметрам, она называется ESM-1b.

Главный интерес в этом, выучит ли модель чисто из данных одиночных последовательностей (но зато в огромном количестве) какие-то полезные биологически релевантные фичи. И она выучивает!

Модель работает в режиме аналогичном BERT’у, на вход подаются последовательности аминокислот, где каждый токен — это отдельная аминокислота, на выходе получаются эмбеддинги этих аминокислот, которые можно использовать для разных задач. Ну и поскольку мы знаем, что рандомные эмбеддинги тоже неплохо работают, сравниваются эмбеддинги до обучения и после.

Структура пространства неплохо отражает биохимические свойства отдельных аминокислот — ароматические, гидрофобные, заряженные и т.п. образуют отдельные кластеры.

Можно получить эмбеддинги для целого белка — например, усреднив эмбеддинги всех аминокислот (хотя по идее <cls> токен в модели вроде как тоже есть). Ортологичные (с общим происхождением у разных видов) группы белков при этом кластеризуются. По расстоянию в пространстве эмбеддингов также неплохо определяются дальние гомологи. Плюс для позиций, которые совпали бы после множественного выравнивания, эмбеддинги после обучения оказываются сильно более близкими. То есть модель неявно выучивает и что-то про выравнивание (в обучении никакого выравнивания не было, работа идёт на индивидуальных последовательностях).

Отдельный пул задач про предсказание вторичной (спирали, листы и т.п.) и третичной структуры (контактов между аминокислотами в цепочке белка). Проверяют это традиционными методами: выучивают линейные проекции фич или строят глубокую сетку поверх них, и далее решают задачи предсказания вторичной структуры (по восьми классам) или вероятность контакта для любых пар аминокислот. Неплохо работает, не хуже более классических альтернатив.
AI Для Всех
Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences Alexander Rives, Joshua Meier, View ORCID ProfileTom Sercu, Siddharth Goyal, Zeming Lin, Jason Liu, Demi Guo, Myle Ott, C. Lawrence Zitnick, Jerry…
как верно заметили мои коллеги, к сожалению, практическое применение статьи - 0. Она не может побить даже HMM, в которых параметров в разы меньше. Потому в "примеры в биологии" включать не стоит. Но можно - как область-где-еще-не-смогли-но-может-быть-вы-сможете
Большая статья о том как учить GAN.

По сути конечно многое из этого только в индивидуальных случаях работает, но все же

#gan #training
Кажется большое достижение. Одна модель to rule all of the modalities - Google Preciver.

#multimodal
Сегодня доклад был неплохой. Там нет прям вау идей, но информацию об области и ссылку на два датасета (DAVIS, KIBA) на задачки дает.
Forwarded from Sberloga (Alexander C)
🚀 @SBERLOGA - представляет два онлайн эвента за один раз
⌚️ Вторник 6 июля, 19.00 и 19.30 по Москве
⌚️ В 19.00 мы продолжим просмотр и обсуждение Лекция 7 "Knowledge Graph Embeddings" курса М.Галкина
👨‍🔬 В 19.30 доклад по граф-мл: Илья Сенаторов (Helmholtz Institute) "Предсказания взаимодействий молекул и белков с помощью глубокого обучения и графовых нейросетей"

Предсказание взаимодействия между белком и молекулой - нетривиальная задача, которая активно решается последние 5 лет. Множество подходов комбинируют машинное обучение с теорией графов для решение этой задачи. Однако датасеты, используемые для сравнения разных моделей сильно отличаются от датасетов которые встречаются в реальной жизни - они гораздо более полные и сбалансированые. В этой лекции я расскажу о проблемах, которые встречаются при попытке применить модели, натренированые на стандартных датасетах KIBA и Davis и способах их решения - weighted loss, biologically relevant protein graph augmentation и graph-level pre-training.

PS
Ссылка на зум будет доступна через тг чат https://t.me/sberlogawithgraphs ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga