AI Для Всех

Майкрософтовские задачки по питону.

Вообще их GPT-3 решает, но какие-то можно на отборочном использовать

#Отборочные

GitHub: microsoft/PythonProgrammingPuzzles/main

Click to run this interactive environment. From the Binder Project: Reproducible, sharable, interactive computing environments.

69 viewsArtemii, edited 07:02

AI Для Всех

Во истину Ян обьявил эру self-supervised. Bert для картинок.

Twitter пост

#SSL #images

Twitter

Li Dong

BERT-style masked autoencoding can work well for vision Transformer pre-training. BEiT is faster and uses less GPU memory compared with other SSL methods, which is suitable for scaling up. The code of pre-training XXXL BERT can be directly reused. twitte…

75 viewsArtemii, edited 07:07

AI Для Всех

Хороший гитхаб и блог на медиум.

Например, он там разбирает модифицию LIME для интерпретации моделей. И много чего еще интересного

GitHub
Medium

#resources

GitHub

GitHub - dipanjanS/practical-machine-learning-with-python: Master the essential skills needed to recognize and solve complex real…

Master the essential skills needed to recognize and solve complex real-world problems with Machine Learning and Deep Learning by leveraging the highly popular Python Machine Learning Eco-system. - ...

78 viewsDmitry Penzar, edited 05:30

AI Для Всех

был очень хороший доклад. Когда появится на канале сберлоги на ютубе - надо будет скинуть сюда. Куча примеров из науки. Для лекций по разным конволюциям, сегментации, детекции, interpetation

78 viewsDmitry Penzar, 17:22

AI Для Всех

Forwarded from Sberloga (Alexander C)

🚀 Онлайн DS доклад от @SBERLOGA
👨‍🔬 Анвар Курмуков (Сбер Институт Искусственного Интеллекта, ВШЭ, ИППИ) "Проблемы Deep learning/Computer Vision при анализе медицинских изображений."
⌚️ Четверг 17 июня, 19.00 по Москве

Данные медицинской визуализации такие как компьютерная томография (КТ) и магнитно-резонансная томография (МРТ) используются для диагностики и лечения целого ряда патологий (различные поражения легких, опухоли органов, переломы и др.). Для автоматической обработки таких изображений используются методы компьютерного зрения и глубинные нейронные сети. В докладе будут рассмотрены ключевые проблемы, с которыми приходится бороться при построении алгоритмов автоматической разметки, связанные с особенностями:
- данных (малые размеры выборок, трехмерность, множество различных источников данных и др.)
- формулировок задач (сегментация, локализация/key points, классификация)
- клинических требований (устойчивость к доменным сдвигам, консистентность/интерпретируемость предсказаний и др.)

Ссылка на зум будет доступна через тг чат t.me/sberlogadataclub ближе к началу доклада.

75 viewsDmitry Penzar, 17:22

AI Для Всех

Forwarded from TechSparks

В каждой шутке есть доля не только шутки ;))
Наконец выложили в открытый доступ прекрасный проект «Балабоба»: в нем нейросеть Яндекса из семейства YaLM не просто продолжает заданное вами начала текста — но и окрашивает его в выбранный стиль.
Как всегда с хорошими генеративными текстами — иногда уморительно, иногда тревожно.
«Этот пост не целиком написан нейросетью, хотя: - частично он является правдой.
- я старался подбирать факты, чтобы пост был интересен.
Поэтому я буду благодарен за комментарии и ваши вопросы по теме.
PS: Я не являюсь автором этих слов.»
Играйтесь, друзья, пока игрушка свежа ;))

https://yandex.ru/lab/yalm

Балабоба

Балабоба на заслуженном отдыхе

69 viewsArtemii, 18:48

AI Для Всех

Мы с ребятами из EleutherAI зарелизили text-to-image сетку CogView на колаб.

Prompt можно писать на любом языке (он под капотом переводится на китайский все равно)

#Text2Image #Generative

Google

CogView-Inference.ipynb

Colaboratory notebook

59 viewsArtemii, edited 08:07

AI Для Всех

Using pretrained language models for biomedical knowledge graph completion.

GitHub

#ScientificML #biology

GitHub

GitHub - rahuln/lm-bio-kgc: Using pretrained language models for biomedical knowledge graph completion.

Using pretrained language models for biomedical knowledge graph completion. - GitHub - rahuln/lm-bio-kgc: Using pretrained language models for biomedical knowledge graph completion.

64 viewsArtemii, edited 08:09

Is Yann akin to Anakin? twitter.com/Miles_Brundage…

57 viewsArtemii, edited 12:29

AI Для Всех

Forwarded from Жалкие низкочастотники

Напишу немного про проклятье размерности. Это термин, которым, в частности, называют странности многомерных пространств, от которых человеческая интуиция начинает давать сбои.

Один популярный пример выглядит так: возьмём квадрат на плоскости и впишем в него круг. Ясно, что круг закроет большую часть площади квадрата. Дальше, возьмём куб и впишем в него шар. Опять же, шар займёт большую часть объёма куба. Но вот в четырёхмерном случае гиперсфера займёт меньше трети объёма гиперкуба, а при дальнейшем повышении размерности отношение их объёмов сходится к нулю. При этом евклидово расстояние от центра n-мерного куба до любого из его 2^n углов растёт как sqrt(n), т.е. неограниченно; а основной объём пространства (т.е., например, основная часть равномерно случайно взятых точек) внутри такого куба оказывается на расстоянии от центра с матожиданием sqrt(n/3) и с убывающей к нулю дисперсией. Короче, n-мерный куб — это очень странное место, с кучей углов и пустым центром.

Другой пример — гипотеза Борсука о возможности разбиения n-мерного тела диаметром 1 на n+1 тел диаметром меньше 1. Она доказана для n<=3 и опровергнута для n>=64. Посредине — томящая неизвестность.

Всё это обычно выглядит как игры разума, не отягощённого бытовыми мелочами, однако бум нейросетей принес нам популярность всяких многомерных эмбеддингов и представлений — слов, текстов или картинок, и там такие пакости случаются регулярно. Недавно, в одной из задач мне пришлось столкнуться с такой штукой:

Возьмём, скажем, 100-мерное пространство и выберем в нём равномерно случайно из единичного гиперкуба 42 точки. Пронумеруем их в некотором случайном, но фиксированном порядке, от 1 до 42. Какова вероятность, что в нашем пространстве найдётся такая ось, в проекции на которую наши точки выстроятся в нужном порядке? Ответ: больше 99%. Кому интересно, можете посмотреть мой скрипт на питоне, которым это эмпирически можно проверить (работает довольно долго, решает системы линейных неравенств, пересекая полупространства для каждой пары точек).

55 viewsDmitry Penzar, 12:28

AI Для Всех

Я ещё не скоро доберусь это почитать. Но очевидно что это новая веха.

Twitter пост

#Segmentation #images

Twitter

Mark

I am delighted to share that we have open-sourced our project with @GoogleAI : A modern #TensorFlow library with state-of-the-art models for various segmentation tasks: Semantic Segmentation, Panoptic Segmentation, Video Panoptic Segmentation and Depth Prediction!…

56 viewsArtemii, edited 12:30

AI Для Всех

Не от меня, так от пацанов во дворе увидите все равно:

Advancing AI theory with a first-principles understanding of deep neural networks.

#theory

Facebook

Advancing AI theory with a first-principles understanding of deep neural networks

Deep neural networks have long been considered too complex to understand from first principles — but new research does just that, presenting a theoretical framework for DNNs.

53 viewsArtemii, edited 17:18

AI Для Всех

Интересная статья (и код) от Яндекса про DL с табличными данными.

GitHub

#tabular

GitHub

GitHub - yandex-research/rtdl: Research on Tabular Deep Learning: Papers & Packages

Research on Tabular Deep Learning: Papers & Packages - yandex-research/rtdl

55 viewsArtemii, edited 08:04

AI Для Всех

Интересная статья про метрики. Пару хороших картинок и неплохих оюъяснений. К сожалению есть откровенные лажи (например, рисунок с расстоянием минковского и помещение определения метрики в требования к дистанции минковского). Потому использовать можно, но аккуратно

Medium

#metrics

Medium

9 Distance Measures in Data Science

The advantages and pitfalls of common distance measures

50 viewsDmitry Penzar, edited 08:54

AI Для Всех

Хорошая статья.

Ее можно вставить как пример подхода к проблеме, когла можно разделить задачу классификации на предсказание стиля и предсказание собственно класса.

Например для клеточной биологии - предсказываем отдельно тип клетки и "нормальная", "раковая", "разрушенная". Ведь данных размеченных там тоже не так уж и много и учить предсказывать все комбинации напрямую - сложно. Тем более, это может помочь биться с переобучением - когда у нас есть только раковые клетки от одного пациента и не раковые от другого. Разбиением предсказания на две части мы заставляем нейросетку использовать информацию о раковых клетках и просто для опредедения типа, а не только комбинации тип+рак. То есть заучивать пациента чуть менее выгодно.

Второй подход из статьи - про мультимодальность, а именно - использовать сразу несколько типов данных, в случае их сетки - текстовые описания и картинки. Подход интересный, тоже можно рассказать. Например - передавать вместе с фотографией список симптомов/анализы.
К сожалению, для мед данных тут будет нюанс, что без transfer learning мы точно переобучимся на такое - данных мало и инфа о пациенте поможет нейросетке просто заучивать пациентов. А если делать transfer, то не факт, что предобученеые на данных преимущественно другого рода сетки будут хорошо работать.
Еще один минус - даже на словах из статьи видно, что чтобы получить выигрыш от модальности им пришлось очень много "химичить". Не факт, что в рамках небольшего коллектива это возможно

Еще статья хороша для вводных примеров - используется много разного, что позволяет склеивать разные темы

#classification #images

Meta

Advancing AI to make shopping easier for everyone

Our latest AI advancements represent fundamental building blocks that could power entirely new future shopping experiences.

68 viewsDmitry Penzar, edited 05:57

AI Для Всех

Как и писал - очень хорошая обзорная лекция по медицинским изображениям и работе с ними.
Много хороших ссылочек и про проблемы рассказывает

YouTube

#ScientificML #medicine

YouTube

Проблемы Deep learning/Computer Vision при анализе медицинских изображений - Анвар Курмуков

Проблемы Deep learning/Computer Vision при анализе медицинских изображений - Анвар Курмуков

01:20 Виды неинвазивных медицинских визуализаций
03:10 Сходства снимков КТ и МРТ
07:50 3D изображения - стопки двумерных срезов
13:30 Резюме сходств КТ и МРТ
20:00…

80 viewsDmitry Penzar, edited 12:30

AI Для Всех

Ну и продолжение в источнике

64 viewsArtemii, 13:51

AI Для Всех

Forwarded from gonzo-обзоры ML статей

Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences
Alexander Rives, Joshua Meier, View ORCID ProfileTom Sercu, Siddharth Goyal, Zeming Lin, Jason Liu, Demi Guo, Myle Ott, C. Lawrence Zitnick, Jerry Ma, and Rob Fergus
Статья: https://www.pnas.org/content/118/15/e2016239118
Модель: https://github.com/facebookresearch/esm

Чего мы всё про NLP, да про NLP, давайте про биологию. Там уже тоже как и в NLP пару лет назад происходит свой “ImageNet moment”, который я бы скорее назвал “BERT moment”, ибо как раз NLP сильнее на него повлиял. Да и DeepMind вот-вот уже обещает заопенсорсить свой AlphaFold2 (https://t.co/uP7uzgGMSf), так что самое время. Вот недавно в PNAS вышла статья по уже древнему препринту.

Идея классическая: давайте возьмём все белковые последовательности (для незнакомых с биологией, белки состоят из последовательности аминокислот, здесь их 20 стандартных и 5 нестандартных) и обучим языковую модель по типу BERT’а (энкодер трансформера, восстанавливающий замаскированные токены — конкретные аминокислоты, лосс обычный MLM). Прелесть такого обучения, что оно целиком self-supervised, то есть не требует никаких размеченных данных и выучивает закономерности, наблюдаемые в самих данных. И как полагается возьмём всего побольше — трансформер поглубже, датасет побольше.

Датасет это 250M последовательностей из UniParc (UniProt Archive содержит большинство опубликованных в мире последовательносей, https://www.uniprot.org/help/uniparc), которые суммарно состоят из 86B аминокислот (ну то есть как бы 86Гб текста). Из него набирают три разных датасета, 1) low-diversity UR100 (последовательности UniRef100 получены кластеризацией идентичных последовательностей из UniParc), 2) high-diversity sparse UR50/S (репрезентативные последовательности кластеров из UniRef50, который кластеризован по 50% sequence identity), и 3) high-diversity dense UR50/D (делается равномерная выборка по кластерам из UniRef50). Для оценки модели рандомно спрятаны 10% кластеров из UniRef50 и все последовательности этих кластеров не участвуют в обучении.

Моделей в итоге обучено несколько разных (6, 12, 34 слоя), и дополнительно самая глубокая (в 652.4М параметров) потом ещё оптимизирована по своим гиперпараметрам, она называется ESM-1b.

Главный интерес в этом, выучит ли модель чисто из данных одиночных последовательностей (но зато в огромном количестве) какие-то полезные биологически релевантные фичи. И она выучивает!

Модель работает в режиме аналогичном BERT’у, на вход подаются последовательности аминокислот, где каждый токен — это отдельная аминокислота, на выходе получаются эмбеддинги этих аминокислот, которые можно использовать для разных задач. Ну и поскольку мы знаем, что рандомные эмбеддинги тоже неплохо работают, сравниваются эмбеддинги до обучения и после.

Структура пространства неплохо отражает биохимические свойства отдельных аминокислот — ароматические, гидрофобные, заряженные и т.п. образуют отдельные кластеры.

Можно получить эмбеддинги для целого белка — например, усреднив эмбеддинги всех аминокислот (хотя по идее <cls> токен в модели вроде как тоже есть). Ортологичные (с общим происхождением у разных видов) группы белков при этом кластеризуются. По расстоянию в пространстве эмбеддингов также неплохо определяются дальние гомологи. Плюс для позиций, которые совпали бы после множественного выравнивания, эмбеддинги после обучения оказываются сильно более близкими. То есть модель неявно выучивает и что-то про выравнивание (в обучении никакого выравнивания не было, работа идёт на индивидуальных последовательностях).

Отдельный пул задач про предсказание вторичной (спирали, листы и т.п.) и третичной структуры (контактов между аминокислотами в цепочке белка). Проверяют это традиционными методами: выучивают линейные проекции фич или строят глубокую сетку поверх них, и далее решают задачи предсказания вторичной структуры (по восьми классам) или вероятность контакта для любых пар аминокислот. Неплохо работает, не хуже более классических альтернатив.

PNAS

Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences | Proceedings of the…

In the field of artificial intelligence, a combination of scale in data and model
capacity enabled by unsupervised learning has led to major advanc...

70 viewsArtemii, 13:51

AI Для Всех

Сложно, но интересно про диффузионные графовые сети

#graph #geometric

Medium

Graph Neural Networks as Neural Diffusion PDEs

Graph neural networks are intimately related to partial differential equations governing information diffusion on graphs.

56 viewsArtemii, edited 16:42

AI Для Всех

Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences Alexander Rives, Joshua Meier, View ORCID ProfileTom Sercu, Siddharth Goyal, Zeming Lin, Jason Liu, Demi Guo, Myle Ott, C. Lawrence Zitnick, Jerry…

как верно заметили мои коллеги, к сожалению, практическое применение статьи - 0. Она не может побить даже HMM, в которых параметров в разы меньше. Потому в "примеры в биологии" включать не стоит. Но можно - как область-где-еще-не-смогли-но-может-быть-вы-сможете

55 viewsDmitry Penzar, 08:00

AI Для Всех

Выглядит бомбически: OpenAI Copilot

#generative #GPT #code

Twitter

Nat Friedman

We spent the last year working closely with OpenAI to build GitHub Copilot. We've been using it internally for months, and can't wait for you to try it out; it's like a piece of the future teleported back to 2021. twitter.com/github/status/…

48 viewsArtemii, edited 14:46

About

Blog

Apps

Platform