AI Для Всех
12.2K subscribers
1.04K photos
130 videos
10 files
1.32K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Майкрософтовские задачки по питону.

Вообще их GPT-3 решает, но какие-то можно на отборочном использовать

#Отборочные
Хороший гитхаб и блог на медиум.

Например, он там разбирает модифицию LIME для интерпретации моделей. И много чего еще интересного

GitHub
Medium

#resources
был очень хороший доклад. Когда появится на канале сберлоги на ютубе - надо будет скинуть сюда. Куча примеров из науки. Для лекций по разным конволюциям, сегментации, детекции, interpetation
Forwarded from Sberloga (Alexander C)
🚀 Онлайн DS доклад от @SBERLOGA
👨‍🔬 Анвар Курмуков (Сбер Институт Искусственного Интеллекта, ВШЭ, ИППИ) "Проблемы Deep learning/Computer Vision при анализе медицинских изображений."
⌚️ Четверг 17 июня, 19.00 по Москве

Данные медицинской визуализации такие как компьютерная томография (КТ) и магнитно-резонансная томография (МРТ) используются для диагностики и лечения целого ряда патологий (различные поражения легких, опухоли органов, переломы и др.). Для автоматической обработки таких изображений используются методы компьютерного зрения и глубинные нейронные сети. В докладе будут рассмотрены ключевые проблемы, с которыми приходится бороться при построении алгоритмов автоматической разметки, связанные с особенностями:
- данных (малые размеры выборок, трехмерность, множество различных источников данных и др.)
- формулировок задач (сегментация, локализация/key points, классификация)
- клинических требований (устойчивость к доменным сдвигам, консистентность/интерпретируемость предсказаний и др.)

Ссылка на зум будет доступна через тг чат t.me/sberlogadataclub ближе к началу доклада.
Forwarded from TechSparks
В каждой шутке есть доля не только шутки ;))
Наконец выложили в открытый доступ прекрасный проект «Балабоба»: в нем нейросеть Яндекса из семейства YaLM не просто продолжает заданное вами начала текста — но и окрашивает его в выбранный стиль.
Как всегда с хорошими генеративными текстами — иногда уморительно, иногда тревожно.
«Этот пост не целиком написан нейросетью, хотя: - частично он является правдой.
- я старался подбирать факты, чтобы пост был интересен.
Поэтому я буду благодарен за комментарии и ваши вопросы по теме.
PS: Я не являюсь автором этих слов.»
Играйтесь, друзья, пока игрушка свежа ;))

https://yandex.ru/lab/yalm
Мы с ребятами из EleutherAI зарелизили text-to-image сетку CogView на колаб.

Prompt можно писать на любом языке (он под капотом переводится на китайский все равно)

#Text2Image #Generative
Напишу немного про проклятье размерности. Это термин, которым, в частности, называют странности многомерных пространств, от которых человеческая интуиция начинает давать сбои.

Один популярный пример выглядит так: возьмём квадрат на плоскости и впишем в него круг. Ясно, что круг закроет большую часть площади квадрата. Дальше, возьмём куб и впишем в него шар. Опять же, шар займёт большую часть объёма куба. Но вот в четырёхмерном случае гиперсфера займёт меньше трети объёма гиперкуба, а при дальнейшем повышении размерности отношение их объёмов сходится к нулю. При этом евклидово расстояние от центра n-мерного куба до любого из его 2^n углов растёт как sqrt(n), т.е. неограниченно; а основной объём пространства (т.е., например, основная часть равномерно случайно взятых точек) внутри такого куба оказывается на расстоянии от центра с матожиданием sqrt(n/3) и с убывающей к нулю дисперсией. Короче, n-мерный куб — это очень странное место, с кучей углов и пустым центром.

Другой пример — гипотеза Борсука о возможности разбиения n-мерного тела диаметром 1 на n+1 тел диаметром меньше 1. Она доказана для n<=3 и опровергнута для n>=64. Посредине — томящая неизвестность.

Всё это обычно выглядит как игры разума, не отягощённого бытовыми мелочами, однако бум нейросетей принес нам популярность всяких многомерных эмбеддингов и представлений — слов, текстов или картинок, и там такие пакости случаются регулярно. Недавно, в одной из задач мне пришлось столкнуться с такой штукой:

Возьмём, скажем, 100-мерное пространство и выберем в нём равномерно случайно из единичного гиперкуба 42 точки. Пронумеруем их в некотором случайном, но фиксированном порядке, от 1 до 42. Какова вероятность, что в нашем пространстве найдётся такая ось, в проекции на которую наши точки выстроятся в нужном порядке? Ответ: больше 99%. Кому интересно, можете посмотреть мой скрипт на питоне, которым это эмпирически можно проверить (работает довольно долго, решает системы линейных неравенств, пересекая полупространства для каждой пары точек).
Интересная статья (и код) от Яндекса про DL с табличными данными.

GitHub

#tabular
Интересная статья про метрики. Пару хороших картинок и неплохих оюъяснений. К сожалению есть откровенные лажи (например, рисунок с расстоянием минковского и помещение определения метрики в требования к дистанции минковского). Потому использовать можно, но аккуратно

Medium

#metrics
Хорошая статья.

Ее можно вставить как пример подхода к проблеме, когла можно разделить задачу классификации на предсказание стиля и предсказание собственно класса.

Например для клеточной биологии - предсказываем отдельно тип клетки и "нормальная", "раковая", "разрушенная". Ведь данных размеченных там тоже не так уж и много и учить предсказывать все комбинации напрямую - сложно. Тем более, это может помочь биться с переобучением - когда у нас есть только раковые клетки от одного пациента и не раковые от другого. Разбиением предсказания на две части мы заставляем нейросетку использовать информацию о раковых клетках и просто для опредедения типа, а не только комбинации тип+рак. То есть заучивать пациента чуть менее выгодно.

Второй подход из статьи - про мультимодальность, а именно - использовать сразу несколько типов данных, в случае их сетки - текстовые описания и картинки. Подход интересный, тоже можно рассказать. Например - передавать вместе с фотографией список симптомов/анализы.
К сожалению, для мед данных тут будет нюанс, что без transfer learning мы точно переобучимся на такое - данных мало и инфа о пациенте поможет нейросетке просто заучивать пациентов. А если делать transfer, то не факт, что предобученеые на данных преимущественно другого рода сетки будут хорошо работать.
Еще один минус - даже на словах из статьи видно, что чтобы получить выигрыш от модальности им пришлось очень много "химичить". Не факт, что в рамках небольшего коллектива это возможно

Еще статья хороша для вводных примеров - используется много разного, что позволяет склеивать разные темы

#classification #images