AI Для Всех
12.8K subscribers
1.18K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Мы выложили 5ую лекцию из курса «Нейронные сети и их применение в научных исследованиях».

В лекции поговорили про Рекуррентные сети (RNN). Разобрали, что такое последовательности; как с ними работать; и почему для работы с ними применяются именно RNN. В третей части лекции, как обычно, крутые научные примеры!

🎥 Лекция 5. Рекуррентные сети
Обновился блокнот DiscoDiffusion по генерации чумовых картинок и видео.

- Turbo Mode from @zippy731
- Smoother video init
- 3D rotation params are now in degrees rather than radians
- diffusion_sampling_mode allows selection of DDIM vs PLMS

Играть тут

#text2image
DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation

За последний год, методы инверсии GAN в сочетании с CLIP позволили редактировать фотографии на совершенно новом уровне. Однако их применение в продакшене все еще затруднено из-за ограниченных возможностей инверсии GAN. Вместо GAN можно использовать DiffusionCLIP, который выполняет редактирование изображений с помощью текста с использованием диффузионных моделей и делает это лучше.

🖥 Colab
📎 Статья
🐙 Git

#diffusion #text2image
🤗 Optimum Transformers — комбинация восхитительных пайплайнов и ONNX, или как экономить от 20к$ в год на NLP

🦾 NLP в 3 строчки кода и ультра быстро как Infinity
🚀 До 1 миллисекунды с трансформерами на основе Bert

📒Статья на Хабре
🐙Репозиторий

От подписчика @goodimpression
6ая лекции из курса «Нейронные сети и их применение в научных исследованиях».

В лекции поговорили про Трансформеры. Как работают? Почему такие популярные? Разобрали как можно использовать трансформеры с текстами, картинками и звуками. В третей части лекции, как обычно, крутые научные примеры!

🎥 Лекция 6. Трансформеры
Долгое время, проблемой генерации картинок был текст. Оказалось, что если использовать ещё больше данных (ну и парочку доп трюков), то все с ним становиться хорошо.

Обновлённый блокнот LAION-400M умеет выдавать до 8 картинок за 20 секунд на бесплатной версии Colab.

🦄 Творить

Присылайте ваши шедевры в комменты (лучшие работы вставлю в 8ую лекцию курса про генеративные сети)

#text2image
Forwarded from DL in NLP (Vlad Lialin)
OpenAI выпустил DALL-E 2
openai.com/dall-e-2
vimeo.com/692375454

Основная идея: использовать эмбеддинги CLIP для генерации вектора текста, обсуславливаться на этот эмбеддинг при генерации изображения. Для генерации используют не VAE а диффузию (GLIDE).
Судя по промо-материалам, модель будет доступна по API.
Media is too big
VIEW IN TELEGRAM
🥑😈 DALL•E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents

2021 год показал, что contrastive модели, такие как CLIP, выучивают качественное пространство визуальных и текстовых репрезентаций.

Ресерчеры из OpenAI решили использовать эти репрезентации для генерации изображений! Встречайте двухэтапную модель DALL•E 2, которая которая скрещивает диффузионный декодер и диффузионную визуальную модель DALL-E (ребята, кстати, показали, что диффузия таки более вычислительно выгодная и качественная нежели авторегрессия) и контрастный CLIP!

🧪 Если проще, то это очень изящный вариант, чтобы скрестить CLIP и DALL•E, где можно пользоваться векторам (эммбедингами) CLIP’a, и создавать новые изображения на основании и изображений примеров (доноров) и текстовых описаний. Такой подход позволяет не только генерировать превосходные изображения, но и изменять существующие!

📰 paper 🎓 OpenAI Blog
Заметил, что в фильме The Bubble используют DeepFake лица (в сцене где главные герои упарываются, примерно 90ая минута). Фильм так себе, но прикольно что наши нердовые игрушки проникают в мэйнстримное кино.
Modern applications of machine learning in quantum sciences

В обзоре даётся исчерпывающее представление о последних достижениях в применении методов машинного обучения к квантовым наукам (если так можно выразиться). Авторы рассказывают об использовании глубокого обучения и методов supervised, self-supervised и reinforcement learning для классификации фаз, представления квантовых состояний многих тел, управления квантовой обратной связью и оптимизации квантовых схем.

Кроме того, авторы вводят и обсуждают более специализированные темы, такие как дифференцируемое программирование, генеративные модели, статистический подход к машинному обучению и квантовое машинное обучение.

📕Обзор

#ScientificML #physics
Learning inverse folding from millions of predicted structures

В Фэйсбук тоже решили увлечься биологией. Они рассматривают проблему предсказания последовательности белка по координатам его атомов (по его форме).

Для решения этой задачи выпустили модель обратного сворачивания белка (inverse protein folding).

Модель обучена на 12 миллионах белковых структур, предсказанных AlphaFold2.

🎮 Colab
🐙 Git
📎 Статья

#ScientificML #biology
Вышла моя лекция про GPT.

В самом начале поговорили про AlphaFold, а потом в самых общих словах посмотрели, как работает GPT. Но больший упор мне все таки хотелось сделать на «широту контекста» применений (в том числе и в науке).

🎥 Лекция 7. GPT
Офигенный видос, про то, как датасаентисту одна дама отказала в свидании, потому что она “Not into geeks”.
Предупреждаю, застревает в голове: «Oh, I love it when you call me Big Data
Hag Pessah Sameah!
Совсем не в тему канала, но, ставьте лайк если вчера тоже были на Nazlo Mame 🖤
Ребятаушки, я только переехал в новую страну и пока осваиваюсь. Но думаю что на днях вкачусь в режим уже и буду снова постить качественный контент. Не скучайте :)
HuggingFace запустили свой курс по RL! Судя по скриншотам - это бомба 💣

Курс бесплатный, регистрируют тут
Блез Агуэра-и-Аркас, руководитель группы Google AI в Сиэттле, ставит вопрос ребром: Do large language models understand us? Вопрос лишь на первый взгляд кажется абсурдным, с однозначным ответом, но по ходу чтения его эссе начинаешь все больше задумываться.

Большие языковые модели воплощают идею философского зомби: они работают на статистике и разговаривают [якобы] без понимания. Но этот вопрос не разрешим в каком-либо строгом смысле — Блез показывает, что LLM постоянно моделируют собеседника, ведя нечто вроде внутреннего диалога, генерируя разные ответы и выбирая лучший.

То есть у модели возникает подобие того, что психологи называют «теорией разума», и не ясно, как отличить «настоящее» понимание от «фальшивого».

Рассуждения Блеза заходят на фоне недавних прорывов в машинном обучении, явленных нам в виде DALL-E 2 от OpenAI, создающей картинки по текстовому описанию, и PaLM от Google, умеющей схватывать смысл и контекст беседы.

И на контрасте с недавним эссе Гари Маркуса, CEO компании Robust.AI, Deep Learning Is Hitting a Wall, где он громит любые прорывы, настаивая, что DL не имеет ни малейшего отношения к интеллекту и пониманию. Ян Лекун и другие усмехаются в ответ, приводят Маркусу впечатляющие примеры из DALL-E 2 и PaLM, а тот огрызается в твиттере, называя их сherry picking, и конца у этого сюжета нет.

При всей давней симпатии к Маркусу должен признать, его текст уступает по глубине тексту Агуэра-и-Аркаса.

И немного о трендах. PaLM вмещает 540 млрд параметров, что в три раза больше знаменитой GPT-3, за счет чего результаты в обработке языка резко улучшились. В Китае, используя экзафлопсный суперкомпьютер, создают систему BaGuaLu для обучения модели с 14,5 трлн параметров. Как пишут разработчики, BaGuaLu потенциально «имеет возможность обучать модели с 174 трлн параметров, что превосходит количество синапсов в человеческом мозге».