эйай ньюз
49.4K subscribers
1.2K photos
636 videos
7 files
1.52K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
Кажется, что OpenAI работает в дикий минус. Впрочем, это не такая уж и новость. Подумайте, учитывая размер полученных инвестиций (более $10 млрд с начала года), у них не хватает вычислительных ресурсов / денег на GPU, да так, что Альтман твитнул, что они временно приостанавливают рост платящих пользователей.

У меня по этому поводу несколько мыслей:
1️⃣либо деньги от каждого премиму юзера - это копейки, которые не делают погоды в маштабе трат на сервера;
2️⃣ либо Альтман подогревает хайп перед следующим раундом, искуственно создавая нехватку ресурсов и ажиотаж вокруг подписок, чтобы зарейзить побольше. Звучит очень удобно;
3️⃣ новых ГПУ-шек NVIDIA может произвести не так много за короткий срок, а для бодрого инференса GPT-4 их нужно дохера. В итоге имеем то, что имеем - космические цены на свежие GPU (это резонирует с пунктом 1), и одновременно их нехватка для прожорливых AI фирм. А тут еще и главный партнер, Microsoft, не делится гпу - раскатал GPT-3/4 для всех бесплатно, что тоже добавляет к нехватке ресурсов.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Microsoft анонсировал два новых кастомных AI чипа - Maia и Cobalt:

1️⃣Maia - это AI accelerator, разработанный специально для обучения и инференсаLLM, таких как GPT-3/4. Он был спроектирован совместно с OpenAI (к слову о нехватки серверов из предыдущего поста).

2️⃣ Cobalt - это CPU на базе ARM для общих облачных вычислительных, ну, и для того чтобы гонять LLM CPU все равно нужен. Он болеее экономичный по сравнению с традиционными x86 CPU.

3️⃣ Подробностей очень мало, но известно, что оба чипа изготавливаются по 5-нм техпроцессу TSMC [не самый свежий процесс, H100, например, использует 4-нм].

4️⃣ Новые чипы начнут развертывать в датацентрах Azure в 2024 году. Продавать их не планиуют. По той же схема как и с гугловскими TPU - можно будет только арендовать.

5️⃣В Maia примерно на 30% меньше транзисторов (105 млрд), по сравнению с GPU AMD MI300X (153 млрд).

6️⃣ Интересно, что Microsoft использует мощности TSMC, несмотря на дефицит и полную загрузку мощностей фабрик TSMC со стороны других крупных разработчиков чипов, таких как Apple, AMD, Intel и Nvidia. Это только подчеркивает уникальное положение TSMС на рынке чипов и, вероятно, его основное узкое место.

Количество конкуренции у NVIDIA возрастает с каждым месяцем. Все хотят контролировать технологию, начиная от собственных чипов и заканчивая своей собственной нейросетью. What a time to be alive 🤣

П.с. на картинках - живые серверные рэки с чипами Maia.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥EMU VIDEO:
Factorizing Text-to-Video Generation by Explicit Image Conditioning


Сегодня сразу два больших релиза от моих коллег из Meta GenAI! Один из них — опубликовали модель EMU-Video.

Новая модель строится на базе Text-2-image модели Emu, и теперь может генерить 4-секундные видео 512x512 в 16 fps.

Архитектура, грубо:
мы берем pre-trained 2.7B Emu для генерации text-2-image, замораживаем Unet и добавляем в него дополнительные аттеншен слои, которые работают вдоль врменной оси. И тренируем только доп слои, на генерацию видео по тексту.

На вход даём либо картинку + текст, либо только текст (в этом случае картинку генерим с помощью Emu). На выходе — 65 фрейма 512x512.

Если погрузиться в детали, то сначала генерится 16 фреймов, а затем ещё одна модель с такой же архитектурой интерполирует видео до 65 фреймов.

Это теперь SOTA в text-2-video:
✔️ Emu-Video vs Gen-2: победа Emu-Video в 78.5% случаев
✔️Emu-Video vs Pika - победа в 98.5% случаев по оценке кожаных разметчиков.

Сайт проекта
Демо-результаты

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Воторой релиз от Meta GenAI - Emu Edit, про редактирование изображений на стероидах с помощью диффузии.

Моделька тоже основана на базовой модели Emu.

Более детально опишу позже, сейчас нужно заняться экспериментами, чтобы видюхи ночь не прозябали.

Пока просто прикрепляю тизер с результатами редактирования по текстовому промпту.

@ai_newz
Никто:

Сэм Альтман:


@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Ситуация с Альтманом, конечно, интересная. Но я не спал до 6 утра не поэтому. А потому что сегодня утром был дедлайн подачи статей на CVPR 2024.

В этот раз я немного расслабился и не сидел до 9 утра, как в былые времена. Студент хорошо поработал, и команда на этом проекте была довольно большая, поэтому статья была уже на 99% готова заранее, и можно было со спокойной совестью идти отсыпаться.

Вообще работа Research Scientist-а — это такие дедлайны с написанием статей минимум два раза в год.

Кроме экспериментов, мне реально нравится именно процесс написания текста и выкристализовывания самой идеи статьи, оттачивая фразы и слова. Начинаешь с набора малосвязанных предложений и после каждого прохода по тексту видишь, как статья постепенно приобретает форму. А затем читаешь и дивишься, как за несколько дней с пустого листа вырастает такая красота. Главное не забыть вставить картинку на первую страницу — она должна привлекать внимание.

Итого, дедлайн для меня служит поводом поставит финальую точку если не во всём проекте, то хотя в одной из его глав.

Теперь можно опять следить за Альтманом 😅.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Драма в OpenAI продолжается. Собрал для вас корото факты, о чем известно на сегодня:

1️⃣ Три члена совета директоров ушли в отставку еще в начале года, но компания не торопилась искать им замену.

2️⃣ Один из нынешних членов совета, Адам Д’Анджело, запустил собственную AI-платформу Poe, которая конкурирует с продуктами OpenAI.

3️⃣ Еще двое членов совета, Таша МакКоли и Хелен Тонер, также сидят в борде органиазции Center for the Governance of AI, финансируемой благотворительной организацией Open Philanthropy, которая в свою очередь частично финансировала Anthropic. Тут можно усмотреть некий конфликт интересов.

4️⃣ Таким образом, совет директоров OpenAI выглядит довольно странно и хаотично сам по себе. А в пятницу они решили уволить основателя компании Сэма Альтмана.

5️⃣ Главный ресерчер Илья Суцкевер, похоже, пожалел о своем участии в увольнении Сэма Альтмана. Он быстренько переобулся и подписал письмо сотрудников с требованием отставки совета директоров.

6️⃣ Более 700 сотрудников подписали письмо с угрозой уйти в новое подразделение Microsoft под руководством Альтмана, если совет директоров не уйдет в отставку.

7️⃣ Временный CEO Эмметт Шир пообещал разобраться в ситуации, но сотрудники ему, похоже, не доверяют. Эммет сказал, что тоже уйдет из совета директоров, если ему не расскажут за что уволили Альтмана.

Согласно The Information, Шир не был первым кандидатом на пост нового CEO. До него эту должность отклонили основатель Scale AI Александр Ванг и бывший гендиректор GitHub Нат Фридман. Интересно почему?

8️⃣ Совет директоров даже предложил конкуренту OpenAI - компании Anthropic - объединиться и назначить их CEO новым главой OpenAI. Но получил отказ. На что они вообще рассчитывали?

9️⃣ Сэм Альтман все еще в Майкрософт не ушел, а только грозился. Но Microsoft в теории все еще может переманить к себе бОльшую часть команды OpenAI вместе с Альтманом. Судя по всему, сила культа Сэма среди сотрудников довольна большая.

В общем, совет директоров OpenAI полностью потерял доверие. Скоро от компании может остаться только вывеска. Будем следить за развитием событий в этом захватывающем сериале 🍿

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Stable Video Diffusion

Друзья из Stability.AI наконец-то зарелизили image-to-video модель! Работает на базе весов SD v2.1.

Есть две версии
- SDV, генерит 14 фреймов 576x1024
- SDV-XT, которая зафайнтюнена с SDV, чтобы генерить 25 кадров.

Фрейм рейт можно менять во время инференас от 3 fps до 30 fps, то есть можно получить видео длиной от 1 до 8 сек. Достигается это за счет дополнительного кондишенинга на фрейм-рейт, также как в SDXL был добавлен кондишенинг на разрешение выходной картинки.

По представленным бенчмаркам, SDV обходит Gen-2 и Pika.

Количество фреймов, генерируемых за раз, конечно, меньше чем у EMU-Video, но зато полный опен-соурс, и веса тоже уже доступны!

Статья с деталями.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Вот еще примеры генерации Stable Video Diffusion.

В анонсе есть ссылка на вейтлист, если хотите получить доступ к веб-версии модели.

@ai_newz
ChatGPT прилёг полежать. Сайт у меня из Швейцарии недоступен. Судя по всему, многие пользователи тоже не могут до него сейчас достучаться.

Проверил через perplexity.ai — модель GPT-4 все ещё бегает. То есть через API она пока работает.

Эх, как быстро у них все стало рушиться. Я, честно сказать, не ожидал от них такого крутого пике.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Что бы вы думали? Сэма вернули.

Но все ещё не известна конкретная причина всей этой заварушки. Есть только щепотка новой информации из New York Times о том, что посрались из-за какой-то статьи (что опять же выглядит притянуты за уши).

Так же все ещё много неопределенности о дальнейшей судьбе OpenAI и траектории развития. Такими темпами, через пару дней Сэма опять могут снять.

@ai_newz
Там Карпатый опять отжигает. Он выпустил часовую лекцию «Интро в большие языковые модели».

Образовательный контент от Карпатого всегда топовый. Нужно смотреть! #ликбез

Часть 1: LLMs
00:00:00 Intro: Large Language Model (LLM) talk
00:00:20 LLM Inference
00:04:17 LLM Training
00:08:58 LLM dreams
00:11:22 How do they work?
00:14:14 Finetuning into an Assistant
00:17:52 Summary so far
00:21:05 Appendix: Comparisons, Labeling docs, RLHF, Synthetic data, Leaderboard

Часть 2: Future of LLMs
00:25:43 LLM Scaling Laws
00:27:43 Tool Use (Browser, Calculator, Interpreter, DALL-E)
00:33:32 Multimodality (Vision, Audio)
00:35:00 Thinking, System 1/2
00:38:02 Self-improvement, LLM AlphaGo
00:40:45 LLM Customization, GPTs store
00:42:15 LLM OS

Часть 3: LLM Security
00:45:43 LLM Security Intro
00:46:14 Jailbreaks
00:51:30 Prompt Injection
00:56:23 Data poisoning
00:58:37 LLM Security conclusions

Слайды

@ai_newz
🔥Intel зарелизил самую мощную 7B LLM

Модели на сотни миллиардов параметров - это, конечно, хорошо. Но прикольно и на ноутбуке погонять небольшие модели.

Intel в последнее время сдал позиции, и многие их считают андердогом. Так вот теперь Intel включился в большую игру! Они затюнили Mistral 7B (писал о ней тут) и получили СОТУ среди моделей на 7 млрд параметров. И выложили все это добро под лицензией Apache 2.

Для дообучения использовали:
- Supervised Finetuning на SlimOrca, эо примерно 500k ответов, сгенеренных GPT-4;
- DPO (Direct Preference Optimization) тюн на датасете пар, сгенерированных LLaMA-13B vs ChatGPT Gens. Обучали модель препочитать ответы ChatGPT ответам Лламы.

Модель
Код
SlimOrca Dataset
DPO Dataset

@ai_newz
Я интересуюсь стартапами, особенно в сфере AI, и люблю читать блоги людей, которые знают, как эти стратапы строить. Поэтому, в рамках дружеского пиара, хочу порекомендовать вам канал Кирилла Куликова @kyrillic. Он пишет на темы связанные с предпринимательством, особенно о том, как делать международные стартапы русскоязычным фаундерам.

Кирилл - стартапер и кофаундер Beau, который занимается автоматизацией бизнес-процессов. Его стартап прошел через Y Combinator, который по сути является самым маститым акселератором в Долине, через который прошли такие проекты как Airbnb, Coinbase, Dropbox, GitLab, Reddit. Вот тут статья про их драматическое прохождение в летний батч YC 2021.

Кирилл активно делится своими мыслями на разные темы:

‣ Что там интересного у стартапов. Например, на канале периодически выходят глубокие разборы демо-дней Y Combinator. Что сейчас питчат топовым инвесторам, кто забирает инвестиции, какие бизнес-модели и концепции сейчас в тренде, а какие уже не особо.

‣ Кирилл периодически подкидывает идеи для стартапов, например, тут и тут про идеи на базе LLM/GPT и тут про идеи AI-стартапов в целом.

‣ Мета-навыки цифровых кочевников: как выбрать город, что с собой взять, как получить стартап-визу, как настроить быт и так далее. Кирилл объездил полмира и более 12 лет живет в разных городах и странах, работая удаленно.

Мне особенно понравились посты про закрытые сообщества, славянский хмур (особенности софт скиллов у выходцев из эксСССР) и инсайты про ведение тг-канала.

Короче, подписывайтесь. Такого годного контента на тему стартапов в телеге мало: @kyrillic.

@ai_newz
Шестипалого человека на камерах наблюдения могут часто принимать за Дипфейк, сгенерированный диффузионкой. Вот вам съемный шестой палец. Надел его и стал галлюцинацией для камер 😂

Представьте теперь, на суде сторона обвинения показывает видео с места преступления. Адвокат в этом случае легко может сказать, что это фальшыука и быть таков.

Конечно, первым делом будут распознавать по лицу, если оно видно.

По крайней мере криминальный мир идёт в ногу со временем.

@ai_newz
🔥Adversarial Diffusion Distillation или SDXL-Turbo

Мои кореша из Stability AI зарелизили новый метод дистилляции для SDXL.

Показывают, что из дистиллированной SD-XL (ADD-XL) теперь можно семплить за 4 шага без существенной потери в качестве.

Судя по метрикам - это новая сота. Может работать и за один шаг семплера, но тогда генерирует меньше деталей и картинка выходит чуть более замыленная.

Как это работает?
Это гибрид GAN-а и диффузии.
Тренировка основана на классическом методе дистилляции, но с дискриминатором! Когда число шагов снижается до одного, дискриминатор сильно добрасывает, ведь он не позволяет генерить полную кашу (это было уже показано в нескольких статьях в этом году).

1. Студент и учитель инициализируется весами SD-XL. Далее между предиктами студента и учителя накладывается L2 лосс. Любопытно, что учитель делает только 1 шаг, но начинает с зашумленного предикта студента, а не из случайного шума.

2. В качестве дискриминатора берутся фичи из ViT-S, натренированного в self-supervised режиме с помощью DINOv2. Затем эти фичи подают в тренируемую голову, которая выдает "Real" или "Fake". Тут важно именно брать сильный претренированный энкодер фичей, типа DINOv2.

Картиночки выглядят хорошо, но ниже 4х шагов - уже не то пальто.

Тренировочный код не выложили, и, кажется, его ждать не стоит.

Статья
Код и веса
Демо на ClipDrop (1 шаг)

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Солверы для диффузии почти не параллелятся, поэтому так трудно ускорить семплинг той же Stable Diffusion, даже если есть много видеокарт. Выигрыша от восьми видеокарт против одной не будет, разве что батч побольше сможете взять.

Но есть хитрые методы для решения ODE, вроде итеративного метода Пикарда, который позволяет распараллелить семплинг, ценой больших вычислений. То есть вместо условных 100 шагов DDIM придется сделать 229, но с возможностью делать часть из них параллельно. Однако даже в этом случае скейлинг получается очень сублинейный. С 4-x видеокарт ускорение будет максимум в 2 раза по сравнению с одной, а 8 видеокарт ускорят семлинг SD только примерно в 3 раза (см. график).

Сейчас активно ресерчим эту тему по параллелизации и ускорению диффузии.

@ai_newz