эйай ньюз
60.2K subscribers
1.42K photos
735 videos
7 files
1.74K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
OpenAI DevDay - ждем новых анонсов по моделям и API

Через 16 минут OpenAI будет проводить свою первую конференцию для девелоперов. Ходит много слухов о том, что будут представлять. Возможно появится GPT4-TURBO - более быстрая и дешевая версия GPT4. А так же ожидается куча новостей по поводу плагинов, интеграции ChatGPT с разными приложениями и маркетплейс чатботов на базе ChatGPT.

Некоторые даже сравнивают эту конфу с тем моментом, когда Джобс анонсировал первый Iphone. Я, честно, не верю, что это будет что-то настолько же большое, но посмотреть интересно.

Смотрим стрим на YouTube

@ai_newz
Я знаю, у вас мало времени, поэтому TLDR по OpenAI DevDay:

1️⃣ Релизнули ChatGPT-4-Turbo - ускоренную и более дешевую версию.
• Расширили контекст до 128к токенов (это ~300 страниц текста)
• Увеличили лимиты генерации токенов/сек.
• Каждый токен в промпте стал в 3x раза дешевле, а сгенерированные токены - в 2x раза дешевле по сравнению с ChatGPT-4
• База знаний ChatGPT-4-Turbo рсширилась до апреля 2023 (у ChatGPT-4 было до сентября 2021).
• Очень интересно уведеть бенчмарки, насколько пожертвовали качеством генерации у Turbo версии ради ускорения.

2️⃣ Запустили Assistants API - набор no-code инструментов для создания кастомных ботов-ассистентов на основе ChatGPT.
• Ассистенты могут писать и выполнять код, принимать на вход документы и PDF. Возможность грузить картинки добавят позже.
• Это убило много стартапов, которые строили свои продукты вокруг промптинга и предоставления доступа к кастомным агентам.

3️⃣Новые модальности (Vision & Audio):
Dalle-3 теперь доступна через API.
Релизнули модель для синтеза речи (TTS). Доступна через API.
Релиз Whisper-3 - более мощный speech-2-text. Уже в опен-соурсе на GitHub. А также через API.
• ChatGPT теперь может принимать картинки через API.

4️⃣ Анонсировали "GPTs" - возможность создания кастомных версий ChagGPT для разных целей и маркетплейс для них.
• Девелоперы могут продавать свои кастомизированные GPT на централизированном маркетплейсе и получать процентик от ревенью. Типа App Store для ботов.

5️⃣ Copyright Shield - защита от нарушения автораских прав для пользователей Enterprise плана и API. То есть если на пользователя подали в суд за нарешение авторских прав в результате генерации моделями OpenAI, то OpenAI впрягается за пользователя и оплавчивает все судебные издержки.

Видео-выжимка выступлений с основными моментами: тык (19 минут).

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Consistency Decoder

Среди недавних релизов OpenAI больше всего в мое сердечко запал их новый декодер для LDM - Consistency Decoder.

Напомню, что Stable Diffusion генерирует изображения в Latent пространстве, которое затем декодируется VQ-VAE декодером (на картинке выше, кажется, его назвали GAN Decoder). Такой декодер довольно легковесен, но он не может точно восстанавливать мелки детали типа лиц людей на заднем плане. Поэтому парни из OpenAI решили натренировать еще одну диффузию вместо VAE декодера.

Но диффузия работает медленно и требует много шагов во время инференса... Тут на помощь пришла дистилляция из диффузии в Consistency Model, которая может неплохо работать за 1-2 шага, если руки не кривые.

В статье про Dalle-3 было вскользь упомянуто, что в новой архитектуре для перевода скрытого кода в RGB они как раз используют такой Consistency Decoder, который работает за 2 шага.

Consistency Decoder - это тоже Unet, и довольно большой, 620 M параметров (для сравнения SD 1.5 ~900M параметров). Но это все равно допустимая жертва ради улучшенного качества восстановления лиц, мелких деталей и регулярных линий.

Жаль, только, что кода тренировки нет, и остается только заниматься реверс-инженирингом и экспериментировать, чтобы понять как они натренировали этот декодер. Выложили только инференс и веса декодера, который совместим с базовым Stable Diffusion 1.x - 2x и может использоваться как drop-in replacement вместо стандартного декодера.

➡️ Код и веса

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
No comments

@ai_newz
Снял это видео недалеко от офиса чуть больше месяца назад.

Оказывается, у нас по соседству завелся стартап, который разрабатывает этого прикольного двухколесного робота-охранника. При мне парни управляли им с джойстика, но есть у него и автономный режим - где он патрулирует по заданному маршруту, смотрит все ли в порядке, стримит и одновременно анализирует видео.

Он как робот-пылесос, только умеет ходить по любой поверхности (за счет RL обучения), и радиус действия не ограничивается вашей квартирой. На него можно навешать и тепловизоры, и камеры ночного видения, и вообще что-угодно, кроме огнестрельного оружия, разумеется. Ну, вы поняли.

Двухколесная база именно для городских условий, конечно, гораздо более проста, устойчива и мобильна, чем робот на четырех лапах, как например пёсик Спот от Boston Dynamics.

@ai_newz
Амазончик начал тренировать гигантскую LLM на 2 триллиона параметров под кодовым названием "Olympus", чтобы конкурировать с OpenAI. Такой размер — это по слухам больше чем GPT-4. Очевидно, что не хотят сидеть на апихах.

Планируют потом пустить эту модель в Алексу и юзать как конкурентное преимущество у себя на AWS. Это очень даже логично.

Плюс, у Амазона сейчас рекламная выручка на хорошем подъеме — найдут как применять модель и там.

Ну что, успехов им. Теперь будем квоту на гпу на AWS для пет-проектов месяцами ждать — все пойдет на обучение монстра.

@ai_newz
Опять настало то время года, когда я ищу интернов в нашу Generative AI команду в Цюрихском офисе Meta.

Что нужно будет делать: работать над next-gen диффузионками для картинок и видео. Вот тут примеры того, что мы недавно зарелизили в прод: модель Emu, Generative Stickers, на подходе редактирование фото в IG).

Если у вас есть 2-3 публикации уровня CVPR/ICLR/NeurIPS, и вы сейчас учитесь в аспирантуре, то срочно пишите мне в личку или на мыло.

Стажировка проходит 6 месяцев физически в Цюрихе, начиная с весны либо лета 2024. Платить будут > 10к CHF в месяц и бонусом предоставляют апартаменты на все время стажировки.

От вас ожидается всего одна вещь — суметь написать и засабмитить статейку на CVPR 2025 🐶.

По всем вопросам пишите в комментариях.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Тут каталонский стартапчик показывает демку, на которой они гоняют SDXL в риал-тайме на GPU.

Ну как SDXL, у них тут таренирована LoRA модель с помощью метода Latent Consistency дистилляции. Модель после этого бегает за 1-2 шага, но не без потери в качестве.

Как инструмент для интерактивного создания наброска — просто отлично. А затем можно уже поверх прогнать и полную модель для добавления деталей и реализма.

@ai_newz
Кажется, что OpenAI работает в дикий минус. Впрочем, это не такая уж и новость. Подумайте, учитывая размер полученных инвестиций (более $10 млрд с начала года), у них не хватает вычислительных ресурсов / денег на GPU, да так, что Альтман твитнул, что они временно приостанавливают рост платящих пользователей.

У меня по этому поводу несколько мыслей:
1️⃣либо деньги от каждого премиму юзера - это копейки, которые не делают погоды в маштабе трат на сервера;
2️⃣ либо Альтман подогревает хайп перед следующим раундом, искуственно создавая нехватку ресурсов и ажиотаж вокруг подписок, чтобы зарейзить побольше. Звучит очень удобно;
3️⃣ новых ГПУ-шек NVIDIA может произвести не так много за короткий срок, а для бодрого инференса GPT-4 их нужно дохера. В итоге имеем то, что имеем - космические цены на свежие GPU (это резонирует с пунктом 1), и одновременно их нехватка для прожорливых AI фирм. А тут еще и главный партнер, Microsoft, не делится гпу - раскатал GPT-3/4 для всех бесплатно, что тоже добавляет к нехватке ресурсов.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Microsoft анонсировал два новых кастомных AI чипа - Maia и Cobalt:

1️⃣Maia - это AI accelerator, разработанный специально для обучения и инференсаLLM, таких как GPT-3/4. Он был спроектирован совместно с OpenAI (к слову о нехватки серверов из предыдущего поста).

2️⃣ Cobalt - это CPU на базе ARM для общих облачных вычислительных, ну, и для того чтобы гонять LLM CPU все равно нужен. Он болеее экономичный по сравнению с традиционными x86 CPU.

3️⃣ Подробностей очень мало, но известно, что оба чипа изготавливаются по 5-нм техпроцессу TSMC [не самый свежий процесс, H100, например, использует 4-нм].

4️⃣ Новые чипы начнут развертывать в датацентрах Azure в 2024 году. Продавать их не планиуют. По той же схема как и с гугловскими TPU - можно будет только арендовать.

5️⃣В Maia примерно на 30% меньше транзисторов (105 млрд), по сравнению с GPU AMD MI300X (153 млрд).

6️⃣ Интересно, что Microsoft использует мощности TSMC, несмотря на дефицит и полную загрузку мощностей фабрик TSMC со стороны других крупных разработчиков чипов, таких как Apple, AMD, Intel и Nvidia. Это только подчеркивает уникальное положение TSMС на рынке чипов и, вероятно, его основное узкое место.

Количество конкуренции у NVIDIA возрастает с каждым месяцем. Все хотят контролировать технологию, начиная от собственных чипов и заканчивая своей собственной нейросетью. What a time to be alive 🤣

П.с. на картинках - живые серверные рэки с чипами Maia.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥EMU VIDEO:
Factorizing Text-to-Video Generation by Explicit Image Conditioning


Сегодня сразу два больших релиза от моих коллег из Meta GenAI! Один из них — опубликовали модель EMU-Video.

Новая модель строится на базе Text-2-image модели Emu, и теперь может генерить 4-секундные видео 512x512 в 16 fps.

Архитектура, грубо:
мы берем pre-trained 2.7B Emu для генерации text-2-image, замораживаем Unet и добавляем в него дополнительные аттеншен слои, которые работают вдоль врменной оси. И тренируем только доп слои, на генерацию видео по тексту.

На вход даём либо картинку + текст, либо только текст (в этом случае картинку генерим с помощью Emu). На выходе — 65 фрейма 512x512.

Если погрузиться в детали, то сначала генерится 16 фреймов, а затем ещё одна модель с такой же архитектурой интерполирует видео до 65 фреймов.

Это теперь SOTA в text-2-video:
✔️ Emu-Video vs Gen-2: победа Emu-Video в 78.5% случаев
✔️Emu-Video vs Pika - победа в 98.5% случаев по оценке кожаных разметчиков.

Сайт проекта
Демо-результаты

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Воторой релиз от Meta GenAI - Emu Edit, про редактирование изображений на стероидах с помощью диффузии.

Моделька тоже основана на базовой модели Emu.

Более детально опишу позже, сейчас нужно заняться экспериментами, чтобы видюхи ночь не прозябали.

Пока просто прикрепляю тизер с результатами редактирования по текстовому промпту.

@ai_newz
Никто:

Сэм Альтман:


@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Ситуация с Альтманом, конечно, интересная. Но я не спал до 6 утра не поэтому. А потому что сегодня утром был дедлайн подачи статей на CVPR 2024.

В этот раз я немного расслабился и не сидел до 9 утра, как в былые времена. Студент хорошо поработал, и команда на этом проекте была довольно большая, поэтому статья была уже на 99% готова заранее, и можно было со спокойной совестью идти отсыпаться.

Вообще работа Research Scientist-а — это такие дедлайны с написанием статей минимум два раза в год.

Кроме экспериментов, мне реально нравится именно процесс написания текста и выкристализовывания самой идеи статьи, оттачивая фразы и слова. Начинаешь с набора малосвязанных предложений и после каждого прохода по тексту видишь, как статья постепенно приобретает форму. А затем читаешь и дивишься, как за несколько дней с пустого листа вырастает такая красота. Главное не забыть вставить картинку на первую страницу — она должна привлекать внимание.

Итого, дедлайн для меня служит поводом поставит финальую точку если не во всём проекте, то хотя в одной из его глав.

Теперь можно опять следить за Альтманом 😅.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Драма в OpenAI продолжается. Собрал для вас корото факты, о чем известно на сегодня:

1️⃣ Три члена совета директоров ушли в отставку еще в начале года, но компания не торопилась искать им замену.

2️⃣ Один из нынешних членов совета, Адам Д’Анджело, запустил собственную AI-платформу Poe, которая конкурирует с продуктами OpenAI.

3️⃣ Еще двое членов совета, Таша МакКоли и Хелен Тонер, также сидят в борде органиазции Center for the Governance of AI, финансируемой благотворительной организацией Open Philanthropy, которая в свою очередь частично финансировала Anthropic. Тут можно усмотреть некий конфликт интересов.

4️⃣ Таким образом, совет директоров OpenAI выглядит довольно странно и хаотично сам по себе. А в пятницу они решили уволить основателя компании Сэма Альтмана.

5️⃣ Главный ресерчер Илья Суцкевер, похоже, пожалел о своем участии в увольнении Сэма Альтмана. Он быстренько переобулся и подписал письмо сотрудников с требованием отставки совета директоров.

6️⃣ Более 700 сотрудников подписали письмо с угрозой уйти в новое подразделение Microsoft под руководством Альтмана, если совет директоров не уйдет в отставку.

7️⃣ Временный CEO Эмметт Шир пообещал разобраться в ситуации, но сотрудники ему, похоже, не доверяют. Эммет сказал, что тоже уйдет из совета директоров, если ему не расскажут за что уволили Альтмана.

Согласно The Information, Шир не был первым кандидатом на пост нового CEO. До него эту должность отклонили основатель Scale AI Александр Ванг и бывший гендиректор GitHub Нат Фридман. Интересно почему?

8️⃣ Совет директоров даже предложил конкуренту OpenAI - компании Anthropic - объединиться и назначить их CEO новым главой OpenAI. Но получил отказ. На что они вообще рассчитывали?

9️⃣ Сэм Альтман все еще в Майкрософт не ушел, а только грозился. Но Microsoft в теории все еще может переманить к себе бОльшую часть команды OpenAI вместе с Альтманом. Судя по всему, сила культа Сэма среди сотрудников довольна большая.

В общем, совет директоров OpenAI полностью потерял доверие. Скоро от компании может остаться только вывеска. Будем следить за развитием событий в этом захватывающем сериале 🍿

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Stable Video Diffusion

Друзья из Stability.AI наконец-то зарелизили image-to-video модель! Работает на базе весов SD v2.1.

Есть две версии
- SDV, генерит 14 фреймов 576x1024
- SDV-XT, которая зафайнтюнена с SDV, чтобы генерить 25 кадров.

Фрейм рейт можно менять во время инференас от 3 fps до 30 fps, то есть можно получить видео длиной от 1 до 8 сек. Достигается это за счет дополнительного кондишенинга на фрейм-рейт, также как в SDXL был добавлен кондишенинг на разрешение выходной картинки.

По представленным бенчмаркам, SDV обходит Gen-2 и Pika.

Количество фреймов, генерируемых за раз, конечно, меньше чем у EMU-Video, но зато полный опен-соурс, и веса тоже уже доступны!

Статья с деталями.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM