эйай ньюз
60.2K subscribers
1.42K photos
735 videos
7 files
1.74K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
Наконец-то мы переходим к человеческим гуманоидам!

Наткнулся на стартап figure.ai, главный фокус кототорого — это создание многофункционального робота, похожего на железного дровосека человека.

Компании чуть больше года от основания и она уже достигла приличного прогресса (пока без заднего сальто, правда).
А летом стартап поднял $70 млн в Series A раунде.

@ai_newz
Запомните лица этих приятных джентльменов. Это три самые влиятельные фигуры в мире Deep Learning-а.

Как много бы отдал один господин в кепке, чтобы стоять рядом с ними...

Если вы внимательно читаете мои посты, то могли уже понять, что мой друг Ян ЛеКун — один из самых знаменитых людей, кто противостоит AI-алармистам. Например, Бенжио и Хинтон принимают хоть и беспокойную, но не радикальную позицию по поводу угрозы AI для человечества.

Здорово, что разные точки зрения не мешают трем отцам Дип Лернинга адекватно общаться и дискутировать, ведь в споре рождается истина.

@ai_newz
На этой неделе не так много постил, все из-за моей подработки в Мете. Поэтому держите мем вместо вдумчивого поста.

Вы же понимаете, что мое основное занятие — это постить в канальчик (лол).

У меня был очень интенсивный режим из-за дедлайнов по нескольким проектам, и приближается CVPR. Нейронки сами себя в продакшн пока не запиливают (жду с нетерпением), да и CVPR статьи сами тоже не пишутся. Так, что приходится пока этим заниматься самому 🌚.

@ai_newz
Ещё раз про ликбез вокруг ChatGPT

Если вам понравилась лекция Карпатого про тренировку ChatGPT (я писал о ней тут), то советую также глянуть на русском языке лекцию Игоря Котенкова "RLHF Intro: from Zero to Aligned Intelligent Systems" в рамках DataFest 2023, которая покрывает историю развития LLMок и даёт пищу для размышлений.

Игорь ведёт канал @seeallochnaya, а также его можно знать по популярным постам на хабре, например, как работает ChatGPT "на пальцах" для нетехнарей - вот ссылка. Пост, кстати, вошел в топ-10 самых залайканых на Хабре в этом году!

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Distill-Whisper от 🤗в x6 раз быстрее оригинала!

Моделька Whisper от OpenAI для транскрипции аудио в текст (я писал о ней тут и тут) бодро разлетелась по множеству проектов. Вот только самая крупная ее версия, Large-v2, имеет 1.5 млрд параметров и не является самой быстрой.

Но для деплоя в прод очень хочется иместь что-то такое же точное как Whisper-Large-v2, но быстрое.

Парни из Hugging Face взяли и дистиллировали эту модель, добившись ускорения инференса в 6 раз, с потерей в точности только на 1% WER.

#ликбез:
Если на пальцах, дистилляция - это процесс перегонки знаний из большой модели в более маленькую, чтобы ускорить инференс, но сохранить точность. Работает это потому, что большие модели легче обучить до нужной точности, но как правило количество нейронов в таких моделях избыточно и может быть сокращено после того как тренировка завершена (например, в с помощью дистиляции или прунинга).

Энкодер оставили как есть и заморозили, а в декодере оставили только 2 слоя, так как большинсво операций происходит именно в декодере. Далее эту прелесть дистиллировали на 20к часах опенсорсных аудио-записей.

Веса опубликуют через пару дней под MIT лицензией!

❱❱ Код
❱❱ Статья

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Не зря же мы тут собрались. Вот как раз и в Collins Dictionary объявили "AI" словом 2023 года.

На хайпике, хайпуем, ребята! Эйай - это новый социальный лифт. Это больше не айти, как было в педыдущие 15 лет, и не закладки, теперь все хотят заниматься эйай.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
STAR: Smartphone-analogous Typing in Augmented Reality

Исследования альтернативных методов ввода - это одно из важнейших направлений Human-Machine Interaction. Вот тут интерн из Меты придумал новый метод набора текста в AR очках и собрал демку.

Ты просто формируешь "позу согнутых кистей" рук, как будто бы держишь смартфон, а через AR-очки на твоих руках появляется мини-клавиатура QWERTY! Печатаешь обоими большими пальцами, а тактильный отклик во время набора текста достигается за счет прикосновениями к собственной коже. И если решаешь переключиться на что-то ещё, просто меняешь позу кистей, и клавиатура исчезает.

Во время тестов, выяснили что скорость набора такми методом - 22 слова/мин, что всего в 2 раза медленнее чем на реальном смартфоне.

Норм тема на будущее, когда AR-очки пойдут в массы. Особенно если ты в где-то в автобусе и не хочешь кричать на публику "СИРЕ! НАПЕШИ ВОЛОДЬКЕ, ЧТО Я ОПАЗДЫВАЮ!".

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
А если виртуальная клавиатура из предыдущего поста вам не нравится, можно подсоединить и настоящую.

Кстати, довольно классное применение AR — чел работает в своем электрокаре, пока он стоит на зарядке. Не будешь же три монитора с собой таскать.

Искушённые пользователи скажут, что тут основной затык в разрешении виртуального экрана. Там все ещё не ретина, конечно, но 2064 x 2208 на каждый глаз в Quest 3 — это уже внушительно. Да, и прогресс не стоит на месте.

Хочу наконец сам попробовать так поработать, протестировать сетап.

@ai_newz
OpenAI DevDay - ждем новых анонсов по моделям и API

Через 16 минут OpenAI будет проводить свою первую конференцию для девелоперов. Ходит много слухов о том, что будут представлять. Возможно появится GPT4-TURBO - более быстрая и дешевая версия GPT4. А так же ожидается куча новостей по поводу плагинов, интеграции ChatGPT с разными приложениями и маркетплейс чатботов на базе ChatGPT.

Некоторые даже сравнивают эту конфу с тем моментом, когда Джобс анонсировал первый Iphone. Я, честно, не верю, что это будет что-то настолько же большое, но посмотреть интересно.

Смотрим стрим на YouTube

@ai_newz
Я знаю, у вас мало времени, поэтому TLDR по OpenAI DevDay:

1️⃣ Релизнули ChatGPT-4-Turbo - ускоренную и более дешевую версию.
• Расширили контекст до 128к токенов (это ~300 страниц текста)
• Увеличили лимиты генерации токенов/сек.
• Каждый токен в промпте стал в 3x раза дешевле, а сгенерированные токены - в 2x раза дешевле по сравнению с ChatGPT-4
• База знаний ChatGPT-4-Turbo рсширилась до апреля 2023 (у ChatGPT-4 было до сентября 2021).
• Очень интересно уведеть бенчмарки, насколько пожертвовали качеством генерации у Turbo версии ради ускорения.

2️⃣ Запустили Assistants API - набор no-code инструментов для создания кастомных ботов-ассистентов на основе ChatGPT.
• Ассистенты могут писать и выполнять код, принимать на вход документы и PDF. Возможность грузить картинки добавят позже.
• Это убило много стартапов, которые строили свои продукты вокруг промптинга и предоставления доступа к кастомным агентам.

3️⃣Новые модальности (Vision & Audio):
Dalle-3 теперь доступна через API.
Релизнули модель для синтеза речи (TTS). Доступна через API.
Релиз Whisper-3 - более мощный speech-2-text. Уже в опен-соурсе на GitHub. А также через API.
• ChatGPT теперь может принимать картинки через API.

4️⃣ Анонсировали "GPTs" - возможность создания кастомных версий ChagGPT для разных целей и маркетплейс для них.
• Девелоперы могут продавать свои кастомизированные GPT на централизированном маркетплейсе и получать процентик от ревенью. Типа App Store для ботов.

5️⃣ Copyright Shield - защита от нарушения автораских прав для пользователей Enterprise плана и API. То есть если на пользователя подали в суд за нарешение авторских прав в результате генерации моделями OpenAI, то OpenAI впрягается за пользователя и оплавчивает все судебные издержки.

Видео-выжимка выступлений с основными моментами: тык (19 минут).

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Consistency Decoder

Среди недавних релизов OpenAI больше всего в мое сердечко запал их новый декодер для LDM - Consistency Decoder.

Напомню, что Stable Diffusion генерирует изображения в Latent пространстве, которое затем декодируется VQ-VAE декодером (на картинке выше, кажется, его назвали GAN Decoder). Такой декодер довольно легковесен, но он не может точно восстанавливать мелки детали типа лиц людей на заднем плане. Поэтому парни из OpenAI решили натренировать еще одну диффузию вместо VAE декодера.

Но диффузия работает медленно и требует много шагов во время инференса... Тут на помощь пришла дистилляция из диффузии в Consistency Model, которая может неплохо работать за 1-2 шага, если руки не кривые.

В статье про Dalle-3 было вскользь упомянуто, что в новой архитектуре для перевода скрытого кода в RGB они как раз используют такой Consistency Decoder, который работает за 2 шага.

Consistency Decoder - это тоже Unet, и довольно большой, 620 M параметров (для сравнения SD 1.5 ~900M параметров). Но это все равно допустимая жертва ради улучшенного качества восстановления лиц, мелких деталей и регулярных линий.

Жаль, только, что кода тренировки нет, и остается только заниматься реверс-инженирингом и экспериментировать, чтобы понять как они натренировали этот декодер. Выложили только инференс и веса декодера, который совместим с базовым Stable Diffusion 1.x - 2x и может использоваться как drop-in replacement вместо стандартного декодера.

➡️ Код и веса

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
No comments

@ai_newz
Снял это видео недалеко от офиса чуть больше месяца назад.

Оказывается, у нас по соседству завелся стартап, который разрабатывает этого прикольного двухколесного робота-охранника. При мне парни управляли им с джойстика, но есть у него и автономный режим - где он патрулирует по заданному маршруту, смотрит все ли в порядке, стримит и одновременно анализирует видео.

Он как робот-пылесос, только умеет ходить по любой поверхности (за счет RL обучения), и радиус действия не ограничивается вашей квартирой. На него можно навешать и тепловизоры, и камеры ночного видения, и вообще что-угодно, кроме огнестрельного оружия, разумеется. Ну, вы поняли.

Двухколесная база именно для городских условий, конечно, гораздо более проста, устойчива и мобильна, чем робот на четырех лапах, как например пёсик Спот от Boston Dynamics.

@ai_newz
Амазончик начал тренировать гигантскую LLM на 2 триллиона параметров под кодовым названием "Olympus", чтобы конкурировать с OpenAI. Такой размер — это по слухам больше чем GPT-4. Очевидно, что не хотят сидеть на апихах.

Планируют потом пустить эту модель в Алексу и юзать как конкурентное преимущество у себя на AWS. Это очень даже логично.

Плюс, у Амазона сейчас рекламная выручка на хорошем подъеме — найдут как применять модель и там.

Ну что, успехов им. Теперь будем квоту на гпу на AWS для пет-проектов месяцами ждать — все пойдет на обучение монстра.

@ai_newz
Опять настало то время года, когда я ищу интернов в нашу Generative AI команду в Цюрихском офисе Meta.

Что нужно будет делать: работать над next-gen диффузионками для картинок и видео. Вот тут примеры того, что мы недавно зарелизили в прод: модель Emu, Generative Stickers, на подходе редактирование фото в IG).

Если у вас есть 2-3 публикации уровня CVPR/ICLR/NeurIPS, и вы сейчас учитесь в аспирантуре, то срочно пишите мне в личку или на мыло.

Стажировка проходит 6 месяцев физически в Цюрихе, начиная с весны либо лета 2024. Платить будут > 10к CHF в месяц и бонусом предоставляют апартаменты на все время стажировки.

От вас ожидается всего одна вещь — суметь написать и засабмитить статейку на CVPR 2025 🐶.

По всем вопросам пишите в комментариях.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Тут каталонский стартапчик показывает демку, на которой они гоняют SDXL в риал-тайме на GPU.

Ну как SDXL, у них тут таренирована LoRA модель с помощью метода Latent Consistency дистилляции. Модель после этого бегает за 1-2 шага, но не без потери в качестве.

Как инструмент для интерактивного создания наброска — просто отлично. А затем можно уже поверх прогнать и полную модель для добавления деталей и реализма.

@ai_newz