Наконец-то мы переходим к человеческим гуманоидам!
Наткнулся на стартап figure.ai, главный фокус кототорого — это создание многофункционального робота, похожего нажелезного дровосека человека.
Компании чуть больше года от основания и она уже достигла приличного прогресса (пока без заднего сальто, правда).
А летом стартап поднял $70 млн в Series A раунде.
@ai_newz
Наткнулся на стартап figure.ai, главный фокус кототорого — это создание многофункционального робота, похожего на
Компании чуть больше года от основания и она уже достигла приличного прогресса (пока без заднего сальто, правда).
А летом стартап поднял $70 млн в Series A раунде.
@ai_newz
Запомните лица этих приятных джентльменов. Это три самые влиятельные фигуры в мире Deep Learning-а.
Как много бы отдал один господин в кепке, чтобы стоять рядом с ними...
Если вы внимательно читаете мои посты, то могли уже понять, что мой друг Ян ЛеКун — один из самых знаменитых людей, кто противостоит AI-алармистам. Например, Бенжио и Хинтон принимают хоть и беспокойную, но не радикальную позицию по поводу угрозы AI для человечества.
Здорово, что разные точки зрения не мешают трем отцам Дип Лернинга адекватно общаться и дискутировать, ведь в споре рождается истина.
@ai_newz
Как много бы отдал один господин в кепке, чтобы стоять рядом с ними...
Если вы внимательно читаете мои посты, то могли уже понять, что мой друг Ян ЛеКун — один из самых знаменитых людей, кто противостоит AI-алармистам. Например, Бенжио и Хинтон принимают хоть и беспокойную, но не радикальную позицию по поводу угрозы AI для человечества.
Здорово, что разные точки зрения не мешают трем отцам Дип Лернинга адекватно общаться и дискутировать, ведь в споре рождается истина.
@ai_newz
На этой неделе не так много постил, все из-за моей подработки в Мете. Поэтому держите мем вместо вдумчивого поста.
Вы же понимаете, что мое основное занятие — это постить в канальчик (лол).
У меня был очень интенсивный режим из-за дедлайнов по нескольким проектам, и приближается CVPR. Нейронки сами себя в продакшн пока не запиливают (жду с нетерпением), да и CVPR статьи сами тоже не пишутся. Так, что приходится пока этим заниматься самому 🌚.
@ai_newz
Вы же понимаете, что мое основное занятие — это постить в канальчик (лол).
У меня был очень интенсивный режим из-за дедлайнов по нескольким проектам, и приближается CVPR. Нейронки сами себя в продакшн пока не запиливают (жду с нетерпением), да и CVPR статьи сами тоже не пишутся. Так, что приходится пока этим заниматься самому 🌚.
@ai_newz
Ещё раз про ликбез вокруг ChatGPT
Если вам понравилась лекция Карпатого про тренировку ChatGPT (я писал о ней тут), то советую также глянуть на русском языке лекцию Игоря Котенкова "RLHF Intro: from Zero to Aligned Intelligent Systems" в рамках DataFest 2023, которая покрывает историю развития LLMок и даёт пищу для размышлений.
Игорь ведёт канал @seeallochnaya, а также его можно знать по популярным постам на хабре, например, как работает ChatGPT "на пальцах" для нетехнарей - вот ссылка. Пост, кстати, вошел в топ-10 самых залайканых на Хабре в этом году!
@ai_newz
Если вам понравилась лекция Карпатого про тренировку ChatGPT (я писал о ней тут), то советую также глянуть на русском языке лекцию Игоря Котенкова "RLHF Intro: from Zero to Aligned Intelligent Systems" в рамках DataFest 2023, которая покрывает историю развития LLMок и даёт пищу для размышлений.
Игорь ведёт канал @seeallochnaya, а также его можно знать по популярным постам на хабре, например, как работает ChatGPT "на пальцах" для нетехнарей - вот ссылка. Пост, кстати, вошел в топ-10 самых залайканых на Хабре в этом году!
@ai_newz
Хабр
Как работает ChatGPT: объясняем на простом русском эволюцию языковых моделей с T9 до чуда
В последнее время нам почти каждый день рассказывают в новостях, какие очередные вершины покорили языковые нейросетки, и почему они уже через месяц совершенно точно оставят лично вас...
Distill-Whisper от 🤗 — в x6 раз быстрее оригинала!
Моделька Whisper от OpenAI для транскрипции аудио в текст (я писал о ней тут и тут) бодро разлетелась по множеству проектов. Вот только самая крупная ее версия, Large-v2, имеет 1.5 млрд параметров и не является самой быстрой.
Но для деплоя в прод очень хочется иместь что-то такое же точное как Whisper-Large-v2, но быстрое.
Парни из Hugging Face взяли и дистиллировали эту модель, добившись ускорения инференса в 6 раз, с потерей в точности только на 1% WER.
#ликбез:
Если на пальцах, дистилляция - это процесс перегонки знаний из большой модели в более маленькую, чтобы ускорить инференс, но сохранить точность. Работает это потому, что большие модели легче обучить до нужной точности, но как правило количество нейронов в таких моделях избыточно и может быть сокращено после того как тренировка завершена (например, в с помощью дистиляции или прунинга).
Энкодер оставили как есть и заморозили, а в декодере оставили только 2 слоя, так как большинсво операций происходит именно в декодере. Далее эту прелесть дистиллировали на 20к часах опенсорсных аудио-записей.
Веса опубликуют через пару дней под MIT лицензией!
❱❱ Код
❱❱ Статья
@ai_newz
Моделька Whisper от OpenAI для транскрипции аудио в текст (я писал о ней тут и тут) бодро разлетелась по множеству проектов. Вот только самая крупная ее версия, Large-v2, имеет 1.5 млрд параметров и не является самой быстрой.
Но для деплоя в прод очень хочется иместь что-то такое же точное как Whisper-Large-v2, но быстрое.
Парни из Hugging Face взяли и дистиллировали эту модель, добившись ускорения инференса в 6 раз, с потерей в точности только на 1% WER.
#ликбез:
Если на пальцах, дистилляция - это процесс перегонки знаний из большой модели в более маленькую, чтобы ускорить инференс, но сохранить точность. Работает это потому, что большие модели легче обучить до нужной точности, но как правило количество нейронов в таких моделях избыточно и может быть сокращено после того как тренировка завершена (например, в с помощью дистиляции или прунинга).
Энкодер оставили как есть и заморозили, а в декодере оставили только 2 слоя, так как большинсво операций происходит именно в декодере. Далее эту прелесть дистиллировали на 20к часах опенсорсных аудио-записей.
Веса опубликуют через пару дней под MIT лицензией!
❱❱ Код
❱❱ Статья
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Не зря же мы тут собрались. Вот как раз и в Collins Dictionary объявили "AI" словом 2023 года.
На хайпике, хайпуем, ребята! Эйай - это новый социальный лифт. Это больше не айти, как было в педыдущие 15 лет,и не закладки, теперь все хотят заниматься эйай.
@ai_newz
На хайпике, хайпуем, ребята! Эйай - это новый социальный лифт. Это больше не айти, как было в педыдущие 15 лет,
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
STAR: Smartphone-analogous Typing in Augmented Reality
Исследования альтернативных методов ввода - это одно из важнейших направлений Human-Machine Interaction. Вот тут интерн из Меты придумал новый метод набора текста в AR очках и собрал демку.
Ты просто формируешь "позу согнутых кистей" рук, как будто бы держишь смартфон, а через AR-очки на твоих руках появляется мини-клавиатура QWERTY! Печатаешь обоими большими пальцами, а тактильный отклик во время набора текста достигается за счет прикосновениями к собственной коже. И если решаешь переключиться на что-то ещё, просто меняешь позу кистей, и клавиатура исчезает.
Во время тестов, выяснили что скорость набора такми методом - 22 слова/мин, что всего в 2 раза медленнее чем на реальном смартфоне.
Норм тема на будущее, когда AR-очки пойдут в массы. Особенно если ты в где-то в автобусе и не хочешь кричать на публику "СИРЕ! НАПЕШИ ВОЛОДЬКЕ, ЧТО Я ОПАЗДЫВАЮ!".
@ai_newz
Исследования альтернативных методов ввода - это одно из важнейших направлений Human-Machine Interaction. Вот тут интерн из Меты придумал новый метод набора текста в AR очках и собрал демку.
Ты просто формируешь "позу согнутых кистей" рук, как будто бы держишь смартфон, а через AR-очки на твоих руках появляется мини-клавиатура QWERTY! Печатаешь обоими большими пальцами, а тактильный отклик во время набора текста достигается за счет прикосновениями к собственной коже. И если решаешь переключиться на что-то ещё, просто меняешь позу кистей, и клавиатура исчезает.
Во время тестов, выяснили что скорость набора такми методом - 22 слова/мин, что всего в 2 раза медленнее чем на реальном смартфоне.
Норм тема на будущее, когда AR-очки пойдут в массы. Особенно если ты в где-то в автобусе и не хочешь кричать на публику "СИРЕ! НАПЕШИ ВОЛОДЬКЕ, ЧТО Я ОПАЗДЫВАЮ!".
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
А если виртуальная клавиатура из предыдущего поста вам не нравится, можно подсоединить и настоящую.
Кстати, довольно классное применение AR — чел работает в своем электрокаре, пока он стоит на зарядке. Не будешь же три монитора с собой таскать.
Искушённые пользователи скажут, что тут основной затык в разрешении виртуального экрана. Там все ещё не ретина, конечно, но 2064 x 2208 на каждый глаз в Quest 3 — это уже внушительно. Да, и прогресс не стоит на месте.
Хочу наконец сам попробовать так поработать, протестировать сетап.
@ai_newz
Кстати, довольно классное применение AR — чел работает в своем электрокаре, пока он стоит на зарядке. Не будешь же три монитора с собой таскать.
Искушённые пользователи скажут, что тут основной затык в разрешении виртуального экрана. Там все ещё не ретина, конечно, но 2064 x 2208 на каждый глаз в Quest 3 — это уже внушительно. Да, и прогресс не стоит на месте.
Хочу наконец сам попробовать так поработать, протестировать сетап.
@ai_newz
OpenAI DevDay - ждем новых анонсов по моделям и API
Через 16 минут OpenAI будет проводить свою первую конференцию для девелоперов. Ходит много слухов о том, что будут представлять. Возможно появится GPT4-TURBO - более быстрая и дешевая версия GPT4. А так же ожидается куча новостей по поводу плагинов, интеграции ChatGPT с разными приложениями и маркетплейс чатботов на базе ChatGPT.
Некоторые даже сравнивают эту конфу с тем моментом, когда Джобс анонсировал первый Iphone. Я, честно, не верю, что это будет что-то настолько же большое, но посмотреть интересно.
Смотрим стрим на YouTube
@ai_newz
Через 16 минут OpenAI будет проводить свою первую конференцию для девелоперов. Ходит много слухов о том, что будут представлять. Возможно появится GPT4-TURBO - более быстрая и дешевая версия GPT4. А так же ожидается куча новостей по поводу плагинов, интеграции ChatGPT с разными приложениями и маркетплейс чатботов на базе ChatGPT.
Некоторые даже сравнивают эту конфу с тем моментом, когда Джобс анонсировал первый Iphone. Я, честно, не верю, что это будет что-то настолько же большое, но посмотреть интересно.
Смотрим стрим на YouTube
@ai_newz
YouTube
OpenAI DevDay: Opening Keynote
Join us for the opening keynote from OpenAI DevDay — OpenAI’s first developer conference.
We’re gathering developers from around the world for an in-person day of programming to learn about the latest AI advancements and explore what lies ahead.
New models…
We’re gathering developers from around the world for an in-person day of programming to learn about the latest AI advancements and explore what lies ahead.
New models…
Я знаю, у вас мало времени, поэтому TLDR по OpenAI DevDay:
1️⃣ Релизнули ChatGPT-4-Turbo - ускоренную и более дешевую версию.
• Расширили контекст до 128к токенов (это ~300 страниц текста)
• Увеличили лимиты генерации токенов/сек.
• Каждый токен в промпте стал в 3x раза дешевле, а сгенерированные токены - в 2x раза дешевле по сравнению с ChatGPT-4
• База знаний ChatGPT-4-Turbo рсширилась до апреля 2023 (у ChatGPT-4 было до сентября 2021).
• Очень интересно уведеть бенчмарки, насколько пожертвовали качеством генерации у Turbo версии ради ускорения.
2️⃣ Запустили Assistants API - набор no-code инструментов для создания кастомных ботов-ассистентов на основе ChatGPT.
• Ассистенты могут писать и выполнять код, принимать на вход документы и PDF. Возможность грузить картинки добавят позже.
• Это убило много стартапов, которые строили свои продукты вокруг промптинга и предоставления доступа к кастомным агентам.
3️⃣ Новые модальности (Vision & Audio):
• Dalle-3 теперь доступна через API.
• Релизнули модель для синтеза речи (TTS). Доступна через API.
• Релиз Whisper-3 - более мощный speech-2-text. Уже в опен-соурсе на GitHub. А также через API.
• ChatGPT теперь может принимать картинки через API.
4️⃣ Анонсировали "GPTs" - возможность создания кастомных версий ChagGPT для разных целей и маркетплейс для них.
• Девелоперы могут продавать свои кастомизированные GPT на централизированном маркетплейсе и получать процентик от ревенью. Типа App Store для ботов.
5️⃣ Copyright Shield - защита от нарушения автораских прав для пользователей Enterprise плана и API. То есть если на пользователя подали в суд за нарешение авторских прав в результате генерации моделями OpenAI, то OpenAI впрягается за пользователя и оплавчивает все судебные издержки.
Видео-выжимка выступлений с основными моментами: тык (19 минут).
@ai_newz
• Расширили контекст до 128к токенов (это ~300 страниц текста)
• Увеличили лимиты генерации токенов/сек.
• Каждый токен в промпте стал в 3x раза дешевле, а сгенерированные токены - в 2x раза дешевле по сравнению с ChatGPT-4
• База знаний ChatGPT-4-Turbo рсширилась до апреля 2023 (у ChatGPT-4 было до сентября 2021).
• Очень интересно уведеть бенчмарки, насколько пожертвовали качеством генерации у Turbo версии ради ускорения.
• Ассистенты могут писать и выполнять код, принимать на вход документы и PDF. Возможность грузить картинки добавят позже.
• Это убило много стартапов, которые строили свои продукты вокруг промптинга и предоставления доступа к кастомным агентам.
• Dalle-3 теперь доступна через API.
• Релизнули модель для синтеза речи (TTS). Доступна через API.
• Релиз Whisper-3 - более мощный speech-2-text. Уже в опен-соурсе на GitHub. А также через API.
• ChatGPT теперь может принимать картинки через API.
• Девелоперы могут продавать свои кастомизированные GPT на централизированном маркетплейсе и получать процентик от ревенью. Типа App Store для ботов.
Видео-выжимка выступлений с основными моментами: тык (19 минут).
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Среди недавних релизов OpenAI больше всего в мое сердечко запал их новый декодер для LDM - Consistency Decoder.
Напомню, что Stable Diffusion генерирует изображения в Latent пространстве, которое затем декодируется VQ-VAE декодером (на картинке выше, кажется, его назвали GAN Decoder). Такой декодер довольно легковесен, но он не может точно восстанавливать мелки детали типа лиц людей на заднем плане. Поэтому парни из OpenAI решили натренировать еще одну диффузию вместо VAE декодера.
Но диффузия работает медленно и требует много шагов во время инференса... Тут на помощь пришла дистилляция из диффузии в Consistency Model, которая может неплохо работать за 1-2 шага,
В статье про Dalle-3 было вскользь упомянуто, что в новой архитектуре для перевода скрытого кода в RGB они как раз используют такой Consistency Decoder, который работает за 2 шага.
Consistency Decoder - это тоже Unet, и довольно большой, 620 M параметров (для сравнения SD 1.5 ~900M параметров). Но это все равно допустимая жертва ради улучшенного качества восстановления лиц, мелких деталей и регулярных линий.
Жаль, только, что кода тренировки нет, и остается только заниматься реверс-инженирингом и экспериментировать, чтобы понять как они натренировали этот декодер. Выложили только инференс и веса декодера, который совместим с базовым Stable Diffusion 1.x - 2x и может использоваться как drop-in replacement вместо стандартного декодера.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Снял это видео недалеко от офиса чуть больше месяца назад.
Оказывается, у нас по соседству завелся стартап, который разрабатывает этого прикольного двухколесного робота-охранника. При мне парни управляли им с джойстика, но есть у него и автономный режим - где он патрулирует по заданному маршруту, смотрит все ли в порядке, стримит и одновременно анализирует видео.
Он как робот-пылесос, только умеет ходить по любой поверхности (за счет RL обучения), и радиус действия не ограничивается вашей квартирой. На него можно навешать и тепловизоры, и камеры ночного видения, и вообще что-угодно, кроме огнестрельного оружия, разумеется. Ну, вы поняли.
Двухколесная база именно для городских условий, конечно, гораздо более проста, устойчива и мобильна, чем робот на четырех лапах, как например пёсик Спот от Boston Dynamics.
@ai_newz
Оказывается, у нас по соседству завелся стартап, который разрабатывает этого прикольного двухколесного робота-охранника. При мне парни управляли им с джойстика, но есть у него и автономный режим - где он патрулирует по заданному маршруту, смотрит все ли в порядке, стримит и одновременно анализирует видео.
Он как робот-пылесос, только умеет ходить по любой поверхности (за счет RL обучения), и радиус действия не ограничивается вашей квартирой. На него можно навешать и тепловизоры, и камеры ночного видения, и вообще что-угодно, кроме огнестрельного оружия, разумеется. Ну, вы поняли.
Двухколесная база именно для городских условий, конечно, гораздо более проста, устойчива и мобильна, чем робот на четырех лапах, как например пёсик Спот от Boston Dynamics.
@ai_newz
Амазончик начал тренировать гигантскую LLM на 2 триллиона параметров под кодовым названием "Olympus", чтобы конкурировать с OpenAI. Такой размер — это по слухам больше чем GPT-4. Очевидно, что не хотят сидеть на апихах.
Планируют потом пустить эту модель в Алексу и юзать как конкурентное преимущество у себя на AWS. Это очень даже логично.
Плюс, у Амазона сейчас рекламная выручка на хорошем подъеме — найдут как применять модель и там.
Ну что, успехов им. Теперь будем квоту на гпу на AWS для пет-проектов месяцами ждать — все пойдет на обучение монстра.
@ai_newz
Планируют потом пустить эту модель в Алексу и юзать как конкурентное преимущество у себя на AWS. Это очень даже логично.
Плюс, у Амазона сейчас рекламная выручка на хорошем подъеме — найдут как применять модель и там.
Ну что, успехов им. Теперь будем квоту на гпу на AWS для пет-проектов месяцами ждать — все пойдет на обучение монстра.
@ai_newz
Reuters
Amazon dedicates team to train ambitious AI model codenamed 'Olympus' -sources
Amazon is investing millions in training an ambitious large language model (LLMs), hoping it could rival top models from OpenAI and Alphabet , two people familiar with the matter told Reuters.
Опять настало то время года, когда я ищу интернов в нашу Generative AI команду в Цюрихском офисе Meta.
Что нужно будет делать: работать над next-gen диффузионками для картинок и видео. Вот тут примеры того, что мы недавно зарелизили в прод: модель Emu, Generative Stickers, на подходе редактирование фото в IG).
Если у вас есть 2-3 публикации уровня CVPR/ICLR/NeurIPS, и вы сейчас учитесь в аспирантуре, то срочно пишите мне в личку или на мыло.
Стажировка проходит 6 месяцев физически в Цюрихе, начиная с весны либо лета 2024. Платить будут> 10к CHF в месяц и бонусом предоставляют апартаменты на все время стажировки.
От вас ожидается всего одна вещь — суметь написать и засабмитить статейку на CVPR 2025🐶 .
По всем вопросам пишите в комментариях.
@ai_newz
Что нужно будет делать: работать над next-gen диффузионками для картинок и видео. Вот тут примеры того, что мы недавно зарелизили в прод: модель Emu, Generative Stickers, на подходе редактирование фото в IG).
Если у вас есть 2-3 публикации уровня CVPR/ICLR/NeurIPS, и вы сейчас учитесь в аспирантуре, то срочно пишите мне в личку или на мыло.
Стажировка проходит 6 месяцев физически в Цюрихе, начиная с весны либо лета 2024. Платить будут
От вас ожидается всего одна вещь — суметь написать и засабмитить статейку на CVPR 2025
По всем вопросам пишите в комментариях.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Тут каталонский стартапчик показывает демку, на которой они гоняют SDXL в риал-тайме на GPU.
Ну как SDXL, у них тут таренирована LoRA модель с помощью метода Latent Consistency дистилляции. Модель после этого бегает за 1-2 шага, но не без потери в качестве.
Как инструмент для интерактивного создания наброска — просто отлично. А затем можно уже поверх прогнать и полную модель для добавления деталей и реализма.
@ai_newz
Ну как SDXL, у них тут таренирована LoRA модель с помощью метода Latent Consistency дистилляции. Модель после этого бегает за 1-2 шага, но не без потери в качестве.
Как инструмент для интерактивного создания наброска — просто отлично. А затем можно уже поверх прогнать и полную модель для добавления деталей и реализма.
@ai_newz