С утра читаю отзывы людей (негативные опущены, они тоже есть):
— Вау, такой голос! Как живое!
— Невероятно, всё утро веду диалог, мне теперь живые люди не нужны!
Штука в том, что свежая модель на данный момент для пользователей генерирует лишь текст. Генерацию голоса новой моделью, а также создание картинок завезут позднее, «в ближайшие недели».
Представьте, что будет когда включат эту функциональность, как люди обрадуются 😀
То есть как работало мобильное приложение ChatGPT раньше:
— Одна модель слушает вас, переводит речь в текст. На этом этапе теряются все эмоции, никаких тегов <вздох> или *радостно* там нет — просто текст
— Текст подаётся в GPT-4-Turbo (вторую модель) на вход (как будто бы вы сами написали сообщение своими руками)
— Эта модель генерирует ответ текстом
— Этот текст озвучивается третьей моделью. Она не может петь, шептать, играться интонацией. Если в запросе попросите её это сделать — она не будет следовать инструкции
Насколько я понимаю, на сегодняшний день эта функциональность сохраняется — несмотря на то, что модели с номерами 1 и 3 можно заменить на новую GPT-4o (она может нативно слушать вас и генерировать голос сразу, без вспомогательных средств). OpenAI не выкатывают всё сразу. А вот модель 2 как раз заменили. То есть сами ответы могут показаться умнее, уровень понимания тоже повысился — потому что LLM стала мощнее. И скорость выросла.
Не верите? Попробуйте попросить отвечать медленнее/быстрее, или даже шёпотом.
Sorry to disappoint you🤷♂️
— Вау, такой голос! Как живое!
— Невероятно, всё утро веду диалог, мне теперь живые люди не нужны!
Штука в том, что свежая модель на данный момент для пользователей генерирует лишь текст. Генерацию голоса новой моделью, а также создание картинок завезут позднее, «в ближайшие недели».
То есть как работало мобильное приложение ChatGPT раньше:
— Одна модель слушает вас, переводит речь в текст. На этом этапе теряются все эмоции, никаких тегов <вздох> или *радостно* там нет — просто текст
— Текст подаётся в GPT-4-Turbo (вторую модель) на вход (как будто бы вы сами написали сообщение своими руками)
— Эта модель генерирует ответ текстом
— Этот текст озвучивается третьей моделью. Она не может петь, шептать, играться интонацией. Если в запросе попросите её это сделать — она не будет следовать инструкции
Насколько я понимаю, на сегодняшний день эта функциональность сохраняется — несмотря на то, что модели с номерами 1 и 3 можно заменить на новую GPT-4o (она может нативно слушать вас и генерировать голос сразу, без вспомогательных средств). OpenAI не выкатывают всё сразу. А вот модель 2 как раз заменили. То есть сами ответы могут показаться умнее, уровень понимания тоже повысился — потому что LLM стала мощнее. И скорость выросла.
Не верите? Попробуйте попросить отвечать медленнее/быстрее, или даже шёпотом.
Sorry to disappoint you
Please open Telegram to view this post
VIEW IN TELEGRAM
Через 10 минут смотрим презентацию Google I/O, где ожидается ответ компании на анонсы OpenAI.
Ссылка: https://www.youtube.com/watch?v=XEzRZ35urlk
— Возможно, Gemini Ultra (1.5?) появится наконец в API
— Возможно, демо не будут сфабрикованы/сделаны со склейками видео, как в прошлый раз
— Возможно, в Ассистента на андроид пообещают добавить Gemini с поддержкой видео и аудио
— Возможно, покажут модель генерации видео (скриншоты сайта и даже гифки утекли на прошлой неделе)
Бинго карточки нет :(
Ссылка: https://www.youtube.com/watch?v=XEzRZ35urlk
— Возможно, Gemini Ultra (1.5?) появится наконец в API
— Возможно, демо не будут сфабрикованы/сделаны со склейками видео, как в прошлый раз
— Возможно, в Ассистента на андроид пообещают добавить Gemini с поддержкой видео и аудио
— Возможно, покажут модель генерации видео (скриншоты сайта и даже гифки утекли на прошлой неделе)
Бинго карточки нет :(
Ваши ожидания
Anonymous Poll
33%
у меня их нет
3%
будет лучше OpenAI
5%
будет так же, как у OpenAI
59%
будет хуже OpenAI
— Gemini 1.5 Pro (не Ultra!) с контекстным окном в 2M токенов (подняли с 1М) сделали доступным для всех — и для разработчиков в API (чтобы вы и я могли своё приложение сделать), и для пользователей.
— Также модель вкрутили в Google Gmail, она может писать черновик диалога, а также читает вложения и может отвечать по длинным документам и видео в аттаче.
— Ещё анонсировали Gemini 1.5 Flash — быструю версию модели (контекст тоже 1-2М, для расширения нужно оформить заявку) для задач, где важна низкая задержка перед ответом.
— Также модель вкрутили в Google Gmail, она может писать черновик диалога, а также читает вложения и может отвечать по длинным документам и видео в аттаче.
— Ещё анонсировали Gemini 1.5 Flash — быструю версию модели (контекст тоже 1-2М, для расширения нужно оформить заявку) для задач, где важна низкая задержка перед ответом.
— Показывают ранние наработки по агентам. Пример, который показали — это оформить возврат кросовок. Перерыть ваш имейл, найти нужное письмо о заказанных кросовках, имейл магазина, и даже договориться о месте, откуда их надо будет забрать.
— Второй пример выглядит интереснее, но сомневаюсь, что он будет работать в ближайшие полгода (Sundar говорит, что это на будущее). Вы переехали и у вас изменился адрес, и вы хотите поменять его на всех сайтах. Говорите ассистенту — и он обходит все аккаунты, меняет на новый адрес, а вы сидите пьёте кока-колу.
— Второй пример выглядит интереснее, но сомневаюсь, что он будет работать в ближайшие полгода (Sundar говорит, что это на будущее). Вы переехали и у вас изменился адрес, и вы хотите поменять его на всех сайтах. Говорите ассистенту — и он обходит все аккаунты, меняет на новый адрес, а вы сидите пьёте кока-колу.
Сиолошная
Ща будет про агентов и AI-ассистента. А нет, просто в общих словах сказали «ну вот агенты, будем делать, важно, контекст, мультимодальность, разговаривать должна».
Показали демку с телефона, сделав отметку, что всё снято без склеек и ускорений. Показали 4 юзкейса (что делает код на экране, как называется эта часть динамика, etc — просто Visual Question Answering), а потом показали, что оно работает не только на телефоне, но и на очках — внутри поселился ассистент, который видит то же, что и вы, и отвечает на вопросы с учётом визуального контекста.
Голос в демке куда менее живой относительно OpenAI, кажется тот же самый, что и был всегда в ассистенте, без улучшений.
Полное демо тут: https://fxtwitter.com/OfficialLoganK/status/1790434506920587386
Голос в демке куда менее живой относительно OpenAI, кажется тот же самый, что и был всегда в ассистенте, без улучшений.
Полное демо тут: https://fxtwitter.com/OfficialLoganK/status/1790434506920587386
Новая модель генерации картинок Imagen 3.
Основные фичи:
— генерация текста на картинке
— внимание к деталям в промпте
— фотореализм
Пока не доступно для широкой аудитории и разрабов, но можно опробовать на labs.google, если подать заявку.
Основные фичи:
— генерация текста на картинке
— внимание к деталям в промпте
— фотореализм
Пока не доступно для широкой аудитории и разрабов, но можно опробовать на labs.google, если подать заявку.
Модель генерации Veo — SORA от Google.
Демка длится чуть больше минуты, FullHD. Смотреть и оценивать тут:
https://fxtwitter.com/GoogleDeepMind/status/1790435824598716704
(переходить в твиттер для просмотра не надо, должно грузить в телеге)
Больше примеров: тут
👍 - лучше Sora
👎 - хуже
Доступа публичного нет, только по заявкам для избранных контент-криэйторов.
Демка длится чуть больше минуты, FullHD. Смотреть и оценивать тут:
https://fxtwitter.com/GoogleDeepMind/status/1790435824598716704
(переходить в твиттер для просмотра не надо, должно грузить в телеге)
Больше примеров: тут
👍 - лучше Sora
Доступа публичного нет, только по заявкам для избранных контент-криэйторов.
Please open Telegram to view this post
VIEW IN TELEGRAM
FxTwitter / FixupX
Google DeepMind (@GoogleDeepMind)
Introducing Veo: our most capable generative video model. 🎥
It can create high-quality, 1080p clips that can go beyond 60 seconds.
From photorealism to surrealism and animation, it can tackle a range of cinematic styles. 🧵 #GoogleIO
It can create high-quality, 1080p clips that can go beyond 60 seconds.
From photorealism to surrealism and animation, it can tackle a range of cinematic styles. 🧵 #GoogleIO
Новое железо для тренировки GenAI моделей — TPU 6 Trillium. Гонка масштабирования моделей продолжается 🔼
Обещают, что они более чем в 4 раза мощнее, чем предыдущее поколение.
Будет доступно клиентам в конце 2024го года! (но основной клиент всё равно будет сам Google — нужно продолжать учить модели, делать это дольше, делать их крупнее, вот это всё)
Обещают, что они более чем в 4 раза мощнее, чем предыдущее поколение.
Будет доступно клиентам в конце 2024го года! (но основной клиент всё равно будет сам Google — нужно продолжать учить модели, делать это дольше, делать их крупнее, вот это всё)
Please open Telegram to view this post
VIEW IN TELEGRAM
Примеры генерации без пережатия в превью.
Выглядит мыльно, все демки кроме одной — гораздо короче минуты.
Текстуры не такие стабильные. Короче, тут явно 👎
Выглядит мыльно, все демки кроме одной — гораздо короче минуты.
Текстуры не такие стабильные. Короче, тут явно 👎
Forwarded from Rozetked (Данил Гаращенко)
И на этом не всё — встречайте Veo
Нейросеть, которая может создавать видео с разрешением до 1080p и продолжительностью более 60 секунд. От фотореализма до сюрреализма и анимации.
Вот примеры работы нейросети.
💼 Rozetked | Подписаться
Нейросеть, которая может создавать видео с разрешением до 1080p и продолжительностью более 60 секунд. От фотореализма до сюрреализма и анимации.
Вот примеры работы нейросети.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Дальше полчаса показывали скучные демо (люди в зале зевали). Что-то там наверное для кого-то будет полезно (например, фичи в поиске с умным поиском — когда их выкатят, в 2026м видимо). LLM в окне чата тут, кнопочка 💫 magic там.
«Позже в этом году», «Это наше раннее видение», «В продукте которым вы не пользуетесь» и так далее.
Google понять можно — они не могут брать самые-самые большие модели, чтобы использовать их и показывать крутые сценарии использования. У них более 2 миллиардов пользователей, и экономика просто не сойдётся. А с маленькими и дешёвыми для использования моделями показать чего-то супер-крутого не получается.
Концепция умного поиска по видео, с LLM поверх — круто. Саммари рабочих чатов и созвонов — круто. Многоступенчатый поиск с декомпозицией — круто. Gemini Nano на телефоне для быстрой обработки — круто. А ешё релизнут в открытую PaLIGemma-модельку (больше тут).
Но надо пробовать, и конкретных дат, когда появится, нет (или оно уже есть? а я не знаю, потому что среди 50 анонсов микро-фичей как-то забылось, что есть, а чего надо ждать).
===
Самое большое удивление для меня — если акции гугла не упадут на 5%+
Но, как написали в комментариях, «Можно считать, что гуглы успешно отчитались перед акционерами, что у них более 10 отделов разработки ИИ заняты полезными вещами, активная деятельность кипит. Наверно не упадут акции»
🥺 😪 🤕
«Позже в этом году», «Это наше раннее видение», «В продукте которым вы не пользуетесь» и так далее.
Google понять можно — они не могут брать самые-самые большие модели, чтобы использовать их и показывать крутые сценарии использования. У них более 2 миллиардов пользователей, и экономика просто не сойдётся. А с маленькими и дешёвыми для использования моделями показать чего-то супер-крутого не получается.
Концепция умного поиска по видео, с LLM поверх — круто. Саммари рабочих чатов и созвонов — круто. Многоступенчатый поиск с декомпозицией — круто. Gemini Nano на телефоне для быстрой обработки — круто. А ешё релизнут в открытую PaLIGemma-модельку (больше тут).
Но надо пробовать, и конкретных дат, когда появится, нет (или оно уже есть? а я не знаю, потому что среди 50 анонсов микро-фичей как-то забылось, что есть, а чего надо ждать).
===
Самое большое удивление для меня — если акции гугла не упадут на 5%+
Но, как написали в комментариях, «Можно считать, что гуглы успешно отчитались перед акционерами, что у них более 10 отделов разработки ИИ заняты полезными вещами, активная деятельность кипит. Наверно не упадут акции»
Please open Telegram to view this post
VIEW IN TELEGRAM
Ilya Sutskever, принял решение покинуть OpenAI. Он работал Chief Scientist'ом, и отвечал за направление SuperAlignment. Именно из-за него поссорились Elon Musk и Demis Hassabis, так как первый уговорил Ilya покинуть Google в пользу основания OpenAI
«Траектория развития компании была чудесной, и я уверен, что OpenAI под руководством текущих лидеров создадут безопасный и полезный AGI. Для меня было честью и привилегией работать вместе, и я буду очень скучать по всем. Спасибо за все! Я с нетерпением жду того, что будет дальше — проекта, который очень важен для меня лично, о котором я поделюсь подробностями, когда придёт время» — написал Ilya.
Sam прокомментировал:
«Мне очень грустно; Ilya – один из величайших умов нашего поколения, путеводный свет в нашей области и дорогой друг. Его блестящие способности и дальновидность хорошо известны; его теплота и сострадание менее известны, но не менее важны. Без него OpenAI не были бы тем, чем мы являемся. Хотя у него есть что-то значимое, над чем он собирается работать, я навсегда благодарен за то, что он сделал здесь, и полон решимости завершить миссию, которую мы начали вместе. Я счастлив, что так мне удалось долго работать рядом с таким поистине выдающимся гением и человеком, столь сосредоточенном на достижении лучшего будущего для человечества»
Место Ilya по научной части займет Jakub Pachocki (на фото — слева), работающий в компании с допотопных времён. Не уточняется, займется ли он Alignment'ом.
«Траектория развития компании была чудесной, и я уверен, что OpenAI под руководством текущих лидеров создадут безопасный и полезный AGI. Для меня было честью и привилегией работать вместе, и я буду очень скучать по всем. Спасибо за все! Я с нетерпением жду того, что будет дальше — проекта, который очень важен для меня лично, о котором я поделюсь подробностями, когда придёт время» — написал Ilya.
Sam прокомментировал:
«Мне очень грустно; Ilya – один из величайших умов нашего поколения, путеводный свет в нашей области и дорогой друг. Его блестящие способности и дальновидность хорошо известны; его теплота и сострадание менее известны, но не менее важны. Без него OpenAI не были бы тем, чем мы являемся. Хотя у него есть что-то значимое, над чем он собирается работать, я навсегда благодарен за то, что он сделал здесь, и полон решимости завершить миссию, которую мы начали вместе. Я счастлив, что так мне удалось долго работать рядом с таким поистине выдающимся гением и человеком, столь сосредоточенном на достижении лучшего будущего для человечества»
Место Ilya по научной части займет Jakub Pachocki (на фото — слева), работающий в компании с допотопных времён. Не уточняется, займется ли он Alignment'ом.
Сиолошная
Ilya Sutskever, принял решение покинуть OpenAI. Он работал Chief Scientist'ом, и отвечал за направление SuperAlignment. Именно из-за него поссорились Elon Musk и Demis Hassabis, так как первый уговорил Ilya покинуть Google в пользу основания OpenAI «Траектория…
This media is not supported in your browser
VIEW IN TELEGRAM
Сейчас в мире помимо очевидных гонок происходит и одна куда менее заметная — за новый форм-фактор устройств, в которых будут жить AI-ассистенты будущего. На ум приходят недавно провалившиеся R1 Rabbit или AI Pin, порождённые стартапами, но и крупные игроки копошатся за кулисами.
Например, Meta рассматривает возможность сделать наушники с камерами — правда ни один дизайн пока не одобрен Zuck'ом. «По словам источника, при изготовлении наушников камеры можно разместить на закругленной внешней части наушника и обозревать сверхширокий угол. А кадры с двух наушников затем можно соединить вместе, создав 360-градусное изображение». А ведь ещё нужно батарейку куда-то впихнуть...
Weird. Когда я прочитал заголовок, то подумал про полноценные большие гарнитуры — а оказывается, что речь про мелкие вкладыши! Но я, знаете ли, тоже своего рода дизайнер (дизайнер Котенков), поэтому прилагаю свой вариант. Камеры тоже будут размещены в ушках, но сверху. И батарейка большая будет в основных чашах, и звук качественный — одни плюсы.
Купили бы такое? Ну а что — будем жить в мире котиков👀
Например, Meta рассматривает возможность сделать наушники с камерами — правда ни один дизайн пока не одобрен Zuck'ом. «По словам источника, при изготовлении наушников камеры можно разместить на закругленной внешней части наушника и обозревать сверхширокий угол. А кадры с двух наушников затем можно соединить вместе, создав 360-градусное изображение». А ведь ещё нужно батарейку куда-то впихнуть...
Weird. Когда я прочитал заголовок, то подумал про полноценные большие гарнитуры — а оказывается, что речь про мелкие вкладыши! Но я, знаете ли, тоже своего рода дизайнер (дизайнер Котенков), поэтому прилагаю свой вариант. Камеры тоже будут размещены в ушках, но сверху. И батарейка большая будет в основных чашах, и звук качественный — одни плюсы.
Купили бы такое? Ну а что — будем жить в мире котиков
Please open Telegram to view this post
VIEW IN TELEGRAM