Forwarded from addmeto (Grigory Bakunov)
Please open Telegram to view this post
VIEW IN TELEGRAM
Ничего нового, просто свежая модель снова сверху 😨
Видимо, обучение разговору помогло модели прокачать эмоциональный интеллект, и продвинуться в размышлениях
Видимо, обучение разговору помогло модели прокачать эмоциональный интеллект, и продвинуться в размышлениях
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from LLM под капотом
Продуктовые LLM Бенчмарки GPT-4o 🤩
GPT-4o модель очень шустра, обладает контекстом в 128K и стоит дешевле GPT-4 Turbo. А еще умеет понимать эмоции и выражать их.
Под капотом у нее расширенный словарь, который в разы уменьшает число tokens, которые использует модель. Говорят, что улучшили понимание языков.
Особо сильного скачка у модели не было, т.к. модели OpenAI там уже практически уперлись в потолок - она просто обновила максимумы.
Но там есть один нюанс - категория Reason (способность к сложным рассуждениям) исторически была сделана очень сложной. GPT-4o подняла эту категорию с 62 (GPT-4 Turbo v3/1106-preview) до 75.
Что самое крышесносное - вся эта красота доступна не только по API, но и будет доступна в ChatGPT бесплатно. А это вызывает вопросик - что же такого OpenAI выкатят платным пользователям, чтобы те не ломанулись отменять подписки?
Ваш, @llm_under_hood 🤗
---
Описание работы, категорий и примеры кейсов есть в лабах. См другие бенчмарки по категории #bench
GPT-4o модель очень шустра, обладает контекстом в 128K и стоит дешевле GPT-4 Turbo. А еще умеет понимать эмоции и выражать их.
Под капотом у нее расширенный словарь, который в разы уменьшает число tokens, которые использует модель. Говорят, что улучшили понимание языков.
Особо сильного скачка у модели не было, т.к. модели OpenAI там уже практически уперлись в потолок - она просто обновила максимумы.
Но там есть один нюанс - категория Reason (способность к сложным рассуждениям) исторически была сделана очень сложной. GPT-4o подняла эту категорию с 62 (GPT-4 Turbo v3/1106-preview) до 75.
Что самое крышесносное - вся эта красота доступна не только по API, но и будет доступна в ChatGPT бесплатно. А это вызывает вопросик - что же такого OpenAI выкатят платным пользователям, чтобы те не ломанулись отменять подписки?
Ваш, @llm_under_hood 🤗
---
Описание работы, категорий и примеры кейсов есть в лабах. См другие бенчмарки по категории #bench
В комментариях люди переживают:
— а если эта модель лучше и столько умеет, она же дороже?
— а если эта модель будет доступна всем бесплатно, то как тогда OpenAI будут делать деньги на подписках?
Давайте расскажу. Новая модель И умнее, И дешевле, И быстрее. Так и выглядит прогресс🤷♂️
Вот график снижения цены от GPT-4 к Turbo, и потом к Omni.
(Хотя я честно говоря тоже думал, что будет дороже или хотя бы столько же)
То, что такое высокое качество будет доступно даже бесплатным пользователям ChatGPT — это невероятно просто. Но у них будут низкие лимиты, порядка 15-20 запросов в 3 часа. У платных же подписчиков будет ~80.
UPD:
— по API для разработчиков доступ уже есть, можно прям сейчас играться
— на сайте ChatGPT + в мобильном приложении обновлений пока нет. Насколько я понял, выкатывать будут постепенно, волнами, в ближайшие недели
— бесплатные пользователи ТОЖЕ будут играться с лучшей моделью. Не ясно, какие другие ограничения будут, кроме количества сообщений — им обещали даже отдать веб-поиск (то есть GPT сможет ходить в интернет) и интерпретатор кода. И доступ к GPTs.
— а если эта модель лучше и столько умеет, она же дороже?
— а если эта модель будет доступна всем бесплатно, то как тогда OpenAI будут делать деньги на подписках?
Давайте расскажу. Новая модель И умнее, И дешевле, И быстрее. Так и выглядит прогресс
Вот график снижения цены от GPT-4 к Turbo, и потом к Omni.
(Хотя я честно говоря тоже думал, что будет дороже или хотя бы столько же)
То, что такое высокое качество будет доступно даже бесплатным пользователям ChatGPT — это невероятно просто. Но у них будут низкие лимиты, порядка 15-20 запросов в 3 часа. У платных же подписчиков будет ~80.
UPD:
— по API для разработчиков доступ уже есть, можно прям сейчас играться
— на сайте ChatGPT + в мобильном приложении обновлений пока нет. Насколько я понял, выкатывать будут постепенно, волнами, в ближайшие недели
— бесплатные пользователи ТОЖЕ будут играться с лучшей моделью. Не ясно, какие другие ограничения будут, кроме количества сообщений — им обещали даже отдать веб-поиск (то есть GPT сможет ходить в интернет) и интерпретатор кода. И доступ к GPTs.
Please open Telegram to view this post
VIEW IN TELEGRAM
С утра читаю отзывы людей (негативные опущены, они тоже есть):
— Вау, такой голос! Как живое!
— Невероятно, всё утро веду диалог, мне теперь живые люди не нужны!
Штука в том, что свежая модель на данный момент для пользователей генерирует лишь текст. Генерацию голоса новой моделью, а также создание картинок завезут позднее, «в ближайшие недели».
Представьте, что будет когда включат эту функциональность, как люди обрадуются 😀
То есть как работало мобильное приложение ChatGPT раньше:
— Одна модель слушает вас, переводит речь в текст. На этом этапе теряются все эмоции, никаких тегов <вздох> или *радостно* там нет — просто текст
— Текст подаётся в GPT-4-Turbo (вторую модель) на вход (как будто бы вы сами написали сообщение своими руками)
— Эта модель генерирует ответ текстом
— Этот текст озвучивается третьей моделью. Она не может петь, шептать, играться интонацией. Если в запросе попросите её это сделать — она не будет следовать инструкции
Насколько я понимаю, на сегодняшний день эта функциональность сохраняется — несмотря на то, что модели с номерами 1 и 3 можно заменить на новую GPT-4o (она может нативно слушать вас и генерировать голос сразу, без вспомогательных средств). OpenAI не выкатывают всё сразу. А вот модель 2 как раз заменили. То есть сами ответы могут показаться умнее, уровень понимания тоже повысился — потому что LLM стала мощнее. И скорость выросла.
Не верите? Попробуйте попросить отвечать медленнее/быстрее, или даже шёпотом.
Sorry to disappoint you🤷♂️
— Вау, такой голос! Как живое!
— Невероятно, всё утро веду диалог, мне теперь живые люди не нужны!
Штука в том, что свежая модель на данный момент для пользователей генерирует лишь текст. Генерацию голоса новой моделью, а также создание картинок завезут позднее, «в ближайшие недели».
То есть как работало мобильное приложение ChatGPT раньше:
— Одна модель слушает вас, переводит речь в текст. На этом этапе теряются все эмоции, никаких тегов <вздох> или *радостно* там нет — просто текст
— Текст подаётся в GPT-4-Turbo (вторую модель) на вход (как будто бы вы сами написали сообщение своими руками)
— Эта модель генерирует ответ текстом
— Этот текст озвучивается третьей моделью. Она не может петь, шептать, играться интонацией. Если в запросе попросите её это сделать — она не будет следовать инструкции
Насколько я понимаю, на сегодняшний день эта функциональность сохраняется — несмотря на то, что модели с номерами 1 и 3 можно заменить на новую GPT-4o (она может нативно слушать вас и генерировать голос сразу, без вспомогательных средств). OpenAI не выкатывают всё сразу. А вот модель 2 как раз заменили. То есть сами ответы могут показаться умнее, уровень понимания тоже повысился — потому что LLM стала мощнее. И скорость выросла.
Не верите? Попробуйте попросить отвечать медленнее/быстрее, или даже шёпотом.
Sorry to disappoint you
Please open Telegram to view this post
VIEW IN TELEGRAM
Через 10 минут смотрим презентацию Google I/O, где ожидается ответ компании на анонсы OpenAI.
Ссылка: https://www.youtube.com/watch?v=XEzRZ35urlk
— Возможно, Gemini Ultra (1.5?) появится наконец в API
— Возможно, демо не будут сфабрикованы/сделаны со склейками видео, как в прошлый раз
— Возможно, в Ассистента на андроид пообещают добавить Gemini с поддержкой видео и аудио
— Возможно, покажут модель генерации видео (скриншоты сайта и даже гифки утекли на прошлой неделе)
Бинго карточки нет :(
Ссылка: https://www.youtube.com/watch?v=XEzRZ35urlk
— Возможно, Gemini Ultra (1.5?) появится наконец в API
— Возможно, демо не будут сфабрикованы/сделаны со склейками видео, как в прошлый раз
— Возможно, в Ассистента на андроид пообещают добавить Gemini с поддержкой видео и аудио
— Возможно, покажут модель генерации видео (скриншоты сайта и даже гифки утекли на прошлой неделе)
Бинго карточки нет :(
Ваши ожидания
Anonymous Poll
33%
у меня их нет
3%
будет лучше OpenAI
5%
будет так же, как у OpenAI
59%
будет хуже OpenAI
— Gemini 1.5 Pro (не Ultra!) с контекстным окном в 2M токенов (подняли с 1М) сделали доступным для всех — и для разработчиков в API (чтобы вы и я могли своё приложение сделать), и для пользователей.
— Также модель вкрутили в Google Gmail, она может писать черновик диалога, а также читает вложения и может отвечать по длинным документам и видео в аттаче.
— Ещё анонсировали Gemini 1.5 Flash — быструю версию модели (контекст тоже 1-2М, для расширения нужно оформить заявку) для задач, где важна низкая задержка перед ответом.
— Также модель вкрутили в Google Gmail, она может писать черновик диалога, а также читает вложения и может отвечать по длинным документам и видео в аттаче.
— Ещё анонсировали Gemini 1.5 Flash — быструю версию модели (контекст тоже 1-2М, для расширения нужно оформить заявку) для задач, где важна низкая задержка перед ответом.
— Показывают ранние наработки по агентам. Пример, который показали — это оформить возврат кросовок. Перерыть ваш имейл, найти нужное письмо о заказанных кросовках, имейл магазина, и даже договориться о месте, откуда их надо будет забрать.
— Второй пример выглядит интереснее, но сомневаюсь, что он будет работать в ближайшие полгода (Sundar говорит, что это на будущее). Вы переехали и у вас изменился адрес, и вы хотите поменять его на всех сайтах. Говорите ассистенту — и он обходит все аккаунты, меняет на новый адрес, а вы сидите пьёте кока-колу.
— Второй пример выглядит интереснее, но сомневаюсь, что он будет работать в ближайшие полгода (Sundar говорит, что это на будущее). Вы переехали и у вас изменился адрес, и вы хотите поменять его на всех сайтах. Говорите ассистенту — и он обходит все аккаунты, меняет на новый адрес, а вы сидите пьёте кока-колу.
Сиолошная
Ща будет про агентов и AI-ассистента. А нет, просто в общих словах сказали «ну вот агенты, будем делать, важно, контекст, мультимодальность, разговаривать должна».
Показали демку с телефона, сделав отметку, что всё снято без склеек и ускорений. Показали 4 юзкейса (что делает код на экране, как называется эта часть динамика, etc — просто Visual Question Answering), а потом показали, что оно работает не только на телефоне, но и на очках — внутри поселился ассистент, который видит то же, что и вы, и отвечает на вопросы с учётом визуального контекста.
Голос в демке куда менее живой относительно OpenAI, кажется тот же самый, что и был всегда в ассистенте, без улучшений.
Полное демо тут: https://fxtwitter.com/OfficialLoganK/status/1790434506920587386
Голос в демке куда менее живой относительно OpenAI, кажется тот же самый, что и был всегда в ассистенте, без улучшений.
Полное демо тут: https://fxtwitter.com/OfficialLoganK/status/1790434506920587386
Новая модель генерации картинок Imagen 3.
Основные фичи:
— генерация текста на картинке
— внимание к деталям в промпте
— фотореализм
Пока не доступно для широкой аудитории и разрабов, но можно опробовать на labs.google, если подать заявку.
Основные фичи:
— генерация текста на картинке
— внимание к деталям в промпте
— фотореализм
Пока не доступно для широкой аудитории и разрабов, но можно опробовать на labs.google, если подать заявку.
Модель генерации Veo — SORA от Google.
Демка длится чуть больше минуты, FullHD. Смотреть и оценивать тут:
https://fxtwitter.com/GoogleDeepMind/status/1790435824598716704
(переходить в твиттер для просмотра не надо, должно грузить в телеге)
Больше примеров: тут
👍 - лучше Sora
👎 - хуже
Доступа публичного нет, только по заявкам для избранных контент-криэйторов.
Демка длится чуть больше минуты, FullHD. Смотреть и оценивать тут:
https://fxtwitter.com/GoogleDeepMind/status/1790435824598716704
(переходить в твиттер для просмотра не надо, должно грузить в телеге)
Больше примеров: тут
👍 - лучше Sora
Доступа публичного нет, только по заявкам для избранных контент-криэйторов.
Please open Telegram to view this post
VIEW IN TELEGRAM
FxTwitter / FixupX
Google DeepMind (@GoogleDeepMind)
Introducing Veo: our most capable generative video model. 🎥
It can create high-quality, 1080p clips that can go beyond 60 seconds.
From photorealism to surrealism and animation, it can tackle a range of cinematic styles. 🧵 #GoogleIO
It can create high-quality, 1080p clips that can go beyond 60 seconds.
From photorealism to surrealism and animation, it can tackle a range of cinematic styles. 🧵 #GoogleIO
Новое железо для тренировки GenAI моделей — TPU 6 Trillium. Гонка масштабирования моделей продолжается 🔼
Обещают, что они более чем в 4 раза мощнее, чем предыдущее поколение.
Будет доступно клиентам в конце 2024го года! (но основной клиент всё равно будет сам Google — нужно продолжать учить модели, делать это дольше, делать их крупнее, вот это всё)
Обещают, что они более чем в 4 раза мощнее, чем предыдущее поколение.
Будет доступно клиентам в конце 2024го года! (но основной клиент всё равно будет сам Google — нужно продолжать учить модели, делать это дольше, делать их крупнее, вот это всё)
Please open Telegram to view this post
VIEW IN TELEGRAM
Примеры генерации без пережатия в превью.
Выглядит мыльно, все демки кроме одной — гораздо короче минуты.
Текстуры не такие стабильные. Короче, тут явно 👎
Выглядит мыльно, все демки кроме одной — гораздо короче минуты.
Текстуры не такие стабильные. Короче, тут явно 👎
Forwarded from Rozetked (Данил Гаращенко)
И на этом не всё — встречайте Veo
Нейросеть, которая может создавать видео с разрешением до 1080p и продолжительностью более 60 секунд. От фотореализма до сюрреализма и анимации.
Вот примеры работы нейросети.
💼 Rozetked | Подписаться
Нейросеть, которая может создавать видео с разрешением до 1080p и продолжительностью более 60 секунд. От фотореализма до сюрреализма и анимации.
Вот примеры работы нейросети.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM