Forwarded from Denis Sexy IT 🤖
Примеры возможностей нового GPT4o ассистента – серьезно, фильм "Her" теперь реальность
Сиолошная
Video
Послушайте тут второе видео с 0:53 (даже если не знаете английский — можете оценить интонацию)
Ну охренеть же?
Ну охренеть же?
Сиолошная
Официальная страница модели: https://openai.com/index/hello-gpt-4o/ По этой ссылке много демо вроде тех, что было в посте выше (10+) Страница с доп. информацией: https://openai.com/index/spring-update/ Что интересного найду — буду в этот пост кидать (если…
Я не понял прикола, просто половину того, что можно было бы показать — не показали. Все демки на сайте — уникальные. Вот например есть суммаризация 45-минутного видео. Это типа «ну это она может, конечно, зачем такое упоминать?»
Почти уверен, что длина контекста сильно выросла — раньше 45 минут точно не влазило.
Почти уверен, что длина контекста сильно выросла — раньше 45 минут точно не влазило.
Forwarded from addmeto (Grigory Bakunov)
Please open Telegram to view this post
VIEW IN TELEGRAM
Ничего нового, просто свежая модель снова сверху 😨
Видимо, обучение разговору помогло модели прокачать эмоциональный интеллект, и продвинуться в размышлениях
Видимо, обучение разговору помогло модели прокачать эмоциональный интеллект, и продвинуться в размышлениях
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from LLM под капотом
Продуктовые LLM Бенчмарки GPT-4o 🤩
GPT-4o модель очень шустра, обладает контекстом в 128K и стоит дешевле GPT-4 Turbo. А еще умеет понимать эмоции и выражать их.
Под капотом у нее расширенный словарь, который в разы уменьшает число tokens, которые использует модель. Говорят, что улучшили понимание языков.
Особо сильного скачка у модели не было, т.к. модели OpenAI там уже практически уперлись в потолок - она просто обновила максимумы.
Но там есть один нюанс - категория Reason (способность к сложным рассуждениям) исторически была сделана очень сложной. GPT-4o подняла эту категорию с 62 (GPT-4 Turbo v3/1106-preview) до 75.
Что самое крышесносное - вся эта красота доступна не только по API, но и будет доступна в ChatGPT бесплатно. А это вызывает вопросик - что же такого OpenAI выкатят платным пользователям, чтобы те не ломанулись отменять подписки?
Ваш, @llm_under_hood 🤗
---
Описание работы, категорий и примеры кейсов есть в лабах. См другие бенчмарки по категории #bench
GPT-4o модель очень шустра, обладает контекстом в 128K и стоит дешевле GPT-4 Turbo. А еще умеет понимать эмоции и выражать их.
Под капотом у нее расширенный словарь, который в разы уменьшает число tokens, которые использует модель. Говорят, что улучшили понимание языков.
Особо сильного скачка у модели не было, т.к. модели OpenAI там уже практически уперлись в потолок - она просто обновила максимумы.
Но там есть один нюанс - категория Reason (способность к сложным рассуждениям) исторически была сделана очень сложной. GPT-4o подняла эту категорию с 62 (GPT-4 Turbo v3/1106-preview) до 75.
Что самое крышесносное - вся эта красота доступна не только по API, но и будет доступна в ChatGPT бесплатно. А это вызывает вопросик - что же такого OpenAI выкатят платным пользователям, чтобы те не ломанулись отменять подписки?
Ваш, @llm_under_hood 🤗
---
Описание работы, категорий и примеры кейсов есть в лабах. См другие бенчмарки по категории #bench
В комментариях люди переживают:
— а если эта модель лучше и столько умеет, она же дороже?
— а если эта модель будет доступна всем бесплатно, то как тогда OpenAI будут делать деньги на подписках?
Давайте расскажу. Новая модель И умнее, И дешевле, И быстрее. Так и выглядит прогресс🤷♂️
Вот график снижения цены от GPT-4 к Turbo, и потом к Omni.
(Хотя я честно говоря тоже думал, что будет дороже или хотя бы столько же)
То, что такое высокое качество будет доступно даже бесплатным пользователям ChatGPT — это невероятно просто. Но у них будут низкие лимиты, порядка 15-20 запросов в 3 часа. У платных же подписчиков будет ~80.
UPD:
— по API для разработчиков доступ уже есть, можно прям сейчас играться
— на сайте ChatGPT + в мобильном приложении обновлений пока нет. Насколько я понял, выкатывать будут постепенно, волнами, в ближайшие недели
— бесплатные пользователи ТОЖЕ будут играться с лучшей моделью. Не ясно, какие другие ограничения будут, кроме количества сообщений — им обещали даже отдать веб-поиск (то есть GPT сможет ходить в интернет) и интерпретатор кода. И доступ к GPTs.
— а если эта модель лучше и столько умеет, она же дороже?
— а если эта модель будет доступна всем бесплатно, то как тогда OpenAI будут делать деньги на подписках?
Давайте расскажу. Новая модель И умнее, И дешевле, И быстрее. Так и выглядит прогресс
Вот график снижения цены от GPT-4 к Turbo, и потом к Omni.
(Хотя я честно говоря тоже думал, что будет дороже или хотя бы столько же)
То, что такое высокое качество будет доступно даже бесплатным пользователям ChatGPT — это невероятно просто. Но у них будут низкие лимиты, порядка 15-20 запросов в 3 часа. У платных же подписчиков будет ~80.
UPD:
— по API для разработчиков доступ уже есть, можно прям сейчас играться
— на сайте ChatGPT + в мобильном приложении обновлений пока нет. Насколько я понял, выкатывать будут постепенно, волнами, в ближайшие недели
— бесплатные пользователи ТОЖЕ будут играться с лучшей моделью. Не ясно, какие другие ограничения будут, кроме количества сообщений — им обещали даже отдать веб-поиск (то есть GPT сможет ходить в интернет) и интерпретатор кода. И доступ к GPTs.
Please open Telegram to view this post
VIEW IN TELEGRAM
С утра читаю отзывы людей (негативные опущены, они тоже есть):
— Вау, такой голос! Как живое!
— Невероятно, всё утро веду диалог, мне теперь живые люди не нужны!
Штука в том, что свежая модель на данный момент для пользователей генерирует лишь текст. Генерацию голоса новой моделью, а также создание картинок завезут позднее, «в ближайшие недели».
Представьте, что будет когда включат эту функциональность, как люди обрадуются 😀
То есть как работало мобильное приложение ChatGPT раньше:
— Одна модель слушает вас, переводит речь в текст. На этом этапе теряются все эмоции, никаких тегов <вздох> или *радостно* там нет — просто текст
— Текст подаётся в GPT-4-Turbo (вторую модель) на вход (как будто бы вы сами написали сообщение своими руками)
— Эта модель генерирует ответ текстом
— Этот текст озвучивается третьей моделью. Она не может петь, шептать, играться интонацией. Если в запросе попросите её это сделать — она не будет следовать инструкции
Насколько я понимаю, на сегодняшний день эта функциональность сохраняется — несмотря на то, что модели с номерами 1 и 3 можно заменить на новую GPT-4o (она может нативно слушать вас и генерировать голос сразу, без вспомогательных средств). OpenAI не выкатывают всё сразу. А вот модель 2 как раз заменили. То есть сами ответы могут показаться умнее, уровень понимания тоже повысился — потому что LLM стала мощнее. И скорость выросла.
Не верите? Попробуйте попросить отвечать медленнее/быстрее, или даже шёпотом.
Sorry to disappoint you🤷♂️
— Вау, такой голос! Как живое!
— Невероятно, всё утро веду диалог, мне теперь живые люди не нужны!
Штука в том, что свежая модель на данный момент для пользователей генерирует лишь текст. Генерацию голоса новой моделью, а также создание картинок завезут позднее, «в ближайшие недели».
То есть как работало мобильное приложение ChatGPT раньше:
— Одна модель слушает вас, переводит речь в текст. На этом этапе теряются все эмоции, никаких тегов <вздох> или *радостно* там нет — просто текст
— Текст подаётся в GPT-4-Turbo (вторую модель) на вход (как будто бы вы сами написали сообщение своими руками)
— Эта модель генерирует ответ текстом
— Этот текст озвучивается третьей моделью. Она не может петь, шептать, играться интонацией. Если в запросе попросите её это сделать — она не будет следовать инструкции
Насколько я понимаю, на сегодняшний день эта функциональность сохраняется — несмотря на то, что модели с номерами 1 и 3 можно заменить на новую GPT-4o (она может нативно слушать вас и генерировать голос сразу, без вспомогательных средств). OpenAI не выкатывают всё сразу. А вот модель 2 как раз заменили. То есть сами ответы могут показаться умнее, уровень понимания тоже повысился — потому что LLM стала мощнее. И скорость выросла.
Не верите? Попробуйте попросить отвечать медленнее/быстрее, или даже шёпотом.
Sorry to disappoint you
Please open Telegram to view this post
VIEW IN TELEGRAM
Через 10 минут смотрим презентацию Google I/O, где ожидается ответ компании на анонсы OpenAI.
Ссылка: https://www.youtube.com/watch?v=XEzRZ35urlk
— Возможно, Gemini Ultra (1.5?) появится наконец в API
— Возможно, демо не будут сфабрикованы/сделаны со склейками видео, как в прошлый раз
— Возможно, в Ассистента на андроид пообещают добавить Gemini с поддержкой видео и аудио
— Возможно, покажут модель генерации видео (скриншоты сайта и даже гифки утекли на прошлой неделе)
Бинго карточки нет :(
Ссылка: https://www.youtube.com/watch?v=XEzRZ35urlk
— Возможно, Gemini Ultra (1.5?) появится наконец в API
— Возможно, демо не будут сфабрикованы/сделаны со склейками видео, как в прошлый раз
— Возможно, в Ассистента на андроид пообещают добавить Gemini с поддержкой видео и аудио
— Возможно, покажут модель генерации видео (скриншоты сайта и даже гифки утекли на прошлой неделе)
Бинго карточки нет :(
Ваши ожидания
Anonymous Poll
33%
у меня их нет
3%
будет лучше OpenAI
5%
будет так же, как у OpenAI
59%
будет хуже OpenAI
— Gemini 1.5 Pro (не Ultra!) с контекстным окном в 2M токенов (подняли с 1М) сделали доступным для всех — и для разработчиков в API (чтобы вы и я могли своё приложение сделать), и для пользователей.
— Также модель вкрутили в Google Gmail, она может писать черновик диалога, а также читает вложения и может отвечать по длинным документам и видео в аттаче.
— Ещё анонсировали Gemini 1.5 Flash — быструю версию модели (контекст тоже 1-2М, для расширения нужно оформить заявку) для задач, где важна низкая задержка перед ответом.
— Также модель вкрутили в Google Gmail, она может писать черновик диалога, а также читает вложения и может отвечать по длинным документам и видео в аттаче.
— Ещё анонсировали Gemini 1.5 Flash — быструю версию модели (контекст тоже 1-2М, для расширения нужно оформить заявку) для задач, где важна низкая задержка перед ответом.
— Показывают ранние наработки по агентам. Пример, который показали — это оформить возврат кросовок. Перерыть ваш имейл, найти нужное письмо о заказанных кросовках, имейл магазина, и даже договориться о месте, откуда их надо будет забрать.
— Второй пример выглядит интереснее, но сомневаюсь, что он будет работать в ближайшие полгода (Sundar говорит, что это на будущее). Вы переехали и у вас изменился адрес, и вы хотите поменять его на всех сайтах. Говорите ассистенту — и он обходит все аккаунты, меняет на новый адрес, а вы сидите пьёте кока-колу.
— Второй пример выглядит интереснее, но сомневаюсь, что он будет работать в ближайшие полгода (Sundar говорит, что это на будущее). Вы переехали и у вас изменился адрес, и вы хотите поменять его на всех сайтах. Говорите ассистенту — и он обходит все аккаунты, меняет на новый адрес, а вы сидите пьёте кока-колу.
Сиолошная
Ща будет про агентов и AI-ассистента. А нет, просто в общих словах сказали «ну вот агенты, будем делать, важно, контекст, мультимодальность, разговаривать должна».
Показали демку с телефона, сделав отметку, что всё снято без склеек и ускорений. Показали 4 юзкейса (что делает код на экране, как называется эта часть динамика, etc — просто Visual Question Answering), а потом показали, что оно работает не только на телефоне, но и на очках — внутри поселился ассистент, который видит то же, что и вы, и отвечает на вопросы с учётом визуального контекста.
Голос в демке куда менее живой относительно OpenAI, кажется тот же самый, что и был всегда в ассистенте, без улучшений.
Полное демо тут: https://fxtwitter.com/OfficialLoganK/status/1790434506920587386
Голос в демке куда менее живой относительно OpenAI, кажется тот же самый, что и был всегда в ассистенте, без улучшений.
Полное демо тут: https://fxtwitter.com/OfficialLoganK/status/1790434506920587386