Сиолошная
44.9K subscribers
780 photos
144 videos
1 file
963 links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Сиолошная
Официальная страница модели: https://openai.com/index/hello-gpt-4o/ По этой ссылке много демо вроде тех, что было в посте выше (10+) Страница с доп. информацией: https://openai.com/index/spring-update/ Что интересного найду — буду в этот пост кидать (если…
Я не понял прикола, просто половину того, что можно было бы показать — не показали. Все демки на сайте — уникальные. Вот например есть суммаризация 45-минутного видео. Это типа «ну это она может, конечно, зачем такое упоминать?»

Почти уверен, что длина контекста сильно выросла — раньше 45 минут точно не влазило.
Forwarded from addmeto (Grigory Bakunov)
Please open Telegram to view this post
VIEW IN TELEGRAM
Ничего нового, просто свежая модель снова сверху 😨

Видимо, обучение разговору помогло модели прокачать эмоциональный интеллект, и продвинуться в размышлениях
Please open Telegram to view this post
VIEW IN TELEGRAM
Продуктовые LLM Бенчмарки GPT-4o 🤩


GPT-4o модель очень шустра, обладает контекстом в 128K и стоит дешевле GPT-4 Turbo. А еще умеет понимать эмоции и выражать их.

Под капотом у нее расширенный словарь, который в разы уменьшает число tokens, которые использует модель. Говорят, что улучшили понимание языков.

Особо сильного скачка у модели не было, т.к. модели OpenAI там уже практически уперлись в потолок - она просто обновила максимумы.

Но там есть один нюанс - категория Reason (способность к сложным рассуждениям) исторически была сделана очень сложной. GPT-4o подняла эту категорию с 62 (GPT-4 Turbo v3/1106-preview) до 75.

Что самое крышесносное - вся эта красота доступна не только по API, но и будет доступна в ChatGPT бесплатно. А это вызывает вопросик - что же такого OpenAI выкатят платным пользователям, чтобы те не ломанулись отменять подписки?

Ваш, @llm_under_hood 🤗

---


Описание работы, категорий и примеры кейсов есть в лабах. См другие бенчмарки по категории #bench
В комментариях люди переживают:
— а если эта модель лучше и столько умеет, она же дороже?
— а если эта модель будет доступна всем бесплатно, то как тогда OpenAI будут делать деньги на подписках?

Давайте расскажу. Новая модель И умнее, И дешевле, И быстрее. Так и выглядит прогресс 🤷‍♂️

Вот график снижения цены от GPT-4 к Turbo, и потом к Omni.

(Хотя я честно говоря тоже думал, что будет дороже или хотя бы столько же)

То, что такое высокое качество будет доступно даже бесплатным пользователям ChatGPT — это невероятно просто. Но у них будут низкие лимиты, порядка 15-20 запросов в 3 часа. У платных же подписчиков будет ~80.

UPD:
— по API для разработчиков доступ уже есть, можно прям сейчас играться
— на сайте ChatGPT + в мобильном приложении обновлений пока нет. Насколько я понял, выкатывать будут постепенно, волнами, в ближайшие недели
— бесплатные пользователи ТОЖЕ будут играться с лучшей моделью. Не ясно, какие другие ограничения будут, кроме количества сообщений — им обещали даже отдать веб-поиск (то есть GPT сможет ходить в интернет) и интерпретатор кода. И доступ к GPTs.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
(войс не мой, а приятеля, но он прав)
С утра читаю отзывы людей (негативные опущены, они тоже есть):
— Вау, такой голос! Как живое!
— Невероятно, всё утро веду диалог, мне теперь живые люди не нужны!

Штука в том, что свежая модель на данный момент для пользователей генерирует лишь текст. Генерацию голоса новой моделью, а также создание картинок завезут позднее, «в ближайшие недели».
Представьте, что будет когда включат эту функциональность, как люди обрадуются 😀

То есть как работало мобильное приложение ChatGPT раньше:
— Одна модель слушает вас, переводит речь в текст. На этом этапе теряются все эмоции, никаких тегов <вздох> или *радостно* там нет — просто текст
— Текст подаётся в GPT-4-Turbo (вторую модель) на вход (как будто бы вы сами написали сообщение своими руками)
— Эта модель генерирует ответ текстом
— Этот текст озвучивается третьей моделью. Она не может петь, шептать, играться интонацией. Если в запросе попросите её это сделать — она не будет следовать инструкции

Насколько я понимаю, на сегодняшний день эта функциональность сохраняется — несмотря на то, что модели с номерами 1 и 3 можно заменить на новую GPT-4o (она может нативно слушать вас и генерировать голос сразу, без вспомогательных средств). OpenAI не выкатывают всё сразу. А вот модель 2 как раз заменили. То есть сами ответы могут показаться умнее, уровень понимания тоже повысился — потому что LLM стала мощнее. И скорость выросла.

Не верите? Попробуйте попросить отвечать медленнее/быстрее, или даже шёпотом.

Sorry to disappoint you 🤷‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
Через 10 минут смотрим презентацию Google I/O, где ожидается ответ компании на анонсы OpenAI.

Ссылка: https://www.youtube.com/watch?v=XEzRZ35urlk

— Возможно, Gemini Ultra (1.5?) появится наконец в API

— Возможно, демо не будут сфабрикованы/сделаны со склейками видео, как в прошлый раз

— Возможно, в Ассистента на андроид пообещают добавить Gemini с поддержкой видео и аудио

— Возможно, покажут модель генерации видео (скриншоты сайта и даже гифки утекли на прошлой неделе)

Бинго карточки нет :(
— Gemini 1.5 Pro (не Ultra!) с контекстным окном в 2M токенов (подняли с 1М) сделали доступным для всех — и для разработчиков в API (чтобы вы и я могли своё приложение сделать), и для пользователей.

— Также модель вкрутили в Google Gmail, она может писать черновик диалога, а также читает вложения и может отвечать по длинным документам и видео в аттаче.

— Ещё анонсировали Gemini 1.5 Flash — быструю версию модели (контекст тоже 1-2М, для расширения нужно оформить заявку) для задач, где важна низкая задержка перед ответом.
— Показывают ранние наработки по агентам. Пример, который показали — это оформить возврат кросовок. Перерыть ваш имейл, найти нужное письмо о заказанных кросовках, имейл магазина, и даже договориться о месте, откуда их надо будет забрать.

— Второй пример выглядит интереснее, но сомневаюсь, что он будет работать в ближайшие полгода (Sundar говорит, что это на будущее). Вы переехали и у вас изменился адрес, и вы хотите поменять его на всех сайтах. Говорите ассистенту — и он обходит все аккаунты, меняет на новый адрес, а вы сидите пьёте кока-колу.
Ща будет про агентов и AI-ассистента. А нет, просто в общих словах сказали «ну вот агенты, будем делать, важно, контекст, мультимодальность, разговаривать должна».
Сиолошная
Ща будет про агентов и AI-ассистента. А нет, просто в общих словах сказали «ну вот агенты, будем делать, важно, контекст, мультимодальность, разговаривать должна».
Показали демку с телефона, сделав отметку, что всё снято без склеек и ускорений. Показали 4 юзкейса (что делает код на экране, как называется эта часть динамика, etc — просто Visual Question Answering), а потом показали, что оно работает не только на телефоне, но и на очках — внутри поселился ассистент, который видит то же, что и вы, и отвечает на вопросы с учётом визуального контекста.

Голос в демке куда менее живой относительно OpenAI, кажется тот же самый, что и был всегда в ассистенте, без улучшений.

Полное демо тут: https://fxtwitter.com/OfficialLoganK/status/1790434506920587386
Новая модель генерации картинок Imagen 3.

Основные фичи:
— генерация текста на картинке
— внимание к деталям в промпте
— фотореализм

Пока не доступно для широкой аудитории и разрабов, но можно опробовать на labs.google, если подать заявку.
Модель генерации Veo — SORA от Google.

Демка длится чуть больше минуты, FullHD. Смотреть и оценивать тут:

https://fxtwitter.com/GoogleDeepMind/status/1790435824598716704
(переходить в твиттер для просмотра не надо, должно грузить в телеге)

Больше примеров: тут

👍 - лучше Sora
👎- хуже

Доступа публичного нет, только по заявкам для избранных контент-криэйторов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Новое железо для тренировки GenAI моделей — TPU 6 Trillium. Гонка масштабирования моделей продолжается 🔼
Обещают, что они более чем в 4 раза мощнее, чем предыдущее поколение.

Будет доступно клиентам в конце 2024го года! (но основной клиент всё равно будет сам Google — нужно продолжать учить модели, делать это дольше, делать их крупнее, вот это всё)
Please open Telegram to view this post
VIEW IN TELEGRAM
Примеры генерации без пережатия в превью.

Выглядит мыльно, все демки кроме одной — гораздо короче минуты.

Текстуры не такие стабильные. Короче, тут явно 👎