Сиолошная
51.7K subscribers
981 photos
177 videos
1 file
1.15K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
С утра читаю отзывы людей (негативные опущены, они тоже есть):
— Вау, такой голос! Как живое!
— Невероятно, всё утро веду диалог, мне теперь живые люди не нужны!

Штука в том, что свежая модель на данный момент для пользователей генерирует лишь текст. Генерацию голоса новой моделью, а также создание картинок завезут позднее, «в ближайшие недели».
Представьте, что будет когда включат эту функциональность, как люди обрадуются 😀

То есть как работало мобильное приложение ChatGPT раньше:
— Одна модель слушает вас, переводит речь в текст. На этом этапе теряются все эмоции, никаких тегов <вздох> или *радостно* там нет — просто текст
— Текст подаётся в GPT-4-Turbo (вторую модель) на вход (как будто бы вы сами написали сообщение своими руками)
— Эта модель генерирует ответ текстом
— Этот текст озвучивается третьей моделью. Она не может петь, шептать, играться интонацией. Если в запросе попросите её это сделать — она не будет следовать инструкции

Насколько я понимаю, на сегодняшний день эта функциональность сохраняется — несмотря на то, что модели с номерами 1 и 3 можно заменить на новую GPT-4o (она может нативно слушать вас и генерировать голос сразу, без вспомогательных средств). OpenAI не выкатывают всё сразу. А вот модель 2 как раз заменили. То есть сами ответы могут показаться умнее, уровень понимания тоже повысился — потому что LLM стала мощнее. И скорость выросла.

Не верите? Попробуйте попросить отвечать медленнее/быстрее, или даже шёпотом.

Sorry to disappoint you 🤷‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
Через 10 минут смотрим презентацию Google I/O, где ожидается ответ компании на анонсы OpenAI.

Ссылка: https://www.youtube.com/watch?v=XEzRZ35urlk

— Возможно, Gemini Ultra (1.5?) появится наконец в API

— Возможно, демо не будут сфабрикованы/сделаны со склейками видео, как в прошлый раз

— Возможно, в Ассистента на андроид пообещают добавить Gemini с поддержкой видео и аудио

— Возможно, покажут модель генерации видео (скриншоты сайта и даже гифки утекли на прошлой неделе)

Бинго карточки нет :(
— Gemini 1.5 Pro (не Ultra!) с контекстным окном в 2M токенов (подняли с 1М) сделали доступным для всех — и для разработчиков в API (чтобы вы и я могли своё приложение сделать), и для пользователей.

— Также модель вкрутили в Google Gmail, она может писать черновик диалога, а также читает вложения и может отвечать по длинным документам и видео в аттаче.

— Ещё анонсировали Gemini 1.5 Flash — быструю версию модели (контекст тоже 1-2М, для расширения нужно оформить заявку) для задач, где важна низкая задержка перед ответом.
— Показывают ранние наработки по агентам. Пример, который показали — это оформить возврат кросовок. Перерыть ваш имейл, найти нужное письмо о заказанных кросовках, имейл магазина, и даже договориться о месте, откуда их надо будет забрать.

— Второй пример выглядит интереснее, но сомневаюсь, что он будет работать в ближайшие полгода (Sundar говорит, что это на будущее). Вы переехали и у вас изменился адрес, и вы хотите поменять его на всех сайтах. Говорите ассистенту — и он обходит все аккаунты, меняет на новый адрес, а вы сидите пьёте кока-колу.
Ща будет про агентов и AI-ассистента. А нет, просто в общих словах сказали «ну вот агенты, будем делать, важно, контекст, мультимодальность, разговаривать должна».
Сиолошная
Ща будет про агентов и AI-ассистента. А нет, просто в общих словах сказали «ну вот агенты, будем делать, важно, контекст, мультимодальность, разговаривать должна».
Показали демку с телефона, сделав отметку, что всё снято без склеек и ускорений. Показали 4 юзкейса (что делает код на экране, как называется эта часть динамика, etc — просто Visual Question Answering), а потом показали, что оно работает не только на телефоне, но и на очках — внутри поселился ассистент, который видит то же, что и вы, и отвечает на вопросы с учётом визуального контекста.

Голос в демке куда менее живой относительно OpenAI, кажется тот же самый, что и был всегда в ассистенте, без улучшений.

Полное демо тут: https://fxtwitter.com/OfficialLoganK/status/1790434506920587386
Новая модель генерации картинок Imagen 3.

Основные фичи:
— генерация текста на картинке
— внимание к деталям в промпте
— фотореализм

Пока не доступно для широкой аудитории и разрабов, но можно опробовать на labs.google, если подать заявку.
Модель генерации Veo — SORA от Google.

Демка длится чуть больше минуты, FullHD. Смотреть и оценивать тут:

https://fxtwitter.com/GoogleDeepMind/status/1790435824598716704
(переходить в твиттер для просмотра не надо, должно грузить в телеге)

Больше примеров: тут

👍 - лучше Sora
👎- хуже

Доступа публичного нет, только по заявкам для избранных контент-криэйторов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Новое железо для тренировки GenAI моделей — TPU 6 Trillium. Гонка масштабирования моделей продолжается 🔼
Обещают, что они более чем в 4 раза мощнее, чем предыдущее поколение.

Будет доступно клиентам в конце 2024го года! (но основной клиент всё равно будет сам Google — нужно продолжать учить модели, делать это дольше, делать их крупнее, вот это всё)
Please open Telegram to view this post
VIEW IN TELEGRAM
Примеры генерации без пережатия в превью.

Выглядит мыльно, все демки кроме одной — гораздо короче минуты.

Текстуры не такие стабильные. Короче, тут явно 👎
Forwarded from Rozetked (Данил Гаращенко)
И на этом не всё — встречайте Veo

Нейросеть, которая может создавать видео с разрешением до 1080p и продолжительностью более 60 секунд. От фотореализма до сюрреализма и анимации.

Вот примеры работы нейросети.

💼 Rozetked | Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Дальше полчаса показывали скучные демо (люди в зале зевали). Что-то там наверное для кого-то будет полезно (например, фичи в поиске с умным поиском — когда их выкатят, в 2026м видимо). LLM в окне чата тут, кнопочка 💫 magic там.

«Позже в этом году», «Это наше раннее видение», «В продукте которым вы не пользуетесь» и так далее.

Google понять можно — они не могут брать самые-самые большие модели, чтобы использовать их и показывать крутые сценарии использования. У них более 2 миллиардов пользователей, и экономика просто не сойдётся. А с маленькими и дешёвыми для использования моделями показать чего-то супер-крутого не получается.

Концепция умного поиска по видео, с LLM поверх — круто. Саммари рабочих чатов и созвонов — круто. Многоступенчатый поиск с декомпозицией — круто. Gemini Nano на телефоне для быстрой обработки — круто. А ешё релизнут в открытую PaLIGemma-модельку (больше тут).

Но надо пробовать, и конкретных дат, когда появится, нет (или оно уже есть? а я не знаю, потому что среди 50 анонсов микро-фичей как-то забылось, что есть, а чего надо ждать).

===

Самое большое удивление для меня — если акции гугла не упадут на 5%+
Но, как написали в комментариях, «Можно считать, что гуглы успешно отчитались перед акционерами, что у них более 10 отделов разработки ИИ заняты полезными вещами, активная деятельность кипит. Наверно не упадут акции»
🥺 😪 🤕
Please open Telegram to view this post
VIEW IN TELEGRAM
Ilya Sutskever, принял решение покинуть OpenAI. Он работал Chief Scientist'ом, и отвечал за направление SuperAlignment. Именно из-за него поссорились Elon Musk и Demis Hassabis, так как первый уговорил Ilya покинуть Google в пользу основания OpenAI

«Траектория развития компании была чудесной, и я уверен, что OpenAI под руководством текущих лидеров создадут безопасный и полезный AGI. Для меня было честью и привилегией работать вместе, и я буду очень скучать по всем. Спасибо за все! Я с нетерпением жду того, что будет дальше — проекта, который очень важен для меня лично, о котором я поделюсь подробностями, когда придёт время» — написал Ilya.

Sam прокомментировал:
«Мне очень грустно; Ilya – один из величайших умов нашего поколения, путеводный свет в нашей области и дорогой друг. Его блестящие способности и дальновидность хорошо известны; его теплота и сострадание менее известны, но не менее важны. Без него OpenAI не были бы тем, чем мы являемся. Хотя у него есть что-то значимое, над чем он собирается работать, я навсегда благодарен за то, что он сделал здесь, и полон решимости завершить миссию, которую мы начали вместе. Я счастлив, что так мне удалось долго работать рядом с таким поистине выдающимся гением и человеком, столь сосредоточенном на достижении лучшего будущего для человечества»

Место Ilya по научной части займет Jakub Pachocki (на фото — слева), работающий в компании с допотопных времён. Не уточняется, займется ли он Alignment'ом.
Сейчас в мире помимо очевидных гонок происходит и одна куда менее заметная — за новый форм-фактор устройств, в которых будут жить AI-ассистенты будущего. На ум приходят недавно провалившиеся R1 Rabbit или AI Pin, порождённые стартапами, но и крупные игроки копошатся за кулисами.

Например, Meta рассматривает возможность сделать наушники с камерами — правда ни один дизайн пока не одобрен Zuck'ом. «По словам источника, при изготовлении наушников камеры можно разместить на закругленной внешней части наушника и обозревать сверхширокий угол. А кадры с двух наушников затем можно соединить вместе, создав 360-градусное изображение». А ведь ещё нужно батарейку куда-то впихнуть...

Weird. Когда я прочитал заголовок, то подумал про полноценные большие гарнитуры — а оказывается, что речь про мелкие вкладыши! Но я, знаете ли, тоже своего рода дизайнер (дизайнер Котенков), поэтому прилагаю свой вариант. Камеры тоже будут размещены в ушках, но сверху. И батарейка большая будет в основных чашах, и звук качественный — одни плюсы.

Купили бы такое? Ну а что — будем жить в мире котиков 👀
Please open Telegram to view this post
VIEW IN TELEGRAM