эйай ньюз
59.7K subscribers
1.42K photos
734 videos
7 files
1.73K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
А вот мои приколюхи с помощью IC Light. Не стал париться с автоматиком, а в демке освещение изменятся только промптом. Оказывается, работает даже с пейзажами. Но мелкие детали все же коверкает.

На первой фотке - я катаюсь в Гудаури. На второй - вид на Сан-Франциско, который я сфоткал во время своей последней поездки.

@ai_newz
Орги ChatBot Arena проанализировали, как Llama-3 забралась так высоко на лидерборде.

Llama 3, будучи сравнительно маленькой моделью отстаёт от GPT-4 на более сложных задачах, типа матеши и ризонинга, судя по анализу от Lmsys. Но вот в креативных задачах и более абстрактных задачах, где нужно что-то придумать (куда сходить вечером и тп) выигрывает старшие модели причём со значительным отрывом. Таких запросов от юзеров по всей видимости большинство, и именно они закидывают ламу3 в топ. Но это не отвечает на вопрос, как ей удаётся побеждать старшие модели на этих запросах. Кажется, что если модель лучше и больше, то она должна быть умнее во всем.

Так почему же llama 3 так хороша? Если коротко, то это компьют и качественные данные.

- Датасет фильтровали и фильтровали, чтобы модель училась только на всем хорошем. Кстати секрет той же Dalle 3 или GPT-4 в том же. У Dalle3 картинки в трейн датасете очень подробно описаны gpt-шкой с виженом. А для самой GPT-4, понятно, тоже сильно фильтровали тексты.

- Есть такая гипотеза – Оптимальность модели по Шиншилле. Из нее следует, что для 8B модели оптимально по компьюту натренить ее на 200B токенах. И долгое время это считалось стандартом – якобы дальше тренить мелкую модель смысла нет, и лучше взять модель пожирнее. Но Llama3 натренили на 15 трлн токенов и она всё ещё продолжала учиться. Крч перетрейн капитальный.

- Аккуратный файнтюн на ручной разметке. Кроме почти уже стандартных supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO), и direct preference optimization (DPO) парни скормили лламе3 10 лямов размеченных вручную примеров.

Окей, с тяжелыми тасками она всё равно не очень справляется. Но, оказывается, это и не надо...🤷‍♀️

Юзеры обычно просят какую-нибудь фигню по типу "придумай то то, как сделать это..."
Лама благодаря хорошему датасету и ручному файнтюну просто оказалась очень харизматичной. Отвечает приятно, структура хорошая, на человека похожа:)

High-level Видосик про Llama3
Предыдущий пост про Llama3
Блог пост

@ai_newz
Немного с задержкой, но вот все-таки он:

Нейродайджест за неделю (#17)

1. Ла Лэ Мэ
  - Xiaomi из мира LLM. Deepseek V2. Топ за свои деньги, чуть хуже Llama 3.
  - Майки тизерят MAI-1, это будет их первенец; без помощи OpenAI. Есть закос на уровень GPT-4, но с 500B MoE.
  - Сравнительная таблица 100+ лучших LLM-ок для выбора под свои задачи.
  - В чем феномен Llama 3 или подробный анализ успеха всеми любимой ламы.

2. Тизеры и релизы
  - ElevenLabs снова всех уделал в звуке, представив свой txt2music. Судя по тизеру, у Suno и Udio нет шансов.
  - IC Light или кнопка "Сделай красиво" для фотошоперов. Плагин для A1111 и др. мэтчит освещение фона и добавленного предмета.

3. Интересное
- Определяем и делаем Jiggle physics 🍒 для гауссовских сплатов по сгенерированному видео.
  - Пускаем скупую мужскую слезу на олдскульные девайсы.


> Читать дайджест #16

#дайджест
@ai_newz
Курс по квантизации для тех, кто хочет быть в теме

Эндрю Ын, о котором здесь писалось уже не раз, вместе со спецами из обнимающего лица _marcsun и younesbelkada дропнул очередной эйай #ликбез. На этот раз о квантизации.

Квантизация — это сжатие модели с 32 до 16, 8 или даже 2 бит, не особо теряя при этом в качестве. Считай, raw перевели в jpeg. Так же как и без MoE современные ллм дорого тренировать, так и без квантизации их дорого инференсить - железо которое тянет эти килотонны весов влетает в копеечку.

Чему учат:
- применять си/асимметричную линейную квантизацию.
- квантизации на разных уровнях: по тензорам, по каналам, по группам.
- созданию квантизатора на практике с упаковкой до 2-х бит.

Ссылочка на курс

#ликбез
@ai_newz
Media is too big
VIEW IN TELEGRAM
OpenAI показали GPT-4o (omni), выбрал главное

Доступна для бесплатных пользователей

Запредельные результаты на Chatbot Arena - отрыв в 57 ELO на общих задачах и в 100 ELO на коде

Модель нативно понимает звук, с ней можно разговаривать, задержка разговора упала в 10 раз по сравнение с более ранним голосовым режимом

Она может петь

Нейронка понимает видео в реальном времени

У ChatGPT есть теперь приложение на MacOS, которому можно даже стримить экран!

В два раза быстрее и дешевле GPT-4 Turbo

Новый мультиязычный токенизатор - для для некоторых языков нужно теперь в 4.4x меньше токенов

За счёт этого модель суммарно в 3.5 раза дешевле для русского языка

Доступ к модели уже начали выдавать пользователям ChatGPT, API доступен разработчикам

Разговорный режим будет доступен для подписчиков Plus в ближайшие недели

Более продвинутые аудио и видео возможности дают ограниченным группам пользователей

Ждём завтрашнего Google I/O. Интересно, чем они смогут ответить.

>> Полное видео презентации
>> Страница модели с демками
>> Ещё офф пост с апдейтами

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Завтра Google I/O и они тизерят апдейты Gemini

Так же как и в GPT-4o есть поддержка видео, но задержка звука после презентации OpenAI ощущается ужасно - больше 3 секунд против 300 миллисекунд у GPT-4o.

@ai_newz
"Выигрыш в лотерею каждый день", "Японские первоклассные порнографические блокбастеры", "Бесплатные видео для просмотра онлайн"

Не бойтесь, меня не взломали. Это просто токены, которые нашли в новом мультиязычном токенизаторе GPT-4o, переведённые с китайского (大发快三的, _日本一级特黄大片, 免费视频在线观看). В датасет для тренировки токенизатора попала куча спама, и там теперь есть токены для рекламы казино, пиратского контента и просьб всяких нигерийских принцев

Я забираю обратно свои слова о том, что OpenAI тщательно фильтруют данные 😀

Это хороший пример того, какой бардак творится в токенизаторах даже SOTA LLM, и прекрасное напоминание о том, что и в OpenAI не боги горшки обжигают.

Какие ещё сюрпризы нас ждут в токенизаторе GPT-4o?

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Прикольный юзкейс GPT-4o – переводчик. Подумал, что мне оно могло бы пригодиться в поездах в Азию (Япония, Корея, Китай), где люди часто не знают английского от слова совсем. Несколько лет назад я пользовался Google Translate в таких ситуациях, и он, конечно, ни в какие сравнения не идет с GPT-4o. А тут гэпэтэшка так бодренько переводит приятным голосом, да и с минимальными задержками.

@ai_newz
Через двадцать минут основная презентация Google I/O, так что вот мой минимальный список ожиданий:

* Релиз Gemini 1.5 Pro за пределами AI Studio

* Анонс (и желательно релиз) Gemini 1.5 Ultra

* Анонс, или хоть какой-то намёк на совместный VR шлем Google и Samsung

* Память и аналог GPTs для Gemini

* Видео функционал который они тизерили вчера

Хотелось бы увидеть какие-то подвижки к Gemini 2.0, побольше окно контекста для API Gemini 1.5, хоть какие-то опенсорс релизы и аналоги функционала со вчерашней презентации GPT-4o, но тут есть сомнения.

Я конечно же напишу пост по итогам, а стрим посмотреть можно тут (пока что там бегает вылезший из чашки диджей и поставляет кринж в промышленных масштабах).

@ai_newz
Forwarded from khamidov
Google в 2018: Фантастическая технология Duplex, бронирует за тебя встречи, общается как реальный человек

Google спустя 6 лет:
This media is not supported in your browser
VIEW IN TELEGRAM
Выкатили улучшенную Gemini 1.5 Pro.

- Она теперь доступна в Gemini Advanced (примиумная подписка) и для разработчиков.

- В Gemini 1.5 Pro (доступна в чате gemini.google.com) теперь длина контекста 1 млн токенов! Это прvерно 1.5k страниц тектса и больше чем вся книга "Война и Мир".

- Обещают вскоре добавить поддержку видео - до 1 часа.

- В приватном превью для разработчиков будет доступна версия с контекстом в 2 млн токенов!

https://blog.google/products/gemini/google-gemini-update-may-2024/

@ai_newz
Gemini 1.5 Flash - легкая и быстрая модель

На сцену выпустили Демиса Хассабиса, главу Google DeepMind.

Он показал Gemini 1.5 Flash, более лёгкую модель, оптимизированную для низкой задержки.
- Размер контекста у нее 1 миллионом токенов, и она лучше по бенчмаркам (смотри в комментах) чем предыдущая Gemini 1.0 Pro, и, конечно, быстрее.
- Умеет в мультимодальность.
- Уже доступна как public preview: тут

Это довольно круто. Думаю, что это своего рода GPT4-Turbo от Google.

>> Подбробности

@ai_newz
Imagen 3 - новая моделька для генерации изображений.

Лучше понимает длинные промпты и рендерит текст.

Будет несколько версий Imagen 3, каждая оптимизирована для разных задач. От быстрой генерации скетчей, до high-res изображений.

>> Подробности | Записаться в вейтлист

@ai_newz
Veo - конкурент Sora от Google

Понимает промпты в виде текста, видео и картинок, генерит в 1080p.

Модель доступна через вайтлист на labs.google, заявки уже принимаются.

@ai_newz
Новое железо!

1. Представили новое поколение чипов для тренировки от Google - TPU v6 Trillium, в 4.7 раз быстрее текущего поколения, будут доступны клиентам в конце 2024 года.

https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus

2. Гугл создал свой собственый Arm CPU: Axion для датацентров.

https://cloud.google.com/blog/products/compute/introducing-googles-new-arm-based-cpu

@ai_newz