эйай ньюз

А вот мои приколюхи с помощью IC Light. Не стал париться с автоматиком, а в демке освещение изменятся только промптом. Оказывается, работает даже с пейзажами. Но мелкие детали все же коверкает.

На первой фотке - я катаюсь в Гудаури. На второй - вид на Сан-Франциско, который я сфоткал во время своей последней поездки.

@ai_newz

17.3K views18:47

эйай ньюз

Орги ChatBot Arena проанализировали, как Llama-3 забралась так высоко на лидерборде.

Llama 3, будучи сравнительно маленькой моделью отстаёт от GPT-4 на более сложных задачах, типа матеши и ризонинга, судя по анализу от Lmsys. Но вот в креативных задачах и более абстрактных задачах, где нужно что-то придумать (куда сходить вечером и тп) выигрывает старшие модели причём со значительным отрывом. Таких запросов от юзеров по всей видимости большинство, и именно они закидывают ламу3 в топ. Но это не отвечает на вопрос, как ей удаётся побеждать старшие модели на этих запросах. Кажется, что если модель лучше и больше, то она должна быть умнее во всем.

Так почему же llama 3 так хороша? Если коротко, то это компьют и качественные данные.

- Датасет фильтровали и фильтровали, чтобы модель училась только на всем хорошем. Кстати секрет той же Dalle 3 или GPT-4 в том же. У Dalle3 картинки в трейн датасете очень подробно описаны gpt-шкой с виженом. А для самой GPT-4, понятно, тоже сильно фильтровали тексты.

- Есть такая гипотеза – Оптимальность модели по Шиншилле. Из нее следует, что для 8B модели оптимально по компьюту натренить ее на 200B токенах. И долгое время это считалось стандартом – якобы дальше тренить мелкую модель смысла нет, и лучше взять модель пожирнее. Но Llama3 натренили на 15 трлн токенов и она всё ещё продолжала учиться. Крч перетрейн капитальный.

- Аккуратный файнтюн на ручной разметке. Кроме почти уже стандартных supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO), и direct preference optimization (DPO) парни скормили лламе3 10 лямов размеченных вручную примеров.

Окей, с тяжелыми тасками она всё равно не очень справляется. Но, оказывается, это и не надо...🤷‍♀️

Юзеры обычно просят какую-нибудь фигню по типу "придумай то то, как сделать это..."
Лама благодаря хорошему датасету и ручному файнтюну просто оказалась очень харизматичной. Отвечает приятно, структура хорошая, на человека похожа:)

High-level Видосик про Llama3
Предыдущий пост про Llama3
Блог пост

@ai_newz

18.6K views04:05

эйай ньюз

Немного с задержкой, но вот все-таки он:

Нейродайджест за неделю (#17)

1. Ла Лэ Мэ
- Xiaomi из мира LLM. Deepseek V2. Топ за свои деньги, чуть хуже Llama 3.
- Майки тизерят MAI-1, это будет их первенец; без помощи OpenAI. Есть закос на уровень GPT-4, но с 500B MoE.
- Сравнительная таблица 100+ лучших LLM-ок для выбора под свои задачи.
- В чем феномен Llama 3 или подробный анализ успеха всеми любимой ламы.

2. Тизеры и релизы
- ElevenLabs снова всех уделал в звуке, представив свой txt2music. Судя по тизеру, у Suno и Udio нет шансов.
- IC Light или кнопка "Сделай красиво" для фотошоперов. Плагин для A1111 и др. мэтчит освещение фона и добавленного предмета.

3. Интересное
- Определяем и делаем Jiggle physics 🍒 для гауссовских сплатов по сгенерированному видео.
- Пускаем скупую мужскую слезу на олдскульные девайсы.

> Читать дайджест #16

#дайджест
@ai_newz

17.3K viewsedited 08:57

эйай ньюз

Курс по квантизации для тех, кто хочет быть в теме

Эндрю Ын, о котором здесь писалось уже не раз, вместе со спецами из обнимающего лица _marcsun и younesbelkada дропнул очередной эйай #ликбез. На этот раз о квантизации.

Квантизация — это сжатие модели с 32 до 16, 8 или даже 2 бит, не особо теряя при этом в качестве. Считай, raw перевели в jpeg. Так же как и без MoE современные ллм дорого тренировать, так и без квантизации их дорого инференсить - железо которое тянет эти килотонны весов влетает в копеечку.

Чему учат:
- применять си/асимметричную линейную квантизацию.
- квантизации на разных уровнях: по тензорам, по каналам, по группам.
- созданию квантизатора на практике с упаковкой до 2-х бит.

Ссылочка на курс

#ликбез
@ai_newz

www.deeplearning.ai

Quantization in Depth - DeepLearning.AI

Try out different variants of Linear Quantization, including symmetric vs. asymmetric mode, and granularities like per tensor, per channel, and per group.

25.1K viewsedited 17:00

OpenAI показали GPT-4o (omni), выбрал главное

Доступна для бесплатных пользователей

Запредельные результаты на Chatbot Arena - отрыв в 57 ELO на общих задачах и в 100 ELO на коде

Модель нативно понимает звук, с ней можно разговаривать, задержка разговора упала в 10 раз по сравнение с более ранним голосовым режимом

Она может петь

Нейронка понимает видео в реальном времени

У ChatGPT есть теперь приложение на MacOS, которому можно даже стримить экран!

В два раза быстрее и дешевле GPT-4 Turbo

Новый мультиязычный токенизатор - для для некоторых языков нужно теперь в 4.4x меньше токенов

За счёт этого модель суммарно в 3.5 раза дешевле для русского языка

Доступ к модели уже начали выдавать пользователям ChatGPT, API доступен разработчикам

Разговорный режим будет доступен для подписчиков Plus в ближайшие недели

Более продвинутые аудио и видео возможности дают ограниченным группам пользователей

Ждём завтрашнего Google I/O. Интересно, чем они смогут ответить.

>> Полное видео презентации
>> Страница модели с демками
>> Ещё офф пост с апдейтами

@ai_newz

25.5K viewsedited 17:49

эйай ньюз

0:50

This media is not supported in your browser

VIEW IN TELEGRAM

Завтра Google I/O и они тизерят апдейты Gemini

Так же как и в GPT-4o есть поддержка видео, но задержка звука после презентации OpenAI ощущается ужасно - больше 3 секунд против 300 миллисекунд у GPT-4o.

@ai_newz

21.2K viewsedited 20:12

эйай ньюз

"Выигрыш в лотерею каждый день", "Японские первоклассные порнографические блокбастеры", "Бесплатные видео для просмотра онлайн"

Не бойтесь, меня не взломали. Это просто токены, которые нашли в новом мультиязычном токенизаторе GPT-4o, переведённые с китайского (大发快三的, _日本一级特黄大片, 免费视频在线观看). В датасет для тренировки токенизатора попала куча спама, и там теперь есть токены для рекламы казино, пиратского контента и просьб всяких нигерийских принцев

Я забираю обратно свои слова о том, что OpenAI тщательно фильтруют данные 😀

Это хороший пример того, какой бардак творится в токенизаторах даже SOTA LLM, и прекрасное напоминание о том, что и в OpenAI не боги горшки обжигают.

Какие ещё сюрпризы нас ждут в токенизаторе GPT-4o?

@ai_newz

22.5K viewsedited 22:44

эйай ньюз

0:50

This media is not supported in your browser

VIEW IN TELEGRAM

Прикольный юзкейс GPT-4o – переводчик. Подумал, что мне оно могло бы пригодиться в поездах в Азию (Япония, Корея, Китай), где люди часто не знают английского от слова совсем. Несколько лет назад я пользовался Google Translate в таких ситуациях, и он, конечно, ни в какие сравнения не идет с GPT-4o. А тут гэпэтэшка так бодренько переводит приятным голосом, да и с минимальными задержками.

@ai_newz

21.1K views10:30

эйай ньюз

Через двадцать минут основная презентация Google I/O, так что вот мой минимальный список ожиданий:

* Релиз Gemini 1.5 Pro за пределами AI Studio

* Анонс (и желательно релиз) Gemini 1.5 Ultra

* Анонс, или хоть какой-то намёк на совместный VR шлем Google и Samsung

* Память и аналог GPTs для Gemini

* Видео функционал который они тизерили вчера

Хотелось бы увидеть какие-то подвижки к Gemini 2.0, побольше окно контекста для API Gemini 1.5, хоть какие-то опенсорс релизы и аналоги функционала со вчерашней презентации GPT-4o, но тут есть сомнения.

Я конечно же напишу пост по итогам, а стрим посмотреть можно тут (пока что там бегает вылезший из чашки диджей и поставляет кринж в промышленных масштабах).

@ai_newz

18.2K views16:43

эйай ньюз

Forwarded from khamidov

Google в 2018: Фантастическая технология Duplex, бронирует за тебя встречи, общается как реальный человек

Google спустя 6 лет:

16.2K views16:53

эйай ньюз

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Выкатили улучшенную Gemini 1.5 Pro.

- Она теперь доступна в Gemini Advanced (примиумная подписка) и для разработчиков.

- В Gemini 1.5 Pro (доступна в чате gemini.google.com) теперь длина контекста 1 млн токенов! Это прvерно 1.5k страниц тектса и больше чем вся книга "Война и Мир".

- Обещают вскоре добавить поддержку видео - до 1 часа.

- В приватном превью для разработчиков будет доступна версия с контекстом в 2 млн токенов!

https://blog.google/products/gemini/google-gemini-update-may-2024/

@ai_newz

16.5K viewsedited 17:13

эйай ньюз

Gemini 1.5 Flash - легкая и быстрая модель

На сцену выпустили Демиса Хассабиса, главу Google DeepMind.

Он показал Gemini 1.5 Flash, более лёгкую модель, оптимизированную для низкой задержки.
- Размер контекста у нее 1 миллионом токенов, и она лучше по бенчмаркам (смотри в комментах) чем предыдущая Gemini 1.0 Pro, и, конечно, быстрее.
- Умеет в мультимодальность.
- Уже доступна как public preview: тут

Это довольно круто. Думаю, что это своего рода GPT4-Turbo от Google.

>> Подбробности

@ai_newz

15.9K viewsedited 17:25

About

Blog

Apps

Platform