эйай ньюз – Telegram

эйай ньюз

59.2K subscribers

1.41K photos

733 videos

7 files

1.73K links

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426

Download Telegram

About

Blog

Apps

Platform

эйай ньюз

59.2K subscribers

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Kling – ещё одна СОРА от Китайских мастеров

В Китае появляются свои собственные варианты Соры (генерация видео) как грибы после дождя. Недавно китайцы анонсировано Vidu, а теперь вот новая модель Kling, которая выглядит ещё лучше.

Kuaishou - приложение для коротких видео, что-то типа ТикТока, как я понял. Так вот эти ребята вдруг представили свою видео модель Kling. Качество, как видите, впечатляет. Конечно, может это все черри-пики (так и есть), но даже если так, то это впечатляет.

Что все эти соры объединяет — так, это то, что потестировать их никому не дают (интересно почему 😂).

На сайте пишут, что можно как-то потестить через их китайский апп, но там вейтлист, и я думаю, что некитайцу получить доступ шансов мало.

Детали:
- генерит видео до 2 минут за раз
- разрешение 1080p
- пишут, что за счет хорошего понимания текста может генерировать всякую необычную дичь => промпт должен хорошо понимать. Наверно, хорошо разметили датасет.
- завезли поддержку разных соотношений сторон
- еще отдельный инструмент для мультяшных танцулек для тиктоков

Сайт какой-то лагучий, поэтому я скачал для вас все видео оттуда.

Ещё посты с примерами:
- раз, два,
- Kling vs Sora
- Я потестил Kling

@ai_newz

18.0K views09:23

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Вот ещё генерации Kling. Честно, черипики выглядят на уровне SORA от OpenAI и гораздо лучше по сравнению с Vidu (сами сравните с этим постом).

Думаю, через 6-12 месяцев что-то такое доползет и до опенсорса. Скриньте.

@ai_newz

16.5K views09:32

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

А теперь гвоздь номера, за который мой глаз зацепился – эта генерация меня больше всего впечатлила. По одной фотке китайцы генерят видео, как человек "поёт и танцует". Выглядит вау!

Обратите внимание, какая консистентность между кадрами, ничего не прыгает и не дёргается как в покадровых контролнетах. Пишут на сайте, что используют 3д реконструкцию лица и тела как дополнительные conditions для генерации.

Целятся в тикток, однозначно.

@ai_newz

17.6K views10:43

эйай ньюз

Когда у нас закончатся данные для тренировки?

Короткий ответ - осталось на донышке. Если говорить о текстовых.

Ребята из Epoch AI провели добротную оценку оставшейся текстовой информации во всем вебе.

Всего примерно 500Т токенов, из них юзабельно от силы 100Т. Иии закончатся они уже к 28 году... если брать историческую скорость развития.

Но уважаемые коллеги из Мета показали нам, что количество токенов, которое оптимально использовать для модели фиксированного размера (шиншила оптимал), сильно занижено. А точнее, если есть лишний компьют, то можно и потренировать и дольше, чтобы выжать из модели всё до конца.

Так вот если перетренировывать модели в 5 раз, то дата у нас закончится в 27м, а если в 100 раз, то на следующий новый год в 25м : )
Для справки, если забыли, то LlaMa3-8B перетренировали в 70 раз. Вот здесь об этом писал подробнее.

Что делать?

Оказалось, что у соцсетей есть жёсткий читкод. До этого говорилось только об открытой инфе, которую можно нагуглить. Оказывается, в чатиках в 10 раз (очень примерно) больше данных чем во всем вебе.

Поэтому те компании, которые научатся использовать эти данные могут оказаться на коне. Хотя данные из соцсетей и так парсят все кому не лень, но сделать это на большом масштабе по-черному вряд-ли получится из-за лимитов и банов.

Еще есть второй способ выхода из данного плато (все равно в чатиках какая-то дичь) – это synthetic data, когда нейросетки "учат" друг друга. Но там есть свои ещё нерешённые проблемы с качеством таких данных.

Ещё добавлю сюда, что мультимодальные данные (вроде видео с YouTube) будут в скором времени тоже очень сильно решать для больших нейросетей. Пока ведь этот богатый ресурс из миллионов часов видео никто активно не использует для обучения.

В общем, если с текстовыми данными и будет затык в ближайшие 5 лет, то есть ещё куча мультимодальных данных (подкасты, видео, игры). А ещё мы сможем запустить роботов собирать данные в реальном мире, как например это делает Тесла.

Тред
Репорт

@ai_newz

18.2K views09:18

эйай ньюз

Qwen 2 - новый китайский лидер

Идёт в 5 размерах:
➖0.5B - работает в браузере, 32k контекста,
➖1.5B - 32k контекста,
➖7B - 128k контекста,
➖57B-A14B - MoE версия для дешёвого инференса, 64k контекста
➖72B - 128k контекста.

72B модель обгоняет LLaMa 3 на бенчмарках, но на арене от неё отстаёт во всём кроме китайского. Остальные модели по бенчмарках лидеры в своих весовых категориях, но и по поводу них есть сомнения, авторы Qwen ранее были замечены в тренировке своих моделей на бенчах.

Архитектура практически идентична LLaMa. Единственное исключение - MoE версия, но про её архитектуру, я уже рассказывал, с тех пор она мало изменилась.

У всех моделей, кроме старшей, лицензия Apache 2.0. У 72B своя лицензия, похожая на лицензию ламы. Отличия: нет требования в тюнах указывать название оригинала и нижняя планка MAU, при которой необходимо получать лицензию - это 100 миллионов пользователей, а не 700 миллионов, как у ламы.

Блогпост
Демка
Веса

@ai_newz

16.9K views15:40

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Diffusion On Syntax Trees For Program Synthesis

Диффузия для генерации кода. Вместо добавления шума в эмбеддинги текста, авторы вносят рандомные изменения в синтаксическое дерево кода (grammar-based fuzzing). Таким образом код всегда можно исполнить и увидеть насколько близко он к результату.

Натренировано пока что лишь на задаче воспроизведения кода рисующего картинку. Подход интересный, хочу увидеть его в других задачах.

Чисто теоретически это же можно делать с воркфлоу ComfyUI, но зачем?

Пейпер
Сайт
Код (с весами)

@ai_newz

16.9K views10:22

эйай ньюз

Нейродайджест за неделю (#21)

Генеративные модели
- Kling! Ооо, вот кто нас порадовал генерацией видео на этой неделе. Китайцы подготовили достойный ответ Соре, и он уже доступен для тестов счастливчикам с китайским номером или ID. Дорогие подписчики, у кого-то вышло получить доступ? ( Примеры | Танцульки )
- SD 3 на следующей неделе. 12 июня выложат веса Medium модели всего на 2B. Ну и ладно, сами прикрутим еще пару миллиардов параметров.
- Nvidia RTX Remix тулкит для ремастеров игрушек нулевых вместе с комфи, которая уже стала новым стандартом. Rip автоматик.
- Релиз Stable Audio 2, почти сразу после громкого слива, который оказался версией Open 1.0, но качество по-прежнему не очень.

Птица говорун
- Qwen 2 — ещё одна новинка от китайцев. Ламу 3 побили на бенчмарках, но не на арене.
- Diffusion On Syntax Trees. Интересный подход к генерации кода. В процессе денойзинга вносят изменения в синтаксическое дерево кода.
- Репорт о запасе данных в интернете + мои мысли. Пожалуй, уже точно можно сказать, что дата — это новая нефть, так вот оказывается, она почти закончилась.
- К2 — модель, которой нечего скрывать. Можно взглянуть ~~и наложить свои грязные ручонки~~ на всё, от кода до промежуточных чекпоинтов.

Прочее
- Заметки с презы AMD (помимо SD3). Новые GPU и прочие вкусности для датацентров.
- Маск то ли троллит, то ли несёт чушь. В Тесла реально нет CNN? Пацаны и дамы, верим да/нет?

> Читать дайджест #20

#дайджест
@ai_newz

16.9K viewsedited 19:34

эйай ньюз

😮

Карпатый выпустил туториал о тренировке LLM с нуля

За 4 часа он с нуля пишет GPT-Nano, при этом объясняя каждый шаг. Пока что на Python и только про претрейн, но обещает сделать туториал о создании llm.c и сделать туториал про файнтюн.

Почему он учит GPT-2? Это первая LLM, с неё и началась современная эпоха. К тому же, между ламой и GPT-2 всего дюжина отличий, но GPT-2 Small можно полностью натренировать на одной GPU и сравнить свой трейнинг ран с результатами пейпера. С ламой такое не прокактит.

Туториал
Код

#ликбез
@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

Let's reproduce GPT-2 (124M)

We reproduce the GPT-2 (124M) from scratch. This video covers the whole process: First we build the GPT-2 network, then we optimize its training to be really fast, then we set up the training run following the GPT-2 and GPT-3 paper and their hyperparameters…

23.6K views00:24

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Полевой тест: Kling vs SORA

Уже начали выдавать доступ к китайской модели для генерации видео Kling (пост о ней) первым юзерам. И в твиттере уже провели ее сравнение с моделью SORA от OpenAI.

Я вижу, что SORA всё-таки генерирует более кинематографичные видео с большим количеством движения объектов и камеры. Обратите внимание, как во многих примерах камера в Kling почти статичная. Ещё, кажется, у Kling в тренировочном датасете были более простые стоковые видео, тогда как SORA тренировали на более качественных роликах.

Однако, стоит учитывать, что это сравнение не совсем честное – так как мы видим примеры Kling, сгенерированные обычным юзерами, против очень сильно черепикнутых промо-видео от SORA, бог знает за сколько попыток сгенерированных. Так что ждём честного сравнения, когда у кого-то появится доступ к обеим моделям!

@ai_newz

18.0K views08:18