эйай ньюз
60.2K subscribers
1.42K photos
735 videos
7 files
1.74K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
А вот и кошечка, которую я анимировал по двум кадрам, где кошка тупо сдвинута в пространстве.

Исходные кадры смотрите в первом комментарии.

@ai_newz
Нейродайджест за предыдущую неделю (#19)

На прошлой неделе забыл выпустить дайджест. Ловите его сейчас:)

1. Хот Ньюс
- Цепочка скандалов в OpenAI: уход ключевых сотрудников, NDA с пожизненным запретом критики и конфликт с Скарлетт Йоханссон из-за использования её голоса. Вот ещё Vox получили доступ к внутренним документам
- Новый законопроект в Калифорнии может существенно ограничить тренинг домашних моделей и опенсорс LLM.

2. Туториалы
- Шикарный гайд по Llama3 на GitHub, где можно собрать Llama 3 пошагово, используя официальные веса.
- Наткнулся на гайд по созданию RAG архитектуры на открытых LLM. Видео для новичков, все пошагово.

3. Говорящие железяки
- Гонки на ChatBot Arena. OpenAI, Google и Meta доминируют в рейтингах, а Gemini 1.5 Pro занимает второе место после GPT-4.
- Компании релизят новые модели под давлением интернетовских из /r/LocalLlama. Reddit-сообщество активно требует новые модели от различных компаний и те поддаются.
- KV-cache для больших промптов в Gemini. Новая фича от Google снижает задержку обработки и стоимость запросов за счет переиспользования KV кэшей для больших промптов.
- Мистраль выпустили новую 7B модель с поддержкой вызова функций и улучшенным токенизатором.

4. Разное
- Статейка Юргена про ускорение диффузии с кешированием, где он процитировал нашу статью – то есть меня процитировал сам мегачад Шмидхубер 💪
- Слили Stable Audio 2.0. Качество оказалось не на высоте, но зато с открытыми весами.
- Синдром самозванца у GPT-4o. Оказывается боты тоже умеют ругаться и спорить, лол.
- Игрушки с полной свободой вместе c GPT, Detroit Become Human рядом не стоял в плане ветвления сюжета, когда такое засунут в настоящие игры?

> Читать дайджест #18

#дайджест
@ai_newz
эйай ньюз
ToonCrafter: Аниматоры напряглись, аниме-любители радуются Пока мы ждем сору, вот вам ToonCrafter — прикольная модель для тех, кто делает двигающиеся картинки в стиле аниме. Я уже вижу, как китайские аниме-студии сразу сокращают количество кадров. Собственно…
This media is not supported in your browser
VIEW IN TELEGRAM
Умельцы успели запилить интеграцию ToonCrafter с ComfyUI и оптимизировать модельку.  Да так, что она потребляет 17 Gb видеопамяти в режиме полного качества и меньше 8 Gb при качестве чуть хуже. Я, конечно, думал что модель оптимизируют, но не настолько же быстро.

https://github.com/kijai/ComfyUI-DynamiCrafterWrapper

Что же там будет через неделю.

@ai_newz
FineWeb-Edu - самый качественный опенсорс датасет для претрейна

Вышел довольно детальный техрепорт о создании FineWeb. Одновременно с ним выпустили FineWeb-Edu - версию датасета размером поменьше, но бьющую по качеству ВСЕ существующие опенсорс датасеты. Есть две версии: 5.4 триллиона токенов и 1.3 триллиона токенов, отличаются они строгостью фильтрации.

Алгоритм фильтрации довольно простой: авторы попросили LLaMa 3 70B оценить познавательность полумиллиона семплов по шкале от 0 до 5. На этих данных затюнили классификатор, который проставил оценки остальному датасету. Дальше отсекли все семплы с низкими оценками: для большой версии всё с оценкой ниже двух, для маленькой всё что ниже трёх.

Ещё тестировали версию датасета с семплами, оценёнными 4 и выше, но так проявились минусы подхода: если фильтровать токены только по познавательности, то с ростом бенчей вроде MMLU и ARC (оценка знаний), начинают проседать Hellaswag и PIQA (ризонинг).

Однобокость выборки, скорее всего, можно исправить фильтрацией семплов по нескольким критериям, но это уже тема будущих работ. А пока юзаем версии датасета с большим разнообразием.

Блогпост
1.3T верия датасета (более качественная)
5.4T версия

Для поста с детальным разбором основных бенчмарков ставьте ⚡️, для разбора процесса фильтрации оригинального FineWeb - 🦄, победитель будет один

@ai_newz
Нейродайджест за неделю (#20)
Юбилейный выпуск!

1. ГПТ
- Как достать любой кастомный промпт и загруженные файлы из GPT?. Гид по взлому кастомных гптишек. Попробуйте, меня взломать :)
- GPT-2 за двадцать долларов. Карпатый разогнал GPT-2 до 180k токенов в секунду. За такие деньги грех не попробовать.
- "Generate an image of an astronaut riding a horse". Бесплатные пользователи ChatGPT получили доступ к GPT-4o. Правда результат генерации изображений не тот, которого все ждали (см. пост).
- FineWeb-Edu: самый качественный опенсорс датасет для претрейна LLM. На 5.4 трлн токенов.

2. Пару слов о Калифорнии и Мета
- Отчет о моей поездке в Калифорнию. Про встречи с коллегами и боссами в Meta. Продолжение. Закрытая вечеринка для команды GenAI, советы по карьерному росту и про моё знакомство с CPO Meta :)

3. Тулзы и модели
- ToonCrafter: модель для генерации анимации между двумя кадрами. А вот ComfyUI для неё. Модель теперь потребляет меньше видеопамяти. Через будет месяц на любой мультиварке?
- Погружение в кроличью нору знаний. Теперь можно учить новые концепты с помощью GPT (а так же с Claude) и бесконечно зумиться в текст.
- Microsoft запустил Copilot бота для Telegram. Бот от Microsoft работает на базе GPT. Бинг уже ищет любой способ привлечь трафик.

4. Что-то на твитерском
- Маск привлёк в XAI $6 млрд в раунде B. Он собрал деньги на 100 тысяч GPU для Grok-3 и обещает AGI через 2 года.
- А еще вот Илон Маск спорит с Яном ЛеКуном. Маск утверждает, что Tesla не использует Convolutional Neural Networks (CNN). Ну, если он так говорит...
- Просто группа гуманоидных роботов убирается в офисе. Ничего необычного.

> Читать дайджест #19

#дайджест
@ai_newz
Веса Stable Diffusion 3 Medium релизнут 12 июня!

AMD провела презентацию на Computex 2024, где вышел новый CEO Stability и объявил дату релиза. Пока что релизят только Medium, на 2 миллиарда параметров.

2B модель – это, конечно, не ахти. Думаю, что она будет близка по качеству к SDXL, так что многого ожидать не стоит. Но зато будет код архитектуры и можно будет легко самим отмасштабировать и обучить, если есть деньги.

Судя по изначальному анонсу, ещё должны быть 8B и 800M модели (подозреваю что их назовут Large и Small), когда их релиз – не говорят. Релизнут ли Turbo версию Medium одновременно с основной - тоже неясно.

@ai_newz
🔥Преза AMD на Computex 2024 — главные моменты

На презентации AMD рассказали не только дату релиза SD3, я выбрал для вас самые интересные анонсы.

Пообещали выпускать по новой видеокарте для датацентров каждый год и рассказали о спецификациях датацентровых GPU выходящих в следующие два года.

MI325X
- новая GPU с 288 гигабайтами памяти и заметно быстрее H200. Одна машина с восемью такими видеокартами может запускать модели на триллион параметров. На бумаге туда влезает вплоть до двух триллионов (у оригинальной GPT-4 было 1.8T), но софт пока что не поддерживает их имплементацию fp8. Выйдет в четвёртом квартале. Заметно небольшое отставание в таймлайнах от главного конкурента, H200, которых начали поставлять первым клиентам уже месяц назад.

MI350 – конкурент B200. Будет поддержка fp6 и fp4. Обещают 1.5x памяти и 1.5x производительности по сравнению с B200. Релиз в следующем году.

Заявили участие в новом открытом стандарте нетворкинга, Ultra Accelerator Link. Он будет аналогом NVLink, скейлящимся на сотни устройств. Разрабатывается консорциумом из Google, Meta, Broadcom, Microsoft, Intel, AMD, HPE и Cisco.

Сатья Наделла и CEO Stability рассказали, как им нравятся MI300x, выпущенные в прошлом году. Stability они позволили апскейлинг изображений до сотни мегапикселей, а для Microsoft наиболее дешёвый инференс GPT-4.

Анонсировали процессоры для десктопов и ноутбуков с новым поколением NPU - 50 TOPS в новом формате Block FP16. Заявляют что у нового формата практически нет потери качества, и он заметно быстрее. Демонстрировали это на SDXL, которая в int8 рассыпалась, а у Block FP16 и обычного FP16 результаты были одинаковые.

Стоит учитывать, что это AMD и софт там перманентно в очень плохом состоянии.

Полную презу можно глянуть тут.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
K2 - лучшая воспроизводимая модель

65B модель на уровне LLaMa 2. Главная фишка - (практически) полностью открытый процесс тренировки. Код, данные, веса и даже часть промежуточных чекпоинтов.

Архитектурно модель почти идентична оригинальной LLaMa. Тренировали всё это в две стадии первая 1.3T токенов, вторая ~70B токенов, суммарно ~1.4T токенов (LLaMa 2 тренировали на 2 триллионах).

Но есть и нюансы:
Из-за использования архитектуры оригинальной LLaMa модель сильно медленнее в инференсе
Чат версия сильно зацензурена, так как модель тренировали на деньги ОАЭ
Пока что опубликовали только данные первой стадии, она так всё равно лучшая воспроизводимая модель, но не до уровня LLaMa 2

Веса
Технический отчёт
Претрейн код
Код датасета

@ai_newz
Похоже, Маск не шутил про CNN и отписался от бедного Яна (мы с тобой Ян!). Я специально пролистал его подписки и прочекал.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Похоже, нас ждет куча ремастеров старых игр 😅

Nvidia выпустила в открытую бету новую тулзу RTX Remix - Open Source Creator Toolkit.

Штука опенсорсная и нацелена на максимальную гибкость и кастомизацию, а также интеграцию с Comfy UI.

Такая щедрость, видимо, для того, чтобы пропушить свои видяхи через мододелов, которые устроят нам DOOM 1993 c 4К текстурами и RTX.

Ну что ж, fair enough!

Ждем-с 🙂

Страничка с подробностями и загрузкой.

@ai_newz
эйай ньюз
На 4chan зачем-то слили Stable Audio 1.0 [UPD: Это все же 2.0] Я скачал, запустил и качество там не очень. И не удивительно: даже вторая версия модели отстаёт от конкурентов, а эта, по ощущениям, отстаёт даже от MusicGen годовой давности. Веса тут (как…
Выяснилось что слитые веса были от Stable Audio Open 1.0

Stability релизнули открытую версию Stable Audio. Модель с архитектурой от Stable Audio 2, натренированная на открытых данных (FreeSound и Free Music Archive).

По заявлениям Stability она подходит для генерации звуковых эффектов, но с музыкой там не очень (что и показал мой опыт её использования).

Блогпост
Веса

@ai_newz
Kling – ещё одна СОРА от Китайских мастеров

В Китае появляются свои собственные варианты Соры (генерация видео) как грибы после дождя. Недавно китайцы анонсировано Vidu, а теперь вот новая модель Kling, которая выглядит ещё лучше.

Kuaishou - приложение для коротких видео, что-то типа ТикТока, как я понял. Так вот эти ребята вдруг представили свою видео модель Kling. Качество, как видите, впечатляет. Конечно, может это все черри-пики (так и есть), но даже если так, то это впечатляет.

Что все эти соры объединяет — так, это то, что потестировать их никому не дают (интересно почему 😂).

На сайте пишут, что можно как-то потестить через их китайский апп, но там вейтлист, и я думаю, что некитайцу получить доступ шансов мало.

Детали:
  - генерит видео до 2 минут за раз
  - разрешение 1080p
  - пишут, что за счет хорошего понимания текста может генерировать всякую необычную дичь => промпт должен хорошо понимать. Наверно, хорошо разметили датасет.
  - завезли поддержку разных соотношений сторон
  - еще отдельный инструмент для мультяшных танцулек для тиктоков

Сайт какой-то лагучий, поэтому я скачал для вас все видео оттуда.

Ещё посты с примерами:
- раз, два,
- Kling vs Sora
- Я потестил Kling

@ai_newz