эйай ньюз
60.2K subscribers
1.42K photos
735 videos
7 files
1.74K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
Нейродайджест за неделю (#21)

Генеративные модели
  - Kling! Ооо, вот кто нас порадовал генерацией видео на этой неделе. Китайцы подготовили достойный ответ Соре, и он уже доступен для тестов счастливчикам с китайским номером или ID. Дорогие подписчики, у кого-то вышло получить доступ? ( Примеры | Танцульки )
  - SD 3 на следующей неделе. 12 июня выложат веса Medium модели всего на 2B. Ну и ладно, сами прикрутим еще пару миллиардов параметров.
  - Nvidia RTX Remix тулкит для ремастеров игрушек нулевых вместе с комфи, которая уже стала новым стандартом. Rip автоматик.
  - Релиз Stable Audio 2, почти сразу после громкого слива, который оказался версией Open 1.0, но качество по-прежнему не очень.

Птица говорун
  - Qwen 2 — ещё одна новинка от китайцев. Ламу 3 побили на бенчмарках, но не на арене.
  - Diffusion On Syntax Trees. Интересный подход к генерации кода. В процессе денойзинга вносят изменения в синтаксическое дерево кода.
  - Репорт о запасе данных в интернете + мои мысли. Пожалуй, уже точно можно сказать, что дата — это новая нефть, так вот оказывается, она почти закончилась.
  - К2 — модель, которой нечего скрывать. Можно взглянуть и наложить свои грязные ручонки на всё, от кода до промежуточных чекпоинтов.

Прочее
  - Заметки с презы AMD (помимо SD3). Новые GPU и прочие вкусности для датацентров.
  - Маск то ли троллит, то ли несёт чушь. В Тесла реально нет CNN? Пацаны и дамы, верим да/нет?

> Читать дайджест #20

#дайджест
@ai_newz
😮Карпатый выпустил туториал о тренировке LLM с нуля

За 4 часа он с нуля пишет GPT-Nano, при этом объясняя каждый шаг. Пока что на Python и только про претрейн, но обещает сделать туториал о создании llm.c и сделать туториал про файнтюн.

Почему он учит GPT-2? Это первая LLM, с неё и началась современная эпоха. К тому же, между ламой и GPT-2 всего дюжина отличий, но GPT-2 Small можно полностью натренировать на одной GPU и сравнить свой трейнинг ран с результатами пейпера. С ламой такое не прокактит.  

Туториал
Код

#ликбез
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Полевой тест: Kling vs SORA

Уже начали выдавать доступ к китайской модели для генерации видео Kling (пост о ней) первым юзерам. И в твиттере уже провели ее сравнение с моделью SORA от OpenAI.

Я вижу, что SORA всё-таки генерирует более кинематографичные видео с большим количеством движения объектов и камеры. Обратите внимание, как во многих примерах камера в Kling почти статичная. Ещё, кажется, у Kling в тренировочном датасете были более простые стоковые видео, тогда как SORA тренировали на более качественных роликах.

Однако, стоит учитывать, что это сравнение не совсем честное – так как мы видим примеры Kling, сгенерированные обычным юзерами, против очень сильно черепикнутых промо-видео от SORA, бог знает за сколько попыток сгенерированных. Так что ждём честного сравнения, когда у кого-то появится доступ к обеим моделям!

@ai_newz
Через 15 минут начнётся основная презентация WWDC от Apple

Жду интеграцию ИИ всюду. По слухам, за это будет отвечать как и своя моделька, on-device, так и облачная, от OpenAI.

Я, конечно же, расскажу об интересных анонсах с презентации, а пока можно посмотреть стрим.

@ai_newz
Image Playground - новый генератор изображений от Apple, работает локально

@ai_newz
🍏 AI это теперь Apple Intelligence

Ну что Тим Кук и его команда провели свой wwdc. Новостей много – интересно пощупать на деле. Очень надеюсь, что Siri наконец перестанет быть бесполезной звонилкой, которой народ обычно пользуется за рулём.

Выбрал для вас самое интересное:

Выкатили так называемую систему личного интеллекта Apple Intelligence (AI), которая будет глубоко интегрирована в iOS 18, iPadOS 18 и macOS Sequoia. Да, название звонкое придумали.

Новые чипы Apple Silicon A17 Pro и M-серии будут оптимизированы для работы с языковыми моделями и моделями генерации изображений. Вот что они смогут делать ЛОКАЛЬНО:


Ассистент для письма, работающий по всей ОС

Появятся новые AI-функции в приложениях Mail, Notes, Safari, Photos и других, включая генерацию текста и изображений:

* Самари и разметку приоритетов уведомлений

* Генерировать эмодзи и картинки

* Поправлять скетчи внутри заметок и генерить картинки по ним

* Поиск текстом по видео в вашей галлерее! И можно попросить слепить из них ролик по промпту.

Новая Siri - основана на LLM, понимает контекст, с ней можно чатиться текстом. Вот здесь писал про слухи об этом.

* Siri может пользоваться приложениями

* У неё теперь есть доступ к эмейлам и другим приватным данным, которые обрабатываются локально

* На случай если локальной LLM не хватает есть Private Cloud Compute - возможность запускать облачную LLM на серваках Apple работающих на собственных чипах, обещают что данные нигде не сохраняются

* Теперь у Siri будет интеграция с ChatGPT, обещают другие модели позже

Для разработчиков будут доступны API для интеграции AI-функций в их приложения без дополнительных усилий

Кроме этого, добавили всякую модную кастомизацию и так по мелочи. Вроде бы все неплохо, есть интересные моменты, но акции чет просели, видимо инвесторы ожидали большего 🤷‍♀

Ждем дальше когда Siri станет полноценным агентом.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Рыночек ожидал явно большего от эпл эйай. Хотя неплохо вроде бы выступили. Купертиновский оверхайп?

По сути технологических инноваций особенно не было - но новыми интеграциями с iOS упростился порог входа для использования AI-инструментов для многих миллионов обычных пользователей, что тоже круто!

@ai_newz
Маск сгорел с анонсированного доступа Сири к личным данным и собирается запретить девайсы эппл в своих компаниях.

Да-да, даже макбуки

@ai_newz
Пока я был неделю в отпуске в Морокко, NVIDIA перевалила за ТРИ триллиона $$$ и стала дороже чем Apple – несмотря на их вчерашние релизы – и дороже чем все немецкие компании, торгующиеся на бирже, вместе взятые!

Поздравляю всех, кто имел прозорливость проинвестировать в NVIDIA несколько лет назад.

@ai_newz
эйай ньюз
Video
😜У моего друга китайца появился доступ к Kling! Сейчас будем вместе с ним тестировать.

Покидайте интересные промпты в комменты (лучше на английском). Потом выложу генерации в канал.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Веса SD-3 Medium уже доступны!

Как и обещали, Stability релизнули Stable Diffusion 3 Medium с двумя миллиардами параметров. Она бесплатна для некоммерческого пользования. За коммерческое использование придётся платить: $20 в месяц для индивидуальных пользователей и небольших бизнесов, для бизнесов побольше - энтерпрайз лицензия.

Поддержка модели уже есть в ComfyUI, для автоматика придётся подождать.

Судя по публичным заявлениям сотрудников Stability, 8B модель ещё тренируется (что-то очень долго они ее уже тренируют). Но непонятно почему не релизнули 800m "Small" версии.

* В комментах пишут, что модель влазит в 6GB видео памяти.

* Скорость генерации: 12 sec/img на RTX 4070

Блогпост
Веса

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
YaFSDP - опенсорс либа от Яндекса для ускорения тренировки больших моделей

Современные LLM тренируются на огромных кластерах доходящих до десятков тысяч GPU. А так как один в поле не воин - им нужно постоянно общаться между собой, при этом когда в одну видеокарту веса моделей не влезают, их нужно шардить - распределять между многими видеокартами.

Основной метод шардинга сейчас - FSDP, он встроен в PyTorch и им пользуются абсолютно все. Но и он не идеален - имеет свойство выделять больше памяти, чем нужно, и простаивать на бэквард пассе.

Ребята из Яндекса решили эти проблемы и у них вышел YaFSDP - оптимизированная имплементация FSDP, лучшая из открыто доступных - на тренировке LLaMa 3 70B ускорение достигает 26%, при этом потребление памяти - меньше! А в Яндексе полная интеграция YaFSDP вообще позволила ускорить тренировку на 45%. Это напрямую транслируется в удешевление претрейна больших моделей.

Как такое возможно?

* Стратегические преалокации памяти позволяют сильно сбавить оверхед и использовать именно столько памяти, сколько нужно.

* Упорядочивание использования ресурсов так, чтобы на них не было сразу нескольких претендентов уменьшает простой видеокарты - не нужно ждать пока ресурсы освободятся.

* Оптимизированная нормализация уменьшает количество копирований на бэквард пассе.

Библиотека уже доступна на Github, с лицензией Apache 2.0 - то есть может пользоваться кто угодно, как угодно и абсолютно бесплатно.

@ai_newz
Вот мой честный тест генерации видео с помощью Kling. Выбрал интересные промты из ваших комментариев, плюс добавил несколько своих.

Получаются видосы только по 5 секунд (увы), а генерация каждого занимает ~3 минуты. Как я понял, генерят на видеокартах A100, потому что США ввели полный запрет на поставку видеокарт H100 в Китай.

Комменнтарии по качеству:
- В Kling добились доволно высокого качества генерации людей и их лиц. Посмотрите на чела, поедающего пасту. Тут все очень реалистично вышло – от пальце рук до мимики лица. Правда модель не знает, кто такой Вилл Смит 😢. Еще небольшие артефакты всё же сть на ногах женщины на последнем видео (8) и на бегающих глазах программиста (6).
- Аниме получилось не очень, как будто наложил некий фильтр на реальное видео.
- Панда паркурит без артефактов, но вот движения почти нет.
- Забавно человек меняет колесо. Наверное в датасете не очень много сложных интеракций человека с предметами.
- Галактика выглядит прикольно, но как будто это зум-ин в статичное фото.

Промпты с Винни-Пухом и всем что связано с правительством, конечно же не проходят. Как сказал мой друг – Добро пожаловать в Китай, это базовые фильтры, которые есть во всех приложениях китайского интернета.

1. Will Smith eating pasta
2. Hatsune Miku dances on the concert stage in the middle of the camera, and holds a microphone in her hands, high quality masterpiece dance animation, anime video, MMD, Miku Miku Dance, from NicoNicoDouga
3. A panda doing parkour, jumping from a building to another building, doing somersault in the air
4. A man changes a car tire while the car is moving
5. A UFO lands in the park, shooting on an old smartphone
6. A group of software engineers in a meeting in a room
7. Near-light speed flight near the Andromeda galaxy
8. A 55 years old woman doing yoga asanas outside in a central park.

Итого, неплохая модель, довольно хорошо генерит людей, но страдает от недостатка движения, как и многие другие text2video модели.

Еще вот сравнение Kling с чери-пикнутыми видео от SORA: пост.

@ai_newz