Complete AI
7.98K subscribers
490 photos
33 videos
10 files
267 links
Меня зовут Андрей Кузнецов

Директор лаборатории FusionBrain в AIRI, один из фаундеров моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML

Tg: @kuznetsoff87
Linkedin: https://tinyurl.com/y96nmmdd
Download Telegram
❤️ Приглашаю на научный семинар AIRI на следующей неделе

🔵Дата и время: 4 октября в 16:55

🔵Тема: «Одна LLM хорошо, а N лучше? Мультиагентный подход - путь к AGI»

🔵Докладчик: Андрей Кузнецов, AIRI, Сбер

🔵Оппонент: Валентин Малых, MTS AI

🔵Подробное описание семинара скоро появится по ссылке

Пригласить внешних слушателей и посмотреть записи прошлых семинаров можно на YouTube-канале AIRI.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40🔥13🎉3
⚡️Горжусь командой и поздравляю всех соавторов!

Нашу статью про модель Kandinsky приняли на одну из топовых конференций - EMNLP 2023 (A*) в Demo трек. В этом году она проходит с 6 по 10 декабря в Сингапуре.

Чуть позже, как отправим финальную версию, я выложу её в канале - удалось много интересных экспериментов провести с архитектурой: ablation study с prior блоком, human evaluation, сравнение в единой конфигурации существующие open source модели и т.д.

ℹ️Для подписчиков, которые по каким-то причинам не публикуются или просто не знакомы, рейтинг конференции является показателем её крутости (A* = exceptional, flagship). На такие конференции, как правило, более строгий отбор, доля принятых статей не очень большая, и, как следствие, учёные стараются отправлять туда свои самые значимые достижения в исследованиях.
🔥116👍18🎉12❤‍🔥4🏆3
🏅А кто сегодня молодец и взял Trending paper на Hugging Face, обогнав Google DeepMind и Carnegie Mellon?

Правильный ответ: статья про нашу модель Kandinsky, которую мы выложили на arxiv.

А среди отметивших статью Julien Chaumond (CTO Hugging Face) и Patrick von Platten (Team lead Diffusers)! Со вторым мы активно сотрудничаем по внедрению модели в их самый крупный фреймворк генеративных моделей diffusers (18.2k на GitHub).

Ссылка на hf

P.S. Trending paper — лучшая статья дня в одном из крупнейших мировых комьюнити исследователей и ML разработок Hugging Face.

@complete_ai
🔥139👍23🎉13💯4🏆4👎3
Научили Kandinsky 2.2 "понимать" время

Мы сегодня расширяем способности Kandinsky 2.2 и добавляем новую возможность создавать видеоролики по текстовому описанию в режиме анимации. По одному текстовому описанию генерируется 4-секундное видео, эффект анимации можно выбрать из предложенного списка: от смещений в разные стороны до сложных пролётов над сценой - всего таких режимов 16 штук.

Видео генерируются с частотой 24 кадра в секунду и разрешением 640×640 пикселей. Ожидание генерации от запуска до результат составит около 1.5 минут.

Так как новый режим ресурсозатратный, мы решили пока дать доступ самым активным пользователям Kandinsky 2.2, которые получат приглашение в ближайшее время. Ну а к концу года обязательно раскатаем для всех).

Мы также добавили интересный режим, который для себя назвали "Режиссёр". Смысл в том, что пользователь может ввести 1-3 текстовых описаний, затем выбрать для каждого свою механику анимации, а после этого модель создаст «мини-фильм».

Те пользователи, которые хотят попробовать новые возможности модели сейчас, могут оставить заявку на получение доступа в Telegram-боте.

Ну и мы следуем традиции - код выложен в open source, на Хабре больше деталей и генераций.

Добро пожаловать из мира статики в мир динамики💪
Очень жду ваш фидбэк — это для нас крайне важно!

📌Полезные ссылки:
Сайт проекта
GitHub
Telegram-бот
Хабр

UPD:
Добавили галерею на rudalle.ru
Добавил ссылку на Хабр

@complete_ai
🔥50👍13❤‍🔥7👏4🎉3🏆3👎1
🔥Куда уж меньше?
BitNet: Scaling 1-bit Transformers for Large Language Models

Microsoft Research продолжая исследования в области эффективного обучения и инференса языковых моделей (летом они выпускали статью про новый тип архитектур для замен трансформеров - Retentive Networks) выкатили однобитную трансформерную архитектуру BitNet (веса принимают значения только -1 и +1). На ряде задач BitNet умудряется выдавать качество сопоставимое с моделями в FP16. Авторы предлагают замену слоя nn.Linear на BitLinear для обучения бинарных весов. Сами же активации входных тензоров квантуются до 8-битных значений в ходе обучения. На этапе деквантизации в слое BitLinear точность активаций восстанавливается.

Что получаем в сухом остатке:
1) квантованные веса и активации снижают вычислительные затраты на обучение
2) градиенты и состояния оптимизатора сохраняют высокую точность, чтобы обеспечить стабильность обучения
3) для ускорения сходимости в начале обучения модели с бинарными весами применяют большие значения LR (маленькие изменения не приведут к обновлению бинарных весов)
4) scaling laws работают так же как и для fp16 трансформеров!
5) идеологически этот подход можно применять и для других типов архитектур (сами авторы планируют применить его в RetNet’ах)

Статья

@complete_ai
🔥19👍6💯4
🎂
Please open Telegram to view this post
VIEW IN TELEGRAM
💯42👎94🏆4
Вчера выступал на российско-китайской Открытой конференции NAUKA 0+ МГУ в г. Шеньчжень, Китай с пленарным докладом о мультимодальных архитектурах и исследованиях, которыми мы активно занимается в рамках научной группы FusionBrain.

Это мой первый опыт рабочей поездки в Азию и вот, чем хочется поделиться с вами:
1) китайцы очень по-хорошему любопытный и заинтересованный народ, жадный до новых идей и знаний, стараются донести мысль как угодно, даже с помощью электронного переводчика и жестов
2) г. Шеньчжень всего 40 лет, но выглядит он очень большим и активно застраиваются огромные многоэтажные кварталы
3) вокруг очень чисто, огромное количество парков, тёплом море, низкие цены на многие товары
4) по части блюд визуально невозможно определить, что там может быть в составе🤔
5) конференция проходит в МГУ-ППИ в Шеньчжене, который является мини-копией Московского (вики)
6) Курорты на Южно-Китайском море (Dameisha Resort!!!) - отличная альтернатива Таиланду🏖️
7) К сожалению нет возможности попасть в Гонконг по однократной академической китайской визе. После пересечения границы - обратной дороги не будет:(
8) Наличие знания английского языка никак здесь вам не поможет, так же как и наличие любой валюты кроме юаней и карт UnionPay (карту сделал в РФ в одном из банков). Идеально иметь WeChat или Alipay, но туда не так просто попасть
9) Большинство автомобилей - электромобили, поэтому порой идя по оживленной улице ты преимущественно можешь слышать сигналы клаксона, речь людей и все остальные звуки, кроме двигателей🚎
10) В номерах очень любят делать стеклянные прозрачные перегородки между комнатой и ванной🛀

На следующей неделе буду в Гуанчжоу пару дней - посмотрим, чем меня удивит Китай там🇨🇳
🔥89👍32💯3👎2👏2
Выложили сегодня статью на архив по исследованиям анизотропии intrinsic dimensions в трансформерах. Очень интересные результаты получились в части компактности представлений эмбеддингов на внутренних слоях.

Вышел даже обзор статьи на YouTube
❤‍🔥17💯8🎉5
Forwarded from AbstractDL
The Shape of Learning: Intrinsic Dimensions in Transformer-Based Models

Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень компактное пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.

Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.

Статья
1❤‍🔥19🔥8🎉5