Complete AI
7.99K subscribers
490 photos
33 videos
10 files
267 links
Меня зовут Андрей Кузнецов

Директор лаборатории FusionBrain в AIRI, один из фаундеров моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML

Tg: @kuznetsoff87
Linkedin: https://tinyurl.com/y96nmmdd
Download Telegram
На днях NVidia выпустили статью о новом фреймворке DreamTeacher с одноименной статьёй

DreamTeacher: Pretraining Image Backbones with Deep Generative Models

Идея в том, чтобы используя генеративные модели через дистилляцию улучшить признаки карточных backbone моделей в классических задачах компьютерного зрения: сегментация, классификация и тд. (MSE лосс)
Ту же дистилляцию можно применить на конечных задачах с разметкой на генеративных и backbone логитах (кросс энтропия и Dice лосс)

Итог: получился механизм претрейна backbone архитектур на базе генеративных фичей, обладающих семантическим обоснованием.

Статья
Проект

@complete_ai
🔥11💯2
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 ruGPT-3.5. Открытая русскоязычная LLM от Сбера

Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!

🔸 Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.

🔸 ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.

🔸 Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.

Написали небольшой пост про это, прошу поддержать, кому интересно.

👉 Хабр | Hugging Face
🔥47👍9❤‍🔥4👎2
⚡️Запускаем ruGPT-3.5 в Colab'е

Сообщество не дремлет и накидало в личку квантованных версий вышедшей вчера модели (ребята, вы молодцы 🚀).

Ужимали при помощи AutoGPTQ в 4bit, так же как делает TheBloke. Качество, само собой, при квантизации в 4bit проседает, но поиграться можно.

Еще ребята в комьюнити сделали версию в формате GPTQ.

Colab
Хабр
HF
GPTQ
🔥27👍6💯2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Об эффективности работы⚡️
22🔥16👎3👍1
Завтра на конференции AI in 2023 в Иннополисе проведу экспертную дискуссию про генеративный искусственный интеллект: поговорим о подходах и прикладных применениях в различных отраслях.

Начнётся дискуссия в 10.00.

Прямая трансляция

#флэшбэк
Забавно, что до текущего момента я в Казани был всего 2 раза: в студенчестве ездил на Cirque du Soleil, и на конференцию ММРО в 2013. А в Иннополисе ни разу так и не удавалось побывать😶
🔥33👍6
Life style
💯66👍14🔥7❤‍🔥4
Forwarded from RnD CV Team (Alexander Kapitanov)
Пятничное!✌️

🔥Подборка 10 интересных и бесплатных обучающих материалов по компьютерному зрению!🔥

👁 Computer Vision: Algorithms and Applicationsбиблия обработки сигналов и компьютерного зрения от Richard Szeliski. Книга распространяется бесплатно!

👁 Digital image processing by Rafael C. Gonzalez — еще одна интересная книга по обработке изображений и классике.

👁 The Ancient Secrets of Computer Vision — курс от Joseph Redmon преимущественно по классическому зрению, в конце затрагивает нейронные сети. А еще у него забавное резюме.

👁 First Principles of Computer Vision — обучающий курс лекций от Shree Nayar. От классических алгоритмов компьютерного зрения и обработки изображний до глубокого обучения!

👁 CS231n: Deep Learning for Computer Vision — настоявшаяся классика, курс по глубокому обучению и компьютерному зрению. На youtube есть выпуски разных лет.

👁 Компьютерное зрение — отличный курс по классическому компьютерному зрению на youtube от Антона Конушина. Есть разные версии курса, даже от 2011 и 2015 года!

👁 OpenCV Tutorials — неплохие обучающие материалы на официальном сайте OpenCV. Также у них есть платные курсы.

👁 Курс от Deep Learning School — большая подборка лекций и семинаров от классического ML до глубокого обучения и компьютерного зрения от ребят из физтеха.

👁 Курсы лекций (часть 1, часть 2) на youtube от Алексея Артамонова. На канале Computer Science Center есть также другие обучающие материалы!

👁 Курсы лекций по глубокому обучению и компьютерному зрению от Евгения Разинкова на youtube.

#edu
❤‍🔥19🔥6👍4🏆2💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Москва, с днём города!🎉

@complete_ai
🔥63👎7👏5💯3❤‍🔥1👍1
Одним из интересных мероприятий на прошлой неделе было выступление на семинаре сообщества AGI Russia, где я рассказывал про исследования команды в области мультмодальных моделей и способности таких архитектур понимать различные типы данных: аудио, изображения, последовательности событий. На этапе дискуссии были интересные нестандартные вопросы, за что спасибо слушателям. Должно быть особенно полезно тем, кто интересуется направлением фундаментальных моделей и AGI.

🎬YouTube

@complete_ai
❤‍🔥15🔥6👎3💯21
Пишем сейчас с ребятами статью на ICLR, времени как всегда мало, прогноз жизненного цикла сабмишена примерно так выглядит)
🔥30❤‍🔥6💯3
🏆Сегодня мы официально запускаем новый AIJ Contest, в котором заявлено 5 крутых задач с общим призовым фондом 11+ млн рублей!!!

1) Strong Intelligence — создать мультимодальную модель, которая обыгрывает знатоков интеллектуальных викторин и показывает суперуровень эрудиции

2) Unique RecSys — обучить ИИ-алгоритм подбирать наиболее релевантный контент

3) Personal AI — создать человекоцентричного ИИ-помощника

4) Equal AI — сделать сервисы доступными каждому — обучить модель распознавать русский жестовый язык по видео

5) Rescue AI — разработать новый способ расшифровки генома

Обо всех задачах подробно можно прочитать здесь

Первая же задача Strong Intelligence (самая сложная и на повестке современных мультимодальных исследований) разрабатывалась нашей командой AIRI + Sber AI — очень хочется получить много интересных крутых решений. Готов отвечать на вопросы, если будут возникать!

Скоро откроем гитхаб с baseline решением, и в ближайшее время проведём вебинар, где расскажем подробно про задачи и ответим на возникающие вопросы, а пока желаю всем продуктивного погружения в контекст задач🦾

Update: GitHub

Следите за информацией)
🔥38🎉8🏆6👍3
❤️ Приглашаю на научный семинар AIRI на следующей неделе

🔵Дата и время: 4 октября в 16:55

🔵Тема: «Одна LLM хорошо, а N лучше? Мультиагентный подход - путь к AGI»

🔵Докладчик: Андрей Кузнецов, AIRI, Сбер

🔵Оппонент: Валентин Малых, MTS AI

🔵Подробное описание семинара скоро появится по ссылке

Пригласить внешних слушателей и посмотреть записи прошлых семинаров можно на YouTube-канале AIRI.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40🔥13🎉3
⚡️Горжусь командой и поздравляю всех соавторов!

Нашу статью про модель Kandinsky приняли на одну из топовых конференций - EMNLP 2023 (A*) в Demo трек. В этом году она проходит с 6 по 10 декабря в Сингапуре.

Чуть позже, как отправим финальную версию, я выложу её в канале - удалось много интересных экспериментов провести с архитектурой: ablation study с prior блоком, human evaluation, сравнение в единой конфигурации существующие open source модели и т.д.

ℹ️Для подписчиков, которые по каким-то причинам не публикуются или просто не знакомы, рейтинг конференции является показателем её крутости (A* = exceptional, flagship). На такие конференции, как правило, более строгий отбор, доля принятых статей не очень большая, и, как следствие, учёные стараются отправлять туда свои самые значимые достижения в исследованиях.
🔥116👍18🎉12❤‍🔥4🏆3
🏅А кто сегодня молодец и взял Trending paper на Hugging Face, обогнав Google DeepMind и Carnegie Mellon?

Правильный ответ: статья про нашу модель Kandinsky, которую мы выложили на arxiv.

А среди отметивших статью Julien Chaumond (CTO Hugging Face) и Patrick von Platten (Team lead Diffusers)! Со вторым мы активно сотрудничаем по внедрению модели в их самый крупный фреймворк генеративных моделей diffusers (18.2k на GitHub).

Ссылка на hf

P.S. Trending paper — лучшая статья дня в одном из крупнейших мировых комьюнити исследователей и ML разработок Hugging Face.

@complete_ai
🔥139👍23🎉13💯4🏆4👎3
Научили Kandinsky 2.2 "понимать" время

Мы сегодня расширяем способности Kandinsky 2.2 и добавляем новую возможность создавать видеоролики по текстовому описанию в режиме анимации. По одному текстовому описанию генерируется 4-секундное видео, эффект анимации можно выбрать из предложенного списка: от смещений в разные стороны до сложных пролётов над сценой - всего таких режимов 16 штук.

Видео генерируются с частотой 24 кадра в секунду и разрешением 640×640 пикселей. Ожидание генерации от запуска до результат составит около 1.5 минут.

Так как новый режим ресурсозатратный, мы решили пока дать доступ самым активным пользователям Kandinsky 2.2, которые получат приглашение в ближайшее время. Ну а к концу года обязательно раскатаем для всех).

Мы также добавили интересный режим, который для себя назвали "Режиссёр". Смысл в том, что пользователь может ввести 1-3 текстовых описаний, затем выбрать для каждого свою механику анимации, а после этого модель создаст «мини-фильм».

Те пользователи, которые хотят попробовать новые возможности модели сейчас, могут оставить заявку на получение доступа в Telegram-боте.

Ну и мы следуем традиции - код выложен в open source, на Хабре больше деталей и генераций.

Добро пожаловать из мира статики в мир динамики💪
Очень жду ваш фидбэк — это для нас крайне важно!

📌Полезные ссылки:
Сайт проекта
GitHub
Telegram-бот
Хабр

UPD:
Добавили галерею на rudalle.ru
Добавил ссылку на Хабр

@complete_ai
🔥50👍13❤‍🔥7👏4🎉3🏆3👎1
🔥Куда уж меньше?
BitNet: Scaling 1-bit Transformers for Large Language Models

Microsoft Research продолжая исследования в области эффективного обучения и инференса языковых моделей (летом они выпускали статью про новый тип архитектур для замен трансформеров - Retentive Networks) выкатили однобитную трансформерную архитектуру BitNet (веса принимают значения только -1 и +1). На ряде задач BitNet умудряется выдавать качество сопоставимое с моделями в FP16. Авторы предлагают замену слоя nn.Linear на BitLinear для обучения бинарных весов. Сами же активации входных тензоров квантуются до 8-битных значений в ходе обучения. На этапе деквантизации в слое BitLinear точность активаций восстанавливается.

Что получаем в сухом остатке:
1) квантованные веса и активации снижают вычислительные затраты на обучение
2) градиенты и состояния оптимизатора сохраняют высокую точность, чтобы обеспечить стабильность обучения
3) для ускорения сходимости в начале обучения модели с бинарными весами применяют большие значения LR (маленькие изменения не приведут к обновлению бинарных весов)
4) scaling laws работают так же как и для fp16 трансформеров!
5) идеологически этот подход можно применять и для других типов архитектур (сами авторы планируют применить его в RetNet’ах)

Статья

@complete_ai
🔥19👍6💯4
🎂
Please open Telegram to view this post
VIEW IN TELEGRAM
💯42👎94🏆4