На днях NVidia выпустили статью о новом фреймворке DreamTeacher с одноименной статьёй
DreamTeacher: Pretraining Image Backbones with Deep Generative Models
Идея в том, чтобы используя генеративные модели через дистилляцию улучшить признаки карточных backbone моделей в классических задачах компьютерного зрения: сегментация, классификация и тд. (MSE лосс)
Ту же дистилляцию можно применить на конечных задачах с разметкой на генеративных и backbone логитах (кросс энтропия и Dice лосс)
Итог: получился механизм претрейна backbone архитектур на базе генеративных фичей, обладающих семантическим обоснованием.
Статья
Проект
@complete_ai
DreamTeacher: Pretraining Image Backbones with Deep Generative Models
Идея в том, чтобы используя генеративные модели через дистилляцию улучшить признаки карточных backbone моделей в классических задачах компьютерного зрения: сегментация, классификация и тд. (MSE лосс)
Ту же дистилляцию можно применить на конечных задачах с разметкой на генеративных и backbone логитах (кросс энтропия и Dice лосс)
Итог: получился механизм претрейна backbone архитектур на базе генеративных фичей, обладающих семантическим обоснованием.
Статья
Проект
@complete_ai
🔥11💯2
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 ruGPT-3.5. Открытая русскоязычная LLM от Сбера
Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!
🔸 Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.
🔸 ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.
🔸 Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.
Написали небольшой пост про это, прошу поддержать, кому интересно.
👉 Хабр | Hugging Face
Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!
🔸 Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.
🔸 ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.
🔸 Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.
Написали небольшой пост про это, прошу поддержать, кому интересно.
👉 Хабр | Hugging Face
🔥47👍9❤🔥4👎2
⚡️Запускаем ruGPT-3.5 в Colab'е
Сообщество не дремлет и накидало в личку квантованных версий вышедшей вчера модели (ребята, вы молодцы 🚀).
Ужимали при помощи AutoGPTQ в 4bit, так же как делает TheBloke. Качество, само собой, при квантизации в 4bit проседает, но поиграться можно.
Еще ребята в комьюнити сделали версию в формате GPTQ.
Colab
Хабр
HF
GPTQ
Сообщество не дремлет и накидало в личку квантованных версий вышедшей вчера модели (ребята, вы молодцы 🚀).
Ужимали при помощи AutoGPTQ в 4bit, так же как делает TheBloke. Качество, само собой, при квантизации в 4bit проседает, но поиграться можно.
Еще ребята в комьюнити сделали версию в формате GPTQ.
Colab
Хабр
HF
GPTQ
GitHub
GitHub - AutoGPTQ/AutoGPTQ: An easy-to-use LLMs quantization package with user-friendly apis, based on GPTQ algorithm.
An easy-to-use LLMs quantization package with user-friendly apis, based on GPTQ algorithm. - AutoGPTQ/AutoGPTQ
🔥27👍6💯2👎1
Завтра на конференции AI in 2023 в Иннополисе проведу экспертную дискуссию про генеративный искусственный интеллект: поговорим о подходах и прикладных применениях в различных отраслях.
Начнётся дискуссия в 10.00.
Прямая трансляция
#флэшбэк
Забавно, что до текущего момента я в Казани был всего 2 раза: в студенчестве ездил на Cirque du Soleil, и на конференцию ММРО в 2013. А в Иннополисе ни разу так и не удавалось побывать😶
Начнётся дискуссия в 10.00.
Прямая трансляция
#флэшбэк
Забавно, что до текущего момента я в Казани был всего 2 раза: в студенчестве ездил на Cirque du Soleil, и на конференцию ММРО в 2013. А в Иннополисе ни разу так и не удавалось побывать😶
aiconf.innopolis.ru
Конференция AI IN 2023
Конференция по искусственному интеллекту для бизнеса в Иннополисе
🔥33👍6
Forwarded from RnD CV Team (Alexander Kapitanov)
Пятничное!✌️
🔥Подборка 10 интересных и бесплатных обучающих материалов по компьютерному зрению!🔥
👁 Computer Vision: Algorithms and Applications — библия обработки сигналов и компьютерного зрения от Richard Szeliski. Книга распространяется бесплатно!
👁 Digital image processing by Rafael C. Gonzalez — еще одна интересная книга по обработке изображений и классике.
👁 The Ancient Secrets of Computer Vision — курс от Joseph Redmon преимущественно по классическому зрению, в конце затрагивает нейронные сети. А еще у него забавное резюме.
👁 First Principles of Computer Vision — обучающий курс лекций от Shree Nayar. От классических алгоритмов компьютерного зрения и обработки изображний до глубокого обучения!
👁 CS231n: Deep Learning for Computer Vision — настоявшаяся классика, курс по глубокому обучению и компьютерному зрению. На youtube есть выпуски разных лет.
👁 Компьютерное зрение — отличный курс по классическому компьютерному зрению на youtube от Антона Конушина. Есть разные версии курса, даже от 2011 и 2015 года!
👁 OpenCV Tutorials — неплохие обучающие материалы на официальном сайте OpenCV. Также у них есть платные курсы.
👁 Курс от Deep Learning School — большая подборка лекций и семинаров от классического ML до глубокого обучения и компьютерного зрения от ребят из физтеха.
👁 Курсы лекций (часть 1, часть 2) на youtube от Алексея Артамонова. На канале Computer Science Center есть также другие обучающие материалы!
👁 Курсы лекций по глубокому обучению и компьютерному зрению от Евгения Разинкова на youtube.
#edu
🔥Подборка 10 интересных и бесплатных обучающих материалов по компьютерному зрению!🔥
👁 Computer Vision: Algorithms and Applications — библия обработки сигналов и компьютерного зрения от Richard Szeliski. Книга распространяется бесплатно!
👁 Digital image processing by Rafael C. Gonzalez — еще одна интересная книга по обработке изображений и классике.
👁 The Ancient Secrets of Computer Vision — курс от Joseph Redmon преимущественно по классическому зрению, в конце затрагивает нейронные сети. А еще у него забавное резюме.
👁 First Principles of Computer Vision — обучающий курс лекций от Shree Nayar. От классических алгоритмов компьютерного зрения и обработки изображний до глубокого обучения!
👁 CS231n: Deep Learning for Computer Vision — настоявшаяся классика, курс по глубокому обучению и компьютерному зрению. На youtube есть выпуски разных лет.
👁 Компьютерное зрение — отличный курс по классическому компьютерному зрению на youtube от Антона Конушина. Есть разные версии курса, даже от 2011 и 2015 года!
👁 OpenCV Tutorials — неплохие обучающие материалы на официальном сайте OpenCV. Также у них есть платные курсы.
👁 Курс от Deep Learning School — большая подборка лекций и семинаров от классического ML до глубокого обучения и компьютерного зрения от ребят из физтеха.
👁 Курсы лекций (часть 1, часть 2) на youtube от Алексея Артамонова. На канале Computer Science Center есть также другие обучающие материалы!
👁 Курсы лекций по глубокому обучению и компьютерному зрению от Евгения Разинкова на youtube.
#edu
❤🔥19🔥6👍4🏆2💯1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥63👎7👏5💯3❤🔥1👍1
Одним из интересных мероприятий на прошлой неделе было выступление на семинаре сообщества AGI Russia, где я рассказывал про исследования команды в области мультмодальных моделей и способности таких архитектур понимать различные типы данных: аудио, изображения, последовательности событий. На этапе дискуссии были интересные нестандартные вопросы, за что спасибо слушателям. Должно быть особенно полезно тем, кто интересуется направлением фундаментальных моделей и AGI.
🎬YouTube
@complete_ai
🎬YouTube
@complete_ai
Telegram
AGIRussia.news
Новости русскоязычного сообщества разработчиков AGI
❤🔥15🔥6👎3💯2⚡1
🏆Сегодня мы официально запускаем новый AIJ Contest, в котором заявлено 5 крутых задач с общим призовым фондом 11+ млн рублей!!!
1) Strong Intelligence — создать мультимодальную модель, которая обыгрывает знатоков интеллектуальных викторин и показывает суперуровень эрудиции
2) Unique RecSys — обучить ИИ-алгоритм подбирать наиболее релевантный контент
3) Personal AI — создать человекоцентричного ИИ-помощника
4) Equal AI — сделать сервисы доступными каждому — обучить модель распознавать русский жестовый язык по видео
5) Rescue AI — разработать новый способ расшифровки генома
Обо всех задачах подробно можно прочитать здесь
Первая же задача Strong Intelligence (самая сложная и на повестке современных мультимодальных исследований) разрабатывалась нашей командой AIRI + Sber AI — очень хочется получить много интересных крутых решений. Готов отвечать на вопросы, если будут возникать!
Скоро откроем гитхаб с baseline решением, и в ближайшее время проведём вебинар, где расскажем подробно про задачи и ответим на возникающие вопросы, а пока желаю всем продуктивного погружения в контекст задач🦾
Update: GitHub
Следите за информацией)
1) Strong Intelligence — создать мультимодальную модель, которая обыгрывает знатоков интеллектуальных викторин и показывает суперуровень эрудиции
2) Unique RecSys — обучить ИИ-алгоритм подбирать наиболее релевантный контент
3) Personal AI — создать человекоцентричного ИИ-помощника
4) Equal AI — сделать сервисы доступными каждому — обучить модель распознавать русский жестовый язык по видео
5) Rescue AI — разработать новый способ расшифровки генома
Обо всех задачах подробно можно прочитать здесь
Первая же задача Strong Intelligence (самая сложная и на повестке современных мультимодальных исследований) разрабатывалась нашей командой AIRI + Sber AI — очень хочется получить много интересных крутых решений. Готов отвечать на вопросы, если будут возникать!
Скоро откроем гитхаб с baseline решением, и в ближайшее время проведём вебинар, где расскажем подробно про задачи и ответим на возникающие вопросы, а пока желаю всем продуктивного погружения в контекст задач🦾
Update: GitHub
Следите за информацией)
🔥38🎉8🏆6👍3
Complete AI
🏆Сегодня мы официально запускаем новый AIJ Contest, в котором заявлено 5 крутых задач с общим призовым фондом 11+ млн рублей!!! 1) Strong Intelligence — создать мультимодальную модель, которая обыгрывает знатоков интеллектуальных викторин и показывает суперуровень…
GitHub
GitHub - ai-forever/fbc3_aij2023
Contribute to ai-forever/fbc3_aij2023 development by creating an account on GitHub.
🔥12🙏1💯1
Пригласить внешних слушателей и посмотреть записи прошлых семинаров можно на YouTube-канале AIRI.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40🔥13🎉3
⚡️Горжусь командой и поздравляю всех соавторов!
Нашу статью про модель Kandinsky приняли на одну из топовых конференций - EMNLP 2023 (A*) в Demo трек. В этом году она проходит с 6 по 10 декабря в Сингапуре.
Чуть позже, как отправим финальную версию, я выложу её в канале - удалось много интересных экспериментов провести с архитектурой: ablation study с prior блоком, human evaluation, сравнение в единой конфигурации существующие open source модели и т.д.
ℹ️Для подписчиков, которые по каким-то причинам не публикуются или просто не знакомы, рейтинг конференции является показателем её крутости (A* = exceptional, flagship). На такие конференции, как правило, более строгий отбор, доля принятых статей не очень большая, и, как следствие, учёные стараются отправлять туда свои самые значимые достижения в исследованиях.
Нашу статью про модель Kandinsky приняли на одну из топовых конференций - EMNLP 2023 (A*) в Demo трек. В этом году она проходит с 6 по 10 декабря в Сингапуре.
Чуть позже, как отправим финальную версию, я выложу её в канале - удалось много интересных экспериментов провести с архитектурой: ablation study с prior блоком, human evaluation, сравнение в единой конфигурации существующие open source модели и т.д.
ℹ️Для подписчиков, которые по каким-то причинам не публикуются или просто не знакомы, рейтинг конференции является показателем её крутости (A* = exceptional, flagship). На такие конференции, как правило, более строгий отбор, доля принятых статей не очень большая, и, как следствие, учёные стараются отправлять туда свои самые значимые достижения в исследованиях.
🔥116👍18🎉12❤🔥4🏆3
🏅А кто сегодня молодец и взял Trending paper на Hugging Face, обогнав Google DeepMind и Carnegie Mellon?
Правильный ответ: статья про нашу модель Kandinsky, которую мы выложили на arxiv.
⚡А среди отметивших статью Julien Chaumond (CTO Hugging Face) и Patrick von Platten (Team lead Diffusers)! Со вторым мы активно сотрудничаем по внедрению модели в их самый крупный фреймворк генеративных моделей diffusers (18.2k⭐ на GitHub).
Ссылка на hf
P.S. Trending paper — лучшая статья дня в одном из крупнейших мировых комьюнити исследователей и ML разработок Hugging Face.
@complete_ai
Правильный ответ: статья про нашу модель Kandinsky, которую мы выложили на arxiv.
⚡А среди отметивших статью Julien Chaumond (CTO Hugging Face) и Patrick von Platten (Team lead Diffusers)! Со вторым мы активно сотрудничаем по внедрению модели в их самый крупный фреймворк генеративных моделей diffusers (18.2k⭐ на GitHub).
Ссылка на hf
P.S. Trending paper — лучшая статья дня в одном из крупнейших мировых комьюнити исследователей и ML разработок Hugging Face.
@complete_ai
🔥139👍23🎉13💯4🏆4👎3
⚡⚡⚡Научили Kandinsky 2.2 "понимать" время
Мы сегодня расширяем способности Kandinsky 2.2 и добавляем новую возможность создавать видеоролики по текстовому описанию в режиме анимации. По одному текстовому описанию генерируется 4-секундное видео, эффект анимации можно выбрать из предложенного списка: от смещений в разные стороны до сложных пролётов над сценой - всего таких режимов 16 штук.
Видео генерируются с частотой 24 кадра в секунду и разрешением 640×640 пикселей. Ожидание генерации от запуска до результат составит около 1.5 минут.
Так как новый режим ресурсозатратный, мы решили пока дать доступ самым активным пользователям Kandinsky 2.2, которые получат приглашение в ближайшее время. Ну а к концу года обязательно раскатаем для всех).
Мы также добавили интересный режим, который для себя назвали "Режиссёр". Смысл в том, что пользователь может ввести 1-3 текстовых описаний, затем выбрать для каждого свою механику анимации, а после этого модель создаст «мини-фильм».
Те пользователи, которые хотят попробовать новые возможности модели сейчас, могут оставить заявку на получение доступа в Telegram-боте.
Ну и мы следуем традиции - код выложен в open source, на Хабре больше деталей и генераций.
Добро пожаловать из мира статики в мир динамики💪
Очень жду ваш фидбэк — это для нас крайне важно!
📌Полезные ссылки:
Сайт проекта
GitHub
Telegram-бот
Хабр
UPD:
Добавили галерею на rudalle.ru
Добавил ссылку на Хабр
@complete_ai
Мы сегодня расширяем способности Kandinsky 2.2 и добавляем новую возможность создавать видеоролики по текстовому описанию в режиме анимации. По одному текстовому описанию генерируется 4-секундное видео, эффект анимации можно выбрать из предложенного списка: от смещений в разные стороны до сложных пролётов над сценой - всего таких режимов 16 штук.
Видео генерируются с частотой 24 кадра в секунду и разрешением 640×640 пикселей. Ожидание генерации от запуска до результат составит около 1.5 минут.
Так как новый режим ресурсозатратный, мы решили пока дать доступ самым активным пользователям Kandinsky 2.2, которые получат приглашение в ближайшее время. Ну а к концу года обязательно раскатаем для всех).
Мы также добавили интересный режим, который для себя назвали "Режиссёр". Смысл в том, что пользователь может ввести 1-3 текстовых описаний, затем выбрать для каждого свою механику анимации, а после этого модель создаст «мини-фильм».
Те пользователи, которые хотят попробовать новые возможности модели сейчас, могут оставить заявку на получение доступа в Telegram-боте.
Ну и мы следуем традиции - код выложен в open source, на Хабре больше деталей и генераций.
Добро пожаловать из мира статики в мир динамики💪
Очень жду ваш фидбэк — это для нас крайне важно!
📌Полезные ссылки:
Сайт проекта
GitHub
Telegram-бот
Хабр
UPD:
Добавили галерею на rudalle.ru
Добавил ссылку на Хабр
@complete_ai
🔥50👍13❤🔥7👏4🎉3🏆3👎1
🔥Куда уж меньше?
BitNet: Scaling 1-bit Transformers for Large Language Models
Microsoft Research продолжая исследования в области эффективного обучения и инференса языковых моделей (летом они выпускали статью про новый тип архитектур для замен трансформеров - Retentive Networks) выкатили однобитную трансформерную архитектуру BitNet (веса принимают значения только -1 и +1). На ряде задач BitNet умудряется выдавать качество сопоставимое с моделями в FP16. Авторы предлагают замену слоя nn.Linear на BitLinear для обучения бинарных весов. Сами же активации входных тензоров квантуются до 8-битных значений в ходе обучения. На этапе деквантизации в слое BitLinear точность активаций восстанавливается.
Что получаем в сухом остатке:
1) квантованные веса и активации снижают вычислительные затраты на обучение
2) градиенты и состояния оптимизатора сохраняют высокую точность, чтобы обеспечить стабильность обучения
3) для ускорения сходимости в начале обучения модели с бинарными весами применяют большие значения LR (маленькие изменения не приведут к обновлению бинарных весов)
4) scaling laws работают так же как и для fp16 трансформеров!
5) идеологически этот подход можно применять и для других типов архитектур (сами авторы планируют применить его в RetNet’ах)
Статья
@complete_ai
BitNet: Scaling 1-bit Transformers for Large Language Models
Microsoft Research продолжая исследования в области эффективного обучения и инференса языковых моделей (летом они выпускали статью про новый тип архитектур для замен трансформеров - Retentive Networks) выкатили однобитную трансформерную архитектуру BitNet (веса принимают значения только -1 и +1). На ряде задач BitNet умудряется выдавать качество сопоставимое с моделями в FP16. Авторы предлагают замену слоя nn.Linear на BitLinear для обучения бинарных весов. Сами же активации входных тензоров квантуются до 8-битных значений в ходе обучения. На этапе деквантизации в слое BitLinear точность активаций восстанавливается.
Что получаем в сухом остатке:
1) квантованные веса и активации снижают вычислительные затраты на обучение
2) градиенты и состояния оптимизатора сохраняют высокую точность, чтобы обеспечить стабильность обучения
3) для ускорения сходимости в начале обучения модели с бинарными весами применяют большие значения LR (маленькие изменения не приведут к обновлению бинарных весов)
4) scaling laws работают так же как и для fp16 трансформеров!
5) идеологически этот подход можно применять и для других типов архитектур (сами авторы планируют применить его в RetNet’ах)
Статья
@complete_ai
🔥19👍6💯4
Please open Telegram to view this post
VIEW IN TELEGRAM
💯42👎9⚡4🏆4