Крутая интерпретация как работают LLM и все окружающие их адаптеры и фичи!
Спасибо @isamsonov за эту картинку🔥
Спасибо @isamsonov за эту картинку🔥
🔥28👏1
В программе курсы по вычислительной линейной алгебре, оптимизации, машинному и глубинному обучению, обучению с подкреплением, обработке текстов, компьютерному зрению, и другие дисциплины, необходимые для карьеры в сфере AI. Обучение будет идти в связке с индустриальными задачами и проектами, что позволит применять знания сразу на практике.
Среди лекторов Иван Оселедец, Евгений Бурнаев, Александр Панченко, Сергей Загоруйко и многие другие. Все имеют большой список высокорейтинговых публикаций на A/A* конференциях и в топ журналах, внушительный индекс Хирша, а также занимаются прикладными проектами в сфере AI.
Не упустите шанс учиться у лучших!
Срок подачи заявок - до 10 июля
📌Подайте заявку на участие в программе Data Science
📌Подробнее о программе
📌Подробнее о магистратуре Сколтеха
Please open Telegram to view this post
VIEW IN TELEGRAM
msc.skoltech.ru
Науки о данных
👍14🔥4
⚡Важная информация для всех, кто интересуется эффективным векторным представлением изображений для text2image моделей!
Если вы хотите компактно хранить картинки и восстанавливать их после декодера с минимальными потерями, то это решение для вас😉
Сегодня мы выложили в опенсурс и выпустили статью на Хабре про наш новый энкодер, который используется в генеративной модели Kandinsky 2.1 - Sber-MoVQGAN, который базируется на статье MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation. В статье приведены примеры работы обученного энкодера для разных сложных доменов (лица, текст, и др.), результаты экспериментов с архитектурой и её размерами (выкладываем целых 3 версии энкодера: 67M, 102M и 270M параметров), а сама модель по классике выложена в опенсурс. Пользуйтесь🎉
💥Хабр
💥GitHub
@complete_ai
Если вы хотите компактно хранить картинки и восстанавливать их после декодера с минимальными потерями, то это решение для вас😉
Сегодня мы выложили в опенсурс и выпустили статью на Хабре про наш новый энкодер, который используется в генеративной модели Kandinsky 2.1 - Sber-MoVQGAN, который базируется на статье MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation. В статье приведены примеры работы обученного энкодера для разных сложных доменов (лица, текст, и др.), результаты экспериментов с архитектурой и её размерами (выкладываем целых 3 версии энкодера: 67M, 102M и 270M параметров), а сама модель по классике выложена в опенсурс. Пользуйтесь🎉
💥Хабр
💥GitHub
@complete_ai
❤🔥37👍10👏1
🚀MI-Modal In-Context Instruction Tuning (MIMIC-IT): в рамках проекта Otter 🦦 Microsoft делится самым большим инструктивным визуально-текстовым датасетом
Otter - это одна из свежих визуально-текстовых моделей (visual language model, VLM), построенная на OpenFlamingo. Для обучения Otter использовался собранный датасет MIMIC-IT, содержащий 2.8М пар связанных мультиязычных (без русского🙁) мультимодальных инструкций с ответами, среди которых 2.2М инструкций получены для визуальных данных (изображения и видео). При создании сета использовались разные сценарии, симулирующие естественные диалоги: описание изображений/видео, сравнение изображений, ответы на вопросы, понимание сцены и возможных действий в помещении (в качестве изображений тут использовался сет из снятых в помещении фотографий) и др. Инструкции и ответы генерировались с помощью API ChatGPT-0301, на использование которого было потрачено около 20к $. Визуальные данные «поставлялись» в ChatGPT через алгоритмы аннотирования (описание, детекция объектов и тд.)
Итого: большой инструктивный сет с различными мультимодальными контекстами для обучения модели пониманию сцен на фото и видео (perception), а также логическим выводам (reasoning).
📌Paper
📌Проект
📌GitHub
📌Youtube
@complete_ai
Otter - это одна из свежих визуально-текстовых моделей (visual language model, VLM), построенная на OpenFlamingo. Для обучения Otter использовался собранный датасет MIMIC-IT, содержащий 2.8М пар связанных мультиязычных (без русского🙁) мультимодальных инструкций с ответами, среди которых 2.2М инструкций получены для визуальных данных (изображения и видео). При создании сета использовались разные сценарии, симулирующие естественные диалоги: описание изображений/видео, сравнение изображений, ответы на вопросы, понимание сцены и возможных действий в помещении (в качестве изображений тут использовался сет из снятых в помещении фотографий) и др. Инструкции и ответы генерировались с помощью API ChatGPT-0301, на использование которого было потрачено около 20к $. Визуальные данные «поставлялись» в ChatGPT через алгоритмы аннотирования (описание, детекция объектов и тд.)
Итого: большой инструктивный сет с различными мультимодальными контекстами для обучения модели пониманию сцен на фото и видео (perception), а также логическим выводам (reasoning).
📌Paper
📌Проект
📌GitHub
📌Youtube
@complete_ai
🔥21👏1
✅Использовать Q-Former, чтобы добавить в LLaMA возможность работать с видео и аудио модальностями
🔥Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
1) Video Q-Former для кодирования темпоральных связей между кадрами. Учим модель решать задачу описания видео (video-to-text)
2) Подход ImageBind (by FAIR) для совместного использования согласованных эмбеддингов различных модальностей (энкодеры Video Q-Former и Audio Q-Former согласованы во времени) - напомню, идея снова в использовании линейных маппингов над энкодерами и симметричной функции потерь InfoNCE для того, чтобы сблизить эмбеддинги в одном векторном пространстве
3) Файнтюнинг: инструктивный + пары «видео/картинка-описание»
📌Статья
📌GitHub
@complete_ai
🔥Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
1) Video Q-Former для кодирования темпоральных связей между кадрами. Учим модель решать задачу описания видео (video-to-text)
2) Подход ImageBind (by FAIR) для совместного использования согласованных эмбеддингов различных модальностей (энкодеры Video Q-Former и Audio Q-Former согласованы во времени) - напомню, идея снова в использовании линейных маппингов над энкодерами и симметричной функции потерь InfoNCE для того, чтобы сблизить эмбеддинги в одном векторном пространстве
3) Файнтюнинг: инструктивный + пары «видео/картинка-описание»
📌Статья
📌GitHub
@complete_ai
🔥14
🔥25❤🔥8⚡3
Внедряете ИИ в рабочие процессы?
Anonymous Poll
45%
За деньги ДА
24%
Подумываю над этим, но не знаю как внедрить
26%
Были бы процессы, а ИИ место найдется
3%
Не вижу смысла
2%
Нет, это помеха развитию
🔥SouthHub кэмп и конференция подошли к концу. Это было отличное мероприятие для всех уровней управления в IT и AI, для разных сфер науки, промышленности и бизнеса. Нетворкинг удался, я рассказал про факапы с данными, выступил с масштабным докладом про генеративный ИИ в части генерации изображений, потом провели с коллегой воркшоп по тому, где и как найти место в своей сфере генеративному ИИ и как получить от этого пользу.
Организаторам и участникам отдельный респект❤️
#southhub see U in 2024✈️
🚀Дальше по плану Saint HighLoad++
Организаторам и участникам отдельный респект❤️
#southhub see U in 2024✈️
🚀Дальше по плану Saint HighLoad++
❤🔥20👍7🔥7🏆4⚡3
⚡⚡⚡Очень годный курс на Дзене по тому, как качественно генерировать изображения с помощью модели Kandinsky. Покрыты различные темы, показана специфика разных типов генеративных запросов.
👓Ссылка на курс
👓Ссылка на курс
🔥33👍9⚡2👎1
🔥Футуристический арт от поколения будущего на экранах по всей России
Изображения создали клиенты Сбера с помощью нейросети Kandinsky 2.1, а мы соединили их в мурал и решили показать всей стране.
На видео — кинотеатр «Октябрь» в Москве. Увидеть нейроарт можно также в Санкт-Петербурге, Екатеринбурге, Новосибирске, Нижнем Новгороде, Волгограде, Самаре и Челябинске.
Присылайте фотки муралов в комменты😊
Изображения создали клиенты Сбера с помощью нейросети Kandinsky 2.1, а мы соединили их в мурал и решили показать всей стране.
На видео — кинотеатр «Октябрь» в Москве. Увидеть нейроарт можно также в Санкт-Петербурге, Екатеринбурге, Новосибирске, Нижнем Новгороде, Волгограде, Самаре и Челябинске.
Присылайте фотки муралов в комменты😊
🔥48⚡4💯4👍3❤🔥1