Forwarded from AbstractDL
🔥MiniGPT-4: почти как GPT-4, но всего 13B параметров
Оказалось, если соединить LLaMA (Vicuna) и FROMAGe, то получится не только на 90% приблизиться к GPT-4, но и даже воспроизвести её визуальные навыки! При том, что тут обучается всего лишь один единственный линейный слой.
По сравнению с FROMAGe тут добавили Q-former и файнтюнинг на своём чистейшем визуально-диалоговом сете (3.5к примеров).
С помощью этой модели можно даже сгенерировать код сайта по одному лишь наброску! Код и веса есть в открытом доступе.
Статья, GitHub, датасет, блог
Оказалось, если соединить LLaMA (Vicuna) и FROMAGe, то получится не только на 90% приблизиться к GPT-4, но и даже воспроизвести её визуальные навыки! При том, что тут обучается всего лишь один единственный линейный слой.
По сравнению с FROMAGe тут добавили Q-former и файнтюнинг на своём чистейшем визуально-диалоговом сете (3.5к примеров).
С помощью этой модели можно даже сгенерировать код сайта по одному лишь наброску! Код и веса есть в открытом доступе.
Статья, GitHub, датасет, блог
🔥30👍9💯4
Forwarded from Dealer.AI
GigaChat
Наша проба пера в Instruct подходах при обучении Decoder like моделей. В течении последних нескольких месяцев мы усердно работали над нашим детищем - GigaChat. Пока это Instruct Only SFT моделька, но вскоре, надеюсь, мы порадуем вас и RLHF экспериментами.
В основе нашего GigaChat модель— NeONKA.
Текущая версия основана на претрейне ruGPT3.5 13B + SFT (supervised fine-tuning).
В side by side тестах GigaChat vs ChatGPT (когда разметчики выбирают предпочтительный вариант) результат — 30:70 в пользу последней (начинали с 3 против 97).
При этом, коллеги, планируют выкладывать компоненты лежащие в основе этого решения в open source, чтобы вы, друзья, могли сами обучать (я думаю скорее тюнить) подобные модели
Подробности в нашей статье на хабр .
UPD. Считаю, без героев дня совсем никак. Из моих подписчиков, мои герои: @averkij, @warfly, @oulenspiegel, @dayyass, @kuznetsoff87, @nikolaygerasimenko
Надеюсь никого не забыл)
Наша проба пера в Instruct подходах при обучении Decoder like моделей. В течении последних нескольких месяцев мы усердно работали над нашим детищем - GigaChat. Пока это Instruct Only SFT моделька, но вскоре, надеюсь, мы порадуем вас и RLHF экспериментами.
В основе нашего GigaChat модель— NeONKA.
Текущая версия основана на претрейне ruGPT3.5 13B + SFT (supervised fine-tuning).
В side by side тестах GigaChat vs ChatGPT (когда разметчики выбирают предпочтительный вариант) результат — 30:70 в пользу последней (начинали с 3 против 97).
При этом, коллеги, планируют выкладывать компоненты лежащие в основе этого решения в open source, чтобы вы, друзья, могли сами обучать (я думаю скорее тюнить) подобные модели
Подробности в нашей статье на хабр .
UPD. Считаю, без героев дня совсем никак. Из моих подписчиков, мои герои: @averkij, @warfly, @oulenspiegel, @dayyass, @kuznetsoff87, @nikolaygerasimenko
Надеюсь никого не забыл)
Хабр
Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера
Дракончик ждёт вас ниже Хайп вокруг нейросетей, выровненных при помощи инструкций и человеческой оценки (известных в народе под единым брендом «ChatGPT»), трудно не заметить. Люди разных профессий и...
🔥32👍10👏6❤🔥1👎1
Прошло 20 дней и новый крутой релиз🔥🙏 Спасибо большое всем тиммейтам, кто нашел силы и на этот гигантский релиз! @lizagonch - тебе в особенности!💐🎂🔥
Welcome to the era of GigaChat💬
Welcome to the era of GigaChat💬
❤🔥30🔥12👍9👎2
☀️Вообще не рекламный пост
Хотел рассказать про одну конференцию для тимлидов и CTO (как начинающих, так и опытных), в которой принимал участие в прошлом году - SouthHub. Проходила она на Красной Поляне в формате кэмпа, что позволяет совмещать движ в виде разных активностей (баскетбол, пробежки и тд) и лекции интересных спикеров для любителей как глубоко технических вещей, так и интересующихся в командообразовании. Нетворкинг за счёт этого симбиоза просто пушечный выходит🚀
Мне там, например, довелось познакомиться с Глебом Михеевым (Skillbox) @tired_glebmikheev мы много уже идей отработали, даже нашли и начали несколько интересных совместных инициатив.
В этом году конфа тоже на Красной Поляне с 12 по 16 июня, в таком же интересном формате. Еще добавили специальные билеты для желающих поехать с семьёй. В общем, если кто в поиске интересных коллабов, то это одно из мероприятий в году, где это реально затащить! Конфа по ссылке - там вся информация
📌А тут моё выступление на SouthHub 2022 про тренды генеративного искусственного интеллекта
📌Заходите в чат конфы в ТГ - там интересно!
Хотел рассказать про одну конференцию для тимлидов и CTO (как начинающих, так и опытных), в которой принимал участие в прошлом году - SouthHub. Проходила она на Красной Поляне в формате кэмпа, что позволяет совмещать движ в виде разных активностей (баскетбол, пробежки и тд) и лекции интересных спикеров для любителей как глубоко технических вещей, так и интересующихся в командообразовании. Нетворкинг за счёт этого симбиоза просто пушечный выходит🚀
Мне там, например, довелось познакомиться с Глебом Михеевым (Skillbox) @tired_glebmikheev мы много уже идей отработали, даже нашли и начали несколько интересных совместных инициатив.
В этом году конфа тоже на Красной Поляне с 12 по 16 июня, в таком же интересном формате. Еще добавили специальные билеты для желающих поехать с семьёй. В общем, если кто в поиске интересных коллабов, то это одно из мероприятий в году, где это реально затащить! Конфа по ссылке - там вся информация
📌А тут моё выступление на SouthHub 2022 про тренды генеративного искусственного интеллекта
📌Заходите в чат конфы в ТГ - там интересно!
👍20🔥14❤🔥5⚡3
Kandinsky 2.1 как искусство: руководство для тех, кто хочет больше
В прямом эфире 4 мая в 11:00 на совместном вебинаре Cloud и Sber AI я расскажу про архитектуру, возможности модели, способы файнтюна, как управлять качеством генераций и много другой полезной информации.
Из интересного вас ожидает:
▫️ новые возможности Kandinsky 2.1;
▫️ статистика активных пользователей нейросети и ТОП самых популярных запросов;
▫️ сценарии использования Kandinsky 2.1 как начинающими, так и продвинутыми пользователями, кастомизирующими модель под свои задачи в ML Space.
✅ Самое главное — вы получите рабочие промты написания запросов, с помощью которых AI получит необходимые детали для реализации ваших задумок, а вы — креативные изображения без лишних усилий.
Ждем на бесплатном вебинаре всех, кто хочет выйти на новый уровень в генерации визуального контента с Kandinsky 2.1 — зарегистрироваться
В прямом эфире 4 мая в 11:00 на совместном вебинаре Cloud и Sber AI я расскажу про архитектуру, возможности модели, способы файнтюна, как управлять качеством генераций и много другой полезной информации.
Из интересного вас ожидает:
Ждем на бесплатном вебинаре всех, кто хочет выйти на новый уровень в генерации визуального контента с Kandinsky 2.1 — зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍9❤🔥7
⚡Сегодня вышел наш совместный с РБК проект - первая AI газета, созданная при помощи наших моделей GigaChat (в части текста) и Kandinsky 2.1 (в части иллюстраций).
Тут можно почитать подробнее. Материал на РБК Тренды - тут
Тут можно почитать подробнее. Материал на РБК Тренды - тут
Telegram
РБК
РБК и Сбер создали первую в России газету с помощью нейросети GigaChat. Нейросеть Kandinsky 2.1 нарисовала иллюстрации к номеру.
В шести материалах рассказываем, как устроены и где применяются нейросети, чего ждать от технологий в 2023 году, какие перспективы…
В шести материалах рассказываем, как устроены и где применяются нейросети, чего ждать от технологий в 2023 году, какие перспективы…
👍27🔥9❤🔥6👎5👏1🙏1
🚀🗓️26-27 июня на конференции Saint HighLoad++ в Питере расскажу подробно про диффузионные модели, про Kandinsky 2.1 в деталях, данные и процесс обучения, как мы справлялись с нагрузкой на бэкенд, чего добились в ходе экспериментов, что можно исправить файнтюнами, а также где генеративный AI можно применять в бизнесе. Эта конференция в моём персональном рейтинге является одним из знаковых событий лета и 2023 года в целом в индустрии технологических мероприятий. Там будет много крутых спикеров и интересных докладов. Обязательно приходите, приезжайте и подключайтесь к трекам по интересам😉
#SaintHighLoad2023
@complete_ai
#SaintHighLoad2023
@complete_ai
👍32🔥16🎉3
Forwarded from Dendi Math&AI
🦌 RUDOLPH 🦌
Наконец-то дошли руки написать о нашей давней разработке, о модели RUDOLPH (RUssian Decoder On Language Picture Hyper-tasking), которая умеет решать много задач в модальностях текст и изображение и которая уже успела побывать бейзлайном соревнования FusionBrain Challenge 2.0 в 2022 году (и даже заняла там почётное третье место).
💡 Архитектурно модель представляет собой декодер-блок трансформера, работающий с входной последовательностью токенов, которую можно условно разделить на три основных сегмента: левые текстовые токены, токены изображения и правые текстовые токены. За счёт этого на претрейне можно показывать модели сэмплы по 3 задачам: text2image (генерация изображения по тексту), image2text (описание изображения) и text2text (языковое моделирование в левых текстовых токенах).
💡 Мы обучили 4 версии модели, которые различаются между собой как количеством параметров (соответственно, количеством и размером скрытых слоёв), так и соотношением количества токенов текста и изображения:
👉 RUDOLPH-350M
👉 RUDOLPH-1.3B
👉 RUDOLPH-2.7B
👉 RUDOLPH-2.7B-FBC2
💡 Последняя из этих моделей была дополнительно дообучена на инструктивном датасете (когда это ещё не стало мейнстримом 😊) решать 6 прикладных задач в модальностях текст и изображение: Text QA, Math QA, Image Generation, Image Captioning, Visual QA, Text Recognition in the Wild. RUDOLPH даже немного умеет в zero-shot object detection (после соответствующего файнтюна). Фишка этой версии модели также и в том, что она может понимать формулировку задачи на естественном (русском) языке 💪
Подробнее почитать про архитектуру RUDOLPH, узнать детали обучения и файнтюнинга, посмотреть примеры работы модели можно тут:
👉 Хабр
Воспользоваться и протестировать RUDOLPH можно тут:
👉 GitHub
👉 HuggingFace
👉 Cloud
В создании и обучении RUDOLPH успели принять участие многие ребята (@AShonenkov, @lizagonch - вам отдельное спасибо 👍, @kuznetsoff87, @bra_ket, @NastyaMittseva, @bom_bo0m @Gugutse @alexnikolich👌). Всем огромное спасибо за крутую и качественную работу!
@dendi_math_ai
Наконец-то дошли руки написать о нашей давней разработке, о модели RUDOLPH (RUssian Decoder On Language Picture Hyper-tasking), которая умеет решать много задач в модальностях текст и изображение и которая уже успела побывать бейзлайном соревнования FusionBrain Challenge 2.0 в 2022 году (и даже заняла там почётное третье место).
💡 Архитектурно модель представляет собой декодер-блок трансформера, работающий с входной последовательностью токенов, которую можно условно разделить на три основных сегмента: левые текстовые токены, токены изображения и правые текстовые токены. За счёт этого на претрейне можно показывать модели сэмплы по 3 задачам: text2image (генерация изображения по тексту), image2text (описание изображения) и text2text (языковое моделирование в левых текстовых токенах).
💡 Мы обучили 4 версии модели, которые различаются между собой как количеством параметров (соответственно, количеством и размером скрытых слоёв), так и соотношением количества токенов текста и изображения:
👉 RUDOLPH-350M
👉 RUDOLPH-1.3B
👉 RUDOLPH-2.7B
👉 RUDOLPH-2.7B-FBC2
💡 Последняя из этих моделей была дополнительно дообучена на инструктивном датасете (когда это ещё не стало мейнстримом 😊) решать 6 прикладных задач в модальностях текст и изображение: Text QA, Math QA, Image Generation, Image Captioning, Visual QA, Text Recognition in the Wild. RUDOLPH даже немного умеет в zero-shot object detection (после соответствующего файнтюна). Фишка этой версии модели также и в том, что она может понимать формулировку задачи на естественном (русском) языке 💪
Подробнее почитать про архитектуру RUDOLPH, узнать детали обучения и файнтюнинга, посмотреть примеры работы модели можно тут:
👉 Хабр
Воспользоваться и протестировать RUDOLPH можно тут:
👉 GitHub
👉 HuggingFace
👉 Cloud
В создании и обучении RUDOLPH успели принять участие многие ребята (@AShonenkov, @lizagonch - вам отдельное спасибо 👍, @kuznetsoff87, @bra_ket, @NastyaMittseva, @bom_bo0m @Gugutse @alexnikolich👌). Всем огромное спасибо за крутую и качественную работу!
@dendi_math_ai
Хабр
RUDOLPH: освещая дорогу к AGI
Как можно описать последние два года в области машинного обучения и искусственного интеллекта? Пожалуй, подойдет словосочетание «расцвет генеративных моделей». Причём работающих в разных модальностях....
🔥35👍8❤🔥2👎2
2000!
Спасибо всем за интерес и внимание к публикациям.
Главное, чтобы польза была для читателей🙏⚡
Спасибо всем за интерес и внимание к публикациям.
Главное, чтобы польза была для читателей🙏⚡
❤🔥41👏18🎉8🔥6
⚡Всей командой Sber AI начинаем подготовку к очередной конференции AI Journey 2023) И первая аудитория, которую хочется заинтересовать - это друзья, коллеги, знакомые и подписчики из родной академической среды)
В рамках AI Journey 2023 мы запустили отбор статей для выпуска научного журнала.
Работы будут опубликованы в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics, индексируемый в Scopus.
Авторы также смогут представить доклады в рамках конференции AI Journey 2023, лучшая работа получит приз – 1 000 000 рублей🌟
Подать статью можно на сайте AI Journey до 31 июля 2023 года.
В рамках AI Journey 2023 мы запустили отбор статей для выпуска научного журнала.
Работы будут опубликованы в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics, индексируемый в Scopus.
Авторы также смогут представить доклады в рамках конференции AI Journey 2023, лучшая работа получит приз – 1 000 000 рублей🌟
Подать статью можно на сайте AI Journey до 31 июля 2023 года.
SpringerLink
Doklady Mathematics
Doklady Mathematics is a peer-reviewed journal presenting significant new research in mathematics and its applications.
Includes pure and applied ...
Includes pure and applied ...
🔥34❤🔥5🎉3👎2⚡1
Давно я что-то не писал интересных обзоров и снова здравствуйте! Появилось время наконец⏳
🚀BLOOMChat: An Open-Source 176-Billion-Parameter Multilingual Chat Large Language Model
SambaNova на днях выпустила свой мультиязычный чатбот на основе 176 млрд. языковой модели BLOOM. Поддерживает 46 языков, 13 языков программирования.
BLOOM сама по себе очень большая опенсурс языковая модель, которая развивается огромным штатом международного комьюнити. В итоге эту модель удачно дотюнили на формате чат диалогов с помощью датасетов OpenChatKit, Dolly 2.0 и OASST1. Первый сет - исключительно синтетические диалоги, а последующие два - естественные диалоги.
Самый интересный результат - это human evaluation модели на 6 языках, в ходе которого BLOOMChat близок к GPT-4 по предпочтения ответов пользователями - 45% vs 55%. В задаче машинного перевода BLOOMChat тоже преуспел в качестве.
Создатели отмечают возможную токсичность модели, способность придумывать несуществующие факты и конечно предупреждают об ответственности за harmful контент😉
📌HuggingFace
📌Blog
+ несколько результатов сравнения модели в аттаче
@complete_ai
🚀BLOOMChat: An Open-Source 176-Billion-Parameter Multilingual Chat Large Language Model
SambaNova на днях выпустила свой мультиязычный чатбот на основе 176 млрд. языковой модели BLOOM. Поддерживает 46 языков, 13 языков программирования.
BLOOM сама по себе очень большая опенсурс языковая модель, которая развивается огромным штатом международного комьюнити. В итоге эту модель удачно дотюнили на формате чат диалогов с помощью датасетов OpenChatKit, Dolly 2.0 и OASST1. Первый сет - исключительно синтетические диалоги, а последующие два - естественные диалоги.
Самый интересный результат - это human evaluation модели на 6 языках, в ходе которого BLOOMChat близок к GPT-4 по предпочтения ответов пользователями - 45% vs 55%. В задаче машинного перевода BLOOMChat тоже преуспел в качестве.
Создатели отмечают возможную токсичность модели, способность придумывать несуществующие факты и конечно предупреждают об ответственности за harmful контент😉
📌HuggingFace
📌Blog
+ несколько результатов сравнения модели в аттаче
@complete_ai
🔥27👍4⚡3