Forwarded from Технологии | Нейросети | NanoBanana
Вы думаете, что я вас не переиграю? Я вас уничтожу!
Чекпоинт для генераций Понасенкова 😁
https://civitai.com/models/5096/maestro-evgenii-ponasenkov
• Больше моделей для StableDiffusion
Чекпоинт для генераций Понасенкова 😁
https://civitai.com/models/5096/maestro-evgenii-ponasenkov
• Больше моделей для StableDiffusion
👍8😁3🔥1
Всем доброго утра/дня/вечера!
Подумываю над новыми форматами для своего канала.
Как вы смотрите на «ReadingClub», где я рассказываю про какую-то досконально изученную новую интересную статью, а потом мы её обсуждаем? Как вариант, можно сделать голосование со списком обозреваемых работ, и самую залайканную статью мы и обсудим.
Провести мероприятие можем в любом удобном сервисе видеоконференций, или стримом прямо в канале тут.
По реакциям на пост пойму ваш настрой😉⚡️
Подумываю над новыми форматами для своего канала.
Как вы смотрите на «ReadingClub», где я рассказываю про какую-то досконально изученную новую интересную статью, а потом мы её обсуждаем? Как вариант, можно сделать голосование со списком обозреваемых работ, и самую залайканную статью мы и обсудим.
Провести мероприятие можем в любом удобном сервисе видеоконференций, или стримом прямо в канале тут.
По реакциям на пост пойму ваш настрой😉⚡️
👍54🔥10👏1🤔1💩1
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Скрипт для массового обращения к ChatGPT
Ребят, тут узнали имя модели ChatGPT и оно работает через официальное API OpenAI! Написал скрипт для массового обращения.
🔸 Имя модели в запросе text-chat-davinci-002-20221122.
🔸 Иногда сервер шлёт 500 и 503, просто обращаемся снова.
🔸 В какой-то момент в ошибке вылезло сообщение про RateLimit 150k/min, что странно, потому что упереться в него трудновато.
@doomgrad
👉 GitHub
Ребят, тут узнали имя модели ChatGPT и оно работает через официальное API OpenAI! Написал скрипт для массового обращения.
🔸 Имя модели в запросе text-chat-davinci-002-20221122.
🔸 Иногда сервер шлёт 500 и 503, просто обращаемся снова.
🔸 В какой-то момент в ошибке вылезло сообщение про RateLimit 150k/min, что странно, потому что упереться в него трудновато.
@doomgrad
👉 GitHub
🔥8😱1
⚡️⚡️⚡️Прямо сейчас Майкрософт и OpenAI проводит live про их Bing поиск с применением ChatGPT и другие продукты
LIVE
LIVE
The Verge
Microsoft’s ChatGPT event live blog
Microsoft is holding a surprise in-person event where it’s likely to demo a version of Bing with ChatGPT integrated and much more.
🔥9
⚡️Завели с командой новый режим нашей диффузионки Kandinsky 2.0 - image fusion. Скоро можно будет попробовать в основном боте модели вместе с другими режимами. Протестил на себе🤗
@complete_ai
@complete_ai
👍42🔥11❤7😁7🎉2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Сегодня знакомые экс-сберовские ребята запустились на ProductHunt со стартапом SpiritMe!
SpiritMe – это сервис по генерации видео с говорящими фотореалистичными аватарами. Подаешь на вход текст, а на выходе получаешь видос, где твой (или не твой) аватар его озвучивает.
Самое клевое – это то, как ребята собирают данные для обучения своего аватара. Раньше надо было снимать длинные видео, в фотостудии на профессиональное оборудование, а в SpiritMe достаточно снять 3-х минутное видео на фронталку айфона и уже на этом можно обучать своего аватара.
Также в отличие от конкурентов, пацаны могут добавлять лицевые эмоции и делать видео разнообразнее.
Поддержать ребят можно здесь
SpiritMe – это сервис по генерации видео с говорящими фотореалистичными аватарами. Подаешь на вход текст, а на выходе получаешь видос, где твой (или не твой) аватар его озвучивает.
Самое клевое – это то, как ребята собирают данные для обучения своего аватара. Раньше надо было снимать длинные видео, в фотостудии на профессиональное оборудование, а в SpiritMe достаточно снять 3-х минутное видео на фронталку айфона и уже на этом можно обучать своего аватара.
Также в отличие от конкурентов, пацаны могут добавлять лицевые эмоции и делать видео разнообразнее.
Поддержать ребят можно здесь
👍33🥴2❤1🔥1
ML Party — регулярные встречи о разных применениях машинного обучения в IT. Инженеры и тимлиды Яндекса расскажут, как работают Быстрые ответы в Яндекс Поиске, как создавался визуальный поиск элементов одежды, какие вызовы приняла команда Плюс Фантех и как Яндекс Музыка рекомендует вам незнакомых исполнителей.
Митап можно посетить офлайн или подключиться к онлайн-трансляции.
Участие бесплатное, нужно зарегистрироваться, чтобы получить приглашение на площадку или прямую трансляцию.
Please open Telegram to view this post
VIEW IN TELEGRAM
ML Party Yerevan
ML Party — регулярные встречи о самых разных применениях машинного обучения в IT. Приглашаем вас принять участие в первой ML Party в 2023 году, которая пройдет в гибридном формате — встретимся офлайн в Ереване (Армения) и онлайн на YouTube.
❤13👍5👎1
⚡️Поговорим про мультимодальные модели
В последнее время очень много внимания приковано проекту ChatGPT и новому поиску Bing (кстати, вчера появилась возможность выбирать стиль общения с поисковиком, но об этом поговорим в другой раз). Оба решения направлены на то, чтобы продемонстрировать силу искусственного интеллекта через умное и содержательное общение с пользователем. Ты заходишь в чат, задаешь практически любые вопросы (в меру встроенных правил цензуры, разумеется) и получаешь детальные ответы, а в случае с Bing ещё и подкреплённые ссылками на результаты web search.
На самом деле - это лишь вершина айсберга, ведь в основе такого рода решений лежат большие модели или foundation models. В разрезе выше описанных проектов - это исключительно лингвистические модели, но на самом деле под foundation model понимают в широком смысле все мультимодальные модели, которые направлены на унификацию работы с данными различных модальностей: текст, изображения, аудио, графы и т.д., и решению большого числа задач сразу одной моделью (ответы на вопросы по тексту, описание изображений, расшифровка аудио, ответы на вопросы по фото или видео и много других). Те, кто увлекается или просто интересуется данным направлением, наверняка слышали про модели DALL-E, Flamingo, BEiT, CoCa, OFA, Gato, Fromage, KOSMOS-1 и другие. Все они предлагают различные подходы к интерпретации данных различных модальностей (спецтокены, унифицированные токены и др.), к базовым архитектурам (общий декодер, multi-way transformer, mixture of experts и др.), к способам обучения через различные фокусы с организацией батчей и, конечно, к формированию подходящих для обучения датасетов. По моему мнению, в этих работах скрываются одни из лучших унимодальных практик в обучении и построении архитектур моделей.
Для тех, кто хочет больше погрузиться в историю и детали мультимодальных и унимодальных foundation models (будем называть самой логичной калькой «фундаментальные модели»), на днях вышел отличный обзор на аж 97 страниц.
📕Обзорная статья
@complete_ai
В последнее время очень много внимания приковано проекту ChatGPT и новому поиску Bing (кстати, вчера появилась возможность выбирать стиль общения с поисковиком, но об этом поговорим в другой раз). Оба решения направлены на то, чтобы продемонстрировать силу искусственного интеллекта через умное и содержательное общение с пользователем. Ты заходишь в чат, задаешь практически любые вопросы (в меру встроенных правил цензуры, разумеется) и получаешь детальные ответы, а в случае с Bing ещё и подкреплённые ссылками на результаты web search.
На самом деле - это лишь вершина айсберга, ведь в основе такого рода решений лежат большие модели или foundation models. В разрезе выше описанных проектов - это исключительно лингвистические модели, но на самом деле под foundation model понимают в широком смысле все мультимодальные модели, которые направлены на унификацию работы с данными различных модальностей: текст, изображения, аудио, графы и т.д., и решению большого числа задач сразу одной моделью (ответы на вопросы по тексту, описание изображений, расшифровка аудио, ответы на вопросы по фото или видео и много других). Те, кто увлекается или просто интересуется данным направлением, наверняка слышали про модели DALL-E, Flamingo, BEiT, CoCa, OFA, Gato, Fromage, KOSMOS-1 и другие. Все они предлагают различные подходы к интерпретации данных различных модальностей (спецтокены, унифицированные токены и др.), к базовым архитектурам (общий декодер, multi-way transformer, mixture of experts и др.), к способам обучения через различные фокусы с организацией батчей и, конечно, к формированию подходящих для обучения датасетов. По моему мнению, в этих работах скрываются одни из лучших унимодальных практик в обучении и построении архитектур моделей.
Для тех, кто хочет больше погрузиться в историю и детали мультимодальных и унимодальных foundation models (будем называть самой логичной калькой «фундаментальные модели»), на днях вышел отличный обзор на аж 97 страниц.
📕Обзорная статья
@complete_ai
👍15🔥6❤3👏1
🫤🤤😐Почти на серьёзных щах готовились сегодня к opentalks.ai с Глебом @tired_glebmikheev и Серёгой @successfulproduct.
📕Завтра выступаю в треке «Generative models in business», который начинается в 13.00 (время местное - GMT+4). Приходите по адресу 40 Marshal Bagramyan Ave, если вы вдруг в Ереване, и залетайте на трансляцию!😉
📕Завтра выступаю в треке «Generative models in business», который начинается в 13.00 (время местное - GMT+4). Приходите по адресу 40 Marshal Bagramyan Ave, если вы вдруг в Ереване, и залетайте на трансляцию!😉
👍19🔥10
🔥Выступил на OpenTalks про генеративные диффузионные модели, которые мы разрабатываем, а также про нашу модель эффективного переноса лиц на фото и видео GHOST (можно попробовать в Телеграмм-боте). Времени было немного на доклад, но трек безусловно цепляет, потому что он в центре инфополя сейчас, поэтому готов обсудить вне конфы все вопросы и предложения.
Сегодня и завтра еще рекомендую послушать доклады коллег из Sber AI, SberDevices и AIRI: Дениса Димитрова @dendimitrov, Александра Панова @GraffT, Елизаветы Гончаровой @lizagonch, Татьяны Шавриной @rybolos и многих других. Ищите в расписании - будет точно интересно!
Вообще конференция насыщена очень крутыми спикерами, докладами и это подтверждается обилием вопросов, на которые не хватает времени ответить🤗
@airi_research_institute
Сегодня и завтра еще рекомендую послушать доклады коллег из Sber AI, SberDevices и AIRI: Дениса Димитрова @dendimitrov, Александра Панова @GraffT, Елизаветы Гончаровой @lizagonch, Татьяны Шавриной @rybolos и многих других. Ищите в расписании - будет точно интересно!
Вообще конференция насыщена очень крутыми спикерами, докладами и это подтверждается обилием вопросов, на которые не хватает времени ответить🤗
@airi_research_institute
🔥33👍16❤🔥8
Forwarded from AbstractDL
🔥GPT-4 вышла! И она мультимодальная!
Модель принимает на вход картинки и текст, причём визуальную информацию энкодят как-то очень хитро, ведь модель понимает даже мелкий pdf шрифт (см картинку).
К сожалению, в статье только общие слова и результаты тестов (на целых 98 страниц), но нет никаких технических деталей — даже количество параметров не дают. Прямо говорят, что не хотят, чтобы кто-то воспроизвёл и выпустил это на волю (safety implications).
Блог, статья, трансляция
Модель принимает на вход картинки и текст, причём визуальную информацию энкодят как-то очень хитро, ведь модель понимает даже мелкий pdf шрифт (см картинку).
К сожалению, в статье только общие слова и результаты тестов (на целых 98 страниц), но нет никаких технических деталей — даже количество параметров не дают. Прямо говорят, что не хотят, чтобы кто-то воспроизвёл и выпустил это на волю (safety implications).
Блог, статья, трансляция
🔥14👍7🎉3
🔥Пока все в упор залипли на GPT-4, тут новая генеративная T2I модель прилетела!
GigaGAN: A Large-scale Modified GAN Architecture for Text-to-Image Synthesis
📌1B параметров
📌По метрике качества FID обходит Stable Diffusion v1.5, DALL·E 2 и Parti-750M
📌Генерирует изображение размером 512 пикселей 0.13s
📌Prompt Interpolation и Style Mixing - без этого уже никуда сейчас
Меж тем, статья будет на CVPR 2023
Статья
Гитхаб
@complete_ai
GigaGAN: A Large-scale Modified GAN Architecture for Text-to-Image Synthesis
📌1B параметров
📌По метрике качества FID обходит Stable Diffusion v1.5, DALL·E 2 и Parti-750M
📌Генерирует изображение размером 512 пикселей 0.13s
📌Prompt Interpolation и Style Mixing - без этого уже никуда сейчас
Меж тем, статья будет на CVPR 2023
Статья
Гитхаб
@complete_ai
mingukkang.github.io
GigaGAN for Text-to-Image Synthesis. CVPR2023
a 1B parameter large scale GAN for text-to-image synthesis task. CVPR2023
👍12🔥8
Forwarded from Градиентное погружение (cene655)
Мы в Sber AI скоро представим новую диффузионную модель, которая генерирует картинки.
Что она может:
1) Генерировать картинки по тексту
2) Смешивать картинки
3) Смешивать картинки и тексты
Ждите релиз на следующей неделе, будет полный опенсурс всех весов и кода обучения)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥27🔥14👍8