Prompt Engineering - ChatGPT | Gemini, Midjourney, SD, Sora
829 subscribers
97 photos
35 videos
1 file
144 links
Prompt engineering - это процесс разработки, создания и тестирования подсказок для систем .

При правильном сочетании обработки языка, можно разработать хорошие подсказки, которые будут вызывать конкретные ответы и решать ваши задачи!
Download Telegram
Дайджест:

📹 ВИДЕО + АРТ 🎨

StyleCrafter: меняем стиль видео одной реф картинкой.

LooseControl: контроль генерации 2D изображений с помощью 3D коробок.

DeepCache: улучшаем скорость и качество генерации диффузионных моделей без тренировки и дистилляции — за счёт кэширования. Вот ещё Cache Me if You Can на эту тему от запрещёнки вышло.

Получаем OpenPose из любого видео. Погонять локально.

MagicAnimate: анимируем картинки используя видео реф, который можно получить с помощью Video2DensePose (ещё колаб). Код здесь.

AnimateDiff + IPadapter для анимации по одному изображению.

Neurogen
: появилась текстовые модели и генерация изображений через DALLE 3 в NeuroGPT, а также дипфейкер Rope обновился до V1.5.

LucidDreamer: ещё одно демо генератора 3D на основе гауссианов.

Marigold: диффузионная модель и протокол для получения монокулярной карты глубины изображения.

PatchFusion: тоже на тему получения карты глубины, только с улучшением разрешения и повышением детализации.

InstaFlow: появилось демо модели для генерации картинок в 1 шаг. Правда за это время уже успели выйти SDXL Turbo и LCM.

VMC: меняем стиль видео с сохранением движения в кадре.

AnimateZero: ещё одна модель для анимации картинок. SVD или AnimateDiff выглядят по-качественнее.

DynamiCrafter: тоже модель для анимации изображений.

Генерация картинок с переложением стиля на основе рефа.

Учёным удалось с 75% точностью получить картинки из мыслей пациентов.

EfficientSAM: улучшенная версия SAM для выделения объектов на картинках.

Получение гауссианов из небольшого количества кадров.

ALIGN: API для разработчиков игр и приложений, чтобы фильтровать контент, который генерят пользователи и не быть удалённым с App Store / Google Play. 

Я заметил, что часто помимо ссылок на демо на Gradio стали появляться варики для запуска на своём железе через Docker. Кому интересно погоняйте на Fooocus, Seamless или LaVie скажите как оно.

Google: показали модель FACTOR для генерации видео с контролем кадра через рисование как объекты должны двигаться. Кода нет.

🎸 ЗВУК 🎸

Музыкант Vinay сделал хип-хоп альбом с помощью MusicGen за 24 часа. Деньги с продаж пойдут на благотворительность.

Запрещёнка выпустила серию моделей для работы с голосом. Seamless M4T V2 стала основой для SeamlessExpressive (переводит нюансы речи), SeamlessStreaming (перевод голоса и и текста а реальном времени). Колаб тут.

Rask AI: липсинк перевод голоса на видео с не одним спикером.

🤖 ЧАТЫ 🤖

Сформирован альянс "The AI Alliance", нацеленный помочь развить опенсорсные проекты в сфере нейронок, потому что AI не должен контролироваться какой-то одной компанией.

Perplexity: выпустили две новые модели на 7B и 70B, которые всегда онлайн и владеют актуальными данными, плюс API перешел на оплату по мере использования.

StabilityAI: выпустили ещё один маленький чат-бот StableLM Zephyr 3B с фокусом на мобилы. Говорят на тестах не хуже 7B моделей, хоть она и в половину меньше.

HuggingFace: курс по разработке игр с помощью AI на Unity и UE.

Датасет с википедией/викимедией в тренде на HF. Как запихнуть в колаб.

Nous: обновили чат-бота до v2.5 и внедрили возможность общения по картинкам (VLM).

Optium-Nvdia: изменение в одной строчке кода дало х28 к производительности

#Gemini #openai #chatgpt
Media is too big
VIEW IN TELEGRAM
👩‍🎨 Генерации Dall-e 3 в едином стиле.

С одной и той же подсказкой можно получить генерации в разных стилях, во избежание этого используйте уникальный ID, который есть у каждого нейроизображения — Gen-ID:

➡️ Генерируем изображения в Dall-e 3;
➡️ Узнаем Gen-ID подсказкой:
укажи gen-ids для каждого изображения
➡️ Далее объединяем вашу подсказку и Gen-ID нужного изображения:
[ваша подсказка] — используй id:[ваш gen_id]
➡️ Ускоряем процесс и запускаем массовую генерацию в одном стиле:
создай следующие изображения, используя id:[ваш gen_id]:[введите подсказки]

#prompt #DALLE #chatgpt #ai #openai
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Дайджест:

📹 ВИДЕО + АРТ 🎨

Улучшаем качество генерации видео с помощью метода FreeInit. Можно применить к любой диффузионной модели без дополнительной тренировки. От авторов FreeU.

Google: анонсировал Imagen 2, доступный только через их облачный API Vertex.

GlitchBench: модель для распознавания гличей в играх.

KreaAI: инструмент для генерации в реальном времени перешел в открытую бету.

HOSNeRF: таки появился код FVV-модели (Free View Video), для создания видео, где можно свободно вертеть камерой.

MotionDirector: демо фреймворка для генерации видео с желаемыми движениями камеры и персонажей.

ECLIPSE: улучшаем эффективность приоров T2I моделей из семейства UnCLIP.

PatchFusion: появилось демо апскейлера по картам глубины.

Nuvo: текстурирование 3D объектов, полученных из нерфов или гаусианов.

SyncDiffusion: релизнулся код этого генератора панорам.

HeyGen: добавили перевод в один клик, пруфридинг на основе приложенных сабов, перевод нескольких спикеров, ссылки на ютуб/гугл облако. Последние 3 фичи для корпоративных клиентов.

Desco: распознавание и аннотирование объектов на изображения.

EdgeSAM: тоже распознавание, но по клику.

SAD: сегментация 3D объектов.

🎸 ЗВУК 🎸

CreateOS: открыли запись в бету на Trinity, их инструмента для генерации музыки, клонирования голоса, и воспроизведения вокала целевого артиста нужным образом.

🤖 ЧАТЫ 🤖

В библиотеку Transformers, добавлена Mixtral, Bakllava, SeamlessM4T, поддержка GPU от AMD, и не только.

EAGLE: ускорение декодирования LLM за счёт компрессии.

Deci: зарелизили DeciLM-7B, модельку показывающую себя лучше, чем Mistral 7B.

Google
: выкатили API для Gemini, хотя их модель попала в просак ибо люди в интернете пришли к выводу, что видео с демонстрацией было фейковым.

Microsoft: выпустили модельку Phi-2 c 2.7B параметрами, обходящая на бенчах 13B модели.

Также они релизнули Promtbase — сборник ресурсов и скриптов по прмтингу.

#Ai #openAi #gemini #microsoft
📚 Руководство для ChatGPT.

OpenAI выпустило официальные рекомендации по использованию ChatGPT.

Тут вы найдете:

— Стратегии и тактики для получения отличного результата;
— Правила для составления подсказки;
— Получение достоверной информации без галлюцинаций;
— Использование внешних инструментов и другое.

•  Руководство

#prompt #chatgpt #openAI #промт
Бомба: подборка лучших промтов для ChatGPT за 2023 год.

Есть такой сервис FlowGPT — там пользователи оставляют свои инструкции для нейронки, а другие юзеры тестируют их и оценивают. Реддиторы проверили все самые популярные и часто используемые и собрали их в одну удобную подборку.

Самое классное, что почти все инструкции из списка работают с обычным бесплатным ChatGPT.

#prompt #промт #chatgpt #openai #ai
👍1🤔1💩1
Дайджест:

📹 ВИДЕО + АРТ 🎨

A1111 обновился до v 1.7. Появилась поддержка SD Turbo, ускорение на 40% через HyperTile и не только.

AnimateDiff обновился до V3.

Gradio: подтянули поддержку LCM. Правда пока версии SD 1.5.

AMD и HuggingFace: адаптировали разные библиотеки для ускорения работы на новом серверном железе на базе Instinct.

Новая улучшалка для SDXL — Direct Preference Optimization (DPO). Делает генерации ближе к промту. Помимо версии для SDXL, есть версия для SD 1.5

Также появилась демка другой улучшалки - FreeInit. Можно попробовать скидывать Pika или Runway для генерации в качестве на основе прототипов.

VolumeDiffusion: генерим 3D объекты по тексту.

GeoDream: тоже генератор 3D, но с поддержкой Stable Zero123.

Marigold: получение карты глубины поженили с 3D принтингом.

3DLFM: получаем 3D каркас объектов из 2D картинки.

Shap-Editor: переносим стиль одного 3D объекта на другой как целиком, так и частично.

DreamDrone: генерим пролёты дрона.

UDiffText: ставим надписи на картинках.

TextDiffuser-2: тоже генератор подписей.

SlimSAM: получаем сегментацию на уровне оригинального SAM, используя всего 0,1% данных.

GLEE: сегментируем много объектов на картинках и видео.

SlimNeRF: оптимизация нерфов для работы на мобилках и маломощном железе.

Apple: представили исследование FastSR-NeRF по улучшению работы нерфов на потребительских устройствах.

HAAR: генерация причёски по тексту. Кода нет.

Google
: показали TIP, инструмент для восстановления зашакаленных картинок через текстовое описание того, что в кадре должно быть. Кода нет.

Также они показали VideoPoet, языковую модель для генерации видео без обучения. Учитывая, что Google год назад тоже показывали text-2-video модель, но так ничего и не выпустили, а сейчас у них гора конкурентов особенно в опенсорс, веры в эту модель мало. Кода нет.

🎸 ЗВУК 🎸

Microsoft: добавили генератор песен Suno в свой Copilot в виде плагина на боковой панели.

SeamlessM4T: демо переводчика голосовых записей на разные языки, включая русский.

🤖 ЧАТЫ 🤖

Mixtral только вышла, а народ уже вовсю пилит на её основе новые модели: Dolphin: версия без цензуры, в которой также улучшена работа с кодом. Вот видос на эту тему и GPTQ от Bloke. Плюс блог пост от автора.

OpenAI: выпустили гайд по составлению промтов для GPT-4. Для тех, кто пользуется давно в целом ничего нового. А новичкам будет полезно. В двух словах - модель не умеет читать ваши мысли, максимально точно описывайте что вы хотите получить и в каком формате. Если есть опорные доки/тексты/код/скриншоты - скармливайте ей. Народ уже обучил GPT на эту тему.

Microsoft: выпустили инструмент LLMLingua для сжатия промтов до нужного количества токенов и ускорения инференса.

Apple: представили LLM in a flash для оптимизации запуска языковых моделей на мобильных устройствах.

Используем DeciLM-7B-instruct в связке с LangChain для создания своего бота, чтобы чатиться по PDF'кам.

CALM2-7B: полку маленьких, но способных моделей прибыло.

CogAgent: это AI-агент на основе CogVLM для чата по визуалу. 

FLAIR: датасет из 20 млрд снимков земли со спутников.

Инструмент для миграции датасета с Github на Hugging Face

#prompt #ai #openai #llm
Дайджест:

📹 ВИДЕО + АРТ 🎨

Pika 1.0 теперь доступен всем, а не только по вейтлисту.

AnyDoor: демо виртуальной примерочной.

MotionDirector: теперь можно настраивать стиль объектов в видео и как они должны появляться в кадре.

MotionCtrl: пришиваем контроль камеры к опенсорсным моделям. Пока работает с LVDM/VideoCrafter. Поддержка SVD и AnimateDiff подъедет позже, хотя в последнем контроль камеры точно есть.

HarmonyView: генерим из одной картинки разные углы обзора для получения 3D. Основано на SyncDreamer.

AGAP: редактируем 3D сцену через стилизацию, интерактивное рисование, и сегментацию.

PlatoNeRF: инструмент для получения новых углов обзора в 3D с использование NeRF и лидаров.

DreamDistribution: даём нейронке рефы и она генерит схожее в 2D или 3D.

LangSplat: сегментируем объекты в 3D, используя гауссианы.

OneFormer: тоже мультизадачный фреймворк для сегментации.

UniRef++: сегментируем что-угодно на картинках и видео по рефу.

SPM
: удаляем или изменяем объекты на картинках так, чтобы они смотрелись концептуально выдержанно.

TF-T2V: text-2-video фреймворк для генерации видео на основе датасета без аннотаций.

HD Painter: инпейнтинг с учётом контекста.

Apple: тоже выпустили свой сегментатор объектов на картинках Ferret.

🎸 ЗВУК 🎸

Korus AI
: в коллабе с лейблом mau5trap запустили конкурс AI-ремиксов на треки Deadmau5.

🤖 ЧАТЫ 🤖

MetaGPT: появился веб-интерфейс мощного фреймворка из AI-агентов, реализующего полный цикл разработки программного обеспечения.

Argilla: выпустили Notux 8x7B-v1 файнтюн Mixtral, который показывает себя лучше базовой модели.

Microsoft: используем Windows AI Studio для разработки и файнтюна разных LLM c Hugging Face локально или через Azure.

Также они выпустили Copilot на Android, с бесплатным чатом на GPT-4 и DALLE  3. Может понадобиться VPN.

OpenChat: ещё одна опенсорсная альтернатива GPT-3.5.

VCoder: это VLM, использующая сегментацию и карты глубины для улучшения чата по картинкам.

#prompt #ainews #openai
Простой способ создания одинаковых персонажей с помощью Dall-E 3 — ChatGPT

Создание одинаковых персонажей теперь стало проще благодаря новой функции Dall-E 3 в ChatGPT. Недавно в GPT Store появилось приложение "Consistent Character GPT", которое использует уникальную функцию начальных чисел Dall-E 3, позволяя пользователям воссоздавать одно и то же изображение персонажа в любое время. Эта функция особенно полезна для художников и дизайнеров, которым нужно создавать серии изображений с одним и тем же персонажем.

Процесс создания персонажа начинается с выбора пола и предоставления детальной информации о внешности и стиле персонажа. После этого, благодаря возможностям ИИ, можно создавать вариации персонажа, внося изменения в изображение по желанию пользователя. Например, можно изменить одежду или выражение лица персонажа, сохраняя при этом его основные черты.

Однако, стоит помнить, что результаты могут не всегда быть идеальными с первого раза. Рекомендуется проводить генерацию несколько раз для достижения желаемого результата. Также важно избегать использования терминов, указывающих на направление взгляда персонажа, таких как "лицом влево" или "лицом вправо", поскольку это может привести к нежелательному повороту изображения.

Стоит отметить, что доступ к приложению GPT, включая его функцию создания персонажей, ограничен пользователями платной подписки ChatGPT Plus.

#DallE3 #ChatGPT #GPTs #AI #OpenAI
Разговоры о «важном» с чат-ботом Bing: как GPT-4 помогает не только в работе 📣


В последнее время всё большее внимание привлекает чат-бот Bing, работающий на основе технологии GPT-4. Этот инструмент не только способствует эффективной работе, но и открывает новые горизонты в области общения и генерации контента.

Bing GPT-4, называемый "единоутробным" братом ChatGPT, предлагает уникальный опыт взаимодействия с искусственным интеллектом. Он интегрирован с рядом популярных приложений, включая Edge, Skype, Word, Excel и Outlook, что делает его доступным в широком спектре контекстов.

Пользователи могут взаимодействовать с чат-ботом Bing GPT-4 как через веб-браузер, так и через мобильное приложение, что делает его удобным для различных сценариев использования. Одной из особенностей Bing является возможность выбора стиля беседы, что позволяет пользователям настроить диалог в соответствии с их целями и предпочтениями.

Для достижения наилучших результатов важно уметь правильно формулировать запросы или промпты. Это помогает обеспечить более точное и релевантное взаимодействие с нейросетью.

Тем не менее, важно помнить о некоторых ограничениях и возможных проблемах при использовании чат-бота Bing. К ним относятся технические неполадки, такие как подвисания и вылеты, а также строгие морально-этические ограничения, установленные разработчиками.

Кроме того, Bing обладает возможностью генерировать изображения с разрешением 1024x1024 в формате jfif. Однако для достижения желаемого результата может потребоваться тонкий подход и настойчивость со стороны пользователя.

В целом, чат-бот Bing с технологией GPT-4 представляет собой мощный инструмент для общения и создания контента, который может быть полезен как в профессиональной сфере, так и в повседневной жизни.

#Bing #gpt4 #OpenAi #prompt #промт
Please open Telegram to view this post
VIEW IN TELEGRAM
Дайджест:

📹 ВИДЕО + АРТ 🎨

InstantID: этот инструмент для вписывания людей по одному фото в нужный контекст можно использовать в веб-интерфейсе A1111 для совмещения лиц двух персоналий через controlnet юниты.

DepthAnything: быстро получаем получаем карту глубины картинки/видео, можно использовать для ControlNet. Ещё стоит обратить внимание на Marigold.

Garfield: сегментация и группирование объектов на нерфах.

🎸 ЗВУК 🎸

Parakeet-TDT: совместный преводчик речи в текст от  Nvidia и Suno.

OWSM: тоже транскрибатор речи в текст, но работает с 151 языком и есть перевод между любыми языками.

AudioSeal: ставим водяные знаки на аудио или проверяем его на их наличие.

🤖 ЧАТЫ 🤖

Llava: чат по визуалу (VLM) обновился до V1.6. Модель лучше распознаёт текст на картинках и понимает мир.

MoE-Llava: та же лава, что выше, только в формате Mixture of Experts (MoE) как Mixtral 8x7B.

Mobile-Agent: мобильный AI-агент с пониманием визуала для выполнение заданий в вебе.

YOLO World: распознаём объекты на фото и получаем ONNX модель.

LongAling: фреймворк для алаймента LLM на длинном контексте.

Лидерборд нейронок с фильтрами по корпоративным задачам.

И... лидерборд по галлюцинациям.

Запрещёнка выпустила генератор кода CodeLama 70B. Вот ещё 4-bit  версия в формате MLX для Apple.

VLM Moondream1 добавлен в библиотеку diffusers.

Исследования:
* T3 от AMD — улучшение коммуникации моделей в распределённой среде (бумага).
* Self-Rewarding Language Models — модель сама себя вознаграждает во время обучения, что приводит к повышению производительности и возможности постоянного совершенствования (бумага / подкаст / выжимка).

#openai #llm #prompt #промт
📹 ВИДЕО + АРТ 🎨

AnyText: замена текста на изображении с учётом стиля. Работает не идеально, но для черновиков или мемов может сгодиться.

GALA: преобразование фото человека в 3D с разбивкой одежды на слои, которые можно комбинировать.

Конкурс генерации интерьерного дизайна с призовым пулом в $15k.

DynamiCrafter
: неплохой аниматор изображений, но требовательный к железу. Сравнение с SVD и Pika тут.

Meshy: выпустили версию V2 своего генератора 3D. Улучшилась детализация моделей, и стало больше стилей, включая low poly и voxel.

EscherNet: генерим 3D по одной картинке в нужных позициях камеры. 

Phygital+
: вернули ноду Blend и добавили подключение референса для Midjourney из любой ноды.

Neural.love: выпустили генератор логотипов.

Apple: редактируем изображение текстовыми указаниями через MGIE.

InteractiveVideo: анимация картинки и редактирование видео промтом.

Генерим анимации через AnimateLCM и меняем стиль видео через Diffutoon. Также на эти темы стоит посмотреть PIA и ещё StreamDiffusion.

Depth Anything добавили в библиотеку transformers.js, а генератор видео I2vGenXL в библиотеку diffusers.

Odyssey: нодовый интерфейс для локальной генерации изображений и текста на Mac.

Апскейлим фото через SUPIR и улучшаем видео через FMA-Net. Из других вариков на тему ещё можно попробовать PASD или Span или DiffBIR или StableSR.

OwlSAM: сегментатор картинок.

🎸 ЗВУК 🎸

CreateOS: открыли публичный доступ к Triniti, инструмента для генерации музыки, клонирования голоса, и воспроизведения вокала целевого артиста нужным образом.

MetaVoice-1B: небольшая моделька для клонирования голоса, натренированная на 100к часов аудио. XTTS и HierSpeech++ пока всё ещё звучат лучше.

Генератор звуковых эффектов для картинки. Три модели на выбор: MAGNet, AudioLDM-2, и AudioGen.

И генератор музыки из картинки.

🤖 ЧАТЫ 🤖

Gradio: обновился до V 4.17. Много мелких улучшений. Ещё можно модальные окна теперь выдавать.

AutoLLM: фреймворк для файнтюна языковых моделей (LLM) с поддержкой внешнего источника знаний (RAG).

Yandex: представили метод квантизации AQLM, позволяющий сжимать модели вплоть до 2 бит, и как следствие запускать Llama 2 70b на RTX 3090 или маленькие модели на мобилках.

Nuanced: выкатили детектор сгенерированных картинок.

Vikhr
(Вихрь): серия русифицированных LLM. Разрабы адаптируют разные открытые модели на русский язык.

CogCoM: визуальная языковая модель (VLM), которая может изменять изображение (приближение, кадрирование, итд) для лучшего общения по нему.

MobileVLM: вышла версия V2 этой VLM, заточенной под работу на мобилках. Под капотом новая архитектура и повысившаяся производительность.

BlackMamba: языковая модель на новой архитектуре, сочетающей модели пространства состояний (SSM) и коллаб экспертов (MoE) как Mixtral. В качестве блока SSM в ней используется Mamba, а в качестве базы для блока MoE — переключающий трансформатор.

Qwen 1.5: чат с большой моделью в 72B.

Google
: предлагают запускать нейронки, не используя GPU — только CPU и RAM с помощью localllm.... на их облачных рабочих станциях.

Nomic Embed: новая энкодер модель для получения эмбеддингов.

EVA: новая CLIP модель с 18B параметрами.

SynthCLIP: тренировка CLIP моделей на синтетических данных.

#prompt #промт #openAi
Дайджест:

📹 ВИДЕО + АРТ 🎨

Dashtoon: генерим и публикуем комиксы.

Tldraw: интерфейс обзавёлся русским языком и ещё по мелочи изменения в UI/UX.

LGM: используем гауссианы для создания 3D моделей из картинки, текста, или оных вместе взятых. Есть установка через Pinokio.

3DTopia: модель для генерации 3D, работающая в 2 этапа: создание чернового меша и полировки (refinement).

threefiner: улучшатель сгенерированных 3D мешей.

DreamMatcher: улучшаем консистентность генерируемых изображений на основе рефа.

Unity: в коллабе со Stability работают над Holo-gen, генератором PBR изображений на основе 3D геометрии и текстового промта.

Adobe: генерим изображения с пошаговым предугадыванием движения в кадре.

Гауссианы теперь нативно поддерживаются в Gradio. Кратко как собрать своё AI-приложение с 3D.

ByteDance: анимируем в Boximator картинки через выделение объектов.

V-JEPA: обученная на видео модель, которая понимает происходящее в кадре и может заполнять пробелы за маской.

Magic-Me: генератор видео с целевым лицом, похожий на InstantID, который для картинок.

🎸 ЗВУК 🎸

В Audacity появилась поддержка AI-плагинов для генерации музыки, смены её стиля, и выделения стэмов.

Stability: выпустили инструменты лежащие в основе Stable Audio. Ещё сделали страницу с демками.

Редактирование аудио с помощью текста.

🤖 ЧАТЫ 🤖

SPIN: нейронка генерит тренировочные данные и сама себя файнтюнит.

OpenAI: у ChatGPT теперь есть память, и его знания переносятся между чатами.

Сравниваем чаты по визуалу (VLM) через WildVision Arena.

Вышел Mistral Next . Можно сравнить тут бок-об-бок с Mixtral и другими моделями.

Gradio: появился компонент Gradio Notebook для возможности делиться своими AI-сборками в интерактивном режиме схожим с Google Colab.

GPT для нахождения и чата по бумагам на Arxiv.

Масштабируем контекстное окно LLM до 128К .

Яндекс: добавили в браузер выжимку длинных видео на русском и другие AI-фичи.

#chatgpt #openAi #prompt #промт
📹 ВИДЕО + АРТ 🎨

Cascade совместили с FP16 инференсом, и в теории теперь генерить картинки можно например на 6 ГБ VRAM.

Forge, шустрый веб-интерфейс для локальной генерации картинок, видео, и 3D теперь доступен для установки в пару кликов через Pinokio.

Neurogen: дипфейкер Rope обновился до V2 и обзавёлся обновлённым интерфейсом и функционалом.

Phygital+: нода GPT-4, улучшение генераций DALLE 3, шаблон для трансформации лого, и другое.

SDXL-Lightning: генерим на скорости печати (другое демо). Тут можно сравнить с LCM и Turbo.

AnimateLCM: аниматор картинок на основе SVD. Тут демо.

Argus-3D: генератор 3D c неплохими мешами на выходе... но на 24 гб видюху не влезет.

LGM-Mini: лайтовая версия генератора 3D по одной картинке на основе гауссиан.

YOLOv9: сегментатор объектов на видео и картинках, хорошо показывающий себя на тестах.

Differential Diffusion: генератор схожих изображений на основе карты глубины, которую можно получить например через Marigold или Depth Anything. Код на гитхабе.

T-Stich: улучшатель генераций через SD с помощью разделения семплинга на два этапа.

RealCompo: заодно ещё один улучшатель, заточенный на композицию.

Magic Me: демка генератора видео с целевыми персонажами. Своё лицо вставить нельзя.

Открытый датасет WebVid, лежащий в основе ряда исследований генерации видео, закрылся после получения повестки в суд от Shutterstock.

SPIN: появилось демо, модели, которая генерит тренировочные данные и сама себя файнтюнит.

Joint-TensoRF: улучшаем качество нерфов.

🎸 ЗВУК 🎸

Suno: тестируют на ограниченной аудитории V3 генератора музыки. В новой версии качество стало лучше, треки длиннее и экспрессивнее, а генерации быстрее. На сайт.

Valve: выпустили в опенсорс SDK Steam Audio для работы с пространственным аудио в играх.

Вкидываем видео и генерим фоновую музыку.
Ц
Арена text-2-speech (TTS) моделей. В списке далеко не все из доступных, будет пополняться.

RWKV 4 Music: генератор MIDI, но работает странно. Можно ещё на тему MIDI глянуть плагин для Ableton.

🤖 ЧАТЫ 🤖

Ouroboros: новый алгоритм декодирования, который быстрее Speculative Decoding и Lookahead Decoding без затрат на треню.

Mistral: авторы Mixtral выпустили модель Mistral Large, показывающую себя лучше Claude 2 и Gemini Pro, но доступную только через API. Можно погонять демо.

Google
: выпустили опенсорсную языковую модель Gemma размером 2B и 7B. Можно потестить на Hugging Chat или тут.

Также гугл договорилась с Reddit об обучении AI на данных их пользователей за $60 млн в год. А Сэм Альтман является одним из крупнейших акционеров Reddit.

Mail Group: запускают генератор текстов и выжиматель для почты и VK. Можно записаться в список ожиданий.

Palo: мультимодальный чат с поддержкой 10 языков, включая русский.

Aria: датасет видео с видом от первого лица.

Исследование:
* Neural Network Diffusion — использование диффузионных моделей для генерации параметров для других нейронок (выжимка).

#prompt #промт #openAi #chatgpt #gpt
Дайджест:

📹 ВИДЕО + АРТ 🎨

Делаем набросок и быстро получаем арт.

Semantic Palette: тоже генератор артов из скетчей, только с большим функционалом.

AnimateDiff-Lightning: шустаря генерация видео с пришитым контролем камеры.

Magnific: апскейлер научился менять стили изображения.

FeatUp: повышение семплирования визуала, для увеличения пространственного разрешения любой модели в 16+ раз.

Stability AI: веб-интерфейс Stable Swarm, с нодовым UI и возможностью роботы в распределёнке на множестве GPU, перешёл в стадию беты. Добавилась поддержка Cascade, генерации видео через SVD, лицензия сменилась на MIT. Подробнее о Stable Swarm писал ранее.

Также они выпустили ещё одну модель для генерации 3D — StableVideo 3D. Состоит из двух частей: одна генерит из картинки видео с круговым облётом, а вторая делает 3D. По качеству — CRM лучше.

MVControl-threestudio
: аналогично генератор 3D, но уже с помощью гауссиан. CRM всё ещё лучше.

Isotropic3D: здесь же модель для получения 3D, и по качеству уже сопоставимо с CRM, но нужна как минимум A100 чтобы её гонять.

Shutterstock: а вот тут уже генерация 3D даже получше, чем CRM. Причём можно и скачать glb, и зарефайнить, и поиграться с параметрами.

MindEye2
: обновлённому проекту по генерации изображений из мыслей на основе снимков фМРТ теперь достаточно 1 часа данных.

🎸 ЗВУК 🎸

Pika: появилась возможность генерить для видео звуковые эффекты.

Natural Speech 3: конвертор одного голоса в другой с соблюдением акустических деталей. XTTS и HierSpeech++ всё ещё лучше. Но у них скоро появится конкурент.

🤖 ЧАТЫ 🤖

Microsoft: под капотом бесплатной версии Copilot теперь GPT-4 Turbo с контекстом 128К (можно скармливать книжки). Работает в "Креативном" и "Точном" режимах.

Google: открыли доступ к Gemini Pro 1.5 с контекстом в 1М, но в России и Европе он не доступен.

LlamaFactory: фреймворк для файнтюна 100+ LLM (языковых моделей) без необходимости кодить. На русском в том числе.

Common Corpus: крупнейший публичный датасет из 500 млрд. слов для тренировки LLM на разных языках, не нарушая авторских прав.

WebSight: новый генератор HTML из скриншотов. Подборка схожих проектов здесь.

Fireworks: запустили сервис для быстрого файнтюна LLM, среди которых Mixtral.

Gorilla: инструмент для расширения функционала опенсорсных LLM через API обзавёлся фильтрацией ненужных документов (RAFT) перед генерацией ответа.

Gradio: текстовое поле можно теперь делать мультимодальным и к словам прицеплять дела картинки.

#prompt #openAi #gpt5
Дайджест:

📹 ВИДЕО + АРТ 🎨

EasyAnimate: генерация фото и видео 6 сек 24 fps на архитектуре трансформеров.

T2V-Turbo: быстрая генерация коротких видео с максимальным разрешением 320х512.

ToonCrafter: ускоряем создание анимации, за счёт генерации промежуточных кадров. Нода для Comfy. Вот ещё PasicPBC заодно для колоризации.

Phygital+: добавили IP-Adapter XL и генерацию видео через SVD.

Consistent Character: создаём консистентные фото с целевым персонажем в разных позах. Работает с анимацией, есть воркфлоу для Comfy и гитхаб. Можно даже скормить в ToonCrafter.

Omost: новый проект автора контролнета, использующий LLM для композиции генерируемого изображения. Сначала вкидываем промт и кликаем Submit. Получив код нажимаем Render и ловим картинку.

Xinsir: касательно самого контролнета. Появилась новая модель Xinsir под SDXL, показывающая хорошие результаты. До этого ещё вышла Mistoline тоже на SDXL.

MusePose: подъехал Comfy для этого аниматора персонажей.

V-Express: генерация говорящих голов с липсинком. Демо.

RelightableAvatar: тоже создание аватаров, но уже с анимацией в нужных позах, сеттинге, и освещении.

Deemos: Rodin Gen-1 стал доступен всем на сайте разработчика. До этого выкатили демку на хаггинге.

IC-Light: моделька для смены освещения теперь в A1111 и Forge.

Krea
: добавили апскейлер для видео.

3DitScene: генерим новые виды вокруг объекта.

🎸 ЗВУК 🎸

ElevenLabs: выкатили генератор звуковых эффектов.

Gazelle: опенсорсная модель для общения голосом с нейронкой в реальном времени, а-ля Чо. В демке отвечает только текстом на аудио + текст.

ChatTTS: ещё один генератор речи. VoiceCraft и иже с ним лучше.

🤖 ЧАТЫ 🤖

Colossal: представили опенсорсный инструмент Colossal Inference для ускорения работы больших языковых моделей (LLM).

Hugging Face: произошел инцидент с неавторизованным доступом к спейсам на платформе. Рекомендуют сменить API ключи/токены и перейти на гранулированный уровень контроля.

OpenAI: на бесплатном тарифе ChatGPT теперь доступны: браузер, загрузка файлов, видение, анализ данных, и GPTs.

Anthropic: Claude научился использовать внешние инструменты и API.

Google: в след за Microsoft анонсировали новые Chrome-буки с AI-фичами.

Perplexity: результатами переписки с LLM теперь можно делиться как отдельными веб-страницами.

Nvidia: выпустили NeMo Curator — библиотеку работы с датасетами перед треней. И модель для эмбеддингов NV-Embed-v1.

Falcon Vsion: к этой LLM из Эмиратов прикрутили зрение и сделали визуальную языковую модель (VLM).

Yuan 2.0-M32: новая LLM размером 40В на архитектуре MoE c 32 экспертами и Attention Router для эффективного выбора 2 активных.

Исследования в тренировке/файнтюне LLM:
* DORA — стабилизируем треню и улучшаем умение LLM запоминать
* VeLoRA — эффективное обучение с использованием проекций суб-токенов 1 ранга
* AQLM — сжатие и экономное использование памяти

#prompt #openai #chatgpt #Anthropic #LLM #Krea
OpenAI выпустили гайд по промтингу GPT-4.1 — собрали все стратегии, приёмы и советы для эффективной работы новой модельки.

Вас научат писать промты, структурировать вывод, генерировать код и работать с длинным контекстом.

Становимся гуру промт-инжиниринга — здесь.

#gpt4.1 #prompt #промпт #openai #chatgpt
🙏1
OpenAI выкатили ПОЛНЫЙ гайд по ChatGPT — разрабы расписали все актуальные модели и лучшие способы применения.

Теперь вы знаете инфу про каждую модель:

GPT-4o — для повседневного использования. Умеет почти ВСЁ: анализ данных, поиск в интернете, создание пикч, работа с документами, картинками, файлами CSV, аудио и видео.

Примеры промптов:
• Обобщи заметки по итогам встречи, разбив их на ключевые пункты действий.
• Составь ответное электронное письмо после запуска проекта.
• Проверь правильность моего отчета.
• Продумай план запуска в режиме реального времени — смело загружай эскизы или скриншоты.


GPT-4.5 — заточена под креативные задачи, лучше пишет тексты, рифмует стихи и накидывает больше идей для брейншторма.

Примеры промптов:
• Создай интересную публикацию в LinkedIn о тенденциях в области искусственного интеллекта.
• Напиши описание продукта для запуска новой функции.
• Разработай письмо с извинениями для клиента, написанное в сочувственном тоне.


o4-mini — базовые технические задачи. Идеально для простых заданий по математике, программированию и визуальному мышлению.

Примеры промптов:
• Извлеки ключевые точки данных из CSV-файла.
• Предоставь краткое резюме научной статьи.
• Быстро исправь эту трассировку Python для меня.

o4-mini-high — прошлая модель, но у неё больше времени «на подумать». Идеально для сложного кода, математики и науки.

Примеры промптов:
• Реши сложное математическое уравнение и объясните последовательность действий.
• Составь SQL-запросов для извлечения данных.
• Объясни научную концепцию доступным для неспециалиста языком.

o3 — монстр для самых сложных или поэтапных задач. Может планировать стратегии, шарит в глубоком анализе, системном кодировании, продвинутой математике и т.д.

Примеры промптов:
• Разработай анализ рисков для расширения рынка.
• Составь план бизнес-стратегии на основе конкурентных данных.
• Проведи многошаговый анализ этого CSV-файла — составьте прогноз на следующий квартал и отобразите тенденцию.
• Просматривай показатели воронки продаж, визуализируй данные и ищи новые стратегии для вершины воронки продаж.


#chatgpt #prompt #openai
1👍1
Нашли на Reddit крутой промт, который генерирует силуэтные изображения с вашим лицом на фоне указанного объекта 📷


A cinematic double exposure of [subject] in [pose/view], with a [scene type] inside [pronoun] silhouette. The inner scene shows [subject/action] in a [description of environment], [key environment details], with [background element] in the background. [Lighting description], [color palette], [mood], high detail, [resolution].


Где:

[subject] — мужчина, женщина, ребенок, киборг, воин и т. д.;
[pose/view] — в профиль, спиной, смотрит вверх или сидит. По нашим тестам, лучше всего работает с side view;
[тип сцены] — тип сцены: постапокалиптический городской пейзаж, киберпанковский горизонт, густой лес, океанские волны;
[местоимение] — его, ее, их.
[субъект/действие] — здесь описываем действие: мужчина идет, женщина танцует, ребенок сидит и т. д.;
[description of environment] — описание фона: разрушенная улица, аллея с неоновым светом, туманный лес, заброшенная железнодорожная станция;
[key environment details] — детали фона: горящие автомобили, неоновые вывески, заросшие растения, мрачный дождь и т. д.
[background element] — что происходит на горизонте/небе: драматический закат, звездное небо, грозовые облака, рассвет и т. п.
[lighting description] — описываем освещение: мрачное освещение, драматический свет, мягкое сияние, резкие тени и т. п.
[color palette] — цветовая палитра: теплые тона, неоновые цвета, приглушенные пастели, высококонтрастное черно-белое и т. д.
[mood] — эмоциональный и интроспективный, полный надежды, напряженный и таинственный, спокойный и беззаботный и т. д.
[resolution] — ну здесь классика: 4K, 6K, 8K.

Ну и не забываем загрузить своё фото.

@prompt_ai

#prompt #openai #промпт
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Выжимаем из GPT-5 максимум — OpenAI дропнули официальный гайд по промптам 😮

Внутри детально и понятно расписан все самые главные техники, куча полезных советов и готовых инструкций для кодеров, бизнеса и повседневного использования.

Забираем — здесь.

@prompt_ai

#gpt5 #prompt #openai #промпт #chatgpt5
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
OpenAI выпустила собственную структуру для промптов, которая позволяет GPT-5 выдавать более качественные результаты

Основные моменты: давайте четкие инструкции, предоставляйте достаточно контекста и назначайте модели конкретную роль.

1️⃣ Роль. Определите четкую роль, которую должна выполнять модель.

2️⃣ Задача. Точно сформулируйте, что вы хотите, чтобы она сделала. Четко опишите желаемое действие или результат.

3️⃣ Контекст. Предоставьте модели все необходимое для хорошей работы. Добавьте подробности, ограничения, примеры.

4️⃣ Рассуждения. Укажите ей продумать проблему. Попросите GPT-5 объяснить свое рассуждение или следовать логической цепочке мыслей (COT) перед тем, как дать окончательный ответ.

5️⃣ Формат вывода. Укажите, как вы хотите, чтобы был представлен ответ. Четко перечислите формат (пункты, пронумерованные шаги, таблицы, описательные
абзацы).

6️⃣ Условия остановки. Установите границы для ответа. Это может означать ограничение длины, завершение на определенном шаге.

@prompt_ai

#chatgpt #руководство #gpt5 #openai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2👍1🎉1