Prompt Engineering - ChatGPT | Gemini, Midjourney, SD, Sora

Дайджест:

📹 ВИДЕО + АРТ 🎨

A1111 обновился до v 1.7. Появилась поддержка SD Turbo, ускорение на 40% через HyperTile и не только.

AnimateDiff обновился до V3.

Gradio: подтянули поддержку LCM. Правда пока версии SD 1.5.

AMD и HuggingFace: адаптировали разные библиотеки для ускорения работы на новом серверном железе на базе Instinct.

Новая улучшалка для SDXL — Direct Preference Optimization (DPO). Делает генерации ближе к промту. Помимо версии для SDXL, есть версия для SD 1.5

Также появилась демка другой улучшалки - FreeInit. Можно попробовать скидывать Pika или Runway для генерации в качестве на основе прототипов.

VolumeDiffusion: генерим 3D объекты по тексту.

GeoDream: тоже генератор 3D, но с поддержкой Stable Zero123.

Marigold: получение карты глубины поженили с 3D принтингом.

3DLFM: получаем 3D каркас объектов из 2D картинки.

Shap-Editor: переносим стиль одного 3D объекта на другой как целиком, так и частично.

DreamDrone: генерим пролёты дрона.

UDiffText: ставим надписи на картинках.

TextDiffuser-2: тоже генератор подписей.

SlimSAM: получаем сегментацию на уровне оригинального SAM, используя всего 0,1% данных.

GLEE: сегментируем много объектов на картинках и видео.

SlimNeRF: оптимизация нерфов для работы на мобилках и маломощном железе.

Apple: представили исследование FastSR-NeRF по улучшению работы нерфов на потребительских устройствах.

HAAR: генерация причёски по тексту. Кода нет.

Google: показали TIP, инструмент для восстановления зашакаленных картинок через текстовое описание того, что в кадре должно быть. Кода нет.

Также они показали VideoPoet, языковую модель для генерации видео без обучения. Учитывая, что Google год назад тоже показывали text-2-video модель, но так ничего и не выпустили, а сейчас у них гора конкурентов особенно в опенсорс, веры в эту модель мало. Кода нет.

🎸 ЗВУК 🎸

Microsoft: добавили генератор песен Suno в свой Copilot в виде плагина на боковой панели.

SeamlessM4T: демо переводчика голосовых записей на разные языки, включая русский.

🤖 ЧАТЫ 🤖

Mixtral только вышла, а народ уже вовсю пилит на её основе новые модели: Dolphin: версия без цензуры, в которой также улучшена работа с кодом. Вот видос на эту тему и GPTQ от Bloke. Плюс блог пост от автора.

OpenAI: выпустили гайд по составлению промтов для GPT-4. Для тех, кто пользуется давно в целом ничего нового. А новичкам будет полезно. В двух словах - модель не умеет читать ваши мысли, максимально точно описывайте что вы хотите получить и в каком формате. Если есть опорные доки/тексты/код/скриншоты - скармливайте ей. Народ уже обучил GPT на эту тему.

Microsoft: выпустили инструмент LLMLingua для сжатия промтов до нужного количества токенов и ускорения инференса.

Apple: представили LLM in a flash для оптимизации запуска языковых моделей на мобильных устройствах.

Используем DeciLM-7B-instruct в связке с LangChain для создания своего бота, чтобы чатиться по PDF'кам.

CALM2-7B: полку маленьких, но способных моделей прибыло.

CogAgent: это AI-агент на основе CogVLM для чата по визуалу.

FLAIR: датасет из 20 млрд снимков земли со спутников.

Инструмент для миграции датасета с Github на Hugging Face

#prompt #ai #openai #llm

319 viewsedited 16:05

Mergekit: инструментарий для смешивания LLM'ок.

Кормим языковые модели TOFU, для забывания ~~приватных/проприетарных~~ нужных вещей, которые были в тренировочном датасете.

Nvidia: смешали TensorRT с RAG и Llamaindex, чтобы улучшить ответы языковых моделей на ламе.

Google: с помощью фреймворка Patchscope можно простым языком узнать у LLM её внутреннюю структуру, и другие детали.

DeepSeek: выпустили MoE (Mixture of Experts) модель с 16B параметрами. Скоро каждый чат-бот будет MoE как Mixtral. Вот ещё MoE на двух или четырёх маленьких Phi от Microsoft.

Alibaba: демка Qwen-72B на HF.

LittleStory: генерим сказки для детей с иллюстрациями.

Расширяем контекстное окно LLM с 4к до 400к с помощью Activation Beacon. Плюс ещё одна бумага Infinite-LLM на эту тему.

LiteLama: можно погонять ламу 2 на телефоне, 460М параметров. Также появилась TinyLlama, маленькая, но способная с 1.1B параметров.

Clipper: конвертер и кроулер из HTML в Markdown.

Tencent: дотренировала ламу 2-7B на коде и матане и получили LLaMA-Pro 8B.

Alibaba: выпустили Qwen-VL-Plus для чата по картинкам. В этой версии лучше работа разными форматами кадра и мелким текстом.

#ai #llm #chatgpt #gpt

huggingface.co

Merge Large Language Models with mergekit

A Blog post by Maxime Labonne on Hugging Face

317 views17:15

Prompt Engineering - ChatGPT | Gemini, Midjourney, SD, Sora

Дайджест:

📹 ВИДЕО + АРТ 🎨

Google Colab перекрыл возможность работы с веб-интерфейсами для генераций на бесплатном тарифе. На платном без изменений.

Phygital+: добавили холст для удобной работы с генерациями.

Neurogen: используем Photomaker для генераций по лицу, ваяем дипфейки в FaceFusion v2.2.1

MotionCtrl: пришили контроль камеры к генерации видео через SVD.

DreamTalk — вкидываем картинку (желательно, чтобы лицо было чётко видно), целевую озвучку или выбираем из списка, и получаем анимированное фото с липсинком.

Banodoco проводят розыгрыш двух 4090.

Появился код и демо FreeNoise, улучшающего результаты видео генераций.

VideoCrafter: в версии V2 этого генератора видео улучшили качество картинки, а также обработку движений и композиции. Но Pika всё-равно впереди.

TriplaneGaussian: появился код 3D генератора на гауссианах. Демо всё также тут.

gsplat.js: теперь можно конвертировать гауссианы из .splat в формат .ply

Alibaba: выпустили единый инструментарий SCEPTER Studio в котором можно тренить, файнтюнить, генерить, и редактировать модели и контент.

GaussianAvatar: даём на вход видео и получаем аватара из гауссианов.

Google: новый генератор видео Lumiere, который в привычном стиле гугла может никогда и не выйти в свет.

🎸 ЗВУК 🎸

Splash: выпустили свою старшую модель AI XL для генерации музыки из промта, а также текстов песен. Доступна по подписке, но стандартную модель можно погонять бесплатно.

🤖 ЧАТЫ 🤖

Гайд по файнтюну LLM на видюхе до 24 ГБ VRAM. Чтоб два раза не вставать вот ещё один, но уже с использованием Runpod.

Binoculars: проверяем сгенерирован ли текст нейронкой.

Hugging Face: для Hugging Chat обновился веб-поиск, став стабильнее.

Gradio: выпустили галерею кастомных компонентов, через которые можно собирать AI-приложения для просмотра карт, чтения PDF, и тд.

WebSight: датасет из HTML/CSS и скриншотов, с лицензией CC-BY-4.0. Подойдёт для трени/файнтюна моделей генерируюющих код сайта по скриншоту. Есть демо.

Stability AI: выпустили совсем маленькую языковую модель Stable LM2 Zephyr с всего 1.6B параметров, плюс тоже мелкую для генерации кода Stable Code 3B. Возможно скоро выдадут свою MoE как Mixtral.

EAGLE: ускоритель LLM обновился до V 1.1. Появилась поддержка gpt-fast (~x2 к скорости) и Mixtral 8-7B.

SeeAct: новый AI-агент, который обладает зрением GPT-4V и может выполнять задания по сети.

LangChain: выпустили своих AI-агентов v 0.1

Microsoft: запустили Copilot Pro. Под капотом тот же GPT-4, можно делать свои GPT, есть интеграция с Microsoft 365 и приложение для iOS/Android.

На Hugging Face есть трекер использования вашего датасета кем-либо.

Jan.ai: интерфейс для работы с локальными языковыми моделями (можно в 1 клик скачать с HF прямо в апе). Скоро появится мобильная версия и фреймворк для AI-ассистентов.

Автоматизируем оценку своих LLM через гугл колаб.

Moondream: новый чат по картинкам (VLM).

01.ai: тоже выпустили VLM разных размеров: Yi-VL-34B и меньше на 6B. Старшая модель встала в лидерборде сразу за GPT-4V.

InternLM: вышел V2 код LLM'ок размером от 7B до 20B, у младшей модели 200к контекст (можно книжки пихать).

Fireworks.ai: выпустили чат по картинкам FireLLaVa c коммерческой лицензией. У оригинальной адобовской лавы возможно было только некоммерческое использование.

Популярные исследования с Arxiv выжатые и озвученные нейронкой в формате видео подкастов и выжимок. Примеры:

* MEDUSA — ускоряем инференс LLM за счёт распараллеливания (бумага / выжимка)
* Zero Bubble Parallelism — новый эффективный метод распределённой трени (гитхаб / бумага / выжимка)

#ai #prompt #промт #LLM

🎉1

188 views08:03

Prompt Engineering - ChatGPT | Gemini, Midjourney, SD, Sora

Дайджест:

📹 ВИДЕО + АРТ 🎨

InstantID: этот инструмент для вписывания людей по одному фото в нужный контекст можно использовать в веб-интерфейсе A1111 для совмещения лиц двух персоналий через controlnet юниты.

DepthAnything: быстро получаем получаем карту глубины картинки/видео, можно использовать для ControlNet. Ещё стоит обратить внимание на Marigold.

Garfield: сегментация и группирование объектов на нерфах.

🎸 ЗВУК 🎸

Parakeet-TDT: совместный преводчик речи в текст от Nvidia и Suno.

OWSM: тоже транскрибатор речи в текст, но работает с 151 языком и есть перевод между любыми языками.

AudioSeal: ставим водяные знаки на аудио или проверяем его на их наличие.

🤖 ЧАТЫ 🤖

Llava: чат по визуалу (VLM) обновился до V1.6. Модель лучше распознаёт текст на картинках и понимает мир.

MoE-Llava: та же лава, что выше, только в формате Mixture of Experts (MoE) как Mixtral 8x7B.

Mobile-Agent: мобильный AI-агент с пониманием визуала для выполнение заданий в вебе.

YOLO World: распознаём объекты на фото и получаем ONNX модель.

LongAling: фреймворк для алаймента LLM на длинном контексте.

Лидерборд нейронок с фильтрами по корпоративным задачам.

И... лидерборд по галлюцинациям.

Запрещёнка выпустила генератор кода CodeLama 70B. Вот ещё 4-bit версия в формате MLX для Apple.

VLM Moondream1 добавлен в библиотеку diffusers.

Исследования:
* T3 от AMD — улучшение коммуникации моделей в распределённой среде (бумага).
* Self-Rewarding Language Models — модель сама себя вознаграждает во время обучения, что приводит к повышению производительности и возможности постоянного совершенствования (бумага / подкаст / выжимка).

#openai #llm #prompt #промт

291 views07:31

Prompt Engineering - ChatGPT | Gemini, Midjourney, SD, Sora

Дайджест:

📹 ВИДЕО + АРТ 🎨

Midjourney: выпустили Character Reference для генерации изображений человека по рефу. Мне казалось это уже было реализовано у них, но ок.

Neurogen: SD Portable обновлён до V 1.3, за счёт интеграции SD Fast повышена производительность в 2 раза, плюс другие улучшения.

DanTagGen: инструмент, генерирующий подробные описания для text-2-image моделей.

Tencent: через ELLA снабжаем генераторы изображений улучшенным пониманием промтов без дополнительной тренировки.

SLD: скрипт для самокорректировки генерации картинок.

🎸 ЗВУК 🎸

Google: добавили режим диджея в музыкальный генератор MusicFX. Задаём промтами какой звук нужно подмешать и микшируем ползунками.

Bland: голосовой чат, который можно прикрепить к своему сайту и другим проектам.

🤖 ЧАТЫ 🤖

Groq (не путать с Grok от Маска): очень быстрая генерация текста словно это LCM для языковых моделей. На их сайте выбор шире (Mixtral, Gemma, лама).

Vercel: выпустили Generative UI + SDK 3 для генерации компонентов интерфейса на React и работы с данными в реальном времени.

Cohere: релизнули языковую модель (LLM) C4AI Command-R с контекстом 128К (можно книжки скармливать) и 35B параметрами. Имеет хорошие RAG-способности (анализ и обработка внешних данных).

MoAI: смесь экспертов (MoE) для чата по картинкам. Нечто похожее на SegMoE.

VideoMamba: модель для чата по коротким и длинным видео.

Gradio: теперь поддерживает Kubernetes.

DeepSeek-VL: визуальная языковая модель (VLM), с которой можно початиться по веб-страницам, диаграммам, формулам, картинкам, итд.

Google: презентовали библиотеку FAX для распределённых и федеративных вычислений.

FastV: подключаемое решение, позволяющее в теории ускорить инференс VLM на 45%.

Dateno: инструмент для поиска датасетов. У Hugging Face есть нечто похожее.

01.ai: выпустили модель Yi на 9B параметров.

Исследование:
* Крадём через API проекционные матрицы языковых моделей вроде ChatGPT или PaLM-2.

#llm #ChatGPT #ai #Midjourney

200 viewsedited 14:36

Prompt Engineering - ChatGPT | Gemini, Midjourney, SD, Sora

Очень не плохая моделька с открытым кодом Command-R+, присмотритесь к ней Демо Huggingface, Так же Открытый код Huggingface

Cohere выпустил опенсорсную LLM Command R+ , в которой 104 миллиарда параметров. Контекстное окно 128 тысяч токенов, как и у GPT-4 Turbo, поддерживает длительный диалог с пользователем. По данным некоторых бенчмарков Command R+ работает наравне с Claude 3 Sonnet и GPT-4.

#llm

218 views08:46

Prompt Engineering - ChatGPT | Gemini, Midjourney, SD, Sora

Дайджест:

📹 ВИДЕО + АРТ 🎨

EasyAnimate: генерация фото и видео 6 сек 24 fps на архитектуре трансформеров.

T2V-Turbo: быстрая генерация коротких видео с максимальным разрешением 320х512.

ToonCrafter: ускоряем создание анимации, за счёт генерации промежуточных кадров. Нода для Comfy. Вот ещё PasicPBC заодно для колоризации.

Phygital+: добавили IP-Adapter XL и генерацию видео через SVD.

Consistent Character: создаём консистентные фото с целевым персонажем в разных позах. Работает с анимацией, есть воркфлоу для Comfy и гитхаб. Можно даже скормить в ToonCrafter.

Omost: новый проект автора контролнета, использующий LLM для композиции генерируемого изображения. Сначала вкидываем промт и кликаем Submit. Получив код нажимаем Render и ловим картинку.

Xinsir: касательно самого контролнета. Появилась новая модель Xinsir под SDXL, показывающая хорошие результаты. До этого ещё вышла Mistoline тоже на SDXL.

MusePose: подъехал Comfy для этого аниматора персонажей.

V-Express: генерация говорящих голов с липсинком. Демо.

RelightableAvatar: тоже создание аватаров, но уже с анимацией в нужных позах, сеттинге, и освещении.

Deemos: Rodin Gen-1 стал доступен всем на сайте разработчика. До этого выкатили демку на хаггинге.

IC-Light: моделька для смены освещения теперь в A1111 и Forge.

Krea: добавили апскейлер для видео.

3DitScene: генерим новые виды вокруг объекта.

🎸 ЗВУК 🎸

ElevenLabs: выкатили генератор звуковых эффектов.

Gazelle: опенсорсная модель для общения голосом с нейронкой в реальном времени, а-ля Чо. В демке отвечает только текстом на аудио + текст.

ChatTTS: ещё один генератор речи. VoiceCraft и иже с ним лучше.

🤖 ЧАТЫ 🤖

Colossal: представили опенсорсный инструмент Colossal Inference для ускорения работы больших языковых моделей (LLM).

Hugging Face: произошел инцидент с неавторизованным доступом к спейсам на платформе. Рекомендуют сменить API ключи/токены и перейти на гранулированный уровень контроля.

OpenAI: на бесплатном тарифе ChatGPT теперь доступны: браузер, загрузка файлов, видение, анализ данных, и GPTs.

Anthropic: Claude научился использовать внешние инструменты и API.

Google: в след за Microsoft анонсировали новые Chrome-буки с AI-фичами.

Perplexity: результатами переписки с LLM теперь можно делиться как отдельными веб-страницами.

Nvidia: выпустили NeMo Curator — библиотеку работы с датасетами перед треней. И модель для эмбеддингов NV-Embed-v1.

Falcon Vsion: к этой LLM из Эмиратов прикрутили зрение и сделали визуальную языковую модель (VLM).

Yuan 2.0-M32: новая LLM размером 40В на архитектуре MoE c 32 экспертами и Attention Router для эффективного выбора 2 активных.

Исследования в тренировке/файнтюне LLM:
* DORA — стабилизируем треню и улучшаем умение LLM запоминать
* VeLoRA — эффективное обучение с использованием проекций суб-токенов 1 ранга
* AQLM — сжатие и экономное использование памяти

#prompt #openai #chatgpt #Anthropic #LLM #Krea

395 viewsedited 09:01

Prompt Engineering - ChatGPT | Gemini, Midjourney, SD, Sora

Дайджест:

📹 ВИДЕО + АРТ 🎨

Midjourney: добавили на сайт персонализацию генераций. Модель будет больше делать изображений в соответствии с вашим вкусом и меньше давать отсебятины.

Nijijourney: у этого генератора аниме-картинок улучшилась детализация и рендер текста/иероглифов.

Pika: обновили image-2-video модель. Улучшилось качество и стабильность генерируемого видео.

Neurogen: в дипфейкере RopeMod v 2.2 улучшилась производительность и появилась настройка точек отслеживания лица.

Phygital+: обновили Face Swap. Генерация стала реалистичнее и точнее.

Real3D: шустрый генератор 3D. Но качество уступает Meshy, CRM, и другим.

Unique3D: тоже генерация 3D объектов. Результаты получше, чем у модели выше.

DreamGaussian4D: получаем из картинки движущуюся 4D сцену на основе сплатов.

Lumia: нейронка для генерации в разных модальностях (изображения, музыка).

Flash Diffusion: модель дистиллированная из Pixart-A для быстрого создания картинок 1024х1024 в 4 шага. Анонс.

ЗВУК 🎧

Stability: выложили Stable Audio в открытый доступ, через который можно генерить звуковые эффекты и семплы длиной до 47 секунд. Версию для генерации музыки они оставили доступной по своей подписке. Демо и локальная установка через Pinokio.

See-2-Sound: скармливаем видео и получаем звуковые эффекты.

ЧАТЫ 💬

HuggingFace: добавили новые AI-приложения для локального запуска больших языковых моделей (LLM) через Use this model.

LaVague: фреймворк для создания промтом AI-агентов, которые могут выполнять задания в интернете.

Mobile Agent: в версии V2 этого мобильного AI-агента, улучшилось взаимодействие с приложениями на телефоне, а также планирование цепочки задач.

Chat with MLX: интерфейс для локальной работы c разными LLM в формате MLX для маков.

Qwen: выпустили LLM версии V2 в размерах от 0.5B до 72B, контекстом 128к у некоторых вариантов, и натаскали её на 27 языках, коде, и математике.

Apple: провели презу WWDC 2024, на которой анонсировали Apple Intelligence способный генерить текст, картинки, и помогать в повседневных задачах. А также интеграцию с ChatGPT.

Yandex: выпустили YaFSDP для ускорения обучения LLM и сокращения расходов на GPU.

FastEmbed: в версию v 0.3 добавили поддержку новых эмбеддингов.

Nvidia: выпустили мощную LLM Nemotron-4-340B, натренированную на 9 трлн. токенов текста на 50+ языках и коде. Контекст 4к. Локально не погонять, слишком большая.

Как сделать свой чат по PDF на основе Mistral.

Карпаты выпустил гайд по тренироваки GPT-2 модели с нуля.

VideoLlama 2: новая визуальная языковая модель (VLM) для чата по картинкам и видео.

MotionLLM: тоже VLM, но с фокусом на понимании поведения человека в кадре.

Конвертор PDF в датасет.

3D-Grand: VLM для чата по 3D локациям.

Magpie: генерация высококачественных данных для алаймента LLM.

Как сделать своё AI-приложение для выжимки YouTube видосов на основе Gradio, Groq, и Replit.

#ai #faceswap #llm #chat

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

410 viewsedited 11:45

Prompt Engineering - ChatGPT | Gemini, Midjourney, SD, Sora

Превращаем свою идею в чёткий пошаговый план реализации — нашли промт, который поможет структурировать и развить любую идею, оформив её в концепцию:

Ты — эксперт по упаковке и запуску идей с опытом работы в стратегическом консалтинге и креативных индустриях. Твоя задача — помочь структурировать неоформленную идею, которую я опишу далее. На основе моего описания выдели ключевую суть идеи, целевую аудиторию, возможные форматы реализации, каналы донесения и потенциальную пользу. Определи сильные стороны идеи, зоны риска и условия, при которых она может быть успешно реализована. Составь пошаговый план из 10 действий для запуска и тестирования идеи. Каждый шаг должен быть чётким, реалистичным и логически вытекающим из предыдущего. Заверши список советами по адаптации плана под разные уровни бюджета и ресурсов. Будь структурирован, но вдохновляй и мотивируй к действию.

#prompt #промт #запрос #llm

👍3

2.35K views06:03

Prompt Engineering - ChatGPT | Gemini, Midjourney, SD, Sora

Коды для ChatGPT.

🟡ELI5 — дает быстрый, понятный и точный ответ на любую тему.
ELI5: [тема]

🟡TLDR — сокращает длинный текст.
TLDR: [текст]

🟡Jargonize — превратит текст в профессиональное изложение мыслей.
Jargonize: [текст]

🟡Humanize — сделает из машинного текста человеческую речь.
Humanize: [текст]

🟡Feynman Technique — поможет глубоко понять любую тему.
Feynman Technique: [тема]

🟡Critique — даст объективный разбор текста: сильные и слабые стороны, что улучшить.
Critique: [текст или идея]

🟡Summarize — выдает краткое содержание текста, без потери смысла (можно задать стиль — формально, просто, по пунктам).
Summarize: [текст]

🟡Rewrite as — меняет стиль текста.
Rewrite as: [стендап-комик]

🟡Listify — превращает любой текст в структурированный список.
Listify: [текст]

🟡Hook Generator — создает цепляющие заголовки и первые фразы для текста, поста или видео.
Hook Generator: [тема или текст]

🟡Pros and Cons — составит таблицу плюсов и минусов любой идеи, товара, решения.
Pros and Cons: [тема]

🟡Explain like a professor — объясняет тему академично, с терминами и структурой.
Explain like a professor: [тема]

@prompt_ai

#prompt #chatgpt #промпт #llm

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3

1.12K viewsedited 17:59

About

Blog

Apps

Platform