Дайджест:
📹 ВИДЕО + АРТ 🎨
A1111 обновился до v 1.7. Появилась поддержка SD Turbo, ускорение на 40% через HyperTile и не только.
AnimateDiff обновился до V3.
Gradio: подтянули поддержку LCM. Правда пока версии SD 1.5.
AMD и HuggingFace: адаптировали разные библиотеки для ускорения работы на новом серверном железе на базе Instinct.
Новая улучшалка для SDXL — Direct Preference Optimization (DPO). Делает генерации ближе к промту. Помимо версии для SDXL, есть версия для SD 1.5
Также появилась демка другой улучшалки - FreeInit. Можно попробовать скидывать Pika или Runway для генерации в качестве на основе прототипов.
VolumeDiffusion: генерим 3D объекты по тексту.
GeoDream: тоже генератор 3D, но с поддержкой Stable Zero123.
Marigold: получение карты глубины поженили с 3D принтингом.
3DLFM: получаем 3D каркас объектов из 2D картинки.
Shap-Editor: переносим стиль одного 3D объекта на другой как целиком, так и частично.
DreamDrone: генерим пролёты дрона.
UDiffText: ставим надписи на картинках.
TextDiffuser-2: тоже генератор подписей.
SlimSAM: получаем сегментацию на уровне оригинального SAM, используя всего 0,1% данных.
GLEE: сегментируем много объектов на картинках и видео.
SlimNeRF: оптимизация нерфов для работы на мобилках и маломощном железе.
Apple: представили исследование FastSR-NeRF по улучшению работы нерфов на потребительских устройствах.
HAAR: генерация причёски по тексту. Кода нет.
Google: показали TIP, инструмент для восстановления зашакаленных картинок через текстовое описание того, что в кадре должно быть. Кода нет.
Также они показали VideoPoet, языковую модель для генерации видео без обучения. Учитывая, что Google год назад тоже показывали text-2-video модель, но так ничего и не выпустили, а сейчас у них гора конкурентов особенно в опенсорс, веры в эту модель мало. Кода нет.
🎸 ЗВУК 🎸
Microsoft: добавили генератор песен Suno в свой Copilot в виде плагина на боковой панели.
SeamlessM4T: демо переводчика голосовых записей на разные языки, включая русский.
🤖 ЧАТЫ 🤖
Mixtral только вышла, а народ уже вовсю пилит на её основе новые модели: Dolphin: версия без цензуры, в которой также улучшена работа с кодом. Вот видос на эту тему и GPTQ от Bloke. Плюс блог пост от автора.
OpenAI: выпустили гайд по составлению промтов для GPT-4. Для тех, кто пользуется давно в целом ничего нового. А новичкам будет полезно. В двух словах - модель не умеет читать ваши мысли, максимально точно описывайте что вы хотите получить и в каком формате. Если есть опорные доки/тексты/код/скриншоты - скармливайте ей. Народ уже обучил GPT на эту тему.
Microsoft: выпустили инструмент LLMLingua для сжатия промтов до нужного количества токенов и ускорения инференса.
Apple: представили LLM in a flash для оптимизации запуска языковых моделей на мобильных устройствах.
Используем DeciLM-7B-instruct в связке с LangChain для создания своего бота, чтобы чатиться по PDF'кам.
CALM2-7B: полку маленьких, но способных моделей прибыло.
CogAgent: это AI-агент на основе CogVLM для чата по визуалу.
FLAIR: датасет из 20 млрд снимков земли со спутников.
Инструмент для миграции датасета с Github на Hugging Face
#prompt #ai #openai #llm
📹 ВИДЕО + АРТ 🎨
A1111 обновился до v 1.7. Появилась поддержка SD Turbo, ускорение на 40% через HyperTile и не только.
AnimateDiff обновился до V3.
Gradio: подтянули поддержку LCM. Правда пока версии SD 1.5.
AMD и HuggingFace: адаптировали разные библиотеки для ускорения работы на новом серверном железе на базе Instinct.
Новая улучшалка для SDXL — Direct Preference Optimization (DPO). Делает генерации ближе к промту. Помимо версии для SDXL, есть версия для SD 1.5
Также появилась демка другой улучшалки - FreeInit. Можно попробовать скидывать Pika или Runway для генерации в качестве на основе прототипов.
VolumeDiffusion: генерим 3D объекты по тексту.
GeoDream: тоже генератор 3D, но с поддержкой Stable Zero123.
Marigold: получение карты глубины поженили с 3D принтингом.
3DLFM: получаем 3D каркас объектов из 2D картинки.
Shap-Editor: переносим стиль одного 3D объекта на другой как целиком, так и частично.
DreamDrone: генерим пролёты дрона.
UDiffText: ставим надписи на картинках.
TextDiffuser-2: тоже генератор подписей.
SlimSAM: получаем сегментацию на уровне оригинального SAM, используя всего 0,1% данных.
GLEE: сегментируем много объектов на картинках и видео.
SlimNeRF: оптимизация нерфов для работы на мобилках и маломощном железе.
Apple: представили исследование FastSR-NeRF по улучшению работы нерфов на потребительских устройствах.
HAAR: генерация причёски по тексту. Кода нет.
Google: показали TIP, инструмент для восстановления зашакаленных картинок через текстовое описание того, что в кадре должно быть. Кода нет.
Также они показали VideoPoet, языковую модель для генерации видео без обучения. Учитывая, что Google год назад тоже показывали text-2-video модель, но так ничего и не выпустили, а сейчас у них гора конкурентов особенно в опенсорс, веры в эту модель мало. Кода нет.
🎸 ЗВУК 🎸
Microsoft: добавили генератор песен Suno в свой Copilot в виде плагина на боковой панели.
SeamlessM4T: демо переводчика голосовых записей на разные языки, включая русский.
🤖 ЧАТЫ 🤖
Mixtral только вышла, а народ уже вовсю пилит на её основе новые модели: Dolphin: версия без цензуры, в которой также улучшена работа с кодом. Вот видос на эту тему и GPTQ от Bloke. Плюс блог пост от автора.
OpenAI: выпустили гайд по составлению промтов для GPT-4. Для тех, кто пользуется давно в целом ничего нового. А новичкам будет полезно. В двух словах - модель не умеет читать ваши мысли, максимально точно описывайте что вы хотите получить и в каком формате. Если есть опорные доки/тексты/код/скриншоты - скармливайте ей. Народ уже обучил GPT на эту тему.
Microsoft: выпустили инструмент LLMLingua для сжатия промтов до нужного количества токенов и ускорения инференса.
Apple: представили LLM in a flash для оптимизации запуска языковых моделей на мобильных устройствах.
Используем DeciLM-7B-instruct в связке с LangChain для создания своего бота, чтобы чатиться по PDF'кам.
CALM2-7B: полку маленьких, но способных моделей прибыло.
CogAgent: это AI-агент на основе CogVLM для чата по визуалу.
FLAIR: датасет из 20 млрд снимков земли со спутников.
Инструмент для миграции датасета с Github на Hugging Face
#prompt #ai #openai #llm
Mergekit: инструментарий для смешивания LLM'ок.
Кормим языковые модели TOFU, для забыванияприватных/проприетарных нужных вещей, которые были в тренировочном датасете.
Nvidia: смешали TensorRT с RAG и Llamaindex, чтобы улучшить ответы языковых моделей на ламе.
Google: с помощью фреймворка Patchscope можно простым языком узнать у LLM её внутреннюю структуру, и другие детали.
DeepSeek: выпустили MoE (Mixture of Experts) модель с 16B параметрами. Скоро каждый чат-бот будет MoE как Mixtral. Вот ещё MoE на двух или четырёх маленьких Phi от Microsoft.
Alibaba: демка Qwen-72B на HF.
LittleStory: генерим сказки для детей с иллюстрациями.
Расширяем контекстное окно LLM с 4к до 400к с помощью Activation Beacon. Плюс ещё одна бумага Infinite-LLM на эту тему.
LiteLama: можно погонять ламу 2 на телефоне, 460М параметров. Также появилась TinyLlama, маленькая, но способная с 1.1B параметров.
Clipper: конвертер и кроулер из HTML в Markdown.
Tencent: дотренировала ламу 2-7B на коде и матане и получили LLaMA-Pro 8B.
Alibaba: выпустили Qwen-VL-Plus для чата по картинкам. В этой версии лучше работа разными форматами кадра и мелким текстом.
#ai #llm #chatgpt #gpt
Кормим языковые модели TOFU, для забывания
Nvidia: смешали TensorRT с RAG и Llamaindex, чтобы улучшить ответы языковых моделей на ламе.
Google: с помощью фреймворка Patchscope можно простым языком узнать у LLM её внутреннюю структуру, и другие детали.
DeepSeek: выпустили MoE (Mixture of Experts) модель с 16B параметрами. Скоро каждый чат-бот будет MoE как Mixtral. Вот ещё MoE на двух или четырёх маленьких Phi от Microsoft.
Alibaba: демка Qwen-72B на HF.
LittleStory: генерим сказки для детей с иллюстрациями.
Расширяем контекстное окно LLM с 4к до 400к с помощью Activation Beacon. Плюс ещё одна бумага Infinite-LLM на эту тему.
LiteLama: можно погонять ламу 2 на телефоне, 460М параметров. Также появилась TinyLlama, маленькая, но способная с 1.1B параметров.
Clipper: конвертер и кроулер из HTML в Markdown.
Tencent: дотренировала ламу 2-7B на коде и матане и получили LLaMA-Pro 8B.
Alibaba: выпустили Qwen-VL-Plus для чата по картинкам. В этой версии лучше работа разными форматами кадра и мелким текстом.
#ai #llm #chatgpt #gpt
huggingface.co
Merge Large Language Models with mergekit
A Blog post by Maxime Labonne on Hugging Face
Дайджест:
📹 ВИДЕО + АРТ 🎨
Google Colab перекрыл возможность работы с веб-интерфейсами для генераций на бесплатном тарифе. На платном без изменений.
Phygital+: добавили холст для удобной работы с генерациями.
Neurogen: используем Photomaker для генераций по лицу, ваяем дипфейки в FaceFusion v2.2.1
MotionCtrl: пришили контроль камеры к генерации видео через SVD.
DreamTalk — вкидываем картинку (желательно, чтобы лицо было чётко видно), целевую озвучку или выбираем из списка, и получаем анимированное фото с липсинком.
Banodoco проводят розыгрыш двух 4090.
Появился код и демо FreeNoise, улучшающего результаты видео генераций.
VideoCrafter: в версии V2 этого генератора видео улучшили качество картинки, а также обработку движений и композиции. Но Pika всё-равно впереди.
TriplaneGaussian: появился код 3D генератора на гауссианах. Демо всё также тут.
gsplat.js: теперь можно конвертировать гауссианы из .splat в формат .ply
Alibaba: выпустили единый инструментарий SCEPTER Studio в котором можно тренить, файнтюнить, генерить, и редактировать модели и контент.
GaussianAvatar: даём на вход видео и получаем аватара из гауссианов.
Google: новый генератор видео Lumiere, который в привычном стиле гугла может никогда и не выйти в свет.
🎸 ЗВУК 🎸
Splash: выпустили свою старшую модель AI XL для генерации музыки из промта, а также текстов песен. Доступна по подписке, но стандартную модель можно погонять бесплатно.
🤖 ЧАТЫ 🤖
Гайд по файнтюну LLM на видюхе до 24 ГБ VRAM. Чтоб два раза не вставать вот ещё один, но уже с использованием Runpod.
Binoculars: проверяем сгенерирован ли текст нейронкой.
Hugging Face: для Hugging Chat обновился веб-поиск, став стабильнее.
Gradio: выпустили галерею кастомных компонентов, через которые можно собирать AI-приложения для просмотра карт, чтения PDF, и тд.
WebSight: датасет из HTML/CSS и скриншотов, с лицензией CC-BY-4.0. Подойдёт для трени/файнтюна моделей генерируюющих код сайта по скриншоту. Есть демо.
Stability AI: выпустили совсем маленькую языковую модель Stable LM2 Zephyr с всего 1.6B параметров, плюс тоже мелкую для генерации кода Stable Code 3B. Возможно скоро выдадут свою MoE как Mixtral.
EAGLE: ускоритель LLM обновился до V 1.1. Появилась поддержка gpt-fast (~x2 к скорости) и Mixtral 8-7B.
SeeAct: новый AI-агент, который обладает зрением GPT-4V и может выполнять задания по сети.
LangChain: выпустили своих AI-агентов v 0.1
Microsoft: запустили Copilot Pro. Под капотом тот же GPT-4, можно делать свои GPT, есть интеграция с Microsoft 365 и приложение для iOS/Android.
На Hugging Face есть трекер использования вашего датасета кем-либо.
Jan.ai: интерфейс для работы с локальными языковыми моделями (можно в 1 клик скачать с HF прямо в апе). Скоро появится мобильная версия и фреймворк для AI-ассистентов.
Автоматизируем оценку своих LLM через гугл колаб.
Moondream: новый чат по картинкам (VLM).
01.ai: тоже выпустили VLM разных размеров: Yi-VL-34B и меньше на 6B. Старшая модель встала в лидерборде сразу за GPT-4V.
InternLM: вышел V2 код LLM'ок размером от 7B до 20B, у младшей модели 200к контекст (можно книжки пихать).
Fireworks.ai: выпустили чат по картинкам FireLLaVa c коммерческой лицензией. У оригинальной адобовской лавы возможно было только некоммерческое использование.
Популярные исследования с Arxiv выжатые и озвученные нейронкой в формате видео подкастов и выжимок. Примеры:
* MEDUSA — ускоряем инференс LLM за счёт распараллеливания (бумага / выжимка)
* Zero Bubble Parallelism — новый эффективный метод распределённой трени (гитхаб / бумага / выжимка)
#ai #prompt #промт #LLM
📹 ВИДЕО + АРТ 🎨
Google Colab перекрыл возможность работы с веб-интерфейсами для генераций на бесплатном тарифе. На платном без изменений.
Phygital+: добавили холст для удобной работы с генерациями.
Neurogen: используем Photomaker для генераций по лицу, ваяем дипфейки в FaceFusion v2.2.1
MotionCtrl: пришили контроль камеры к генерации видео через SVD.
DreamTalk — вкидываем картинку (желательно, чтобы лицо было чётко видно), целевую озвучку или выбираем из списка, и получаем анимированное фото с липсинком.
Banodoco проводят розыгрыш двух 4090.
Появился код и демо FreeNoise, улучшающего результаты видео генераций.
VideoCrafter: в версии V2 этого генератора видео улучшили качество картинки, а также обработку движений и композиции. Но Pika всё-равно впереди.
TriplaneGaussian: появился код 3D генератора на гауссианах. Демо всё также тут.
gsplat.js: теперь можно конвертировать гауссианы из .splat в формат .ply
Alibaba: выпустили единый инструментарий SCEPTER Studio в котором можно тренить, файнтюнить, генерить, и редактировать модели и контент.
GaussianAvatar: даём на вход видео и получаем аватара из гауссианов.
Google: новый генератор видео Lumiere, который в привычном стиле гугла может никогда и не выйти в свет.
🎸 ЗВУК 🎸
Splash: выпустили свою старшую модель AI XL для генерации музыки из промта, а также текстов песен. Доступна по подписке, но стандартную модель можно погонять бесплатно.
🤖 ЧАТЫ 🤖
Гайд по файнтюну LLM на видюхе до 24 ГБ VRAM. Чтоб два раза не вставать вот ещё один, но уже с использованием Runpod.
Binoculars: проверяем сгенерирован ли текст нейронкой.
Hugging Face: для Hugging Chat обновился веб-поиск, став стабильнее.
Gradio: выпустили галерею кастомных компонентов, через которые можно собирать AI-приложения для просмотра карт, чтения PDF, и тд.
WebSight: датасет из HTML/CSS и скриншотов, с лицензией CC-BY-4.0. Подойдёт для трени/файнтюна моделей генерируюющих код сайта по скриншоту. Есть демо.
Stability AI: выпустили совсем маленькую языковую модель Stable LM2 Zephyr с всего 1.6B параметров, плюс тоже мелкую для генерации кода Stable Code 3B. Возможно скоро выдадут свою MoE как Mixtral.
EAGLE: ускоритель LLM обновился до V 1.1. Появилась поддержка gpt-fast (~x2 к скорости) и Mixtral 8-7B.
SeeAct: новый AI-агент, который обладает зрением GPT-4V и может выполнять задания по сети.
LangChain: выпустили своих AI-агентов v 0.1
Microsoft: запустили Copilot Pro. Под капотом тот же GPT-4, можно делать свои GPT, есть интеграция с Microsoft 365 и приложение для iOS/Android.
На Hugging Face есть трекер использования вашего датасета кем-либо.
Jan.ai: интерфейс для работы с локальными языковыми моделями (можно в 1 клик скачать с HF прямо в апе). Скоро появится мобильная версия и фреймворк для AI-ассистентов.
Автоматизируем оценку своих LLM через гугл колаб.
Moondream: новый чат по картинкам (VLM).
01.ai: тоже выпустили VLM разных размеров: Yi-VL-34B и меньше на 6B. Старшая модель встала в лидерборде сразу за GPT-4V.
InternLM: вышел V2 код LLM'ок размером от 7B до 20B, у младшей модели 200к контекст (можно книжки пихать).
Fireworks.ai: выпустили чат по картинкам FireLLaVa c коммерческой лицензией. У оригинальной адобовской лавы возможно было только некоммерческое использование.
Популярные исследования с Arxiv выжатые и озвученные нейронкой в формате видео подкастов и выжимок. Примеры:
* MEDUSA — ускоряем инференс LLM за счёт распараллеливания (бумага / выжимка)
* Zero Bubble Parallelism — новый эффективный метод распределённой трени (гитхаб / бумага / выжимка)
#ai #prompt #промт #LLM
🎉1
Дайджест:
📹 ВИДЕО + АРТ 🎨
InstantID: этот инструмент для вписывания людей по одному фото в нужный контекст можно использовать в веб-интерфейсе A1111 для совмещения лиц двух персоналий через controlnet юниты.
DepthAnything: быстро получаем получаем карту глубины картинки/видео, можно использовать для ControlNet. Ещё стоит обратить внимание на Marigold.
Garfield: сегментация и группирование объектов на нерфах.
🎸 ЗВУК 🎸
Parakeet-TDT: совместный преводчик речи в текст от Nvidia и Suno.
OWSM: тоже транскрибатор речи в текст, но работает с 151 языком и есть перевод между любыми языками.
AudioSeal: ставим водяные знаки на аудио или проверяем его на их наличие.
🤖 ЧАТЫ 🤖
Llava: чат по визуалу (VLM) обновился до V1.6. Модель лучше распознаёт текст на картинках и понимает мир.
MoE-Llava: та же лава, что выше, только в формате Mixture of Experts (MoE) как Mixtral 8x7B.
Mobile-Agent: мобильный AI-агент с пониманием визуала для выполнение заданий в вебе.
YOLO World: распознаём объекты на фото и получаем ONNX модель.
LongAling: фреймворк для алаймента LLM на длинном контексте.
Лидерборд нейронок с фильтрами по корпоративным задачам.
И... лидерборд по галлюцинациям.
Запрещёнка выпустила генератор кода CodeLama 70B. Вот ещё 4-bit версия в формате MLX для Apple.
VLM Moondream1 добавлен в библиотеку diffusers.
Исследования:
* T3 от AMD — улучшение коммуникации моделей в распределённой среде (бумага).
* Self-Rewarding Language Models — модель сама себя вознаграждает во время обучения, что приводит к повышению производительности и возможности постоянного совершенствования (бумага / подкаст / выжимка).
#openai #llm #prompt #промт
📹 ВИДЕО + АРТ 🎨
InstantID: этот инструмент для вписывания людей по одному фото в нужный контекст можно использовать в веб-интерфейсе A1111 для совмещения лиц двух персоналий через controlnet юниты.
DepthAnything: быстро получаем получаем карту глубины картинки/видео, можно использовать для ControlNet. Ещё стоит обратить внимание на Marigold.
Garfield: сегментация и группирование объектов на нерфах.
🎸 ЗВУК 🎸
Parakeet-TDT: совместный преводчик речи в текст от Nvidia и Suno.
OWSM: тоже транскрибатор речи в текст, но работает с 151 языком и есть перевод между любыми языками.
AudioSeal: ставим водяные знаки на аудио или проверяем его на их наличие.
🤖 ЧАТЫ 🤖
Llava: чат по визуалу (VLM) обновился до V1.6. Модель лучше распознаёт текст на картинках и понимает мир.
MoE-Llava: та же лава, что выше, только в формате Mixture of Experts (MoE) как Mixtral 8x7B.
Mobile-Agent: мобильный AI-агент с пониманием визуала для выполнение заданий в вебе.
YOLO World: распознаём объекты на фото и получаем ONNX модель.
LongAling: фреймворк для алаймента LLM на длинном контексте.
Лидерборд нейронок с фильтрами по корпоративным задачам.
И... лидерборд по галлюцинациям.
Запрещёнка выпустила генератор кода CodeLama 70B. Вот ещё 4-bit версия в формате MLX для Apple.
VLM Moondream1 добавлен в библиотеку diffusers.
Исследования:
* T3 от AMD — улучшение коммуникации моделей в распределённой среде (бумага).
* Self-Rewarding Language Models — модель сама себя вознаграждает во время обучения, что приводит к повышению производительности и возможности постоянного совершенствования (бумага / подкаст / выжимка).
#openai #llm #prompt #промт
Дайджест:
📹 ВИДЕО + АРТ 🎨
Midjourney: выпустили Character Reference для генерации изображений человека по рефу. Мне казалось это уже было реализовано у них, но ок.
Neurogen: SD Portable обновлён до V 1.3, за счёт интеграции SD Fast повышена производительность в 2 раза, плюс другие улучшения.
DanTagGen: инструмент, генерирующий подробные описания для text-2-image моделей.
Tencent: через ELLA снабжаем генераторы изображений улучшенным пониманием промтов без дополнительной тренировки.
SLD: скрипт для самокорректировки генерации картинок.
🎸 ЗВУК 🎸
Google: добавили режим диджея в музыкальный генератор MusicFX. Задаём промтами какой звук нужно подмешать и микшируем ползунками.
Bland: голосовой чат, который можно прикрепить к своему сайту и другим проектам.
🤖 ЧАТЫ 🤖
Groq (не путать с Grok от Маска): очень быстрая генерация текста словно это LCM для языковых моделей. На их сайте выбор шире (Mixtral, Gemma, лама).
Vercel: выпустили Generative UI + SDK 3 для генерации компонентов интерфейса на React и работы с данными в реальном времени.
Cohere: релизнули языковую модель (LLM) C4AI Command-R с контекстом 128К (можно книжки скармливать) и 35B параметрами. Имеет хорошие RAG-способности (анализ и обработка внешних данных).
MoAI: смесь экспертов (MoE) для чата по картинкам. Нечто похожее на SegMoE.
VideoMamba: модель для чата по коротким и длинным видео.
Gradio: теперь поддерживает Kubernetes.
DeepSeek-VL: визуальная языковая модель (VLM), с которой можно початиться по веб-страницам, диаграммам, формулам, картинкам, итд.
Google: презентовали библиотеку FAX для распределённых и федеративных вычислений.
FastV: подключаемое решение, позволяющее в теории ускорить инференс VLM на 45%.
Dateno: инструмент для поиска датасетов. У Hugging Face есть нечто похожее.
01.ai: выпустили модель Yi на 9B параметров.
Исследование:
* Крадём через API проекционные матрицы языковых моделей вроде ChatGPT или PaLM-2.
#llm #ChatGPT #ai #Midjourney
📹 ВИДЕО + АРТ 🎨
Midjourney: выпустили Character Reference для генерации изображений человека по рефу. Мне казалось это уже было реализовано у них, но ок.
Neurogen: SD Portable обновлён до V 1.3, за счёт интеграции SD Fast повышена производительность в 2 раза, плюс другие улучшения.
DanTagGen: инструмент, генерирующий подробные описания для text-2-image моделей.
Tencent: через ELLA снабжаем генераторы изображений улучшенным пониманием промтов без дополнительной тренировки.
SLD: скрипт для самокорректировки генерации картинок.
🎸 ЗВУК 🎸
Google: добавили режим диджея в музыкальный генератор MusicFX. Задаём промтами какой звук нужно подмешать и микшируем ползунками.
Bland: голосовой чат, который можно прикрепить к своему сайту и другим проектам.
🤖 ЧАТЫ 🤖
Groq (не путать с Grok от Маска): очень быстрая генерация текста словно это LCM для языковых моделей. На их сайте выбор шире (Mixtral, Gemma, лама).
Vercel: выпустили Generative UI + SDK 3 для генерации компонентов интерфейса на React и работы с данными в реальном времени.
Cohere: релизнули языковую модель (LLM) C4AI Command-R с контекстом 128К (можно книжки скармливать) и 35B параметрами. Имеет хорошие RAG-способности (анализ и обработка внешних данных).
MoAI: смесь экспертов (MoE) для чата по картинкам. Нечто похожее на SegMoE.
VideoMamba: модель для чата по коротким и длинным видео.
Gradio: теперь поддерживает Kubernetes.
DeepSeek-VL: визуальная языковая модель (VLM), с которой можно початиться по веб-страницам, диаграммам, формулам, картинкам, итд.
Google: презентовали библиотеку FAX для распределённых и федеративных вычислений.
FastV: подключаемое решение, позволяющее в теории ускорить инференс VLM на 45%.
Dateno: инструмент для поиска датасетов. У Hugging Face есть нечто похожее.
01.ai: выпустили модель Yi на 9B параметров.
Исследование:
* Крадём через API проекционные матрицы языковых моделей вроде ChatGPT или PaLM-2.
#llm #ChatGPT #ai #Midjourney
Очень не плохая моделька с открытым кодом Command-R+, присмотритесь к ней Демо Huggingface, Так же Открытый код Huggingface
Cohere выпустил опенсорсную LLM Command R+ , в которой 104 миллиарда параметров. Контекстное окно 128 тысяч токенов, как и у GPT-4 Turbo, поддерживает длительный диалог с пользователем. По данным некоторых бенчмарков Command R+ работает наравне с Claude 3 Sonnet и GPT-4.
#llm
Cohere выпустил опенсорсную LLM Command R+ , в которой 104 миллиарда параметров. Контекстное окно 128 тысяч токенов, как и у GPT-4 Turbo, поддерживает длительный диалог с пользователем. По данным некоторых бенчмарков Command R+ работает наравне с Claude 3 Sonnet и GPT-4.
#llm
Дайджест:
📹 ВИДЕО + АРТ 🎨
EasyAnimate: генерация фото и видео 6 сек 24 fps на архитектуре трансформеров.
T2V-Turbo: быстрая генерация коротких видео с максимальным разрешением 320х512.
ToonCrafter: ускоряем создание анимации, за счёт генерации промежуточных кадров. Нода для Comfy. Вот ещё PasicPBC заодно для колоризации.
Phygital+: добавили IP-Adapter XL и генерацию видео через SVD.
Consistent Character: создаём консистентные фото с целевым персонажем в разных позах. Работает с анимацией, есть воркфлоу для Comfy и гитхаб. Можно даже скормить в ToonCrafter.
Omost: новый проект автора контролнета, использующий LLM для композиции генерируемого изображения. Сначала вкидываем промт и кликаем Submit. Получив код нажимаем Render и ловим картинку.
Xinsir: касательно самого контролнета. Появилась новая модель Xinsir под SDXL, показывающая хорошие результаты. До этого ещё вышла Mistoline тоже на SDXL.
MusePose: подъехал Comfy для этого аниматора персонажей.
V-Express: генерация говорящих голов с липсинком. Демо.
RelightableAvatar: тоже создание аватаров, но уже с анимацией в нужных позах, сеттинге, и освещении.
Deemos: Rodin Gen-1 стал доступен всем на сайте разработчика. До этого выкатили демку на хаггинге.
IC-Light: моделька для смены освещения теперь в A1111 и Forge.
Krea: добавили апскейлер для видео.
3DitScene: генерим новые виды вокруг объекта.
🎸 ЗВУК 🎸
ElevenLabs: выкатили генератор звуковых эффектов.
Gazelle: опенсорсная модель для общения голосом с нейронкой в реальном времени, а-ля Чо. В демке отвечает только текстом на аудио + текст.
ChatTTS: ещё один генератор речи. VoiceCraft и иже с ним лучше.
🤖 ЧАТЫ 🤖
Colossal: представили опенсорсный инструмент Colossal Inference для ускорения работы больших языковых моделей (LLM).
Hugging Face: произошел инцидент с неавторизованным доступом к спейсам на платформе. Рекомендуют сменить API ключи/токены и перейти на гранулированный уровень контроля.
OpenAI: на бесплатном тарифе ChatGPT теперь доступны: браузер, загрузка файлов, видение, анализ данных, и GPTs.
Anthropic: Claude научился использовать внешние инструменты и API.
Google: в след за Microsoft анонсировали новые Chrome-буки с AI-фичами.
Perplexity: результатами переписки с LLM теперь можно делиться как отдельными веб-страницами.
Nvidia: выпустили NeMo Curator — библиотеку работы с датасетами перед треней. И модель для эмбеддингов NV-Embed-v1.
Falcon Vsion: к этой LLM из Эмиратов прикрутили зрение и сделали визуальную языковую модель (VLM).
Yuan 2.0-M32: новая LLM размером 40В на архитектуре MoE c 32 экспертами и Attention Router для эффективного выбора 2 активных.
Исследования в тренировке/файнтюне LLM:
* DORA — стабилизируем треню и улучшаем умение LLM запоминать
* VeLoRA — эффективное обучение с использованием проекций суб-токенов 1 ранга
* AQLM — сжатие и экономное использование памяти
#prompt #openai #chatgpt #Anthropic #LLM #Krea
📹 ВИДЕО + АРТ 🎨
EasyAnimate: генерация фото и видео 6 сек 24 fps на архитектуре трансформеров.
T2V-Turbo: быстрая генерация коротких видео с максимальным разрешением 320х512.
ToonCrafter: ускоряем создание анимации, за счёт генерации промежуточных кадров. Нода для Comfy. Вот ещё PasicPBC заодно для колоризации.
Phygital+: добавили IP-Adapter XL и генерацию видео через SVD.
Consistent Character: создаём консистентные фото с целевым персонажем в разных позах. Работает с анимацией, есть воркфлоу для Comfy и гитхаб. Можно даже скормить в ToonCrafter.
Omost: новый проект автора контролнета, использующий LLM для композиции генерируемого изображения. Сначала вкидываем промт и кликаем Submit. Получив код нажимаем Render и ловим картинку.
Xinsir: касательно самого контролнета. Появилась новая модель Xinsir под SDXL, показывающая хорошие результаты. До этого ещё вышла Mistoline тоже на SDXL.
MusePose: подъехал Comfy для этого аниматора персонажей.
V-Express: генерация говорящих голов с липсинком. Демо.
RelightableAvatar: тоже создание аватаров, но уже с анимацией в нужных позах, сеттинге, и освещении.
Deemos: Rodin Gen-1 стал доступен всем на сайте разработчика. До этого выкатили демку на хаггинге.
IC-Light: моделька для смены освещения теперь в A1111 и Forge.
Krea: добавили апскейлер для видео.
3DitScene: генерим новые виды вокруг объекта.
🎸 ЗВУК 🎸
ElevenLabs: выкатили генератор звуковых эффектов.
Gazelle: опенсорсная модель для общения голосом с нейронкой в реальном времени, а-ля Чо. В демке отвечает только текстом на аудио + текст.
ChatTTS: ещё один генератор речи. VoiceCraft и иже с ним лучше.
🤖 ЧАТЫ 🤖
Colossal: представили опенсорсный инструмент Colossal Inference для ускорения работы больших языковых моделей (LLM).
Hugging Face: произошел инцидент с неавторизованным доступом к спейсам на платформе. Рекомендуют сменить API ключи/токены и перейти на гранулированный уровень контроля.
OpenAI: на бесплатном тарифе ChatGPT теперь доступны: браузер, загрузка файлов, видение, анализ данных, и GPTs.
Anthropic: Claude научился использовать внешние инструменты и API.
Google: в след за Microsoft анонсировали новые Chrome-буки с AI-фичами.
Perplexity: результатами переписки с LLM теперь можно делиться как отдельными веб-страницами.
Nvidia: выпустили NeMo Curator — библиотеку работы с датасетами перед треней. И модель для эмбеддингов NV-Embed-v1.
Falcon Vsion: к этой LLM из Эмиратов прикрутили зрение и сделали визуальную языковую модель (VLM).
Yuan 2.0-M32: новая LLM размером 40В на архитектуре MoE c 32 экспертами и Attention Router для эффективного выбора 2 активных.
Исследования в тренировке/файнтюне LLM:
* DORA — стабилизируем треню и улучшаем умение LLM запоминать
* VeLoRA — эффективное обучение с использованием проекций суб-токенов 1 ранга
* AQLM — сжатие и экономное использование памяти
#prompt #openai #chatgpt #Anthropic #LLM #Krea
Дайджест:
📹 ВИДЕО + АРТ🎨
Midjourney: добавили на сайт персонализацию генераций. Модель будет больше делать изображений в соответствии с вашим вкусом и меньше давать отсебятины.
Nijijourney: у этого генератора аниме-картинок улучшилась детализация и рендер текста/иероглифов.
Pika: обновили image-2-video модель. Улучшилось качество и стабильность генерируемого видео.
Neurogen: в дипфейкере RopeMod v 2.2 улучшилась производительность и появилась настройка точек отслеживания лица.
Phygital+: обновили Face Swap. Генерация стала реалистичнее и точнее.
Real3D: шустрый генератор 3D. Но качество уступает Meshy, CRM, и другим.
Unique3D: тоже генерация 3D объектов. Результаты получше, чем у модели выше.
DreamGaussian4D: получаем из картинки движущуюся 4D сцену на основе сплатов.
Lumia: нейронка для генерации в разных модальностях (изображения, музыка).
Flash Diffusion: модель дистиллированная из Pixart-A для быстрого создания картинок 1024х1024 в 4 шага. Анонс.
ЗВУК🎧
Stability: выложили Stable Audio в открытый доступ, через который можно генерить звуковые эффекты и семплы длиной до 47 секунд. Версию для генерации музыки они оставили доступной по своей подписке. Демо и локальная установка через Pinokio.
See-2-Sound: скармливаем видео и получаем звуковые эффекты.
ЧАТЫ💬
HuggingFace: добавили новые AI-приложения для локального запуска больших языковых моделей (LLM) через Use this model.
LaVague: фреймворк для создания промтом AI-агентов, которые могут выполнять задания в интернете.
Mobile Agent: в версии V2 этого мобильного AI-агента, улучшилось взаимодействие с приложениями на телефоне, а также планирование цепочки задач.
Chat with MLX: интерфейс для локальной работы c разными LLM в формате MLX для маков.
Qwen: выпустили LLM версии V2 в размерах от 0.5B до 72B, контекстом 128к у некоторых вариантов, и натаскали её на 27 языках, коде, и математике.
Apple: провели презу WWDC 2024, на которой анонсировали Apple Intelligence способный генерить текст, картинки, и помогать в повседневных задачах. А также интеграцию с ChatGPT.
Yandex: выпустили YaFSDP для ускорения обучения LLM и сокращения расходов на GPU.
FastEmbed: в версию v 0.3 добавили поддержку новых эмбеддингов.
Nvidia: выпустили мощную LLM Nemotron-4-340B, натренированную на 9 трлн. токенов текста на 50+ языках и коде. Контекст 4к. Локально не погонять, слишком большая.
Как сделать свой чат по PDF на основе Mistral.
Карпаты выпустил гайд по тренироваки GPT-2 модели с нуля.
VideoLlama 2: новая визуальная языковая модель (VLM) для чата по картинкам и видео.
MotionLLM: тоже VLM, но с фокусом на понимании поведения человека в кадре.
Конвертор PDF в датасет.
3D-Grand: VLM для чата по 3D локациям.
Magpie: генерация высококачественных данных для алаймента LLM.
Как сделать своё AI-приложение для выжимки YouTube видосов на основе Gradio, Groq, и Replit.
#ai #faceswap #llm #chat
📹 ВИДЕО + АРТ
Midjourney: добавили на сайт персонализацию генераций. Модель будет больше делать изображений в соответствии с вашим вкусом и меньше давать отсебятины.
Nijijourney: у этого генератора аниме-картинок улучшилась детализация и рендер текста/иероглифов.
Pika: обновили image-2-video модель. Улучшилось качество и стабильность генерируемого видео.
Neurogen: в дипфейкере RopeMod v 2.2 улучшилась производительность и появилась настройка точек отслеживания лица.
Phygital+: обновили Face Swap. Генерация стала реалистичнее и точнее.
Real3D: шустрый генератор 3D. Но качество уступает Meshy, CRM, и другим.
Unique3D: тоже генерация 3D объектов. Результаты получше, чем у модели выше.
DreamGaussian4D: получаем из картинки движущуюся 4D сцену на основе сплатов.
Lumia: нейронка для генерации в разных модальностях (изображения, музыка).
Flash Diffusion: модель дистиллированная из Pixart-A для быстрого создания картинок 1024х1024 в 4 шага. Анонс.
ЗВУК
Stability: выложили Stable Audio в открытый доступ, через который можно генерить звуковые эффекты и семплы длиной до 47 секунд. Версию для генерации музыки они оставили доступной по своей подписке. Демо и локальная установка через Pinokio.
See-2-Sound: скармливаем видео и получаем звуковые эффекты.
ЧАТЫ
HuggingFace: добавили новые AI-приложения для локального запуска больших языковых моделей (LLM) через Use this model.
LaVague: фреймворк для создания промтом AI-агентов, которые могут выполнять задания в интернете.
Mobile Agent: в версии V2 этого мобильного AI-агента, улучшилось взаимодействие с приложениями на телефоне, а также планирование цепочки задач.
Chat with MLX: интерфейс для локальной работы c разными LLM в формате MLX для маков.
Qwen: выпустили LLM версии V2 в размерах от 0.5B до 72B, контекстом 128к у некоторых вариантов, и натаскали её на 27 языках, коде, и математике.
Apple: провели презу WWDC 2024, на которой анонсировали Apple Intelligence способный генерить текст, картинки, и помогать в повседневных задачах. А также интеграцию с ChatGPT.
Yandex: выпустили YaFSDP для ускорения обучения LLM и сокращения расходов на GPU.
FastEmbed: в версию v 0.3 добавили поддержку новых эмбеддингов.
Nvidia: выпустили мощную LLM Nemotron-4-340B, натренированную на 9 трлн. токенов текста на 50+ языках и коде. Контекст 4к. Локально не погонять, слишком большая.
Как сделать свой чат по PDF на основе Mistral.
Карпаты выпустил гайд по тренироваки GPT-2 модели с нуля.
VideoLlama 2: новая визуальная языковая модель (VLM) для чата по картинкам и видео.
MotionLLM: тоже VLM, но с фокусом на понимании поведения человека в кадре.
Конвертор PDF в датасет.
3D-Grand: VLM для чата по 3D локациям.
Magpie: генерация высококачественных данных для алаймента LLM.
Как сделать своё AI-приложение для выжимки YouTube видосов на основе Gradio, Groq, и Replit.
#ai #faceswap #llm #chat
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1
Превращаем свою идею в чёткий пошаговый план реализации — нашли промт, который поможет структурировать и развить любую идею, оформив её в концепцию:
#prompt #промт #запрос #llm
Ты — эксперт по упаковке и запуску идей с опытом работы в стратегическом консалтинге и креативных индустриях. Твоя задача — помочь структурировать неоформленную идею, которую я опишу далее. На основе моего описания выдели ключевую суть идеи, целевую аудиторию, возможные форматы реализации, каналы донесения и потенциальную пользу. Определи сильные стороны идеи, зоны риска и условия, при которых она может быть успешно реализована. Составь пошаговый план из 10 действий для запуска и тестирования идеи. Каждый шаг должен быть чётким, реалистичным и логически вытекающим из предыдущего. Заверши список советами по адаптации плана под разные уровни бюджета и ресурсов. Будь структурирован, но вдохновляй и мотивируй к действию.
#prompt #промт #запрос #llm
👍3
Коды для ChatGPT.
@prompt_ai
#prompt #chatgpt #промпт #llm
🟡 ELI5 — дает быстрый, понятный и точный ответ на любую тему.
ELI5: [тема]🟡 TLDR — сокращает длинный текст.
TLDR: [текст]🟡 Jargonize — превратит текст в профессиональное изложение мыслей.
Jargonize: [текст]🟡 Humanize — сделает из машинного текста человеческую речь.
Humanize: [текст]🟡 Feynman Technique — поможет глубоко понять любую тему.
Feynman Technique: [тема]🟡 Critique — даст объективный разбор текста: сильные и слабые стороны, что улучшить.
Critique: [текст или идея]🟡 Summarize — выдает краткое содержание текста, без потери смысла (можно задать стиль — формально, просто, по пунктам).
Summarize: [текст]🟡 Rewrite as — меняет стиль текста.
Rewrite as: [стендап-комик]🟡 Listify — превращает любой текст в структурированный список.
Listify: [текст]🟡 Hook Generator — создает цепляющие заголовки и первые фразы для текста, поста или видео.
Hook Generator: [тема или текст]🟡 Pros and Cons — составит таблицу плюсов и минусов любой идеи, товара, решения.
Pros and Cons: [тема]🟡 Explain like a professor — объясняет тему академично, с терминами и структурой.
Explain like a professor: [тема]
@prompt_ai
#prompt #chatgpt #промпт #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3