Hermes-2 Θ (Theta) 70B — это экспериментальная модель, созданная компанией Nous Research в сотрудничестве с Arcee AI (командой, создавшей MergeKit) на основе Hermes 2 Pro и Llama-3 Instruct.
Судя по метрикам и ответам, модель получилась неплохой
🤗 Hugging Face
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤5🤷♂5🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
ExVideo позволяет модели генерировать в 5 раз больше кадров, при этом требуется всего 1.5 тыс. часов обучения на GPU на датасете из 40 тыс. видео.
В частности при помощи ExVideo была улучшена модель Stable Video Diffusion, для генерации длинных видеороликов до 128 кадров.
Код, статья и модель — по ссылкам ниже.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥38👍12❤5🥰1😁1
В методе EvTexture используется отдельный итеративный модуль улучшения текстуры, который позволяет получать информацию о событиях с высоким временным разрешением.
Этот модуль позволяет постепенно в несколько итераций уточнять текстуру заданных областей и повышать их разрешение.
Быстрый старт с Docker:
docker pull registry.cn-hangzhou.aliyuncs.com/dachunkai/evtexture:latest
cd EvTexture && docker build -t evtexture ./docker
source activate evtexture && cd EvTexture && python setup.py develop
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37🔥13❤5
MorpheuS — это метод, который может воссоздать 360° поверхности из случайно снятого RGB-D видео.
Метод разработан Hengyi Wang и коллегами из Лондонского университета
Ненаблюдаемые области пространства достраиваются с помощью диффузионной модели
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥11❤4🌭3
git clone https://github.com/nimadez/mental-diffusion
cd mental-diffusion
sudo apt install python3-pip python3-venv
sh install-venv.sh
sh install-bin.sh
Особенности mental-diffusion:
— работает с CPU, с GPU
— SD, SDXL
— можно загружать веса VAE и LoRA
— режимы Txt2Img, Img2Img, Inpaint
— есть пакетная генерация изображений, несколько изображений за один запрос
— поддерживатся чтение/запись метаданных PNG, автоматическое переименование файлов
— есть режим низкого объема VRAM (автоматически при GPU < 4 ГБ)
— легкий CLI, написан всего в 300 строк
Кстати, промпт для 2 изображения, можно затестить: "
AI will bring us back to the age of terminals.
" @ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥6❤5⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
Этот Python-скрипт задействует до трех моделей ИИ для решения задач: Мощная связка из GPT-4o, Claude-3.5 и LlaMa 3, работающих вместе для решения ваших задач.
Роли моделей следующие:
▫️ ORCHESTRATOR MODEL — управляет всем процессом.Модель принимает ваш промпт, разбивает её на более мелкие задачи и передает их следующей модели.
▫️ SUB AGENT MODEL — выполняет ключевые функции проекта, такие как написание кода, генерация текста и многое другое.
▫️ REFINER MODEL — оптимизирует и улучшает результаты предыдущхи моделей, исправляет ошибки, делает текст более естественным и многое другое.
▪ Github: https://github.com/Doriandarko/maestro
#генеративныеии
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43❤5🔥5
Традиционный RAG работает с небольшими фрагментами документов, т.е. нужно обработать огромное количество таких фрагментов, чтобы найти нужное.
В отличие от традиционного, LongRAG работает с большими фрагментами, что значительно улучшает результат.
LongRAG полностью использует возможности LLM с большим контекстом для достижения высокой производительности.
На графике — сравнение LongRAG с обычным RAG. Синие названия обозначают модели без тонкой настройки, а красные - модели с тонкой настройкой.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤5🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🗣 MARS 5 TTS: новая модель от компании Camb AI для генерации голоса и преобразования текста в речь с открытым исходным кодом 🔥
> Поддержка более чем 140 языков
> Модели достаточно 5 секундного фрагмента для клонирования голоса и генерации речи
> Архитектура модели с авторегрессией (750M) + без авторегрессии (450M)
> В MARS 5 используется токенизатор BPE для управления знаками препинания, паузами, остановками и т.д.
▪Github: https://github.com/Camb-ai/MARS5-TTS
▪Demo: https://www.camb.ai/
▪HF: https://huggingface.co/CAMB-AI/MARS5-TTS
▪Colab: https://colab.research.google.com/github/Camb-ai/mars5-tts/blob/master/mars5_demo.ipynb
@ai_machinelearning_big_data
> Поддержка более чем 140 языков
> Модели достаточно 5 секундного фрагмента для клонирования голоса и генерации речи
> Архитектура модели с авторегрессией (750M) + без авторегрессии (450M)
> В MARS 5 используется токенизатор BPE для управления знаками препинания, паузами, остановками и т.д.
▪Github: https://github.com/Camb-ai/MARS5-TTS
▪Demo: https://www.camb.ai/
▪HF: https://huggingface.co/CAMB-AI/MARS5-TTS
▪Colab: https://colab.research.google.com/github/Camb-ai/mars5-tts/blob/master/mars5_demo.ipynb
@ai_machinelearning_big_data
🔥57👍11❤7🤔2
—
pip install see2sound
SEE-2-SOUND — новая разработка университета Торонто, передовой метод генерации пространственного звука из изображений, анимации и видео.
Модель состоит из трех основных компонентов: оценка источника звука, генерация звука и пространственная генерация объемного звука.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27👍16❤4🥰1