Neurogen
InstantID LiteMOD by Neurogen v1.2 / Portable версия Что нового: - Добавлена экспериментальная поддержка DirectML, позволяющая использовать любой GPU, поддерживающий DirectX 12. Потребление видеопамяти составляет 12-14 гигабайт. Теперь, для запуска программы…
Если что, это не сайт упал, это там вся доменная зона .ru упала
Neurogen
InstantID LiteMOD by Neurogen v1.2 / Portable версия Что нового: - Добавлена экспериментальная поддержка DirectML, позволяющая использовать любой GPU, поддерживающий DirectX 12. Потребление видеопамяти составляет 12-14 гигабайт. Теперь, для запуска программы…
У кого проблемы с запуском: отредактируйте bat файл для запуска и удалите строчку
Вчера поспешил залить обновление для AMD, что проглядел ряд моментов, извиняюсь.
upd. Залил версию 1.2.1 на сайт, так что если вы скачали ее - ничего уже удалять не нужно.
rmdir /S /Q instantid\tmp\gradio
Вчера поспешил залить обновление для AMD, что проглядел ряд моментов, извиняюсь.
upd. Залил версию 1.2.1 на сайт, так что если вы скачали ее - ничего уже удалять не нужно.
Нужны обновления мода InstantID?
Anonymous Poll
29%
Да, но хотелось бы чтобы он был попроще
33%
Да, но хочется больше функций
3%
Нет, пользуюсь им через ComfyUI
9%
Нет, пользуюсь им через Automatic1111
25%
Не пользуюсь и не буду в принципе
InstantID Portable Mod by Neurogen v1.3 [Ранняя Бета]
Что нового:
Теперь для Nvidia есть 2 режима: Обычный, и Продвинутый. Обычный запускается через "start portable nvidia.bat", Продвинутый - "pro - start portable nvidia.bat"
Что нового в обычном режиме:
- Увеличена скорость генерации
Что нового в Продвинутом режиме:
- Добавлена поддержка ControlNet: OpenPose, Depth и Canny
- Добавлена возможность выбора Сэмплеров и их настройки. По умолчанию, LCM отключен, работает обычный сэмплер
- Модель улучшения лица заменена на GFPGAN
- Экспериментально: Добавлена библиотека DeepCache. Включить ее, и ускорить вывод можно в интерфейсе.
Важный момент - из за ControlNet возросло потребление памяти (где-то плюс 4-5 гигабайта)
Что нового для всех режимов:
- Добавлена поддержка работы с safetensors файлами моделей. Для этого надо открыть bat файл для запуска и отредактировать аргумент --pretrained_model_name_or_path "./models/zavychromaxl_v40.safetensors" заменив на путь к вашей модели.
По потреблению видеопамяти: обычный режим потребляет 11-12 гигабайт видеопамяти, при этом генерация стала быстрее. Продвинутый режим потребляет 15-16 гигабайт видеопамяти.
Обычный режим работает на 8 гигабайтных видеокартах, если у вас не менее 16 гб оперативной памяти и актуальные драйвера Nvidia. Насчет Про на 8 гб - пока что данных нет.
Доступно для подписчиков на Boosty
Что нового:
Теперь для Nvidia есть 2 режима: Обычный, и Продвинутый. Обычный запускается через "start portable nvidia.bat", Продвинутый - "pro - start portable nvidia.bat"
Что нового в обычном режиме:
- Увеличена скорость генерации
Что нового в Продвинутом режиме:
- Добавлена поддержка ControlNet: OpenPose, Depth и Canny
- Добавлена возможность выбора Сэмплеров и их настройки. По умолчанию, LCM отключен, работает обычный сэмплер
- Модель улучшения лица заменена на GFPGAN
- Экспериментально: Добавлена библиотека DeepCache. Включить ее, и ускорить вывод можно в интерфейсе.
Важный момент - из за ControlNet возросло потребление памяти (где-то плюс 4-5 гигабайта)
Что нового для всех режимов:
- Добавлена поддержка работы с safetensors файлами моделей. Для этого надо открыть bat файл для запуска и отредактировать аргумент --pretrained_model_name_or_path "./models/zavychromaxl_v40.safetensors" заменив на путь к вашей модели.
По потреблению видеопамяти: обычный режим потребляет 11-12 гигабайт видеопамяти, при этом генерация стала быстрее. Продвинутый режим потребляет 15-16 гигабайт видеопамяти.
Обычный режим работает на 8 гигабайтных видеокартах, если у вас не менее 16 гб оперативной памяти и актуальные драйвера Nvidia. Насчет Про на 8 гб - пока что данных нет.
Доступно для подписчиков на Boosty
Forwarded from Psy Eyes (Andrey Bezryadin)
This media is not supported in your browser
VIEW IN TELEGRAM
Опенсорсный дубляж видео на разные языки, включая русский. Причём с русского на другие тоже работает.
Под капотом xtts, можно для липсинка поставить галочку wav2lip, но это повлияет на качество видео. Длина ограничена 1 минутой и одним голосом для всех в кадре, но это можно обойти дублировав к себе этот спейс и отредактировав app.py файл. Или поставив локально. Модель может выдавать результаты лучше, просто в демо настройки стоят с приоритетом на скорость.
Анимированное лицо из DreamTalk
Под капотом xtts, можно для липсинка поставить галочку wav2lip, но это повлияет на качество видео. Длина ограничена 1 минутой и одним голосом для всех в кадре, но это можно обойти дублировав к себе этот спейс и отредактировав app.py файл. Или поставив локально. Модель может выдавать результаты лучше, просто в демо настройки стоят с приоритетом на скорость.
Анимированное лицо из DreamTalk
Neurogen
Опенсорсный дубляж видео на разные языки, включая русский. Причём с русского на другие тоже работает. Под капотом xtts, можно для липсинка поставить галочку wav2lip, но это повлияет на качество видео. Длина ограничена 1 минутой и одним голосом для всех в…
Вот и open source аналог Heygen подъехал. До него конечно далеко, но намного лучше других вариантов, что я видел.
Портативка уже в работе.
Портативка уже в работе.
Forwarded from эйай ньюз
Llama2d: 2D Positional Embeddings for Webpage Structural Understanding
Интересный эксперимент — ребята зафайнтюнили LLaMa на понимание структуры web-страниц. Создали датасет, где из скринов веб-страниц с помощью OCR выдрали видимый текст вместе с его 2D координатами и задетектили, какие элементы на странице являются кликабельными. Затем затюнили LLaMa на этих данных, дополнительно добавив 2d эмбеддинги на вход модели.
Говорят, что так модели гораздо проще понимать страницы, и это более эффективно чем кормить пиксели напрямую в модель, как это можно делает в GPT-V.
Этот новый подход может быть полезен, например, для создания агента который сам сможет бегать по страницам и понимать как с ними взаимодействовать.
Пока ещё Work in progress. Но весь код уже выложили на гитхаб. Будем следить за развитием.
@ai_newz
Интересный эксперимент — ребята зафайнтюнили LLaMa на понимание структуры web-страниц. Создали датасет, где из скринов веб-страниц с помощью OCR выдрали видимый текст вместе с его 2D координатами и задетектили, какие элементы на странице являются кликабельными. Затем затюнили LLaMa на этих данных, дополнительно добавив 2d эмбеддинги на вход модели.
Говорят, что так модели гораздо проще понимать страницы, и это более эффективно чем кормить пиксели напрямую в модель, как это можно делает в GPT-V.
Этот новый подход может быть полезен, например, для создания агента который сам сможет бегать по страницам и понимать как с ними взаимодействовать.
Пока ещё Work in progress. Но весь код уже выложили на гитхаб. Будем следить за развитием.
@ai_newz
Forwarded from Psy Eyes (Andrey Bezryadin)
Hugging Face запустили опенсорсную версию GPT-store — Assistants.
Можно быстро собрать своего AI-ассистента на основе открытых языковых моделей из 6 на выбор: две Mixtral, CodeLama-70B, Mistral-7B, OpenChat, Лама 2). Просто жмём Create New Assistant, задаём аватарку + название + описание + модель, и указываем системный промт для настройки модели генерить ответы на определённый лад.
Созданные ассистенты будут доступны всем публично и народ их уже не мало наваял. Если нужно приватно, то код UI лежит на гитхабе. Модели тогда надо качать и пришивать отдельно, зато скорее всего выбор будет не ограничен 6 вариантами. Вызывать через API пока нельзя. Также ещё не подрубили веб-поиск и RAG, но за эту фичу народ голосует среди прочего здесь.
Можно быстро собрать своего AI-ассистента на основе открытых языковых моделей из 6 на выбор: две Mixtral, CodeLama-70B, Mistral-7B, OpenChat, Лама 2). Просто жмём Create New Assistant, задаём аватарку + название + описание + модель, и указываем системный промт для настройки модели генерить ответы на определённый лад.
Созданные ассистенты будут доступны всем публично и народ их уже не мало наваял. Если нужно приватно, то код UI лежит на гитхабе. Модели тогда надо качать и пришивать отдельно, зато скорее всего выбор будет не ограничен 6 вариантами. Вызывать через API пока нельзя. Также ещё не подрубили веб-поиск и RAG, но за эту фичу народ голосует среди прочего здесь.
Neurogen
И назревает вопрос:
Учитывая, что релиз уже portable, вам нужен портативный мод от меня с дополнительными предустановленными расширениями и обновленными библиотеками?
Учитывая, что релиз уже portable, вам нужен портативный мод от меня с дополнительными предустановленными расширениями и обновленными библиотеками?
Anonymous Poll
72%
Да, нужен
15%
Нет, релиз же и так поративный
13%
Не намерен пользоваться / Посмотреть ответы