This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Sonilo
Коммерческий сервис, создает музыку к загруженному видео. Предлагает несколько вариантов, есть контроль микса с оригинальным звуком.
Есть бесплатный тариф
Есть партнерские ноды в #ComfyUI
workflow
#video2music
Коммерческий сервис, создает музыку к загруженному видео. Предлагает несколько вариантов, есть контроль микса с оригинальным звуком.
Есть бесплатный тариф
Есть партнерские ноды в #ComfyUI
workflow
#video2music
👍7😱1
IC LoRAs: Control Your Video
В час ночи запланирован стрим Comfy Org по использованию IC LoRA
#comfyui #tutorial
В час ночи запланирован стрим Comfy Org по использованию IC LoRA
#comfyui #tutorial
YouTube
IC LoRAs: Control Your Video
IC LoRAs (In-Context LoRAs) are one of the most powerful tools for controlling AI video generation — but most people don't fully understand what they're actually doing under the hood.
In this video, we break down exactly how IC LoRAs work: what they learn…
In this video, we break down exactly how IC LoRAs work: what they learn…
1❤5
This media is not supported in your browser
VIEW IN TELEGRAM
Больше не нужно ждать билд Flash Attention.
HuggingFace открыл репозиторий готовых кернелов для различных видеокарт, ОС и версий PyTorch.
#tools #optimization
HuggingFace открыл репозиторий готовых кернелов для различных видеокарт, ОС и версий PyTorch.
#tools #optimization
🔥11👍2
ClawGUI
Фреймворк для обучения, оценки и развёртывания GUI-агентов
Использует параллельные Docker-эмуляторы Android или реальные устройства. Воспроизводит бенчмарки с точностью 95,8 %. Поддерживает Android, HarmonyOS, iOS. Управление через 12+ чат-платформ. Полный тест одной командой без скриптов.
Гитхаб
HF
#agent #computeruse
Фреймворк для обучения, оценки и развёртывания GUI-агентов
Использует параллельные Docker-эмуляторы Android или реальные устройства. Воспроизводит бенчмарки с точностью 95,8 %. Поддерживает Android, HarmonyOS, iOS. Управление через 12+ чат-платформ. Полный тест одной командой без скриптов.
Гитхаб
HF
#agent #computeruse
👍5
DisCa
Tencent изобрел метод кэширования обучаемых признаков, который ускоряет видеогенерацию в 11,8 раза при сохранении качества генерации. Совместим с дистилляцией
Применяют подход Restricted MeanFlow для стабильной дистилляции моделей
сохраняет качество генерации при ускорении инференса.
Эксперименты проведены на HunyuanVideo-1.0 и HunyuanVideo-1.5. Модель обещает ускорение без потери качества, но есть простор для оптимизации
Гитхаб
#video #optimization
Tencent изобрел метод кэширования обучаемых признаков, который ускоряет видеогенерацию в 11,8 раза при сохранении качества генерации. Совместим с дистилляцией
Применяют подход Restricted MeanFlow для стабильной дистилляции моделей
сохраняет качество генерации при ускорении инференса.
Эксперименты проведены на HunyuanVideo-1.0 и HunyuanVideo-1.5. Модель обещает ускорение без потери качества, но есть простор для оптимизации
Гитхаб
#video #optimization
👍3🔥2
YoreSpot
Какая-то "альтернатива Civitai"
Генерация, обучение моделей, социальные функции и геймификация
Выбор моделей пока скудный
— генерация изображений и видео в разных стилях (аниме, реализм, высокое разрешение)
— обучение и обмен собственными LoRA-моделями
— хаб моделей (поиск, фильтры, скачивание, оценки, отзывы)
— ежедневные конкурсы и аукционы для заработка внутриигровых кредитов
— социальные взаимодействия: галерея, лайки, комментарии, подписки, чаевые
— создание и общение с AI-персонажами, генерация их образов, отслеживание отношений
— система достижений, бинго и лидербордов с наградам;
— работа в браузере без установки ПО и локального GPU
#gallery #training #finetuning #online #hub
Какая-то "альтернатива Civitai"
Генерация, обучение моделей, социальные функции и геймификация
Выбор моделей пока скудный
— генерация изображений и видео в разных стилях (аниме, реализм, высокое разрешение)
— обучение и обмен собственными LoRA-моделями
— хаб моделей (поиск, фильтры, скачивание, оценки, отзывы)
— ежедневные конкурсы и аукционы для заработка внутриигровых кредитов
— социальные взаимодействия: галерея, лайки, комментарии, подписки, чаевые
— создание и общение с AI-персонажами, генерация их образов, отслеживание отношений
— система достижений, бинго и лидербордов с наградам;
— работа в браузере без установки ПО и локального GPU
#gallery #training #finetuning #online #hub
👀5👍2🤔1🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
Audio Flamingo Next
Новая версия модели от NVIDIA для работы с речью, звуками и музыкой - понимания и описания
— Поддержка файлов до 30 минут и 128 тыс. токенов.
— Анализ длинных записей с несколькими говорящими и шумами.
— Точные ответы с привязкой к временным меткам.
— Специализированные версии для ответов, описаний и рассуждений.
AF-Next-Captioner - описывающая модель
AF-Next-Instruct - универсальная инструктивная версия
AF-Next-Think - рассуждающая версия
Гитхаб
HF
Демо:
https://huggingface.co/spaces/nvidia/audio-flamingo-next
https://huggingface.co/spaces/nvidia/audio-flamingo-next-think
https://huggingface.co/spaces/nvidia/audio-flamingo-next-captioner
#cot #reasoning #alm #captioning #audio2text
Новая версия модели от NVIDIA для работы с речью, звуками и музыкой - понимания и описания
— Поддержка файлов до 30 минут и 128 тыс. токенов.
— Анализ длинных записей с несколькими говорящими и шумами.
— Точные ответы с привязкой к временным меткам.
— Специализированные версии для ответов, описаний и рассуждений.
AF-Next-Captioner - описывающая модель
AF-Next-Instruct - универсальная инструктивная версия
AF-Next-Think - рассуждающая версия
Гитхаб
HF
Демо:
https://huggingface.co/spaces/nvidia/audio-flamingo-next
https://huggingface.co/spaces/nvidia/audio-flamingo-next-think
https://huggingface.co/spaces/nvidia/audio-flamingo-next-captioner
#cot #reasoning #alm #captioning #audio2text
👍3🔥2❤1
GitHub-звёзды больше не показатель качества, их покупают
6 млн новых звёзд накручены (18 617 репозиториев, 300 000+ аккаунтов).
• Цена: $0.03–$0.85 за звезду.
• купить можно в Fiverr, Telegram.
• Цель: имитация роста при запуске.
Инвесторы и алгоритмы всё ещё используют звёзды как сигнал качества.
Реальный индикатор — расхождение метрик:
• Много звёзд, но мало форков и подписчиков.
• Код не копируется, обновления не отслеживаются.
• Нет активности в issues и PR.
Плюс накрутки вне гитхаба
Особо отличился накруткой в соцсетях угадайте кто
#news
6 млн новых звёзд накручены (18 617 репозиториев, 300 000+ аккаунтов).
• Цена: $0.03–$0.85 за звезду.
• купить можно в Fiverr, Telegram.
• Цель: имитация роста при запуске.
Инвесторы и алгоритмы всё ещё используют звёзды как сигнал качества.
Реальный индикатор — расхождение метрик:
• Много звёзд, но мало форков и подписчиков.
• Код не копируется, обновления не отслеживаются.
• Нет активности в issues и PR.
Плюс накрутки вне гитхаба
Особо отличился накруткой в соцсетях угадайте кто
#news
😱9🔥2😁1🤯1
Google выпустил #SOTA говорилку
Ключевая особенность: точный контроль интонации, стиля, темпа и ударений через теги.
— поддерживает многоголосие с сохранением стиля персонажей для озвучки фильмов
— поддерживает более 70 языков
— позволяет настраивать голоса и экспортировать параметры в Google AI Studio
— добавляет водяной знак SynthID для идентификации AI-аудио
Доступна:
Через Gemini API и Google AI Studio
На Vertex AI
На Workspace через Google Vids
#tts #dubbing #voicecloning #russian
Ключевая особенность: точный контроль интонации, стиля, темпа и ударений через теги.
— поддерживает многоголосие с сохранением стиля персонажей для озвучки фильмов
— поддерживает более 70 языков
— позволяет настраивать голоса и экспортировать параметры в Google AI Studio
— добавляет водяной знак SynthID для идентификации AI-аудио
Доступна:
Через Gemini API и Google AI Studio
На Vertex AI
На Workspace через Google Vids
#tts #dubbing #voicecloning #russian
👍5🤷♂1
Lyra 2.0
Генератор 3D-миров из одного изображения от NVIDIA на базе WAN-14B
Миры стабильные, их можно исследовать
— генерирует видео с имитацией прогулки по сцене
— преобразует видео в 3D через прямую реконструкцию
— позволяет планировать траектории камеры и исследовать сцены
— решает проблемы «забывания» деталей и «сдвига» во времени при генерации длинных видео;
— экспортирует сцены в физические движки, например, в NVIDIA Isaac Sim
Гитхаб
HF
Спасибо @Endorpheen
#image2world #3d #world #wan
Генератор 3D-миров из одного изображения от NVIDIA на базе WAN-14B
Миры стабильные, их можно исследовать
— генерирует видео с имитацией прогулки по сцене
— преобразует видео в 3D через прямую реконструкцию
— позволяет планировать траектории камеры и исследовать сцены
— решает проблемы «забывания» деталей и «сдвига» во времени при генерации длинных видео;
— экспортирует сцены в физические движки, например, в NVIDIA Isaac Sim
Гитхаб
HF
Спасибо @Endorpheen
#image2world #3d #world #wan
🔥6👍5
Media is too big
VIEW IN TELEGRAM
HY-World 2.0
У HY тоже обновки по генеративным мирам
HY-World 2.0 - мультимодальная модель для создания и реконструкции 3D-миров. Работает с текстом, одиночными и множественными изображениями, видео. Превращает их в 3D-представления (меши, гауссианы)
— генерирует не видео, а 3D-объекты, которые можно редактировать и импортировать в игровые движки
— реконструирует 3D из фото и видео
— интерактив, можно побродить
— рилтайм на обычных GPU
Код выложен частично вместе с WorldMirror 2.0
В планах: генератор панорам HY-Pano 2.0, реконструктор миров WorldStereo 2.0 (похоже, уже выложили), и чтото про траектории WorldNav
Гитхаб
HF
Попробовать
#world #interactive #realtime
У HY тоже обновки по генеративным мирам
HY-World 2.0 - мультимодальная модель для создания и реконструкции 3D-миров. Работает с текстом, одиночными и множественными изображениями, видео. Превращает их в 3D-представления (меши, гауссианы)
— генерирует не видео, а 3D-объекты, которые можно редактировать и импортировать в игровые движки
— реконструирует 3D из фото и видео
— интерактив, можно побродить
— рилтайм на обычных GPU
Код выложен частично вместе с WorldMirror 2.0
В планах: генератор панорам HY-Pano 2.0, реконструктор миров WorldStereo 2.0 (похоже, уже выложили), и чтото про траектории WorldNav
Гитхаб
HF
Попробовать
#world #interactive #realtime
🔥8
Media is too big
VIEW IN TELEGRAM
Spark 2.0
Worldlabs тоже не сидят сложа руки
Движок для рендеринга 3D-сцен в браузере на базе THREE.js и WebGL2. Обрабатывает 100 млн 3D-гауссиан.
— работает почти на всех устройствах, охватывая 98 % поддержки WebGL2
— быстро рендерит даже на слабых мобильных устройствах
— рендерит несколько объектов сплатов с правильной сортировкой
— поддерживает большинство популярных форматов файлов сплатов, включая .PLY (в том числе сжатые), .SPZ, .SPLAT, .KSPLAT, .SOG
— позволяет рендерить несколько точек зрения одновременно
— даёт возможность динамически трансформировать и редактировать сплаты для анимации
— редактирует цвет сплатов в реальном времени, делает смещение и скелетную анимацию
— использует систему шейдерных графов для динамического создания и редактирования сплатов на GPU
Гитхаб
Docs
Вьюер
#realtime #gaussian #engine #rendering
Worldlabs тоже не сидят сложа руки
Движок для рендеринга 3D-сцен в браузере на базе THREE.js и WebGL2. Обрабатывает 100 млн 3D-гауссиан.
— работает почти на всех устройствах, охватывая 98 % поддержки WebGL2
— быстро рендерит даже на слабых мобильных устройствах
— рендерит несколько объектов сплатов с правильной сортировкой
— поддерживает большинство популярных форматов файлов сплатов, включая .PLY (в том числе сжатые), .SPZ, .SPLAT, .KSPLAT, .SOG
— позволяет рендерить несколько точек зрения одновременно
— даёт возможность динамически трансформировать и редактировать сплаты для анимации
— редактирует цвет сплатов в реальном времени, делает смещение и скелетную анимацию
— использует систему шейдерных графов для динамического создания и редактирования сплатов на GPU
Гитхаб
Docs
Вьюер
#realtime #gaussian #engine #rendering
❤6
Gemini app
Гугл выпустил приложение Gemini на Mac
Ассистент даёт информацию и решает задачи прямо на рабочем столе.
— помогать прояснить тему
— вспоминаtn формулы
— мозговой штурм
— анализ содержимого окна для контекстной помощи
— доступ к творческим инструментам (Nano Banana, Veo)
— синхронизируется с веб-версией и мобильными приложениями
Требует macOS Sequoia (15.0) или позже, работает только на Apple Silicon
#desktop #macos #assistant
Гугл выпустил приложение Gemini на Mac
Ассистент даёт информацию и решает задачи прямо на рабочем столе.
— помогать прояснить тему
— вспоминаtn формулы
— мозговой штурм
— анализ содержимого окна для контекстной помощи
— доступ к творческим инструментам (Nano Banana, Veo)
— синхронизируется с веб-версией и мобильными приложениями
Требует macOS Sequoia (15.0) или позже, работает только на Apple Silicon
#desktop #macos #assistant
❤4