Нейронавт | Нейросети в творчестве
11.7K subscribers
5.46K photos
4.6K videos
49 files
5.75K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

РКН: https://hf.ru/link8e56d
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Больше не нужно ждать билд Flash Attention.

HuggingFace открыл репозиторий готовых кернелов для различных видеокарт, ОС и версий PyTorch.

#tools #optimization
🔥11👍2
ClawGUI

Фреймворк для обучения, оценки и развёртывания GUI-агентов

Использует параллельные Docker-эмуляторы Android или реальные устройства. Воспроизводит бенчмарки с точностью 95,8 %. Поддерживает Android, HarmonyOS, iOS. Управление через 12+ чат-платформ. Полный тест одной командой без скриптов.

Гитхаб
HF

#agent #computeruse
👍5
Однажды Эрнест Хэмингуэй наспор написал самый короткий и самый грустный рассказ

#humor
😁18
DisCa

Tencent изобрел метод кэширования обучаемых признаков, который ускоряет видеогенерацию в 11,8 раза при сохранении качества генерации. Совместим с дистилляцией

Применяют подход Restricted MeanFlow для стабильной дистилляции моделей

сохраняет качество генерации при ускорении инференса.

Эксперименты проведены на HunyuanVideo-1.0 и HunyuanVideo-1.5. Модель обещает ускорение без потери качества, но есть простор для оптимизации

Гитхаб

#video #optimization
👍3🔥2
YoreSpot

Какая-то "альтернатива Civitai"

Генерация, обучение моделей, социальные функции и геймификация
Выбор моделей пока скудный

— генерация изображений и видео в разных стилях (аниме, реализм, высокое разрешение)
— обучение и обмен собственными LoRA-моделями
— хаб моделей (поиск, фильтры, скачивание, оценки, отзывы)
— ежедневные конкурсы и аукционы для заработка внутриигровых кредитов
— социальные взаимодействия: галерея, лайки, комментарии, подписки, чаевые
— создание и общение с AI-персонажами, генерация их образов, отслеживание отношений
— система достижений, бинго и лидербордов с наградам;
— работа в браузере без установки ПО и локального GPU

#gallery #training #finetuning #online #hub
👀5👍2🤔1🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
Audio Flamingo Next

Новая версия модели от NVIDIA для работы с речью, звуками и музыкой - понимания и описания

— Поддержка файлов до 30 минут и 128 тыс. токенов.
— Анализ длинных записей с несколькими говорящими и шумами.
— Точные ответы с привязкой к временным меткам.
— Специализированные версии для ответов, описаний и рассуждений.

AF-Next-Captioner - описывающая модель
AF-Next-Instruct - универсальная инструктивная версия
AF-Next-Think - рассуждающая версия

Гитхаб
HF
Демо:
https://huggingface.co/spaces/nvidia/audio-flamingo-next
https://huggingface.co/spaces/nvidia/audio-flamingo-next-think
https://huggingface.co/spaces/nvidia/audio-flamingo-next-captioner

#cot #reasoning #alm #captioning #audio2text
👍3🔥21
GitHub-звёзды больше не показатель качества, их покупают

6 млн новых звёзд накручены (18 617 репозиториев, 300 000+ аккаунтов).

• Цена: $0.03–$0.85 за звезду.
• купить можно в Fiverr, Telegram.
• Цель: имитация роста при запуске.
Инвесторы и алгоритмы всё ещё используют звёзды как сигнал качества.

Реальный индикатор — расхождение метрик:
• Много звёзд, но мало форков и подписчиков.
• Код не копируется, обновления не отслеживаются.
• Нет активности в issues и PR.

Плюс накрутки вне гитхаба

Особо отличился накруткой в соцсетях угадайте кто

#news
😱9🔥2😁1🤯1
Google выпустил #SOTA говорилку

Ключевая особенность: точный контроль интонации, стиля, темпа и ударений через теги.

— поддерживает многоголосие с сохранением стиля персонажей для озвучки фильмов

— поддерживает более 70 языков

— позволяет настраивать голоса и экспортировать параметры в Google AI Studio

— добавляет водяной знак SynthID для идентификации AI-аудио

Доступна:

Через Gemini API и Google AI Studio
На Vertex AI
На Workspace через Google Vids

#tts #dubbing #voicecloning #russian
👍5🤷‍♂1
Lyra 2.0

Генератор 3D-миров из одного изображения от NVIDIA на базе WAN-14B

Миры стабильные, их можно исследовать

— генерирует видео с имитацией прогулки по сцене

— преобразует видео в 3D через прямую реконструкцию

— позволяет планировать траектории камеры и исследовать сцены

— решает проблемы «забывания» деталей и «сдвига» во времени при генерации длинных видео;

— экспортирует сцены в физические движки, например, в NVIDIA Isaac Sim

Гитхаб
HF

Спасибо @Endorpheen

#image2world #3d #world #wan
🔥6👍5
Media is too big
VIEW IN TELEGRAM
HY-World 2.0

У HY тоже обновки по генеративным мирам

HY-World 2.0 - мультимодальная модель для создания и реконструкции 3D-миров. Работает с текстом, одиночными и множественными изображениями, видео. Превращает их в 3D-представления (меши, гауссианы)

— генерирует не видео, а 3D-объекты, которые можно редактировать и импортировать в игровые движки

— реконструирует 3D из фото и видео

— интерактив, можно побродить

— рилтайм на обычных GPU

Код выложен частично вместе с WorldMirror 2.0

В планах: генератор панорам HY-Pano 2.0, реконструктор миров WorldStereo 2.0 (похоже, уже выложили), и чтото про траектории WorldNav

Гитхаб
HF
Попробовать

#world #interactive #realtime
🔥8
Media is too big
VIEW IN TELEGRAM
Spark 2.0

Worldlabs тоже не сидят сложа руки

Движок для рендеринга 3D-сцен в браузере на базе THREE.js и WebGL2. Обрабатывает 100 млн 3D-гауссиан.

— работает почти на всех устройствах, охватывая 98 % поддержки WebGL2

— быстро рендерит даже на слабых мобильных устройствах

— рендерит несколько объектов сплатов с правильной сортировкой

— поддерживает большинство популярных форматов файлов сплатов, включая .PLY (в том числе сжатые), .SPZ, .SPLAT, .KSPLAT, .SOG

— позволяет рендерить несколько точек зрения одновременно

— даёт возможность динамически трансформировать и редактировать сплаты для анимации

— редактирует цвет сплатов в реальном времени, делает смещение и скелетную анимацию

— использует систему шейдерных графов для динамического создания и редактирования сплатов на GPU

Гитхаб
Docs
Вьюер

#realtime #gaussian #engine #rendering
6
Gemini app

Гугл выпустил приложение Gemini на Mac

Ассистент даёт информацию и решает задачи прямо на рабочем столе.

— помогать прояснить тему

— вспоминаtn формулы

— мозговой штурм

— анализ содержимого окна для контекстной помощи

— доступ к творческим инструментам (Nano Banana, Veo)

— синхронизируется с веб-версией и мобильными приложениями

Требует macOS Sequoia (15.0) или позже, работает только на Apple Silicon

#desktop #macos #assistant
4