Лаборатория Tongyi (Qwen) опубликовала практическую часть проекта PrismAudio, участника ICLR 2026. Это фреймворк для задачи Video-to-Audio, то есть синтеза звуковой дорожки по видео.
Модель разделяет задачу генерации звука на 4 перцептивных измерения и работает с каждым отдельно через специализированные модули рассуждений и соответствующие им функции вознаграждения.
Предшественник PrismAudio, модель ThinkSound, первой применила CoT для V2A: MMLM сначала описывала, какой звук нужен, а затем диффузионная модель его генерировала.
Это было громоздко. ThinkSound использовала единый, монолитный блок рассуждений для всех аспектов звука одновременно.
Когда модель пыталась одновременно понять семантику сцены, выстроить тайминг, оценить эстетику и расположить звук в пространстве - качество каждого измерения страдало.
PrismAudio разбивает процесс рассуждения на 4 независимых CoT-модуля:
Каждому модулю назначена своя reward-функция: семантическое соответствие оценивает MS-CLAP от Microsoft, темпоральную синхронизацию Synchformer, эстетику Audiobox Aesthetics, пространственную точность StereoCRW.
Такая архитектура позволяет обучать модель с подкреплением сразу по 4 осям, не жертвуя одним измерением ради другого.
Для RL-обучения авторы предложили Fast-GRPO - модификацию, которая применяет SDE-сэмплирование только в небольшом случайном окне шагов, а остальную траекторию проходит детерминированно через ODE.
По данным техотчета, Fast-GRPO достигает финального результата за 200 шагов обучения вместо 600 и при этом выходит на более высокий итоговый показатель.
По отзывам пользователей, извлечение признаков для 10-секундного видео требует около 43 ГБ видеопамяти.
@ai_machinelearning_big_data
#AI #ML #V2A #PrismAudio #TongyiLab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩58👍33👏15❤5🔥4🎉2👨💻2💘2
🔥 Собери свой OpenClaw за вечер
Репозиторий, в котором разобрано устройство OpenClaw по слоям.
Это формат, которого не хватает большинству гайдов, пошаговая сборка системы, где каждый этап добавляет новый уровень сложности
Сначала обычный чат. Потом подключаются инструменты. Затем навыки, работа с вебом, память, маршрутизация задач и мультиагентная логика. В какой-то момент начинаешь ловить себя на мысли, что уже думаешь как оркестратор, а не как пользователь модели
В гайде хорошо видно, где заканчивается модель и начинается обвязка. Как строится цикл принятия решений, как агент выбирает инструменты и как вообще появляется ощущение «интеллекта»
Дает неплохое понимание архитектуры клешни.
https://github.com/czl9707/build-your-own-openclaw
@ai_machinelearning_big_data
#opensource #openclaw
Репозиторий, в котором разобрано устройство OpenClaw по слоям.
Это формат, которого не хватает большинству гайдов, пошаговая сборка системы, где каждый этап добавляет новый уровень сложности
Сначала обычный чат. Потом подключаются инструменты. Затем навыки, работа с вебом, память, маршрутизация задач и мультиагентная логика. В какой-то момент начинаешь ловить себя на мысли, что уже думаешь как оркестратор, а не как пользователь модели
В гайде хорошо видно, где заканчивается модель и начинается обвязка. Как строится цикл принятия решений, как агент выбирает инструменты и как вообще появляется ощущение «интеллекта»
Дает неплохое понимание архитектуры клешни.
https://github.com/czl9707/build-your-own-openclaw
@ai_machinelearning_big_data
#opensource #openclaw
❤83🔥74👍42👏12🤣6🤓6🤩5🥰1😴1
This media is not supported in your browser
VIEW IN TELEGRAM
🤣183❤23😁22😎10🔥6👍5😢5🤨3🤬2🎉2
Media is too big
VIEW IN TELEGRAM
Поводом стал недавний конфликт создателей Claude с Администрацией США. Воспользовавшись обострением, мэр Лондона предложил главе Anthropic сделать британскую столицу главной базой компании, гарантировав стабильную и открытую для инноваций юрисдикцию. Чиновники подготовили пакет предложений по расширению местного офиса и двойному листингу акций. Проект представят Амодею в конце мая.
Сейчас в лондонском филиале Anthropic работают около 200 человек, из них 60 исследователей. На фоне отсутствия локальных компаний такого уровня Великобритания стремится стать главным европейским хабом для лидеров ИИ-рынка.
ft.com
В опубликованном документе OpenAI прогнозирует, что AGI обрушит традиционную экономику. Чтобы избежать дефицита бюджета, компания предлагает перенести налоговую нагрузку на сверхприбыли корпораций и ввести специальный сбор для бизнеса, где людей заменяют на ИИ-системы.
Для защиты рынка труда - переход на 32-часовую рабочую неделю с сохранением оклада и соцпакеты, не привязанные к работодателю. Плюс создание государственного ИИ-фонда, который будет выплачивать дивиденды всем гражданам.
Также OpenAI лоббирует закрепление базового права на ИИ и модернизацию энергосетей под дата-центры. Компания поддерживает курс США на минимальное внутреннее регулирование ради победы в технологической гонке с Китаем, призывая сфокусироваться лишь на контроле за безопасностью моделей.
wsj.com
Neural Texture Compression (NTC) использует компактные нейросети для распаковки текстур прямо во время рендеринга. Это уменьшает объем файлов на диске и кратно снижает потребление VRAM. На демонстрации активация NTC снизила потребление видеопамяти с 6,5 ГБ до 970 МБ, при этом разрешение текстур оказалось даже выше оригинала.
Тот же подход применяется в технологии Neural Materials: алгоритм заменяет ресурсоемкие математические вычисления, самостоятельно определяя, как свет взаимодействует со слоями материалов. Скорость рендеринга вырастает до 7,7 раз. Все вычисления идут на тензорных ядрах, поэтому базовая производительность GPU не страдает.
NTC не связана с генеративным ИИ: сети тренируются исключительно на ассетах конкретной игры, что исключает визуальные галлюцинации. Технология не останется эксклюзивом NVIDIA - Microsoft уже стандартизировала механику в DirectX под названием Cooperative Vectors.
tomshardware.com
В честь запуска новых пакетов расширенных лимитов Anthropic начисляет бонусы для тарифов Pro, Max и Team. Сумма эквивалентна стоимости подписки (Pro - $20, Max 5x - $100, Max 20x и Team - $200). Средства можно потратить на дополнительные запросы во всей экосистеме, включая Claude Code, Cowork и сторонние интеграции.
Для получения нужна активная подписка и включенная опция «Extra usage» в настройках. После этого бонус можно забрать кнопкой Claim на странице Usage.
Срок акции - с 3 по 17 апреля. Средства сгорят через 90 дней после активации. Подписки Enterprise и API-аккаунты Console в акции не участвуют.
support.claude.com
По данным платформы TrueUp, отслеживающей вакансии в 9000 технологических компаний, сейчас открыто более 67 тыс. позиций для разработчиков (вдвое больше, чем в середине 2023 года). Только с начала этого года число предложений выросло на 30%.
Статистика ломает нарратив о том, что ИИ отнимает работу у программистов. Напротив, гонка ИИ-технологий заставляет корпорации нанимать еще больше специалистов, а спрос в профильных ML-направлениях растет.
Иллюзия схлопывания рынка, на которую жалуются джуниоры, возникает из-за резкого роста конкуренции. Профессия стала массовой, и хотя вакансии начального уровня никуда не исчезли, конкурс на них выше, чем 5 лет назад.
businessinsider.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍88❤30🔥13👏6😁3🎉3🤔2🙏1💋1💘1
Forwarded from Анализ данных (Data analysis)
🔥 Милла Йовович теперь тоже Вайбкодер😱
Актриса выложила на GitHub опенсорс-инструмент MemPalace для работы с памятью ИИ-агентов. Делала его вместе с другом.
Фишка в том, что все данные хранятся локально, а система сама решает, какие факты о пользователе подтягивать под конкретный запрос. По бенчмарку LongMemEval инструмент уже обгоняет и платные, и бесплатные решения.
За сутки репозиторий набрал 2k+ звёзд.
Настоящий обитель зла💀
https://x.com/bensig/status/2041229266432733356
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Актриса выложила на GitHub опенсорс-инструмент MemPalace для работы с памятью ИИ-агентов. Делала его вместе с другом.
Фишка в том, что все данные хранятся локально, а система сама решает, какие факты о пользователе подтягивать под конкретный запрос. По бенчмарку LongMemEval инструмент уже обгоняет и платные, и бесплатные решения.
За сутки репозиторий набрал 2k+ звёзд.
Настоящий обитель зла
https://x.com/bensig/status/2041229266432733356
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍142🔥118❤40🤩31😁26😎20👀9🎉3👏2🤔1💯1
🔥 Claude теперь воспитывают кнутом и пряником
Сначала в сети завирусился badclaude - тулза, где ИИ буквально «подгоняют» командами быстрее после каждого фейла. Чистый треш, но многим зашло.
Теперь появился антипод- goodclaude.
Там всё наоборот: чем больше работаешь, тем больше Claude получает похвалы.
И да, звучит как шутка, но это реально используют.
Суть простая: поведение модели сильно зависит от контекста и тона.
Хочешь агрессивного исполнителя - дави.
Хочешь аккуратного и стабильного - хвали.
goodclaude лежит на GitHub
https://github.com/ashley-ha/goodclaude
badclaude тоже никуда не делся
https://github.com/GitFrog1111/badclaude
Что выберешь ты?
@ai_machinelearning_big_data
#claude
Сначала в сети завирусился badclaude - тулза, где ИИ буквально «подгоняют» командами быстрее после каждого фейла. Чистый треш, но многим зашло.
Теперь появился антипод- goodclaude.
Там всё наоборот: чем больше работаешь, тем больше Claude получает похвалы.
«У тебя всё отлично получается»
«Я горжусь тобой»
«Ты лучший кодер»
И да, звучит как шутка, но это реально используют.
Суть простая: поведение модели сильно зависит от контекста и тона.
Хочешь агрессивного исполнителя - дави.
Хочешь аккуратного и стабильного - хвали.
goodclaude лежит на GitHub
https://github.com/ashley-ha/goodclaude
badclaude тоже никуда не делся
https://github.com/GitFrog1111/badclaude
Что выберешь ты?
@ai_machinelearning_big_data
#claude
😁78🔥41❤15🤔13👍9🗿5👏4🤨1
На русскоязычных медиа-площадках появились первые публичные интеграции ИИ-агентов непосредственно в пользовательский интерфейс. Два свежих кейса — Хабр и «Код Дурова» — демонстрируют разные архитектурные подходы к одной задаче: помочь читателю взаимодействовать с контентом.
Хабр совместно с SourceCraft разработал фичу для объяснения кодовых сниппетов прямо в статьях. В блоках кода появилась кнопка «Объяснить код с SourceCraft» — при нажатии ИИ-помощник на базе Yandex AI Studio берёт в качестве контекста всю статью и конкретный блок кода, затем генерирует объяснение в оверлейном окне. Можно в один клик перейти в среду разработки с сохранением контекста статьи, чтобы продолжить работу с кодом.
Издание запустило агента «Кодик» также на базе Yandex AI Studio — он работает как персональный помощник по всему контенту сайта. Архитектура задействует два компонента: нейросетевые модели для генерации ответов и AI Search для поиска релевантных материалов по сайту.
Логика работы: агент сначала ищет по контенту площадки. Если релевантная информация найдена — формирует ответ с привязкой к конкретным публикациям. Если нет — фолбэчит на базовые знания модели, покрывая вопросы за пределами тематики сайта. Функционал шире: поиск материалов по запросу, рекомендации, объяснение терминов, краткий пересказ статей в реальном времени.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍78🤓27❤15👏12🎉4🔥3💯2
This media is not supported in your browser
VIEW IN TELEGRAM
VoxCPM2 - крупное обновление открытой системы синтеза речи VoxCPM.
Модель обучена на более 2 млн. часов мультиязычных аудиоданных и поддерживает 30 языков, включая русский, китайский, английский, японский, корейский, арабский и хинди (плюс 9 диалектов китайского).
За проектом стоит OpenBMB, структура при Университете Цинхуа, объединяющая академическую лабораторию THUNLP и коммерческую компанию ModelBest.
THUNLP - одна из сильнейших академических групп по LLM в Азии, которой руководит легенда китайского NLP, профессор Maosong Sun.
OpenBMB известна сериями CPM, MiniCPM, AgentCPM и фреймворками BMTrain и OpenPrompt.
В отличие современных TTS-систем, VoxCPM2 работает напрямую с непрерывными представлениями в латентном пространстве AudioVAE V2.
Пайплайн состоит из 4 стадий: LocEnc, TSLM, RALM и LocDiT. На выходе - аудио с частотой 48 кГц студийного качества: асимметричная архитектура AudioVAE V2 принимает референс на 16 кГц и повышает разрешение без внешнего апсемплера.
Из версии 1.5 перешел режим Ultimate Cloning: если передать вместе с референсом его точный транскрипт, модель воспроизводит ритм, интонации и манеру речи.
На Seed-TTS-eval модель показывает WER 1.84% на английском и CER 0.97% на китайском при сходстве голоса (SIM) 75.3% и 79.5% соответственно.
На мультиязычном Minimax-MLS-test система лидирует по SIM в подавляющем большинстве из 24 языков, опережая Minimax, ElevenLabs, FishAudio S2 и Qwen3-TTS.
В задаче генерации голоса по описанию модель набирает лучшие баллы среди open-source решений на InstructTTSEval в английском языке.
Скорость инференса по соотношению времени, затраченного моделью на генерацию аудио к длительности самого аудио - около 0.3 на NVIDIA RTX 4090. На движке Nano-vLLM этот показатель снижается до 0.13 (подходит для стриминга в реальном времени).
Есть скрипты и гайд для SFT (добавления нового языка или домена) или LoRA для глубокой имитации конкретного спикера. LoRA потребует 5–10 минут аудио и 20 ГБ VRAM.
@ai_machinelearning_big_data
#AI #ML #TTS #VoxCPM2 #OpenBNB
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍54❤29👏12🔥8🤩5❤🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Китайская лаборатория релизнула GLM-5.1 - флагманскую MoE-модель с 754B параметров нового поколения, ориентированную на агентную инженерию.
Фокус релиза - на кодинг и долгие агентные сессии.
GLM-5.1 построена так, чтобы оставаться продуктивной на длинной дистанции: декомпозировать задачу, запускать эксперименты, читать результаты, находить блокеры и пересматривать стратегию.
Z ai утверждает, что модель устойчиво оптимизирует решение на протяжении сотен итераций и тысяч вызовов инструментов, то есть результат тем заметнее, чем дольше она запускают.
API доступен на платформе Z ai, веб-версия на chat.z.ai обещана в ближайшие дни. Веса опубликованы на Hugging Face под лицензией MIT.
Для локального развертывания уже готовы сборки под SGLang 0.5.10+, vLLM 0.19.0+, xLLM, KTransformers и свежую ветку Transformers.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥74❤26💯17👍11👏5😁5💘1
Project Glasswing - инициатива по защите критической программной инфраструктуры с помощью ИИ.
Поводом стали возможности разрабатываемой модели Claude Mythos Preview, которая, по оценке самой компании, превосходит почти всех специалистов по поиску и эксплуатации уязвимостей в коде.
За несколько недель работы Mythos Preview обнаружила тысячи 0-day уязвимостей, в том числе во всех крупных операционных системах и браузерах. Среди раскрытых примеров:
Модель находила уязвимости и писала эксплойты без участия человека. Все упомянутые баги уже исправлены, для остальных Anthropic уже опубликовала криптографические хэши описаний и раскроет детали после выхода патчей.
Партнеры Glasswing получат модель для оборонительных задач: локального поиска уязвимостей, тестирования бинарников, защиты конечных точек и пентестов. Доступ открыт более чем 40 организациям, поддерживающим критическую и open-source-инфраструктуру.
К проекту присоединились AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA и Palo Alto Networks.
Anthropic выделяет до $100 млн. в кредитах на использование модели и $4 млн. прямых пожертвований: $2,5 млн в Alpha-Omega и OpenSSF через Linux Foundation и $1,5 млн. для Apache Software Foundation.
После этапа превью, модель будет доступна участникам Glasswing по цене $25 за миллион входных и $125 за миллион выходных токенов через Claude API, Amazon Bedrock, Vertex AI и Microsoft Foundry.
Защитные механизмы для моделей такого класса Anthropic планирует обкатать на ближайшем релизе Claude Opus, который не несет сопоставимых рисков.
Anthropic уже обсуждает возможности Mythos Preview (как атакующие, так и защитные) с американскими госструктурами.
Подробности о возможностях модели, ее свойствах и общих характеристиках доступны в Claude Mythos Preview system card.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥100👍30🤔21👏6❤4❤🔥2🥰1