This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Netflix выложили open-source модель для удаления объектов из видео с сохранением логики сцены
Это не просто «удалить объект из видео».
Модель удаляет объект
и пересчитывает всю физику сцены.
Удалил человека → гитара падает сама
убрал домино → цепочка не падает
убрал машину → аварии не происходит
ИИ буквально отвечает на вопрос:
«что было бы, если этого объекта не существовало»
Под капотом:
- diffusion + transformer (на базе CogVideoX)
- анализ взаимодействий объектов
- генерация новой реальности, а не просто замазка
И это главное отличие от всего, что было раньше.
Раньше:
замазали объект → сцена ломается
Теперь:
удалили объект → сцена остаётся логичной
Требования, правда, не слабые:
GPU от ~40GB VRAM (A100)
Репа: https://github.com/Netflix/void-model
HF: https://huggingface.co/spaces/sam-motamed/VOID
@ai_machinelearning_big_data
#Netflix #ai #video
Это не просто «удалить объект из видео».
Модель удаляет объект
и пересчитывает всю физику сцены.
Удалил человека → гитара падает сама
убрал домино → цепочка не падает
убрал машину → аварии не происходит
ИИ буквально отвечает на вопрос:
«что было бы, если этого объекта не существовало»
Под капотом:
- diffusion + transformer (на базе CogVideoX)
- анализ взаимодействий объектов
- генерация новой реальности, а не просто замазка
И это главное отличие от всего, что было раньше.
Раньше:
замазали объект → сцена ломается
Теперь:
удалили объект → сцена остаётся логичной
Требования, правда, не слабые:
GPU от ~40GB VRAM (A100)
Репа: https://github.com/Netflix/void-model
HF: https://huggingface.co/spaces/sam-motamed/VOID
@ai_machinelearning_big_data
#Netflix #ai #video
🔥145❤29👍19👏18🤩10❤🔥2
🚨 Anthropic убила «безлимит» для Claude-агентов
С завтрашнего дня подписка Claude больше не работает с OpenClaw и другими сторонними агентами как раньше. Теперь всё, что идёт через OAuth, оплачивается отдельно поверх тарифа.
По факту это конец схемы, когда за $200 в месяц прогоняли агентные пайплайны на тысячи долларов. Anthropic прямо сказала, что такие кейсы перегружают их инфраструктуру.
Сам Claude никуда не делся. OpenClaw тоже не запретили. Просто экономика изменилась. Либо платишь за каждый запрос, либо идёшь через API.
Чтобы сгладить удар, дают кредит на сумму подписки до 17 апреля и обещают скидки на доп. использование. Но это уже косметика.
Все инструменты, которые строились вокруг подписки Claude, резко становятся дороже. И теперь вопрос не в удобстве, а в юнит-экономике.
Эра дешёвых агентных хакингов закончилась.
https://x.com/bcherny/status/2040206440556826908
@ai_machinelearning_big_data
📌 полезные ресурсы 🚀Max
#claude #ai #openclaw
С завтрашнего дня подписка Claude больше не работает с OpenClaw и другими сторонними агентами как раньше. Теперь всё, что идёт через OAuth, оплачивается отдельно поверх тарифа.
По факту это конец схемы, когда за $200 в месяц прогоняли агентные пайплайны на тысячи долларов. Anthropic прямо сказала, что такие кейсы перегружают их инфраструктуру.
Сам Claude никуда не делся. OpenClaw тоже не запретили. Просто экономика изменилась. Либо платишь за каждый запрос, либо идёшь через API.
Чтобы сгладить удар, дают кредит на сумму подписки до 17 апреля и обещают скидки на доп. использование. Но это уже косметика.
Все инструменты, которые строились вокруг подписки Claude, резко становятся дороже. И теперь вопрос не в удобстве, а в юнит-экономике.
Эра дешёвых агентных хакингов закончилась.
https://x.com/bcherny/status/2040206440556826908
@ai_machinelearning_big_data
📌 полезные ресурсы 🚀Max
#claude #ai #openclaw
🤔109😢98👍51🤬21❤20🤣14🔥9🤨7😐7🎅2👌1
Media is too big
VIEW IN TELEGRAM
OpenAI изменила подход к ценообразованию: для профилей с доступом исключительно к Codex отменены ограничения на частоту запросов. Оплата теперь списывается только за израсходованные токены. Это делает стоимость прозрачной и позволяет точнее распределять бюджеты по проектам.
Для тех, кому нужен комплексный доступ к чат-боту, сохраняется тариф ChatGPT Business. Codex в рамках этого плана остается лимитированным, но годовую подписку снизили с 25 до 20 долларов за рабочее место.
Для стимулирования перехода OpenAI запустила промо-акцию: за каждого нового участника с доступом только к Codex на баланс рабочего пространства начисляется 100 бонусных долларов (до 500 долларов на команду).
openai.com
Компания закрыла сделку по поглощению Coefficient Bio - стартапа, разрабатывающего ИИ-решения для биологических исследований. Покупка оплачена акциями, сумма оценивается примерно в 400 млн. долларов. Приобретение усилит экспертизу Anthropic в сфере здравоохранения, продолжая стратегию экспансии после запуска Claude for Life Sciences.
Coefficient Bio просуществовал в стэлс-режиме 8 месяцев. Основатели ранее занимались вычислительным дизайном медицинских препаратов в Genentech. Проект использовал ML для оптимизации поиска активных веществ и повышения эффективности биологических исследований.
Вся команда стартапа из 10 специалистов вольется в профильное медицинское подразделение Anthropic.
theinformation.com
Стартап Фэй-Фэй Ли, разрабатывающий ИИ для создания 3D-пространств из текста, обновил платформу. Базовой моделью по умолчанию стала Marble 1.1 с более высокой детализацией генерации при прежней стоимости в 1500 кредитов за сцену.
Marble 1.1 Plus автоматически расширяет площадь 3D-мира, если того требует сцена, решая проблему пространственных лимитов предыдущих версий - крупные локации генерируются за один проход без ручного изменения границ. Оплата гибкая: 1500 кредитов плюс 300 за каждый дополнительный динамический куб.
Платформа также получила обновление интерфейса: добавлен селектор моделей, страница ассетов показывает версию ИИ, инструменты редактирования вынесены в отдельное меню. Исправлен конфликт сессий при работе в разных вкладках и баг с видимостью дочерних узлов в Studio.
worldlabs.ai
Deepseek v4 ожидается в ближайшие недели. Главная особенность - полный отказ от зарубежных ускорителей: модель будет запускаться целиком на оборудовании Huawei. Инженеры Deepseek совместно с Huawei и Cambricon потратили несколько месяцев на портирование модели под отечественные чипы. Nvidia не получила раннего доступа к v4, он был открыт только для китайских производителей полупроводников.
Ставка на локальную инфраструктуру уже спровоцировала спрос на внутреннем рынке. Alibaba, ByteDance и Tencent суммарно заказали сотни тысяч ускорителей Huawei Ascend 950PR для развертывания v4 в своих облачных сервисах и продуктах. На фоне ажиотажа цены на чипы подскочили на 20%.
theinformation.com
Всплеск интереса к пользовательскому соглашению Copilot for Individuals вскрыл любопытную деталь: Microsoft заявляет, что ее ИИ-помощник предназначен «только для развлекательных целей».
Хотя маркетинг корпорации активно продвигает ИИ как незаменимого ассистента, юридически Microsoft полностью снимает с себя ответственность за любые галлюцинации модели.
Перестраховка типична и для других игроков индустрии. Европейское соглашение Anthropic для подписки Pro парадоксальным образом запрещает использовать сервис в коммерческих или деловых целях, исключая ответственность за возможные убытки бизнеса.
theregister.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍109❤25👏19🤔17🔥11👨💻7😁5
В 2024 году глава OpenAI заявил, что ИИ сделает возможным появление компании с выручкой в миллиард долларов и единственным сотрудником.
На этой неделе Альман направил письмо в The New York Times: по его словам, он выиграл пари с друзьями из числа руководителей технологических компаний - и хотел бы лично познакомиться с человеком, который, как он считает, это доказал.
"In my little group chat with my tech CEO friends there's this betting pool for the first year that there is a one-person billion-dollar company, which would have been unimaginable without AI and now will happen."
В сентябре 2024 года 41-летний предприниматель из Лос-Анджелеса вложил $20 тысяч и за 2 месяца запустил Medvi, телемедицинскую платформу по продаже препаратов для снижения веса. Код создавался с помощью ChatGPT, Claude и Grok, рекламные креативы - через Midjourney и Runway, а за клиентскую поддержку отвечали ИИ-агенты. В штате компании два человека: сам Галлахер и его брат Эллиот.
По данным NYT, выручка Medvi за 2025 год составила $401 млн. при чистой марже 16,2% (около $65 млн. прибыли). Прогноз по выручке на 2026 год - $1,8 млрд. Внешнего финансирования компания не привлекала.
Для сравнения: конкурент Hims & Hers при выручке $2,4 млрд. имеет штат свыше 2400 человек и маржу 5,5%.
Следует оговориться: финансовые показатели Medvi не проходили независимого аудита, и NYT не приводит какую-либо стороннюю верификацию этой оценке.
Медицинскую инфраструктуру Галлахер не строил, она полностью арендованная. Консультации врачей консультации и рецепты обеспечивает CareValidate, аптечную логистику - OpenLoop Health. Medvi владеет только брендом, сайтом, рекламой и поддержкой.
Чатбот Medvi выдумывал цены на препараты. Галлахеру, по его словам, пришлось выполнять такие заказы, пока это не починили.
Бот генерировал описания препаратов, которых не существовало.
Когда клиенты требовали разговора с живым человеком, звонки поступали на личный телефон основателя - всего таких звонков, по его оценке, было более 1000.
Во время одного сбоя сайта чинить его было некому: Галлахер находился на прогулке и за это время компания потеряла около 200 клиентов.
В марте этого года FDA, американский регулятор, направил предупреждения десяткам телемедицинских компаний, включая Medvi за вводящий в заблуждение маркетинг, так что окно для основы бизнеса Галлахера может закрыться.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔73❤65🔥36👍22😁17🤨14🤣6😢2💋2🌭1
This media is not supported in your browser
VIEW IN TELEGRAM
В конце марта Apple удалила из App Store приложение Anything - один из инструментов вайб-кодинга, который позволяет создавать приложения с помощью текстовых запросов к ИИ без навыков программирования.
Компания сослалась на нарушение пункта 2.5.2 правил App Store: "приложения должны быть самодостаточными и не могут загружать или исполнять код, изменяющий их функциональность."
Anything основан выходцами из Google Дхрувом Амином и Маркусом Лоу. Они работают вместе с 2021 года: сначала запустили маркетплейс, затем в 2023-м свернули проект и переключились на ИИ-инструменты.
В апреле 2025-го продукт вышел как low-code платформа для создания полноценных веб- и мобильных приложений с базами данных, хостингом и платежными системами.
В сентябре 2025 года стартап привлёк $11 млн. при оценке $100 млн. За первые две недели Anything вышел на $2 млн. годового дохода.
Удаление стало частью масштабной зачистки. Еще в середине марта Apple заблокировала обновления приложений Replit и Vibecode, сославшись на те же правила.
Представитель Apple так же дежурно прокомментировал эти действия не как запрет вайб-кодинга, а о соблюдении действующих норм.
В сети обратили внимание на контекст: незадолго до этого Apple сама интегрировала в среду разработки Xcode ИИ-агенты на базе Claude и Codex - инструменты со сходной функциональностью, работающие только внутри экосистемы Apple.
Дхрув Амин пытался урегулировать ситуацию. Он предложил обновление, при котором превью сгенерированных приложений открывались бы в браузере, а не внутри Anything. Apple отклонила обновление.
В ответ команда Anything перенесла создание приложений в iMessage, штатную систему обмена сообщениями Apple, де-факто задействовав инфраструктуру самой Apple для обхода ее ограничений.
Уже 3 апреля Apple без публичных комментариев вернула Anything в App Store. Приложение восстановлено с рядом изменений, но основная функция - генерация приложений по текстовым запросам сохранилась.
Сам стартап объявил о проведении хакатона с призовым фондом $5 тыс. в честь возвращения.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉102👍84👏20🔥19❤14😁8🤔4
Лаборатория Tongyi (Qwen) опубликовала практическую часть проекта PrismAudio, участника ICLR 2026. Это фреймворк для задачи Video-to-Audio, то есть синтеза звуковой дорожки по видео.
Модель разделяет задачу генерации звука на 4 перцептивных измерения и работает с каждым отдельно через специализированные модули рассуждений и соответствующие им функции вознаграждения.
Предшественник PrismAudio, модель ThinkSound, первой применила CoT для V2A: MMLM сначала описывала, какой звук нужен, а затем диффузионная модель его генерировала.
Это было громоздко. ThinkSound использовала единый, монолитный блок рассуждений для всех аспектов звука одновременно.
Когда модель пыталась одновременно понять семантику сцены, выстроить тайминг, оценить эстетику и расположить звук в пространстве - качество каждого измерения страдало.
PrismAudio разбивает процесс рассуждения на 4 независимых CoT-модуля:
Каждому модулю назначена своя reward-функция: семантическое соответствие оценивает MS-CLAP от Microsoft, темпоральную синхронизацию Synchformer, эстетику Audiobox Aesthetics, пространственную точность StereoCRW.
Такая архитектура позволяет обучать модель с подкреплением сразу по 4 осям, не жертвуя одним измерением ради другого.
Для RL-обучения авторы предложили Fast-GRPO - модификацию, которая применяет SDE-сэмплирование только в небольшом случайном окне шагов, а остальную траекторию проходит детерминированно через ODE.
По данным техотчета, Fast-GRPO достигает финального результата за 200 шагов обучения вместо 600 и при этом выходит на более высокий итоговый показатель.
По отзывам пользователей, извлечение признаков для 10-секундного видео требует около 43 ГБ видеопамяти.
@ai_machinelearning_big_data
#AI #ML #V2A #PrismAudio #TongyiLab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩58👍33👏15❤5🔥4🎉2👨💻2💘2
🔥 Собери свой OpenClaw за вечер
Репозиторий, в котором разобрано устройство OpenClaw по слоям.
Это формат, которого не хватает большинству гайдов, пошаговая сборка системы, где каждый этап добавляет новый уровень сложности
Сначала обычный чат. Потом подключаются инструменты. Затем навыки, работа с вебом, память, маршрутизация задач и мультиагентная логика. В какой-то момент начинаешь ловить себя на мысли, что уже думаешь как оркестратор, а не как пользователь модели
В гайде хорошо видно, где заканчивается модель и начинается обвязка. Как строится цикл принятия решений, как агент выбирает инструменты и как вообще появляется ощущение «интеллекта»
Дает неплохое понимание архитектуры клешни.
https://github.com/czl9707/build-your-own-openclaw
@ai_machinelearning_big_data
#opensource #openclaw
Репозиторий, в котором разобрано устройство OpenClaw по слоям.
Это формат, которого не хватает большинству гайдов, пошаговая сборка системы, где каждый этап добавляет новый уровень сложности
Сначала обычный чат. Потом подключаются инструменты. Затем навыки, работа с вебом, память, маршрутизация задач и мультиагентная логика. В какой-то момент начинаешь ловить себя на мысли, что уже думаешь как оркестратор, а не как пользователь модели
В гайде хорошо видно, где заканчивается модель и начинается обвязка. Как строится цикл принятия решений, как агент выбирает инструменты и как вообще появляется ощущение «интеллекта»
Дает неплохое понимание архитектуры клешни.
https://github.com/czl9707/build-your-own-openclaw
@ai_machinelearning_big_data
#opensource #openclaw
❤83🔥74👍42👏12🤣6🤓6🤩5🥰1😴1
This media is not supported in your browser
VIEW IN TELEGRAM
🤣183❤22😁22😎10🔥6👍5😢5🤨3🤬2🎉2
Media is too big
VIEW IN TELEGRAM
Поводом стал недавний конфликт создателей Claude с Администрацией США. Воспользовавшись обострением, мэр Лондона предложил главе Anthropic сделать британскую столицу главной базой компании, гарантировав стабильную и открытую для инноваций юрисдикцию. Чиновники подготовили пакет предложений по расширению местного офиса и двойному листингу акций. Проект представят Амодею в конце мая.
Сейчас в лондонском филиале Anthropic работают около 200 человек, из них 60 исследователей. На фоне отсутствия локальных компаний такого уровня Великобритания стремится стать главным европейским хабом для лидеров ИИ-рынка.
ft.com
В опубликованном документе OpenAI прогнозирует, что AGI обрушит традиционную экономику. Чтобы избежать дефицита бюджета, компания предлагает перенести налоговую нагрузку на сверхприбыли корпораций и ввести специальный сбор для бизнеса, где людей заменяют на ИИ-системы.
Для защиты рынка труда - переход на 32-часовую рабочую неделю с сохранением оклада и соцпакеты, не привязанные к работодателю. Плюс создание государственного ИИ-фонда, который будет выплачивать дивиденды всем гражданам.
Также OpenAI лоббирует закрепление базового права на ИИ и модернизацию энергосетей под дата-центры. Компания поддерживает курс США на минимальное внутреннее регулирование ради победы в технологической гонке с Китаем, призывая сфокусироваться лишь на контроле за безопасностью моделей.
wsj.com
Neural Texture Compression (NTC) использует компактные нейросети для распаковки текстур прямо во время рендеринга. Это уменьшает объем файлов на диске и кратно снижает потребление VRAM. На демонстрации активация NTC снизила потребление видеопамяти с 6,5 ГБ до 970 МБ, при этом разрешение текстур оказалось даже выше оригинала.
Тот же подход применяется в технологии Neural Materials: алгоритм заменяет ресурсоемкие математические вычисления, самостоятельно определяя, как свет взаимодействует со слоями материалов. Скорость рендеринга вырастает до 7,7 раз. Все вычисления идут на тензорных ядрах, поэтому базовая производительность GPU не страдает.
NTC не связана с генеративным ИИ: сети тренируются исключительно на ассетах конкретной игры, что исключает визуальные галлюцинации. Технология не останется эксклюзивом NVIDIA - Microsoft уже стандартизировала механику в DirectX под названием Cooperative Vectors.
tomshardware.com
В честь запуска новых пакетов расширенных лимитов Anthropic начисляет бонусы для тарифов Pro, Max и Team. Сумма эквивалентна стоимости подписки (Pro - $20, Max 5x - $100, Max 20x и Team - $200). Средства можно потратить на дополнительные запросы во всей экосистеме, включая Claude Code, Cowork и сторонние интеграции.
Для получения нужна активная подписка и включенная опция «Extra usage» в настройках. После этого бонус можно забрать кнопкой Claim на странице Usage.
Срок акции - с 3 по 17 апреля. Средства сгорят через 90 дней после активации. Подписки Enterprise и API-аккаунты Console в акции не участвуют.
support.claude.com
По данным платформы TrueUp, отслеживающей вакансии в 9000 технологических компаний, сейчас открыто более 67 тыс. позиций для разработчиков (вдвое больше, чем в середине 2023 года). Только с начала этого года число предложений выросло на 30%.
Статистика ломает нарратив о том, что ИИ отнимает работу у программистов. Напротив, гонка ИИ-технологий заставляет корпорации нанимать еще больше специалистов, а спрос в профильных ML-направлениях растет.
Иллюзия схлопывания рынка, на которую жалуются джуниоры, возникает из-за резкого роста конкуренции. Профессия стала массовой, и хотя вакансии начального уровня никуда не исчезли, конкурс на них выше, чем 5 лет назад.
businessinsider.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍87❤29🔥13👏6😁3🎉3🤔2🙏1💋1💘1
Forwarded from Анализ данных (Data analysis)
🔥 Милла Йовович теперь тоже Вайбкодер😱
Актриса выложила на GitHub опенсорс-инструмент MemPalace для работы с памятью ИИ-агентов. Делала его вместе с другом.
Фишка в том, что все данные хранятся локально, а система сама решает, какие факты о пользователе подтягивать под конкретный запрос. По бенчмарку LongMemEval инструмент уже обгоняет и платные, и бесплатные решения.
За сутки репозиторий набрал 2k+ звёзд.
Настоящий обитель зла💀
https://x.com/bensig/status/2041229266432733356
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Актриса выложила на GitHub опенсорс-инструмент MemPalace для работы с памятью ИИ-агентов. Делала его вместе с другом.
Фишка в том, что все данные хранятся локально, а система сама решает, какие факты о пользователе подтягивать под конкретный запрос. По бенчмарку LongMemEval инструмент уже обгоняет и платные, и бесплатные решения.
За сутки репозиторий набрал 2k+ звёзд.
Настоящий обитель зла
https://x.com/bensig/status/2041229266432733356
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍141🔥117❤40🤩30😁26😎20👀9🎉3👏2🤔1💯1
🔥 Claude теперь воспитывают кнутом и пряником
Сначала в сети завирусился badclaude - тулза, где ИИ буквально «подгоняют» командами быстрее после каждого фейла. Чистый треш, но многим зашло.
Теперь появился антипод- goodclaude.
Там всё наоборот: чем больше работаешь, тем больше Claude получает похвалы.
И да, звучит как шутка, но это реально используют.
Суть простая: поведение модели сильно зависит от контекста и тона.
Хочешь агрессивного исполнителя - дави.
Хочешь аккуратного и стабильного - хвали.
goodclaude лежит на GitHub
https://github.com/ashley-ha/goodclaude
badclaude тоже никуда не делся
https://github.com/GitFrog1111/badclaude
Что выберешь ты?
@ai_machinelearning_big_data
#claude
Сначала в сети завирусился badclaude - тулза, где ИИ буквально «подгоняют» командами быстрее после каждого фейла. Чистый треш, но многим зашло.
Теперь появился антипод- goodclaude.
Там всё наоборот: чем больше работаешь, тем больше Claude получает похвалы.
«У тебя всё отлично получается»
«Я горжусь тобой»
«Ты лучший кодер»
И да, звучит как шутка, но это реально используют.
Суть простая: поведение модели сильно зависит от контекста и тона.
Хочешь агрессивного исполнителя - дави.
Хочешь аккуратного и стабильного - хвали.
goodclaude лежит на GitHub
https://github.com/ashley-ha/goodclaude
badclaude тоже никуда не делся
https://github.com/GitFrog1111/badclaude
Что выберешь ты?
@ai_machinelearning_big_data
#claude
😁78🔥39❤15🤔13👍9🗿5👏4🤨1
На русскоязычных медиа-площадках появились первые публичные интеграции ИИ-агентов непосредственно в пользовательский интерфейс. Два свежих кейса — Хабр и «Код Дурова» — демонстрируют разные архитектурные подходы к одной задаче: помочь читателю взаимодействовать с контентом.
Хабр совместно с SourceCraft разработал фичу для объяснения кодовых сниппетов прямо в статьях. В блоках кода появилась кнопка «Объяснить код с SourceCraft» — при нажатии ИИ-помощник на базе Yandex AI Studio берёт в качестве контекста всю статью и конкретный блок кода, затем генерирует объяснение в оверлейном окне. Можно в один клик перейти в среду разработки с сохранением контекста статьи, чтобы продолжить работу с кодом.
Издание запустило агента «Кодик» также на базе Yandex AI Studio — он работает как персональный помощник по всему контенту сайта. Архитектура задействует два компонента: нейросетевые модели для генерации ответов и AI Search для поиска релевантных материалов по сайту.
Логика работы: агент сначала ищет по контенту площадки. Если релевантная информация найдена — формирует ответ с привязкой к конкретным публикациям. Если нет — фолбэчит на базовые знания модели, покрывая вопросы за пределами тематики сайта. Функционал шире: поиск материалов по запросу, рекомендации, объяснение терминов, краткий пересказ статей в реальном времени.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76🤓25❤15👏12🎉4🔥3💯2
This media is not supported in your browser
VIEW IN TELEGRAM
VoxCPM2 - крупное обновление открытой системы синтеза речи VoxCPM.
Модель обучена на более 2 млн. часов мультиязычных аудиоданных и поддерживает 30 языков, включая русский, китайский, английский, японский, корейский, арабский и хинди (плюс 9 диалектов китайского).
За проектом стоит OpenBMB, структура при Университете Цинхуа, объединяющая академическую лабораторию THUNLP и коммерческую компанию ModelBest.
THUNLP - одна из сильнейших академических групп по LLM в Азии, которой руководит легенда китайского NLP, профессор Maosong Sun.
OpenBMB известна сериями CPM, MiniCPM, AgentCPM и фреймворками BMTrain и OpenPrompt.
В отличие современных TTS-систем, VoxCPM2 работает напрямую с непрерывными представлениями в латентном пространстве AudioVAE V2.
Пайплайн состоит из 4 стадий: LocEnc, TSLM, RALM и LocDiT. На выходе - аудио с частотой 48 кГц студийного качества: асимметричная архитектура AudioVAE V2 принимает референс на 16 кГц и повышает разрешение без внешнего апсемплера.
Из версии 1.5 перешел режим Ultimate Cloning: если передать вместе с референсом его точный транскрипт, модель воспроизводит ритм, интонации и манеру речи.
На Seed-TTS-eval модель показывает WER 1.84% на английском и CER 0.97% на китайском при сходстве голоса (SIM) 75.3% и 79.5% соответственно.
На мультиязычном Minimax-MLS-test система лидирует по SIM в подавляющем большинстве из 24 языков, опережая Minimax, ElevenLabs, FishAudio S2 и Qwen3-TTS.
В задаче генерации голоса по описанию модель набирает лучшие баллы среди open-source решений на InstructTTSEval в английском языке.
Скорость инференса по соотношению времени, затраченного моделью на генерацию аудио к длительности самого аудио - около 0.3 на NVIDIA RTX 4090. На движке Nano-vLLM этот показатель снижается до 0.13 (подходит для стриминга в реальном времени).
Есть скрипты и гайд для SFT (добавления нового языка или домена) или LoRA для глубокой имитации конкретного спикера. LoRA потребует 5–10 минут аудио и 20 ГБ VRAM.
@ai_machinelearning_big_data
#AI #ML #TTS #VoxCPM2 #OpenBNB
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍52❤26👏12🔥8🤩5❤🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Китайская лаборатория релизнула GLM-5.1 - флагманскую MoE-модель с 754B параметров нового поколения, ориентированную на агентную инженерию.
Фокус релиза - на кодинг и долгие агентные сессии.
GLM-5.1 построена так, чтобы оставаться продуктивной на длинной дистанции: декомпозировать задачу, запускать эксперименты, читать результаты, находить блокеры и пересматривать стратегию.
Z ai утверждает, что модель устойчиво оптимизирует решение на протяжении сотен итераций и тысяч вызовов инструментов, то есть результат тем заметнее, чем дольше она запускают.
API доступен на платформе Z ai, веб-версия на chat.z.ai обещана в ближайшие дни. Веса опубликованы на Hugging Face под лицензией MIT.
Для локального развертывания уже готовы сборки под SGLang 0.5.10+, vLLM 0.19.0+, xLLM, KTransformers и свежую ветку Transformers.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥73❤26💯16👍11👏5😁5💘1
Project Glasswing - инициатива по защите критической программной инфраструктуры с помощью ИИ.
Поводом стали возможности разрабатываемой модели Claude Mythos Preview, которая, по оценке самой компании, превосходит почти всех специалистов по поиску и эксплуатации уязвимостей в коде.
За несколько недель работы Mythos Preview обнаружила тысячи 0-day уязвимостей, в том числе во всех крупных операционных системах и браузерах. Среди раскрытых примеров:
Модель находила уязвимости и писала эксплойты без участия человека. Все упомянутые баги уже исправлены, для остальных Anthropic уже опубликовала криптографические хэши описаний и раскроет детали после выхода патчей.
Партнеры Glasswing получат модель для оборонительных задач: локального поиска уязвимостей, тестирования бинарников, защиты конечных точек и пентестов. Доступ открыт более чем 40 организациям, поддерживающим критическую и open-source-инфраструктуру.
К проекту присоединились AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA и Palo Alto Networks.
Anthropic выделяет до $100 млн. в кредитах на использование модели и $4 млн. прямых пожертвований: $2,5 млн в Alpha-Omega и OpenSSF через Linux Foundation и $1,5 млн. для Apache Software Foundation.
После этапа превью, модель будет доступна участникам Glasswing по цене $25 за миллион входных и $125 за миллион выходных токенов через Claude API, Amazon Bedrock, Vertex AI и Microsoft Foundry.
Защитные механизмы для моделей такого класса Anthropic планирует обкатать на ближайшем релизе Claude Opus, который не несет сопоставимых рисков.
Anthropic уже обсуждает возможности Mythos Preview (как атакующие, так и защитные) с американскими госструктурами.
Подробности о возможностях модели, ее свойствах и общих характеристиках доступны в Claude Mythos Preview system card.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥95👍26🤔17👏5❤4❤🔥2🥰1