Ace Studio в коллабе со StepFun обновили генератор музыки ACE-Step до версии 1.5.
Порог входа уронили до минимума: младшая модель требует меньше 6 ГБ видеопамяти, а, в зависимости от настроек think mode, генерация может занять от 2 до 10 секунд - это уже уровень коммерческих решений.
Разработчики собрали гибрид из языковой модели, которая превращает промпт в чертеж композиции: расписывает структуру, придумывает лирику и метаданные и DiT, который отвечает за звук. Логическое ядро всей этой системы базируется на Qwen3.
ACE-Step v1.5 может генерировать треки длиной от 10 секунд до 10 минут, причем до 8 штук одновременно. В базе больше 1000 инструментов, а тексты песен система понимает на 50 языках.
Авторы подготовили целый набор моделей под разный объем VRAM:
При запуске, ACE-Step v1.5 автоматически выбирает подходящую под железо модель и параметры. Подробную информацию по конфигурациям можно найти тут.
ACE-Step умеет гораздо больше, чем просто превращать текст в мелодию. Можно дать ей пример аудио, чтобы скопировать стиль, делать каверы, исправлять куски уже готовых треков или генерировать аккомпанемент к вокалу.
Самая интересная функция - возможность создавать LoRA. Чтобы скормить модели свой стиль, достаточно всего 8 треков. На 30-й серии RTX с 12 ГБ памяти этот процесс займет около часа.
С деплоем все в порядке, разработчики подготовили портабельную сборку, а для ComfyUI уже написали все необходимые ноды и воркфлоу.
@ai_machinelearning_big_data
#AI #ML #Text2Music #AceStudio #StepFun
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤43👍21⚡8🔥7😁1🦄1
🚀 Релиз Claude Opus 4.6
Anthropic прокачали флагманскую модель: Opus 4.6 теперь лучше планирует, дольше держит сложные агентские задачи, стабильнее работает с огромными кодовыми базами и умеет находить собственные ошибки.
Главный апдейт - это 1 миллион токенов контекста (в бете). Такой объём позволяет держать в памяти большие проекты, длинные документы и сложные цепочки рассуждений без потери связности.
По результатам тестов Opus 4.6 показывает state-of-the-art в задачах:
• агентское программирование
• междисциплинарное рассуждение
• knowledge work
• агентский поиск
Параллельно расширяются возможности Claude в Excel, PowerPoint, Claude Code и API - чтобы модель могла глубже встраиваться в рабочие процессы, аналитику и разработку.
www.anthropic.com/news/claude-opus-4-6
@ai_machinelearning_big_data
Anthropic прокачали флагманскую модель: Opus 4.6 теперь лучше планирует, дольше держит сложные агентские задачи, стабильнее работает с огромными кодовыми базами и умеет находить собственные ошибки.
Главный апдейт - это 1 миллион токенов контекста (в бете). Такой объём позволяет держать в памяти большие проекты, длинные документы и сложные цепочки рассуждений без потери связности.
По результатам тестов Opus 4.6 показывает state-of-the-art в задачах:
• агентское программирование
• междисциплинарное рассуждение
• knowledge work
• агентский поиск
Параллельно расширяются возможности Claude в Excel, PowerPoint, Claude Code и API - чтобы модель могла глубже встраиваться в рабочие процессы, аналитику и разработку.
www.anthropic.com/news/claude-opus-4-6
@ai_machinelearning_big_data
🔥79❤46👍17🤩4🦄1
— Сегодня вышло 3 SOTA-модели
— Пока вы читали этот твит, они уже устарели
OpenAI выпустили GPT-5.3-Codex
Модель лучше справляется со сложными задачами разработки и может долго вести большие проекты без потери контекста.
Это полноценный агент, который может планировать шаги, работать с инструментами и действовать в реальном рабочем окружении.
Работает быстрее предыдущей версии и при этом сильнее в рассуждениях.
Подходит не только для кода, но и для анализа, исследований, документации и продуктовых задач вокруг разработки.
OpenAI фактически использовали Codex,чтобы создавать сам Codex - модель участвовала в собственном цикле разработки.
https://openai.com/index/introducing-gpt-5-3-codex/
@ai_machinelearning_big_data
#openai #codex
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80🔥38😁27😴11❤10💯4🦄3
Media is too big
VIEW IN TELEGRAM
Nemotron ColEmbed V2 - обновленная линейка эмбеддинг-моделей (3B, 4B и 8B) для сложных RAG-системы. Под капотом - механизм позднего взаимодействия по типу ColBERT, который дает прочную семантическую связь между текстовыми запросами и визуальным контентом (таблицами, диаграммами и инфографикой).
Серия V2 ставит в приоритет максимальную точность. Старшая модель на 8B уже заняла 1 место в бенчмарке ViDoRe V3, обойдя конкурентов в поиске по визуально сложным документам.. Новинки построены на Llama 3.2 и Qwen3-VL, используют двунаправленное внимание и доступны на Hugging Face.
huggingface.co
Frontier - корпоративный центр управления агентами, который позволяет создавать «цифровых коллег» для корпоративной среды. Платформа объединяет данные из CRM, хранилищ и внутренних приложений в единый семантический слой, доступный ИИ для принятия решений.
OpenAI не стали изобретать велосипед и заставлять компании переписывать весь IT-ландшафт. Все работает поверх существующих систем, причем можно будет задавать границы полномочий для каждого агента и дообучать их на реальных кейсах через механизмы фидбэка.
На старте доступ открыт ограниченному кругу клиентов, но в ближайшие месяцы обещают расширить программу.
openai.com
Теперь, если у вас есть подписка Copilot (Pro Plus или Enterprise), можно использовать эти модели в VS Code или веб-интерфейсе, не бегая по вкладкам браузера. Разработчикам доступен выбор нужного агента прямо внутри задачи или пулл-реквеста: один лучше пишет доки, а другой - рефакторит. GitHub пафосно называет это инициативой Agent HQ, но для нас это просто возможность меньше альт-табать и не терять мысль.
В ближайшем будущем GitHub планирует расширить список доступных моделей решениями от Google, Cognition и xAI.
github.blog
Perplexity выкатила фичу Model Council, которая отправляет поисковый запрос одновременно к 3 топовым моделям: Claude, GPT и Gemini, собирает полученные ответы в кучу и отправляет их дополнительной модели-синтезатору.
Она анализирует выводы каждой LLM, объединяет их в единый ответ и подсвечивает разногласия. Если модели генерят разные ответы, система укажет на это, помогая выявить галлюцинации или предвзятость алгоритмов.
Функция ориентирована на сложные задачи, требующие высокой точности и уже доступна на тарифе Max в веб-версии.
perplexity.ai
Инициатива под руководством Альберта Ченга будет решать проблему растущих бюджетов и ускорять выход контента. Закрытое бета-тестирование платформы начнется в марте 2026 года при участии отраслевых партнеров кино-гиганта. Amazon пытается побороть болячки генеративного видео: как заставить персонажа выглядеть одинаково в разных кадрах и как засунуть эти инструменты в привычный софт монтажеров без танцев с бубном.
К тестам уже привлекли Роберта Стромберга («Малефисента»), а Джон Эрвин уже обкатал технологию, сгенерировав массовку для батальных сцен во втором сезоне «Дома Давида». Студия, разумеется, выдала дежурную фразу о том, что ИИ - это просто помощник, а не замена живым актерам и сценаристам.
reuters.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37❤13❤🔥8👻2🦄1
Тестируйте OpenClaw в облаке Cloud.ru ❤️
OpenClaw — персональный AI-ассистент для решения задач DevOps-команд, системных администраторов и технических специалистов. В отличие от обычных чат-ботов, он может самостоятельно запускать команды, работать с файлами и отправлять отчеты в мессенджеры.
Почему стоит попробовать
➡️ Бесплатно: разверните решение через Маркетплейс на бесплатной виртуальной машине Evolution free tier.
➡️ Быстро: вся необходимая инфраструктура создается автоматически. Образы готовы к работе в несколько кликов.
➡️ Безопасно: можно безопасно развернуть OpenClaw в изолированной среде на отдельной ВМ, настроить необходимое окружение для экспериментов, не используя локальный ПК.
Запустить OpenClaw🖱
OpenClaw — персональный AI-ассистент для решения задач DevOps-команд, системных администраторов и технических специалистов. В отличие от обычных чат-ботов, он может самостоятельно запускать команды, работать с файлами и отправлять отчеты в мессенджеры.
Почему стоит попробовать
Запустить OpenClaw
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33🤬16❤12🔥8🤣2👏1
StepFun выпустили Step 3.5 Flash - очень интересную MoE-модель на 196 млрд. общих и 11 активных параметров.
Авторы заявляют сумасшедшую скорость до 300 токенов в секунду, а на задачах с кодом она, якобы, разгоняется до 350. Для модели такого уровня это очень бодро.
Вместо стандартного механизма внимания использовали гибридную схему: один слой полного внимания на 3 слоя скользящего окна, что позволило запихнуть в модель контекст на 256 тыс. токенов и при этом не забивать память до отказа.
В обучении использовали алгоритм MIS-PO, который помог решить проблему с потерей нити в длинных CoT, н просто отсекает варианты, которые слишком сильно уходят в сторону от логики.
Модель, как стало модно сейчас, затачивали под автономных агентов. Она умеет пользоваться десятком инструментов одновременно. В режиме Deep Research модель сама гуглит, планирует этапы и пишет отчеты размером до 10 тысяч слов.
Если нужно прогнать через модель тяжелый репозиторий с кодом, она справляется без тормозов, которые обычно возникают при работе с объемными текстами.
Завезли даже сценарии гибридного взаимодействия: это когда сервер планирует задачу, а локальная модель исполняет ее прямо на устройстве, например, управляя приложениями в смартфоне.
Step 3.5 Flash набрала 97,3 на тесте AIME 2025 (и это голый ризонинг, без сторонних калькуляторов). Если же дать ей доступ к Python, результат взлетает до 99,8.
На кодовых бенчмарках цифры тоже выглядят красиво: в SWE-bench она выдает 74,4%, а на Terminal-Bench 2.0 - 51.0%.
Конечно, по плотности упаковки знаний Step 3.5 Flash пока уступает Gemini 3.0 Pro, но сам факт, что она доступна для локального использования и тестов через API, радует.
@ai_machinelearning_big_data
#AI #ML #LLM #StepFunAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33👍21❤12😍4🦄2⚡1🤗1
🚀 Сбер представил Green-VLA — открытый SOTA-фреймворк для управления роботами
Сбер опубликовал технический отчёт Green-VLA по моделям Vision–Language–Action. Это методология для создания Physical AI, который превращает зрение и текст в физические действия. Работа заняла первое место среди статей дня на Hugging Face, обойдя исследования Moonshot AI и ведущих мировых университетов.
Главное о решении:
- Базируется на нейросети ГигаЧат и описывает путь от обучения до настройки робота в реальных условиях.
- Подтвердило эффективность на бенчмарках Google, Стэнфорда и Фрайбургского университета.
- Показало высокую стабильность — на AI Journey 2025 робот Грин под управлением Green-VLA отработал без сбоев более 10 часов.
- Является открытой методологией для создания надёжных и масштабируемых робототехнических систем.
@ai_machinelearning_big_data
#ai #ml #robotics #vla #sber
Сбер опубликовал технический отчёт Green-VLA по моделям Vision–Language–Action. Это методология для создания Physical AI, который превращает зрение и текст в физические действия. Работа заняла первое место среди статей дня на Hugging Face, обойдя исследования Moonshot AI и ведущих мировых университетов.
Главное о решении:
- Базируется на нейросети ГигаЧат и описывает путь от обучения до настройки робота в реальных условиях.
- Подтвердило эффективность на бенчмарках Google, Стэнфорда и Фрайбургского университета.
- Показало высокую стабильность — на AI Journey 2025 робот Грин под управлением Green-VLA отработал без сбоев более 10 часов.
- Является открытой методологией для создания надёжных и масштабируемых робототехнических систем.
@ai_machinelearning_big_data
#ai #ml #robotics #vla #sber
👍69🤣36❤14🔥10🦄3🤗2
Shanghai AI Laboratory опубликовала Intern-S1-Pro, мультимодальную модель на архитектуре MoE с общий объемом параметров в 1 триллион.
Внутри 512 экспертов, из которых для обработки каждого токена активируются 8, что дает 22 млрд. активных параметров при инференсе.
Разработчики позиционируют новинку как AI4Science - лучшее открытое решение для сложных научных вычислений и рассуждений.
Вместо очередной попытки уметь все и сразу, модель заточили под науку : химию, материаловедение, науки о Земле. Авторы утверждают, что в этих нишах она идет на равных с топовыми коммерческими моделями.
Технически интересная штука - поддержка длинных гетерогенных временных рядов (от единичных значений до миллиона точек), за которую большое спасибо Fourier Position Encoding (FoPE). Это важная тема для интерпретации физических сигналов и экспериментальных данных.
FoPE - способ прикрепить к каждому токену в последовательности его позицию не просто номером, а в виде набора синусов и косинусов разных частот (Фурье‑признаков), чтобы модель могла лучше улавливать периодические и дальние зависимости в тексте и обобщать на длины контекста, которые она не видела на обучении.
Intern-S1-Pro поддерживает Tool Calling через OpenAI-совместимый API. Плюс, в модели есть режим размышления, который включен по умолчанию, но если нужна скорость, а не глубина - он отключается.
Деплой поддерживается LMDeploy, vLLM и SGLang.
⚠️ Если планируете раскатать модель только из-за временных рядов, не спешите - оптимизация модуля все еще продолжается.
@ai_machinelearning_big_data
#AI #ML #LLM #InternS1Pro #ShanghaiAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍15❤9🦄3