Machinelearning

🌟

ACE-Step v1.5: обновление локального генератора музыки.

Ace Studio в коллабе со StepFun обновили генератор музыки ACE-Step до версии 1.5.

Порог входа уронили до минимума: младшая модель требует меньше 6 ГБ видеопамяти, а, в зависимости от настроек think mode, генерация может занять от 2 до 10 секунд - это уже уровень коммерческих решений.

Разработчики собрали гибрид из языковой модели, которая превращает промпт в чертеж композиции: расписывает структуру, придумывает лирику и метаданные и DiT, который отвечает за звук. Логическое ядро всей этой системы базируется на Qwen3.

ACE-Step v1.5 может генерировать треки длиной от 10 секунд до 10 минут, причем до 8 штук одновременно. В базе больше 1000 инструментов, а тексты песен система понимает на 50 языках.

Авторы подготовили целый набор моделей под разный объем VRAM:

🟢Меньше 6 ГБ: без LM-модуля, работает только звуковой движок.

🟢6–12 ГБ: облегченная версия LM (0.6B).

🟢16 ГБ и выше: полноценная модель на 4 млрд. параметров, которая лучше всего понимает контекст и выдает максимум качества.

При запуске, ACE-Step v1.5 автоматически выбирает подходящую под железо модель и параметры. Подробную информацию по конфигурациям можно найти тут.

ACE-Step умеет гораздо больше, чем просто превращать текст в мелодию. Можно дать ей пример аудио, чтобы скопировать стиль, делать каверы, исправлять куски уже готовых треков или генерировать аккомпанемент к вокалу.

Самая интересная функция - возможность создавать LoRA. Чтобы скормить модели свой стиль, достаточно всего 8 треков. На 30-й серии RTX с 12 ГБ памяти этот процесс займет около часа.

С деплоем все в порядке, разработчики подготовили портабельную сборку, а для ComfyUI уже написали все необходимые ноды и воркфлоу.

📌Лицензирование: MIT License.

🟡

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Text2Music #AceStudio #StepFun

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤43👍21⚡8🔥7😁1🦄1

20.4K views14:48

Machinelearning

🚀 Релиз Claude Opus 4.6

Anthropic прокачали флагманскую модель: Opus 4.6 теперь лучше планирует, дольше держит сложные агентские задачи, стабильнее работает с огромными кодовыми базами и умеет находить собственные ошибки.

Главный апдейт - это 1 миллион токенов контекста (в бете). Такой объём позволяет держать в памяти большие проекты, длинные документы и сложные цепочки рассуждений без потери связности.

По результатам тестов Opus 4.6 показывает state-of-the-art в задачах:

• агентское программирование
• междисциплинарное рассуждение
• knowledge work
• агентский поиск

Параллельно расширяются возможности Claude в Excel, PowerPoint, Claude Code и API - чтобы модель могла глубже встраиваться в рабочие процессы, аналитику и разработку.

www.anthropic.com/news/claude-opus-4-6

@ai_machinelearning_big_data

🔥79❤46👍17🤩4🦄1

21.1K viewsedited 17:50

Machinelearning

⚡️

Скоро новости будут выглядеть так:
— Сегодня вышло 3 SOTA-модели
— Пока вы читали этот твит, они уже устарели

OpenAI выпустили GPT-5.3-Codex

Модель лучше справляется со сложными задачами разработки и может долго вести большие проекты без потери контекста.

Это полноценный агент, который может планировать шаги, работать с инструментами и действовать в реальном рабочем окружении.

Работает быстрее предыдущей версии и при этом сильнее в рассуждениях.

Подходит не только для кода, но и для анализа, исследований, документации и продуктовых задач вокруг разработки.

OpenAI фактически использовали Codex,чтобы создавать сам Codex - модель участвовала в собственном цикле разработки.

https://openai.com/index/introducing-gpt-5-3-codex/

@ai_machinelearning_big_data

#openai #codex

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍80🔥38😁27😴11❤10💯4🦄3

21.3K views18:16

✔️

NVIDIA представила семейство мультимодальных моделей для визуального поиска.

Nemotron ColEmbed V2 - обновленная линейка эмбеддинг-моделей (3B, 4B и 8B) для сложных RAG-системы. Под капотом - механизм позднего взаимодействия по типу ColBERT, который дает прочную семантическую связь между текстовыми запросами и визуальным контентом (таблицами, диаграммами и инфографикой).

Серия V2 ставит в приоритет максимальную точность. Старшая модель на 8B уже заняла 1 место в бенчмарке ViDoRe V3, обойдя конкурентов в поиске по визуально сложным документам.. Новинки построены на Llama 3.2 и Qwen3-VL, используют двунаправленное внимание и доступны на Hugging Face.
huggingface.co

✔️

OpenAI анонсировала платформу для управления ИИ-агентами в корпорациях.

Frontier - корпоративный центр управления агентами, который позволяет создавать «цифровых коллег» для корпоративной среды. Платформа объединяет данные из CRM, хранилищ и внутренних приложений в единый семантический слой, доступный ИИ для принятия решений.

OpenAI не стали изобретать велосипед и заставлять компании переписывать весь IT-ландшафт. Все работает поверх существующих систем, причем можно будет задавать границы полномочий для каждого агента и дообучать их на реальных кейсах через механизмы фидбэка.

На старте доступ открыт ограниченному кругу клиентов, но в ближайшие месяцы обещают расширить программу.
openai.com

✔️

GitHub наконец-то пустил Claude и Codex к себе домой.

Теперь, если у вас есть подписка Copilot (Pro Plus или Enterprise), можно использовать эти модели в VS Code или веб-интерфейсе, не бегая по вкладкам браузера. Разработчикам доступен выбор нужного агента прямо внутри задачи или пулл-реквеста: один лучше пишет доки, а другой - рефакторит. GitHub пафосно называет это инициативой Agent HQ, но для нас это просто возможность меньше альт-табать и не терять мысль.

В ближайшем будущем GitHub планирует расширить список доступных моделей решениями от Google, Cognition и xAI.
github.blog

✔️

Perplexity запустила режим консилиума в ответах.

Perplexity выкатила фичу Model Council, которая отправляет поисковый запрос одновременно к 3 топовым моделям: Claude, GPT и Gemini, собирает полученные ответы в кучу и отправляет их дополнительной модели-синтезатору.

Она анализирует выводы каждой LLM, объединяет их в единый ответ и подсвечивает разногласия. Если модели генерят разные ответы, система укажет на это, помогая выявить галлюцинации или предвзятость алгоритмов.

Функция ориентирована на сложные задачи, требующие высокой точности и уже доступна на тарифе Max в веб-версии.
perplexity.ai

✔️

Amazon MGM Studios запускает подразделение AI Studio.

Инициатива под руководством Альберта Ченга будет решать проблему растущих бюджетов и ускорять выход контента. Закрытое бета-тестирование платформы начнется в марте 2026 года при участии отраслевых партнеров кино-гиганта. Amazon пытается побороть болячки генеративного видео: как заставить персонажа выглядеть одинаково в разных кадрах и как засунуть эти инструменты в привычный софт монтажеров без танцев с бубном.

К тестам уже привлекли Роберта Стромберга («Малефисента»), а Джон Эрвин уже обкатал технологию, сгенерировав массовку для батальных сцен во втором сезоне «Дома Давида». Студия, разумеется, выдала дежурную фразу о том, что ИИ - это просто помощник, а не замена живым актерам и сценаристам.
reuters.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍37❤13❤‍🔥8👻2🦄1

16.2K views06:10

Machinelearning

Тестируйте OpenClaw в облаке Cloud.ru

❤️

OpenClaw — персональный AI-ассистент для решения задач DevOps-команд, системных администраторов и технических специалистов. В отличие от обычных чат-ботов, он может самостоятельно запускать команды, работать с файлами и отправлять отчеты в мессенджеры.

Почему стоит попробовать

➡️

Бесплатно: разверните решение через Маркетплейс на бесплатной виртуальной машине Evolution free tier.

➡️

Быстро: вся необходимая инфраструктура создается автоматически. Образы готовы к работе в несколько кликов.

➡️

Безопасно: можно безопасно развернуть OpenClaw в изолированной среде на отдельной ВМ, настроить необходимое окружение для экспериментов, не используя локальный ПК.

Запустить OpenClaw

🖱

Please open Telegram to view this post

VIEW IN TELEGRAM

👍33🤬16❤12🔥8🤣2👏1

16.4K viewsedited 09:38

Machinelearning

⚡️

Step 3.5 Flash: модель с гибридной архитектурой внимания и скоростью до 350 т/сек.

StepFun выпустили Step 3.5 Flash - очень интересную MoE-модель на 196 млрд. общих и 11 активных параметров.

Авторы заявляют сумасшедшую скорость до 300 токенов в секунду, а на задачах с кодом она, якобы, разгоняется до 350. Для модели такого уровня это очень бодро.

🟡

Внутри накрутили много всего.

Вместо стандартного механизма внимания использовали гибридную схему: один слой полного внимания на 3 слоя скользящего окна, что позволило запихнуть в модель контекст на 256 тыс. токенов и при этом не забивать память до отказа.

В обучении использовали алгоритм MIS-PO, который помог решить проблему с потерей нити в длинных CoT, н просто отсекает варианты, которые слишком сильно уходят в сторону от логики.

Модель, как стало модно сейчас, затачивали под автономных агентов. Она умеет пользоваться десятком инструментов одновременно. В режиме Deep Research модель сама гуглит, планирует этапы и пишет отчеты размером до 10 тысяч слов.

Если нужно прогнать через модель тяжелый репозиторий с кодом, она справляется без тормозов, которые обычно возникают при работе с объемными текстами.

Завезли даже сценарии гибридного взаимодействия: это когда сервер планирует задачу, а локальная модель исполняет ее прямо на устройстве, например, управляя приложениями в смартфоне.

🟡

Бенчмарки

Step 3.5 Flash набрала 97,3 на тесте AIME 2025 (и это голый ризонинг, без сторонних калькуляторов). Если же дать ей доступ к Python, результат взлетает до 99,8.

На кодовых бенчмарках цифры тоже выглядят красиво: в SWE-bench она выдает 74,4%, а на Terminal-Bench 2.0 - 51.0%.

Конечно, по плотности упаковки знаний Step 3.5 Flash пока уступает Gemini 3.0 Pro, но сам факт, что она доступна для локального использования и тестов через API, радует.

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #StepFunAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥33👍21❤12😍4🦄2⚡1🤗1

16K views10:45

Machinelearning

🚀 Сбер представил Green-VLA — открытый SOTA-фреймворк для управления роботами

Сбер опубликовал технический отчёт Green-VLA по моделям Vision–Language–Action. Это методология для создания Physical AI, который превращает зрение и текст в физические действия. Работа заняла первое место среди статей дня на Hugging Face, обойдя исследования Moonshot AI и ведущих мировых университетов.

Главное о решении:

- Базируется на нейросети ГигаЧат и описывает путь от обучения до настройки робота в реальных условиях.
- Подтвердило эффективность на бенчмарках Google, Стэнфорда и Фрайбургского университета.
- Показало высокую стабильность — на AI Journey 2025 робот Грин под управлением Green-VLA отработал без сбоев более 10 часов.
- Является открытой методологией для создания надёжных и масштабируемых робототехнических систем.

@ai_machinelearning_big_data

#ai #ml #robotics #vla #sber

👍69🤣36❤14🔥10🦄3🤗2

14K views13:21

Machinelearning

🌟

Intern-S1-Pro: триллионная MoE для научных задач.

Shanghai AI Laboratory опубликовала Intern-S1-Pro, мультимодальную модель на архитектуре MoE с общий объемом параметров в 1 триллион.

Внутри 512 экспертов, из которых для обработки каждого токена активируются 8, что дает 22 млрд. активных параметров при инференсе.

Разработчики позиционируют новинку как AI4Science - лучшее открытое решение для сложных научных вычислений и рассуждений.

Вместо очередной попытки уметь все и сразу, модель заточили под науку : химию, материаловедение, науки о Земле. Авторы утверждают, что в этих нишах она идет на равных с топовыми коммерческими моделями.

Технически интересная штука - поддержка длинных гетерогенных временных рядов (от единичных значений до миллиона точек), за которую большое спасибо Fourier Position Encoding (FoPE). Это важная тема для интерпретации физических сигналов и экспериментальных данных.

FoPE - способ прикрепить к каждому токену в последовательности его позицию не просто номером, а в виде набора синусов и косинусов разных частот (Фурье‑признаков), чтобы модель могла лучше улавливать периодические и дальние зависимости в тексте и обобщать на длины контекста, которые она не видела на обучении.

Intern-S1-Pro поддерживает Tool Calling через OpenAI-совместимый API. Плюс, в модели есть режим размышления, который включен по умолчанию, но если нужна скорость, а не глубина - он отключается.

Деплой поддерживается LMDeploy, vLLM и SGLang.

⚠️ Если планируете раскатать модель только из-за временных рядов, не спешите - оптимизация модуля все еще продолжается.

📌Лицензирование: Apache 2.0 License.

🟡

Модель

🟡

Demo

🟡

Сообщество в Discord

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #InternS1Pro #ShanghaiAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM