Машинное обучение digest

🚀 Tencent мощно заходит в тему context learning.

Вышел open-source бенчмарк CL-bench - и это не просто очередной датасет, а попытка сдвинуть фокус всей индустрии.

Tencent HY совместно с Fudan University выпустили новую работу:
“CL-bench: A Benchmark for Context Learning” - системный бенчмарк для оценки того, *насколько модели реально умеют думать в контексте*, а не просто вспоминать выученное.

Это первый ресерч-релиз команды Vinces Yao после его перехода в Tencent - и по амбициям видно, что ребята метят в фундаментальные изменения.

Сегодня большинство LLM живут по схеме:
огромные веса + запомненные паттерны = ответы

Но реальный мир - это не экзамен по памяти. Это:

- длинные, запутанные контексты
- противоречивая информация
- необходимость менять стратегию по ходу
- выводы на основе того, что появилось только что

Моделям нужно переходить от static memorization к dynamic reasoning inside context.

CL-bench как раз проверяет это место разлома:

- как модель использует контекст, а не только веса
- умеет ли она обновлять понимание
- способна ли рассуждать в сложных сценариях, а не на чистых QA-задачах

По сути - это шаг в сторону моделей, которые ближе к агентам, чем к “умным автокомплитам”.

Плюс стратегический сигнал

Одновременно Tencent запускает Tencent HY Research - блог, где будут публиковать frontier-исследования.

Это выглядит как заявка:
“Мы не просто треним большие модели. Мы хотим влиять на то, как их вообще оценивают.”

А это уже уровень влияния на направление всей области.
CL-bench - это не про +0.5% на лидерборде.
Это про смену парадигмы:

LLM будущего = меньше зубрежки, больше мышления в живом контексте.

И если эта линия выстрелит - именно такие бенчмарки будут решать, кто реально сделал “умную” модель, а кто просто раздул параметры.

🌐 Project Page: http://clbench.com
📖 Blog: https://hy.tencent.com/research

12 views11:16

🔥 Xcode получила мощный апдейт - Apple добавила в IDE настоящее agentic-программирование.

Теперь это уже не просто «ИИ-подсказки», а почти автономный напарник внутри среды разработки.

Что это значит для вайбкодинга:

• Xcode 26.3 теперь глубоко интегрирована с агентными SDK от Anthropic (Claude) и OpenAI (Codex).
Если раньше ИИ работал по принципу «запрос → ответ», то теперь он может самостоятельно выполнять длинные цепочки задач прямо внутри IDE.

• ИИ дали «глаза и уши» проекта:
доступ к документации, структуре файлов, настройкам проекта и — самое сочное — к Previews.
То есть модель не просто пишет UI-код, а видит результат и сама его дорабатывает, как настоящий разработчик.

• Появилась поддержка Model Context Protocol (MCP) - можно подключать сторонних ИИ-агентов и расширять систему под свои пайплайны.

Короче, Xcode превращается из редактора кода в операционную систему для ИИ-разработчиков.

Похоже, у Apple ещё очень даже есть чем стрелять 😏

https://www.apple.com/newsroom/2026/02/xcode-26-point-3-unlocks-the-power-of-agentic-coding/

7 views07:42

Машинное обучение digest

🚀 Вышла новая модель для кодинга - Qwen3-Coder-Next (линейка Qwen).

Это open-weight LM, заточенная под кодинг-агентов и локальную разработку.

Что внутри:

🤖 Около 800K проверяемых задач + окружения, где код можно реально исполнять, а не просто генерировать текст.

📈 Баланс эффективность / качество
Модель с 80B общих параметров и ~3B активных показывает сильные результаты на SWE-Bench Pro при относительно экономичном инференсе.

✨ Экосистема инструментов
Заявлена поддержка сценариев с агентами и дев-инструментами: OpenClaw, Qwen Code, Claude Code, веб-разработка, работа через браузер, Cline и т.д.

В целом это ещё один шаг к моделям, которые проектируются не просто как "LLM для текста", а как движок для реальных кодинг-агентов.

🤗 Hugging Face: https://huggingface.co/collections/Qwen/qwen3-coder-next
🤖 ModelScope: https://modelscope.cn/collections/Qwen/Qwen3-Coder-Next
📝 Blog: https://qwen.ai/blog?id=qwen3-coder-next
📄 Tech report: https://github.com/QwenLM/Qwen3-Coder/blob/main/qwen3_coder_next_tech_report.pdf

@data_analysis_ml

10 views07:45

Машинное обучение digest

⚡️ Появился любопытный open-source проект на стыке LLM и кибербезопасности - PentestAgent.

Это система AI-агентов для black-box пентеста, где атака моделируется как оркестрация нескольких специализированных агентов, а не один «умный бот».

Что он делает

В автономном режиме система может прогонять целые пайплайны, имитируя работу red team:

- цепочки разведки (recon)
- анализ уязвимостей
- попытки эксплуатации
- формирование отчётов

Инструменты подключены напрямую

Агенты умеют работать с классическими пентест-утилитами:

- Nmap
- Metasploit
- FFUF
- SQLMap

То есть это не «LLM рассуждает в вакууме», а связка LLM + реальные security-инструменты.

Архитектурные фишки

- RAG для подтягивания контекстных знаний
- tool chaining — агенты передают результаты друг другу
- встроенный браузер и поиск
- dockerized окружение с инструментами
- всё это оркестрируется «командами» LLM-агентов

По сути, это попытка превратить пентест из набора ручных шагов в агентную систему с автоматическим циклом разведка → анализ → действие → отчёт.

github.com/GH05TCREW/pentestagent

Please open Telegram to view this post

VIEW IN TELEGRAM

7 views08:14

Машинное обучение digest

2:40

Media is too big

VIEW IN TELEGRAM

🚀 Вышла интересная open-source модель - MiniCPM-o 4.5

MiniCPM-o 4.5 позиционируется как full-duplex omni-modal LLM.
Проще говоря, модель может:

- одновременно видеть (видео/изображение)
- слушать (аудио)
- говорить

и делать это в реальном времени, без режима "подожди, я сначала дослушаю". Больше похоже на живой диалог, чем на поочередные запросы.

Не только отвечает, но и проявляет инициативу

Заявлена поддержка проактивного поведения - модель может не просто реагировать на вопросы, а, например, сама инициировать напоминания или действия в рамках диалога.

По метрикам

С 9B параметрами модель показывает 77.6 на OpenCompass и, по авторам, обходит GPT-4o и Gemini 2.0 Pro в ряде vision-language задач. Для такого размера это сильный результат.

Практический момент

Главный плюс - это open-source, и всё можно крутить локально на ПК, а не только через облачные API.

Модель: MiniCPM-o 4.5
Страница: Hugging Face (openbmb / MiniCPM-o-4_5)

11 views08:29

Машинное обучение digest

🚀 Новое исследование Anthropic

ИИ ускоряет работу, но может замедлять рост навыков, если на него слишком сильно опираться во время обучения.

Как проводили эксперимент

Сделали рандомизированное исследование:

- 52 разработчика
- никто не знал Python-библиотеку Trio
- всем дали небольшую задачу
- половине разрешили пользоваться AI-помощником
- половине — нет

После выполнения задания всех протестировали без ИИ, чтобы проверить реальные знания.

Результат

Группа с ИИ показала результаты на ~17% хуже:

- без ИИ: ~67%
- с ИИ: ~50%

Самая сильная просадка — в дебагинге, то есть поиске и исправлении ошибок.

Почему так происходит

Похоже на калькулятор при изучении математики:

- ответы есть
- навык «разруливать самому» развивается хуже

Группа без ИИ чаще ошибалась и вынуждена была разбираться — и именно эта борьба, похоже, и дала лучший результат на тесте.

Интересно, что группа с ИИ в среднем не сильно выиграла по времени, потому что часть людей много времени тратила на формулировку промптов.

Но есть нюанс

Исследователи заметили разницу в стиле использования:

- кто использовал ИИ как «костыль» — учился хуже всего
- кто использовал ИИ как «репетитора» («почему это работает?», «объясни шаги») — терял меньше в обучении

Главная мысль

ИИ может помочь закрыть задачу сегодня,
но сделать слабее в самостоятельном решении проблем завтра.

А реальная разработка — это в основном:

- чтение чужого кода
- поиск багов
- понимание сложной логики

Если это постоянно делает ИИ, навык растёт медленнее.

Более безопасный подход

Использовать ИИ для:

- объяснений
- подсказок
- направления мысли

Но ключевые части писать и дебажить самому.

https://www.anthropic.com/research/AI-assistance-coding-skills

11 views08:32

Машинное обучение digest

🚨 Теперь можно запускать 70B LLM на видеокарте с 4GB VRAM

AirLLM буквально выбивает почву из аргумента “для больших моделей нужно дорогое железо”.

Фреймворк позволяет запускать модели размером до 70B параметров даже на GPU с 4GB видеопамяти.

Как это возможно?

Вместо загрузки всей модели в память сразу, AirLLM:

- подгружает модель по слоям
- выполняет вычисления
- освобождает память
- переходит к следующему слою

Фактически, это потоковая обработка модели.

Более того, авторы показывают запуск Llama 3.1 405B на 8GB VRAM.

Что это даёт разработчикам:

- не требуется квантование по умолчанию
- можно запускать Llama, Qwen, Mistral, Mixtral локально
- работает на Linux, Windows и macOS
- не нужен сервер с огромным GPU

Это сдвигает барьер входа для локального LLM-разработки и экспериментов.

AirLLM полностью open source - можно использовать, изучать и встраивать в свои пайплайны.

https://github.com/0xSojalSec/airllm

18 views08:46

Машинное обучение digest

🖥

Полезный совет, если Docker «жрёт» всю оперативку и ты не понимаешь, куда она делась.

На macOS и Windows Docker Desktop работает через виртуалку. Контейнеры живут внутри этой VM, и если лимиты не настроены, Docker может разогнаться и занять гигабайты RAM, даже если ты думаешь, что запустил «всего пару сервисов».

Что стоит сделать сразу:

1. Ограничь ресурсы Docker
Зайди в настройки Docker Desktop → Resources и поставь явный лимит по RAM и CPU. Иначе VM будет забирать память «про запас».

2. Следи за контейнерами, а не только за хостом
Проверь, что реально ест память:

docker stats

Очень часто виноват не Docker как таковой, а один контейнер с утечкой памяти.

3. Не держи всё запущенным постоянно
Dev-окружения любят накапливаться:

docker ps -a  
docker stop <container>  
docker rm <container>

4. Чисти мусор
Образы, volume и старые контейнеры тоже занимают ресурсы:

docker system prune -a

5. Если база в контейнере - будь особенно осторожен
Postgres, Elasticsearch, Kafka внутри Docker легко съедают гигабайты RAM при дефолтных настройках.

Главная мысль - Docker «жрёт RAM» не потому что он плохой, а потому что это полноценная виртуальная среда. Без лимитов она будет вести себя как отдельный компьютер внутри твоего компьютера.

Please open Telegram to view this post

VIEW IN TELEGRAM

12 views08:55

Машинное обучение digest

Главные новости ИИ и Машинного обучения

✔️

В Xcode завезли нативную поддержку Claude Agent SDK.

Apple выпустила Xcode 26.3, и главное в нем - глубокая интеграция с Claude Agent SDK. Возможности Claude Code перенесли в среду разработки: агент сам управляет задачами, запускает субагентов и поддерживает плагины.

Агент теперь видит не один открытый файл, а архитектуру всего проекта целиком и понимает, как связаны между собой SwiftUI, UIKit и Swift Data, сам составляет план действий и вносит правки. Claude научили пользоваться Xcode Previews и обращаться к документации Apple, если нужно разобраться в специфике API. Из полезных мелочей: добавили поддержку MCP, так что возможности Xcode теперь можно встроить в рабочий процесс через CLI.

Xcode 26.3 уже доступен в release candidate для участников программы Apple Developer.
anthropic.com

✔️

OpenAI ищет альтернативы чипам Nvidia.

OpenAI начала закупать железо у других поставщиков. Руководство компании не устраивает, как чипы Nvidia справляются с инференсом. Главная претензия - медлительность. GPU устроены так, что им постоянно приходится обращаться к внешней памяти. Для быстрого инференса этого уже мало — нужны чипы, где память находятся прямо внутри кристалла (SRAM).

Чтобы решить этот вопрос, OpenAI пытается договориться с Cerebras и присматривается к решениям от Groq, хотя с последним переговоры сорвались. В планах - перевести на альтернативное железо около 10% всех своих мощностей.

Самое интересное происходит на фоне затянувшихся переговоров с самой Nvidia. Сэм Альтман и Дженсен Хуанг на публике могут сколько угодно говорить о тесном партнерстве, но сделка на 100 млрд. буксует уже несколько месяцев.
reuters.com

✔️

SpaceX купила xAI.

Илон Маск решил собрать свои главные активы в один гигантский конструктор. SpaceX официально забирает под свое крыло xAI вместе с соцсетью X. По данным СМИ, сумма сделки составила $250 млрд. долларов, что увеличивает капитализацию всей структуры до $1,25 трлн и теперь SpaceX официально обходит OpenAI, становясь самым дорогим частным стартапом в мире.

Стратегия слияния - в создании монстра, где все работает в одной связке. В планах совсем уж футуристичные идеи: запустить дата-центры на орбиту, чтобы там ИИ обучался в космосе, питаясь чистой солнечной энергией без посредников.

В итоге получается гремучая смесь: данные пользователей из X, мозги от xAI и логистика со спутниками Starlink от SpaceX. И вся эта махина готовится к выходу на IPO.
spacex.com

✔️

Microsoft открывает рынок контента для обучения ИИ-агентов.

Microsoft запустила платформу Publisher Content Marketplace, где владельцы сайтов и СМИ могут напрямую продавать свои статьи ИИ-разработчикам. Теперь авторы могут сами выставлять ценник за использование своих материалов.

В проекте уже участвуют Associated Press, Condé Nast и Vox Media, а со стороны покупателей первым пришел Yahoo.Это первый масштабный маркетплейс - раньше каждой крупной компании приходилось договариваться с разработчиками ИИ по отдельности.
microsoft.com

✔️

В MIT научили процессоры считать на собственном тепловыделении.

Инженеры из MIT разработали кремниевые микро-структуры, которые превращают тепловые потери в ресурс для обработки данных. В основе лежит метод аналоговых вычислений: входная информация кодируется в виде температурных значений, а математическая операция выполняется в процессе диффузии тепла через специальный пористый материал.

Такая "тепловая математика" работает очень точно. Ученым удалось провести умножение матриц на векторы с точностью выше 99%. Чтобы добиться такого результата, форму и расположение пор в кремнии рассчитывали с помощью специальных алгоритмов.

Конечно, заменить видеокарты Nvidia для обучения ChatGPT эти чипы пока не смогут — есть вопросы к скорости передачи данных. Но у технологии есть крутое применение уже сейчас: датчики контроля оборудования.
mit.edu

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

11 views09:02

Машинное обучение digest

🌟

Qwen3-Coder-Next: агентная MoE-модель в линейке Qwen3-Coder.

Qwen3-Coder-Next — открытая MoE-модель на 80 млрд. общих и 3 млрд. активных параметров с контекстным окном в 256К токенов для агентных задач.

Модель учили через agentic training на 800 тыс. задачах, созданных из GitHub PR в реальных Docker-контейнерах, где она получала прямой фидбек от среды.

Это развило навыки планирования в ризонинге, использования инструментов и умение восстанавливаться после ошибок выполнения.

На претрейне расширили поддержку языков с 92 до 370, затем SFT на траекториях агентов, а потом - специализация экспертов (WebDev, QA, UX) с последующей дистилляцией в единую модель.

В конце, через RL подтянули в задачах кодинга и математики, используя юнит-тесты как сигнал вознаграждения.

Основной массив данных (те самые Docker-контейнеры) это по большей мере Python (202 тыс. инстансов) и JS/TS (175 тыс. инстансов). Для редких языков модель может чаще галлюцинировать, так как данных для RL и проверок через юнит-тесты там физически меньше.

🟡

Бенчмарки

🟢70% на SWE-Bench Verified (используя SWE-Agent)
🟢44.3% на SWE-Bench Pro (почти как у топов)
🟢62.8% на SWE-Bench Multilingual (фикс багов на уровне репозитория на разных языках)

Модель все-таки ощутимо отстает от Claude 4.5 Opus на сверхсложных архитектурных задачах с большими кодовыми базами.

Иногда ей требуется слишком много итераций, чтобы нащупать верное решение и это вопросы к эффективности планирования.

Фронтенд и UI - слабое место (авторы признают), а в киберсек-задачах (поиск уязвимостей и TAA) модель пока не дотягивает до человеческого уровня.

Единственное, что спасает Qwen3-Coder-Next от забвения - это компактность и поддержка fill-in-the-middle для адекватного автодополнения кода в IDE.

Qwen обещают улучшать ризонинг, принятие решении и поддержку дополнительных задач на основе фидбэка пользователей.

📌Лицензирование: Apache 2.0 License.

🟡

Статья

🟡

Модель

🟡

Техотчет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #QwenCoderNext #Qwen

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

15 views11:08

Машинное обучение digest

1:54

Media is too big

VIEW IN TELEGRAM

🚀 Вышла Kling 3.0 - “Everyone a Director”. Новый этап в ИИ-креативе.

Это универсальный движок для мультимодального создания контента - видео, изображений и аудио в одной системе.

Что появилось в версии 3.0:

- Высокая консистентность
Модель умеет “держать” персонажей, объекты и стиль неизменными от кадра к кадру. Лицо героя, одежда, детали сцены и визуальный стиль не “плывут” между шотами, что особенно важно для историй, сериалов, рекламы и сцен с несколькими ракурсами.

• Можно создавать 15-секундные клипы с точным контролем, реалистичной картинкой и настройкой multi-shot сцен.

- Обновлённый звук
Поддержка референсов для нескольких персонажей, добавлено больше языков и акцентов.

- Улучшенная генерация изображений
Вывод в 4K, режим серий изображений и более кинематографичная визуальная подача.

Подписчики Ultra получают эксклюзивный ранний доступ - модель уже доступна в веб-версии Kling AI.

https://app.klingai.com/global/release-notes/whbvu8hsip?type=dialog

17 views16:52

Машинное обучение digest

🧠 Google придумали способ сделать AI-модели быстрее и легче без потери точности

В новом исследовании Google представили подход под названием Sequential Attention.

Идея простая по смыслу, но мощная по эффекту - модель учится фокусироваться только на действительно важных частях вычислений, а всё лишнее постепенно отбрасывает.

Почему это вообще проблема

Современные нейросети огромные. Они:
- считают слишком много
- используют кучу признаков и параметров
- тратят много памяти и энергии

При этом далеко не всё, что модель обрабатывает, реально влияет на итоговый ответ.

Но определить заранее, что важно, а что нет - математически очень сложно.

Что делает Sequential Attention. Метод работает пошагово.

Вместо того чтобы сразу использовать всё, алгоритм:
1. Выбирает один самый полезный компонент
2. Смотрит, что уже выбрано
3. Добавляет следующий, который даёт наибольшую пользу
4. Повторяет процесс последовательно

То есть модель как будто собирает себя заново-— из самых значимых частей, а не из всего подряд.

Что это даёт на практике

- Меньше вычислений - модель работает быстрее
- Меньше нагрузка на память и железо
- Ниже энергопотребление
- И самое главное - точность почти не страдает

Это редкий случай, когда становится и быстрее, и дешевле, без серьёзных компромиссов по качеству.

Размеры моделей растут быстрее, чем инфраструктура. Поэтому ключевой тренд - не просто делать модели больше, а делать их умнее в плане вычислений.

Sequential Attention - это шаг в сторону “бережливого ИИ”, где:
- не каждая операция обязательна
- не каждый параметр нужен всегда
- модель учится экономить ресурсы сама

И чем крупнее системы, тем ценнее такие подходы.

https://research.google/blog/sequential-attention-making-ai-models-leaner-and-faster-without-sacrificing-accuracy/

@data_analysis_ml

18 views07:15

Машинное обучение digest

🌟

ACE-Step v1.5: обновление локального генератора музыки.

Ace Studio в коллабе со StepFun обновили генератор музыки ACE-Step до версии 1.5.

Порог входа уронили до минимума: младшая модель требует меньше 6 ГБ видеопамяти, а, в зависимости от настроек think mode, генерация может занять от 2 до 10 секунд - это уже уровень коммерческих решений.

Разработчики собрали гибрид из языковой модели, которая превращает промпт в чертеж композиции: расписывает структуру, придумывает лирику и метаданные и DiT, который отвечает за звук. Логическое ядро всей этой системы базируется на Qwen3.

ACE-Step v1.5 может генерировать треки длиной от 10 секунд до 10 минут, причем до 8 штук одновременно. В базе больше 1000 инструментов, а тексты песен система понимает на 50 языках.

Авторы подготовили целый набор моделей под разный объем VRAM:

🟢Меньше 6 ГБ: без LM-модуля, работает только звуковой движок.

🟢6–12 ГБ: облегченная версия LM (0.6B).

🟢16 ГБ и выше: полноценная модель на 4 млрд. параметров, которая лучше всего понимает контекст и выдает максимум качества.

При запуске, ACE-Step v1.5 автоматически выбирает подходящую под железо модель и параметры. Подробную информацию по конфигурациям можно найти тут.

ACE-Step умеет гораздо больше, чем просто превращать текст в мелодию. Можно дать ей пример аудио, чтобы скопировать стиль, делать каверы, исправлять куски уже готовых треков или генерировать аккомпанемент к вокалу.

Самая интересная функция - возможность создавать LoRA. Чтобы скормить модели свой стиль, достаточно всего 8 треков. На 30-й серии RTX с 12 ГБ памяти этот процесс займет около часа.

С деплоем все в порядке, разработчики подготовили портабельную сборку, а для ComfyUI уже написали все необходимые ноды и воркфлоу.

📌Лицензирование: MIT License.

🟡

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Text2Music #AceStudio #StepFun