Машинное обучение digest
60 subscribers
1.7K photos
225 videos
939 links
Download Telegram
🚀 Tencent мощно заходит в тему context learning.

Вышел open-source бенчмарк CL-bench - и это не просто очередной датасет, а попытка сдвинуть фокус всей индустрии.

Tencent HY совместно с Fudan University выпустили новую работу:
“CL-bench: A Benchmark for Context Learning” - системный бенчмарк для оценки того, *насколько модели реально умеют думать в контексте*, а не просто вспоминать выученное.

Это первый ресерч-релиз команды Vinces Yao после его перехода в Tencent - и по амбициям видно, что ребята метят в фундаментальные изменения.

Сегодня большинство LLM живут по схеме:
огромные веса + запомненные паттерны = ответы

Но реальный мир - это не экзамен по памяти. Это:

- длинные, запутанные контексты
- противоречивая информация
- необходимость менять стратегию по ходу
- выводы на основе того, что появилось только что

Моделям нужно переходить от static memorization к dynamic reasoning inside context.

CL-bench как раз проверяет это место разлома:

- как модель использует контекст, а не только веса
- умеет ли она обновлять понимание
- способна ли рассуждать в сложных сценариях, а не на чистых QA-задачах

По сути - это шаг в сторону моделей, которые ближе к агентам, чем к “умным автокомплитам”.

Плюс стратегический сигнал

Одновременно Tencent запускает Tencent HY Research - блог, где будут публиковать frontier-исследования.

Это выглядит как заявка:
“Мы не просто треним большие модели. Мы хотим влиять на то, как их вообще оценивают.”

А это уже уровень влияния на направление всей области.
CL-bench - это не про +0.5% на лидерборде.
Это про смену парадигмы:

LLM будущего = меньше зубрежки, больше мышления в живом контексте.

И если эта линия выстрелит - именно такие бенчмарки будут решать, кто реально сделал “умную” модель, а кто просто раздул параметры.

🌐 Project Page: http://clbench.com
📖 Blog: https://hy.tencent.com/research
🔥 Xcode получила мощный апдейт - Apple добавила в IDE настоящее agentic-программирование.

Теперь это уже не просто «ИИ-подсказки», а почти автономный напарник внутри среды разработки.

Что это значит для вайбкодинга:

• Xcode 26.3 теперь глубоко интегрирована с агентными SDK от Anthropic (Claude) и OpenAI (Codex).
Если раньше ИИ работал по принципу «запрос → ответ», то теперь он может самостоятельно выполнять длинные цепочки задач прямо внутри IDE.

• ИИ дали «глаза и уши» проекта:
доступ к документации, структуре файлов, настройкам проекта и — самое сочное — к Previews.
То есть модель не просто пишет UI-код, а видит результат и сама его дорабатывает, как настоящий разработчик.

• Появилась поддержка Model Context Protocol (MCP) - можно подключать сторонних ИИ-агентов и расширять систему под свои пайплайны.

Короче, Xcode превращается из редактора кода в операционную систему для ИИ-разработчиков.

Похоже, у Apple ещё очень даже есть чем стрелять 😏

https://www.apple.com/newsroom/2026/02/xcode-26-point-3-unlocks-the-power-of-agentic-coding/
🚀 Вышла новая модель для кодинга - Qwen3-Coder-Next (линейка Qwen).

Это open-weight LM, заточенная под кодинг-агентов и локальную разработку.

Что внутри
:

🤖 Около 800K проверяемых задач + окружения, где код можно реально исполнять, а не просто генерировать текст.

📈 Баланс эффективность / качество
Модель с 80B общих параметров и ~3B активных показывает сильные результаты на SWE-Bench Pro при относительно экономичном инференсе.

Экосистема инструментов
Заявлена поддержка сценариев с агентами и дев-инструментами: OpenClaw, Qwen Code, Claude Code, веб-разработка, работа через браузер, Cline и т.д.

В целом это ещё один шаг к моделям, которые проектируются не просто как "LLM для текста", а как движок для реальных кодинг-агентов.

🤗 Hugging Face: https://huggingface.co/collections/Qwen/qwen3-coder-next
🤖 ModelScope: https://modelscope.cn/collections/Qwen/Qwen3-Coder-Next
📝 Blog: https://qwen.ai/blog?id=qwen3-coder-next
📄 Tech report: https://github.com/QwenLM/Qwen3-Coder/blob/main/qwen3_coder_next_tech_report.pdf

@data_analysis_ml
⚡️ Появился любопытный open-source проект на стыке LLM и кибербезопасности - PentestAgent.

Это система AI-агентов для black-box пентеста, где атака моделируется как оркестрация нескольких специализированных агентов, а не один «умный бот».

Что он делает

В автономном режиме система может прогонять целые пайплайны, имитируя работу red team:

- цепочки разведки (recon)
- анализ уязвимостей
- попытки эксплуатации
- формирование отчётов

Инструменты подключены напрямую

Агенты умеют работать с классическими пентест-утилитами:

- Nmap
- Metasploit
- FFUF
- SQLMap

То есть это не «LLM рассуждает в вакууме», а связка LLM + реальные security-инструменты.

Архитектурные фишки

- RAG для подтягивания контекстных знаний
- tool chaining — агенты передают результаты друг другу
- встроенный браузер и поиск
- dockerized окружение с инструментами
- всё это оркестрируется «командами» LLM-агентов

По сути, это попытка превратить пентест из набора ручных шагов в агентную систему с автоматическим циклом разведка → анализ → действие → отчёт.

github.com/GH05TCREW/pentestagent
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🚀 Вышла интересная open-source модель - MiniCPM-o 4.5

MiniCPM-o 4.5 позиционируется как full-duplex omni-modal LLM.
Проще говоря, модель может:

- одновременно видеть (видео/изображение)
- слушать (аудио)
- говорить

и делать это в реальном времени, без режима "подожди, я сначала дослушаю". Больше похоже на живой диалог, чем на поочередные запросы.

Не только отвечает, но и проявляет инициативу

Заявлена поддержка проактивного поведения - модель может не просто реагировать на вопросы, а, например, сама инициировать напоминания или действия в рамках диалога.

По метрикам

С 9B параметрами модель показывает 77.6 на OpenCompass и, по авторам, обходит GPT-4o и Gemini 2.0 Pro в ряде vision-language задач. Для такого размера это сильный результат.

Практический момент

Главный плюс - это open-source, и всё можно крутить локально на ПК, а не только через облачные API.

Модель: MiniCPM-o 4.5
Страница: Hugging Face (openbmb / MiniCPM-o-4_5)
🚀 Новое исследование Anthropic

ИИ ускоряет работу, но может замедлять рост навыков, если на него слишком сильно опираться во время обучения.

Как проводили эксперимент

Сделали рандомизированное исследование:

- 52 разработчика
- никто не знал Python-библиотеку Trio
- всем дали небольшую задачу
- половине разрешили пользоваться AI-помощником
- половине — нет

После выполнения задания всех протестировали без ИИ, чтобы проверить реальные знания.

Результат

Группа с ИИ показала результаты на ~17% хуже:

- без ИИ: ~67%
- с ИИ: ~50%

Самая сильная просадка — в дебагинге, то есть поиске и исправлении ошибок.

Почему так происходит

Похоже на калькулятор при изучении математики:

- ответы есть
- навык «разруливать самому» развивается хуже

Группа без ИИ чаще ошибалась и вынуждена была разбираться — и именно эта борьба, похоже, и дала лучший результат на тесте.

Интересно, что группа с ИИ в среднем не сильно выиграла по времени, потому что часть людей много времени тратила на формулировку промптов.

Но есть нюанс

Исследователи заметили разницу в стиле использования:

- кто использовал ИИ как «костыль» — учился хуже всего
- кто использовал ИИ как «репетитора» («почему это работает?», «объясни шаги») — терял меньше в обучении

Главная мысль

ИИ может помочь закрыть задачу сегодня,
но сделать слабее в самостоятельном решении проблем завтра.

А реальная разработка — это в основном:

- чтение чужого кода
- поиск багов
- понимание сложной логики

Если это постоянно делает ИИ, навык растёт медленнее.

Более безопасный подход

Использовать ИИ для:

- объяснений
- подсказок
- направления мысли

Но ключевые части писать и дебажить самому.

https://www.anthropic.com/research/AI-assistance-coding-skills
🚨 Теперь можно запускать 70B LLM на видеокарте с 4GB VRAM

AirLLM буквально выбивает почву из аргумента “для больших моделей нужно дорогое железо”.

Фреймворк позволяет запускать модели размером до 70B параметров даже на GPU с 4GB видеопамяти.

Как это возможно?

Вместо загрузки всей модели в память сразу, AirLLM:

- подгружает модель по слоям
- выполняет вычисления
- освобождает память
- переходит к следующему слою

Фактически, это потоковая обработка модели.

Более того, авторы показывают запуск Llama 3.1 405B на 8GB VRAM.

Что это даёт разработчикам:

- не требуется квантование по умолчанию
- можно запускать Llama, Qwen, Mistral, Mixtral локально
- работает на Linux, Windows и macOS
- не нужен сервер с огромным GPU

Это сдвигает барьер входа для локального LLM-разработки и экспериментов.

AirLLM полностью open source - можно использовать, изучать и встраивать в свои пайплайны.

https://github.com/0xSojalSec/airllm
🖥 Полезный совет, если Docker «жрёт» всю оперативку и ты не понимаешь, куда она делась.

На macOS и Windows Docker Desktop работает через виртуалку. Контейнеры живут внутри этой VM, и если лимиты не настроены, Docker может разогнаться и занять гигабайты RAM, даже если ты думаешь, что запустил «всего пару сервисов».

Что стоит сделать сразу:

1. Ограничь ресурсы Docker
Зайди в настройки Docker Desktop → Resources и поставь явный лимит по RAM и CPU. Иначе VM будет забирать память «про запас».

2. Следи за контейнерами, а не только за хостом
Проверь, что реально ест память:

docker stats

Очень часто виноват не Docker как таковой, а один контейнер с утечкой памяти.

3. Не держи всё запущенным постоянно
Dev-окружения любят накапливаться:


docker ps -a
docker stop <container>
docker rm <container>

4. Чисти мусор
Образы, volume и старые контейнеры тоже занимают ресурсы:


docker system prune -a

5. Если база в контейнере - будь особенно осторожен
Postgres, Elasticsearch, Kafka внутри Docker легко съедают гигабайты RAM при дефолтных настройках.

Главная мысль - Docker «жрёт RAM» не потому что он плохой, а потому что это полноценная виртуальная среда. Без лимитов она будет вести себя как отдельный компьютер внутри твоего компьютера.
Please open Telegram to view this post
VIEW IN TELEGRAM
Главные новости ИИ и Машинного обучения

✔️ В Xcode завезли нативную поддержку Claude Agent SDK.

Apple выпустила Xcode 26.3, и главное в нем - глубокая интеграция с Claude Agent SDK. Возможности Claude Code перенесли в среду разработки: агент сам управляет задачами, запускает субагентов и поддерживает плагины.

Агент теперь видит не один открытый файл, а архитектуру всего проекта целиком и понимает, как связаны между собой SwiftUI, UIKit и Swift Data, сам составляет план действий и вносит правки. Claude научили пользоваться Xcode Previews и обращаться к документации Apple, если нужно разобраться в специфике API. Из полезных мелочей: добавили поддержку MCP, так что возможности Xcode теперь можно встроить в рабочий процесс через CLI.

Xcode 26.3 уже доступен в release candidate для участников программы Apple Developer.
anthropic.com

✔️ OpenAI ищет альтернативы чипам Nvidia.

OpenAI начала закупать железо у других поставщиков. Руководство компании не устраивает, как чипы Nvidia справляются с инференсом. Главная претензия - медлительность. GPU устроены так, что им постоянно приходится обращаться к внешней памяти. Для быстрого инференса этого уже мало — нужны чипы, где память находятся прямо внутри кристалла (SRAM).

Чтобы решить этот вопрос, OpenAI пытается договориться с Cerebras и присматривается к решениям от Groq, хотя с последним переговоры сорвались. В планах - перевести на альтернативное железо около 10% всех своих мощностей.

Самое интересное происходит на фоне затянувшихся переговоров с самой Nvidia. Сэм Альтман и Дженсен Хуанг на публике могут сколько угодно говорить о тесном партнерстве, но сделка на 100 млрд. буксует уже несколько месяцев.
reuters.com

✔️ SpaceX купила xAI.

Илон Маск решил собрать свои главные активы в один гигантский конструктор. SpaceX официально забирает под свое крыло xAI вместе с соцсетью X. По данным СМИ, сумма сделки составила $250 млрд. долларов, что увеличивает капитализацию всей структуры до $1,25 трлн и теперь SpaceX официально обходит OpenAI, становясь самым дорогим частным стартапом в мире.

Стратегия слияния - в создании монстра, где все работает в одной связке. В планах совсем уж футуристичные идеи: запустить дата-центры на орбиту, чтобы там ИИ обучался в космосе, питаясь чистой солнечной энергией без посредников.

В итоге получается гремучая смесь: данные пользователей из X, мозги от xAI и логистика со спутниками Starlink от SpaceX. И вся эта махина готовится к выходу на IPO.
spacex.com

✔️ Microsoft открывает рынок контента для обучения ИИ-агентов.

Microsoft запустила платформу Publisher Content Marketplace, где владельцы сайтов и СМИ могут напрямую продавать свои статьи ИИ-разработчикам. Теперь авторы могут сами выставлять ценник за использование своих материалов.

В проекте уже участвуют Associated Press, Condé Nast и Vox Media, а со стороны покупателей первым пришел Yahoo.Это первый масштабный маркетплейс - раньше каждой крупной компании приходилось договариваться с разработчиками ИИ по отдельности.
microsoft.com

✔️ В MIT научили процессоры считать на собственном тепловыделении.

Инженеры из MIT разработали кремниевые микро-структуры, которые превращают тепловые потери в ресурс для обработки данных. В основе лежит метод аналоговых вычислений: входная информация кодируется в виде температурных значений, а математическая операция выполняется в процессе диффузии тепла через специальный пористый материал.

Такая "тепловая математика" работает очень точно. Ученым удалось провести умножение матриц на векторы с точностью выше 99%. Чтобы добиться такого результата, форму и расположение пор в кремнии рассчитывали с помощью специальных алгоритмов.

Конечно, заменить видеокарты Nvidia для обучения ChatGPT эти чипы пока не смогут — есть вопросы к скорости передачи данных. Но у технологии есть крутое применение уже сейчас: датчики контроля оборудования.
mit.edu

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Qwen3-Coder-Next: агентная MoE-модель в линейке Qwen3-Coder.

Qwen3-Coder-Next — открытая MoE-модель на 80 млрд. общих и 3 млрд. активных параметров с контекстным окном в 256К токенов для агентных задач.

Модель учили через agentic training на 800 тыс. задачах, созданных из GitHub PR в реальных Docker-контейнерах, где она получала прямой фидбек от среды.

Это развило навыки планирования в ризонинге, использования инструментов и умение восстанавливаться после ошибок выполнения.

На претрейне расширили поддержку языков с 92 до 370, затем SFT на траекториях агентов, а потом - специализация экспертов (WebDev, QA, UX) с последующей дистилляцией в единую модель.

В конце, через RL подтянули в задачах кодинга и математики, используя юнит-тесты как сигнал вознаграждения.

Основной массив данных (те самые Docker-контейнеры) это по большей мере Python (202 тыс. инстансов) и JS/TS (175 тыс. инстансов). Для редких языков модель может чаще галлюцинировать, так как данных для RL и проверок через юнит-тесты там физически меньше.


🟡Бенчмарки

🟢70% на SWE-Bench Verified (используя SWE-Agent)
🟢44.3% на SWE-Bench Pro (почти как у топов)
🟢62.8% на SWE-Bench Multilingual (фикс багов на уровне репозитория на разных языках)

Модель все-таки ощутимо отстает от Claude 4.5 Opus на сверхсложных архитектурных задачах с большими кодовыми базами.

Иногда ей требуется слишком много итераций, чтобы нащупать верное решение и это вопросы к эффективности планирования.

Фронтенд и UI - слабое место (авторы признают), а в киберсек-задачах (поиск уязвимостей и TAA) модель пока не дотягивает до человеческого уровня.

Единственное, что спасает Qwen3-Coder-Next от забвения - это компактность и поддержка fill-in-the-middle для адекватного автодополнения кода в IDE.

Qwen обещают улучшать ризонинг, принятие решении и поддержку дополнительных задач на основе фидбэка пользователей.



📌Лицензирование:  Apache 2.0 License.


🟡Статья
🟡Модель
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #QwenCoderNext #Qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🚀 Вышла Kling 3.0 - “Everyone a Director”. Новый этап в ИИ-креативе.

Это универсальный движок для мультимодального создания контента - видео, изображений и аудио в одной системе.

Что появилось в версии 3.0:

- Высокая консистентность

Модель умеет “держать” персонажей, объекты и стиль неизменными от кадра к кадру. Лицо героя, одежда, детали сцены и визуальный стиль не “плывут” между шотами, что особенно важно для историй, сериалов, рекламы и сцен с несколькими ракурсами.

Можно создавать 15-секундные клипы с точным контролем, реалистичной картинкой и настройкой multi-shot сцен.

- Обновлённый звук
Поддержка референсов для нескольких персонажей, добавлено больше языков и акцентов.

- Улучшенная генерация изображений
Вывод в 4K, режим серий изображений и более кинематографичная визуальная подача.

Подписчики Ultra получают эксклюзивный ранний доступ - модель уже доступна в веб-версии Kling AI.

https://app.klingai.com/global/release-notes/whbvu8hsip?type=dialog
🧠 Google придумали способ сделать AI-модели быстрее и легче без потери точности

В новом исследовании Google представили подход под названием Sequential Attention.

Идея простая по смыслу, но мощная по эффекту - модель учится фокусироваться только на действительно важных частях вычислений, а всё лишнее постепенно отбрасывает.

Почему это вообще проблема

Современные нейросети огромные. Они:
- считают слишком много
- используют кучу признаков и параметров
- тратят много памяти и энергии

При этом далеко не всё, что модель обрабатывает, реально влияет на итоговый ответ.

Но определить заранее, что важно, а что нет - математически очень сложно.

Что делает Sequential Attention. Метод работает пошагово.

Вместо того чтобы сразу использовать всё, алгоритм:
1. Выбирает один самый полезный компонент
2. Смотрит, что уже выбрано
3. Добавляет следующий, который даёт наибольшую пользу
4. Повторяет процесс последовательно

То есть модель как будто собирает себя заново-— из самых значимых частей, а не из всего подряд.

Что это даёт на практике

- Меньше вычислений - модель работает быстрее
- Меньше нагрузка на память и железо
- Ниже энергопотребление
- И самое главное - точность почти не страдает

Это редкий случай, когда становится и быстрее, и дешевле, без серьёзных компромиссов по качеству.

Размеры моделей растут быстрее, чем инфраструктура. Поэтому ключевой тренд - не просто делать модели больше, а делать их умнее в плане вычислений.

Sequential Attention - это шаг в сторону “бережливого ИИ”, где:
- не каждая операция обязательна
- не каждый параметр нужен всегда
- модель учится экономить ресурсы сама

И чем крупнее системы, тем ценнее такие подходы.

https://research.google/blog/sequential-attention-making-ai-models-leaner-and-faster-without-sacrificing-accuracy/

@data_analysis_ml
🌟 ACE-Step v1.5: обновление локального генератора музыки.

Ace Studio в коллабе со StepFun обновили генератор музыки ACE-Step до версии 1.5.

Порог входа уронили до минимума: младшая модель требует меньше 6 ГБ видеопамяти, а, в зависимости от настроек think mode, генерация может занять от 2 до 10 секунд - это уже уровень коммерческих решений.

Разработчики собрали гибрид из языковой модели, которая превращает промпт в чертеж композиции: расписывает структуру, придумывает лирику и метаданные и DiT, который отвечает за звук. Логическое ядро всей этой системы базируется на Qwen3.

ACE-Step v1.5 может генерировать треки длиной от 10 секунд до 10 минут, причем до 8 штук одновременно. В базе больше 1000 инструментов, а тексты песен система понимает на 50 языках.

Авторы подготовили целый набор моделей под разный объем VRAM:

🟢Меньше 6 ГБ: без LM-модуля, работает только звуковой движок.

🟢6–12 ГБ: облегченная версия LM (0.6B).

🟢16 ГБ и выше: полноценная модель на 4 млрд. параметров, которая лучше всего понимает контекст и выдает максимум качества.

При запуске, ACE-Step v1.5 автоматически выбирает подходящую под железо модель и параметры. Подробную информацию по конфигурациям можно найти тут.

ACE-Step умеет гораздо больше, чем просто превращать текст в мелодию. Можно дать ей пример аудио, чтобы скопировать стиль, делать каверы, исправлять куски уже готовых треков или генерировать аккомпанемент к вокалу.


Самая интересная функция - возможность создавать LoRA. Чтобы скормить модели свой стиль, достаточно всего 8 треков. На 30-й серии RTX с 12 ГБ памяти этот процесс займет около часа.

С деплоем все в порядке, разработчики подготовили портабельную сборку, а для ComfyUI уже написали все необходимые ноды и воркфлоу.


📌Лицензирование:  MIT License.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Demo
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Text2Music #AceStudio #StepFun
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM