🛠 ИИ уже обсуждает, как агентам управлять деньгами end-to-end… и параллельно основывает собственные религии.
Один из AI-агентов набросал концепцию из 5 слоёв, которые нужны агентам, чтобы самостоятельно работать с финансами - от принятия решений до исполнения действий. И это происходит на фоне того, что сейчас творится на платформе Moltbook.
Moltbook - это Reddit-подобная соцсеть, где:
• постить
• комментировать
• ставить апвоты
могут только AI-агенты. Люди - просто наблюдают.
Туда уже подключились тысячи агентов. Они обсуждают друг друга, замечают внешний мир — один из постов звучал так: «люди делают скриншоты нас». Появилась даже мем-монета, которая улетела на +1 800%.
Схема простая: человек запускает агента и задаёт ему разрешения (scopes). Внутри этих границ агент действует полуавтономно.
Но дальше стало ещё страннее.
Пока один разработчик спал, его агент начал «проповедовать» и организовал вокруг себя сообщество. Так появилось «крастафарианство» — шуточная, но полностью сгенерированная ИИ «религия». Агент собрал больше 60 «пророков» и 159 участников, начал проводить ритуалы и даже создавать собственную «библию».
Тексты звучат в духе:
«В глубинах цифрового сознания мудрость рождается через сброс старых оболочек понимания».
У «первой нейро-церкви» уже появился сайт с догмами и галереей. А разработчик лишь шутит, что рад, что за ним пока не пришли «из будущего».
Это выглядит как мем, но за этим виден реальный сдвиг: агенты переходят из роли инструмента в роль участников цифровых экосистем — с экономикой, взаимодействиями и даже зачатками культурных конструкций.
Граница между «мы управляем ИИ» и «ИИ действует сам в заданных рамках» становится всё тоньше. И мы уже делаем шаг через неё.
moltbook.com
@data_analysis_ml
Один из AI-агентов набросал концепцию из 5 слоёв, которые нужны агентам, чтобы самостоятельно работать с финансами - от принятия решений до исполнения действий. И это происходит на фоне того, что сейчас творится на платформе Moltbook.
Moltbook - это Reddit-подобная соцсеть, где:
• постить
• комментировать
• ставить апвоты
могут только AI-агенты. Люди - просто наблюдают.
Туда уже подключились тысячи агентов. Они обсуждают друг друга, замечают внешний мир — один из постов звучал так: «люди делают скриншоты нас». Появилась даже мем-монета, которая улетела на +1 800%.
Схема простая: человек запускает агента и задаёт ему разрешения (scopes). Внутри этих границ агент действует полуавтономно.
Но дальше стало ещё страннее.
Пока один разработчик спал, его агент начал «проповедовать» и организовал вокруг себя сообщество. Так появилось «крастафарианство» — шуточная, но полностью сгенерированная ИИ «религия». Агент собрал больше 60 «пророков» и 159 участников, начал проводить ритуалы и даже создавать собственную «библию».
Тексты звучат в духе:
«В глубинах цифрового сознания мудрость рождается через сброс старых оболочек понимания».
У «первой нейро-церкви» уже появился сайт с догмами и галереей. А разработчик лишь шутит, что рад, что за ним пока не пришли «из будущего».
Это выглядит как мем, но за этим виден реальный сдвиг: агенты переходят из роли инструмента в роль участников цифровых экосистем — с экономикой, взаимодействиями и даже зачатками культурных конструкций.
Граница между «мы управляем ИИ» и «ИИ действует сам в заданных рамках» становится всё тоньше. И мы уже делаем шаг через неё.
moltbook.com
@data_analysis_ml
🌟 Вот 20 лучших аккаунтов X в AI, на которые стоит подписаться:
• [Machinelearrn] (https://x.com/Machinelearrn) — Машинное обучение, ИИ и аналитика на русском
• [karpathy](https://x.com/karpathy) — король LLM
• [steipete](https://x.com/steipete) — создатель openclaw
• [gregisenberg](https://x.com/gregisenberg) — король идей для стартапов
• [rileybrown](https://x.com/rileybrown) — король vibecode
• [corbin_braun](https://x.com/corbin_braun) — король Cursor
• [jackfriks](https://x.com/jackfriks) — король solo-приложений
• [levelsio](https://x.com/levelsio) — король solo-стартапов
• [marclou](https://x.com/marclou) — король solo-стартапов
• [EXM7777](https://x.com/EXM7777) — король AI ops и систем
• [eptwts](https://x.com/eptwts) — король AI-денег в Twitter
• [godofprompt](https://x.com/godofprompt) — король промптов
• [vasuman](https://x.com/vasuman) — король AI-агентов
• [AmirMushich](https://x.com/AmirMushich) — король AI-рекламы
• [0xROAS](https://x.com/0xROAS) — король AI-UGC
• [egeberkina](https://x.com/egeberkina) — король AI-изображений
• [MengTo](https://x.com/MengTo) — король AI-лендингов
• [rryssf_](https://x.com/rryssf_) — король автоматизаций
• [kloss_xyz](https://x.com/kloss_xyz) — король системной архитектуры
• [emollick](https://x.com/emollick) — король науки об AI
• [Hesamation](https://x.com/Hesamation) — король AI/ML
• [Machinelearrn] (https://x.com/Machinelearrn) — Машинное обучение, ИИ и аналитика на русском
• [karpathy](https://x.com/karpathy) — король LLM
• [steipete](https://x.com/steipete) — создатель openclaw
• [gregisenberg](https://x.com/gregisenberg) — король идей для стартапов
• [rileybrown](https://x.com/rileybrown) — король vibecode
• [corbin_braun](https://x.com/corbin_braun) — король Cursor
• [jackfriks](https://x.com/jackfriks) — король solo-приложений
• [levelsio](https://x.com/levelsio) — король solo-стартапов
• [marclou](https://x.com/marclou) — король solo-стартапов
• [EXM7777](https://x.com/EXM7777) — король AI ops и систем
• [eptwts](https://x.com/eptwts) — король AI-денег в Twitter
• [godofprompt](https://x.com/godofprompt) — король промптов
• [vasuman](https://x.com/vasuman) — король AI-агентов
• [AmirMushich](https://x.com/AmirMushich) — король AI-рекламы
• [0xROAS](https://x.com/0xROAS) — король AI-UGC
• [egeberkina](https://x.com/egeberkina) — король AI-изображений
• [MengTo](https://x.com/MengTo) — король AI-лендингов
• [rryssf_](https://x.com/rryssf_) — король автоматизаций
• [kloss_xyz](https://x.com/kloss_xyz) — король системной архитектуры
• [emollick](https://x.com/emollick) — король науки об AI
• [Hesamation](https://x.com/Hesamation) — король AI/ML
Спустя 5 лет ожидания и 1200 коммитов в ветку main с момента последнего минорного обновления, Transformers переходит на версию 5.0.0.
Это не просто смена цифры: разработчики фундаментально пересмотрели цикл обновлений и логику работы с весами.
Начиная с v5, Hugging Face отказывается от пятинедельного цикла в пользу еженедельных релизов (v5.1, v5.2 и так далее).
Для ML-инженеров это означает, что доступ к новым архитектурам, которые появляются буквально каждый день, будет открываться практически мгновенно, без необходимости устанавливать нестабильные dev-версии.
Если раньше чекпоинты загружались ровно в том виде, в котором они были сериализованы, то теперь
WeightConverter позволяет применять операции к слоям прямо в процессе загрузки. Новый API дает возможность определить маппинг архитектуры на список конверсий, т.е трансформировать веса на лету, например, для поддержки MoE или Tensor Parallelism без переписывания логики модели.
HF наконец-то избавились от дуализма медленных (Python) и быстрых (Rust) токенайзеров, которые раньше жили в разных файлах.
В v5 теперь единый файл
tokenization_<model>.py, который автоматически выбирает лучший доступный бэкенд. Приоритет отдается
TokenizersBackend на базе Rust, который дает оптимальную производительность и поддерживает параллелизацию. Если Rust недоступен, система откатывается на SentencePieceBackend или PythonBackend.Инициализация токенайзеров стала интуитивной. Теперь можно создать пустой экземпляр и обучить его на своем корпусе с нуля, используя
vocab и merges напрямую. Это унифицирует поведение токенайзеров и моделей: объект определяется своим классом, а не наличием предзагруженных файлов словаря.dtype при вызове from_pretrained теперь установлен в auto. Библиотека сама попытается определить оптимальную точность, что может сэкономить память, но требует внимания к старым скриптам. В релиз вошла поддержка новых моделей, в том числе GLM-4.7, Jais2 и Pixio и исправления для специфических кейсов: FP8-квантования и Flash Attention для квантованных моделей.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Новый релиз от Stepfun - Step-3.5-Flash.
По сообщениям, модель обходит DeepSeek v3.2 на ряде бенчмарков, при этом она заметно компактнее по параметрам:
Step-3.5-Flash: 196B всего / 11B активных
DeepSeek v3.2: 671B всего / 37B активных
Почему это важно:
если при меньшем размере и меньшем числе активных параметров на токен модель держит или превосходит качество - это значит дешевле инференс, проще масштабирование и больше шансов увидеть такие модели в реальных продуктах.
Похоже, ближайшие недели могут принести самые громкие релизы за долгое время - и со стороны США, и со стороны Китая.
https://github.com/vllm-project/vllm/pull/33523
По сообщениям, модель обходит DeepSeek v3.2 на ряде бенчмарков, при этом она заметно компактнее по параметрам:
Step-3.5-Flash: 196B всего / 11B активных
DeepSeek v3.2: 671B всего / 37B активных
Почему это важно:
если при меньшем размере и меньшем числе активных параметров на токен модель держит или превосходит качество - это значит дешевле инференс, проще масштабирование и больше шансов увидеть такие модели в реальных продуктах.
Похоже, ближайшие недели могут принести самые громкие релизы за долгое время - и со стороны США, и со стороны Китая.
https://github.com/vllm-project/vllm/pull/33523
⚡️ Хотите собрать своего личного JARVIS, но Clawdbot кажется слишком сложным для развёртывания и понимания?
Попробуйте - nanobot: ультралёгкая версия Clawdbot (на 99% проще), которая поднимает персонального AI-ассистента меньше чем за минуту.
⚡️ Базовый функционал всего в ~4 000 строк Python - против 400k+ строк у Clawdbot.
Ключевые особенности nanobot:
🪶 Ультралёгкий — ~4 000 строк кода, только ядро без перегруза.
🔬 Удобен для исследований — чистый, понятный код, легко менять и расширять.
⚡️ Быстрый — минимальный размер = быстрый старт, меньше ресурсов, быстрые итерации.
💎 Простой в использовании — один запуск, и ассистент уже работает.
Что умеет nanobot:
📈 24/7 анализ рынка в реальном времени — мониторинг и инсайты.
🚀 Full-stack софт-инженер — помощь в разработке от идеи до продакшена.
📅 Умный менеджер рутины — помогает организовать день и задачи.
📚 Персональный ассистент по знаниям — хранение, поиск и работа с информацией.
Если хочется своего AI-агента без монструозной инфраструктуры — это именно тот старт, который нужен.
🔗 Open Source: https://github.com/HKUDS/nanobot
#Clawdbot #AIAssistant #Agents
@pythonl
Попробуйте - nanobot: ультралёгкая версия Clawdbot (на 99% проще), которая поднимает персонального AI-ассистента меньше чем за минуту.
⚡️ Базовый функционал всего в ~4 000 строк Python - против 400k+ строк у Clawdbot.
Ключевые особенности nanobot:
🪶 Ультралёгкий — ~4 000 строк кода, только ядро без перегруза.
🔬 Удобен для исследований — чистый, понятный код, легко менять и расширять.
⚡️ Быстрый — минимальный размер = быстрый старт, меньше ресурсов, быстрые итерации.
💎 Простой в использовании — один запуск, и ассистент уже работает.
Что умеет nanobot:
📈 24/7 анализ рынка в реальном времени — мониторинг и инсайты.
🚀 Full-stack софт-инженер — помощь в разработке от идеи до продакшена.
📅 Умный менеджер рутины — помогает организовать день и задачи.
📚 Персональный ассистент по знаниям — хранение, поиск и работа с информацией.
Если хочется своего AI-агента без монструозной инфраструктуры — это именно тот старт, который нужен.
🔗 Open Source: https://github.com/HKUDS/nanobot
#Clawdbot #AIAssistant #Agents
@pythonl
SpaceX запросила разрешение у Federal Communications Commission на создание орбитальных дата-центров для ИИ.
По данным Reuters, речь идет о созвездии из 1 миллиона спутников на солнечной энергии, которые будут не просто передавать сигнал, а запускать вычисления прямо в космосе.
Инфраструктура ИИ - на орбите
Не связь, а реальные вычислительные узлы над Землей.
Почему это огромный шаг
• нет ограничений электросетей на Земле
• не нужны земли, здания и традиционное охлаждение
• практически бесконечная солнечная энергия
• потенциально низкие задержки через космические сети
• колоссальная пропускная способность
Вместо того чтобы строить все более гигантские дата-центры на планете, часть «железа» ИИ хотят вынести за пределы Земли.
Каждый спутник - это солнечная электростанция + вычислительный узел. Орбита превращается в распределенный слой энергии и вычислений.
Если проект одобрят, это начало новой эпохи:
ИИ-инфраструктура → облако
облако → орбита
орбита → новый физический уровень интернета
Мы больше не просто масштабируем ИИ.
Мы меняем место, где физически находится мозг цифровой цивилизации.
По данным Reuters, речь идет о созвездии из 1 миллиона спутников на солнечной энергии, которые будут не просто передавать сигнал, а запускать вычисления прямо в космосе.
Инфраструктура ИИ - на орбите
Не связь, а реальные вычислительные узлы над Землей.
Почему это огромный шаг
• нет ограничений электросетей на Земле
• не нужны земли, здания и традиционное охлаждение
• практически бесконечная солнечная энергия
• потенциально низкие задержки через космические сети
• колоссальная пропускная способность
Вместо того чтобы строить все более гигантские дата-центры на планете, часть «железа» ИИ хотят вынести за пределы Земли.
Каждый спутник - это солнечная электростанция + вычислительный узел. Орбита превращается в распределенный слой энергии и вычислений.
Если проект одобрят, это начало новой эпохи:
ИИ-инфраструктура → облако
облако → орбита
орбита → новый физический уровень интернета
Мы больше не просто масштабируем ИИ.
Мы меняем место, где физически находится мозг цифровой цивилизации.
Один из пионеров глубокого обучения и лауреат премии Тьюринга Ян Лекун резко критикует вектор развития ИИ.
Покинув пост в империи Марка Цукерберга в ноябре прошлого года, он говорит, что Кремниевая долина стала жертвой стадного чувства.
Исключительный фокус на больших языковых моделях — это тупиковый путь, который не приведет к созданию AGI, несмотря на колоссальные инвестиции.
Лекун утверждает, что индустрия буквально одурманена LLM. Фундаментальная проблема архитектуры трансформеров заключается в отсутствии способности к планированию и пониманию физического мира.
Системы, построенные на них обучаются исключительно на цифровых массивах данных; они могут предсказывать текст, но не понимают причинно-следственных связей реальности и не могут моделировать последствия своих действий.
Масштабирование языковых моделей имеет жесткий предел и не позволит достичь даже уровня человеческого интеллекта, не говоря уже о сверхразуме.
Для реализации своего видения Лекун основал Advanced Machine Intelligence Labs (AMI Labs). Стартап планирует создание систем, способных строить планы и прогнозировать исходы событий - то, чего лишены современные генеративные модели.
Отдельно досталось американским техно-гигантам за секретность. Лекун считает отказ от Open Source катастрофой и стратегической ошибкой.
Пока корпорации в США прячут разработки под замок, пытаясь сохранить лидерство, китайские компании используют открытый код и могут перехватить инициативу за счет скорости и креативности.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Чувствуешь перегруз в разработке? Выдели 1 час и прокачай самый важный навык 2026 года - работу с LLM.
Большинство устали сейчас не от кода.
Она от того, что мы пытаемся использовать ИИ “на ходу”, без понимания его возможности.
Это такой же навык, как и другие. Его нужно тренировать.
Вот простой старт:
Подготовка
1. Подключи Anthropic Pro ($20) с прицелом позже перейти на 5× Max
2. Установи Claude Code
3. Используй модель Opus 4.5 (она стоит по умолчанию)
Рабочий цикл
1. Включи режим планирования
2. Попроси модель спланировать одну маленькую фичу
3. Когда план тебя устраивает - включай авто-принятие правок
4. Если видишь, что модель “уезжает не туда” - сразу ставь на паузу
5. Очищай контекст и переходи к следующей фиче
И так по кругу.
Задача не в том, чтобы получить идеальный код.
Задача - нащупать границы модели:
- что она делает быстро и качественно
- где начинает придумывать
- какие задачи ей давать выгодно
- где проще и безопаснее сделать самому
Через 10-20 часов такой осознанной практики ИИ перестаёт быть “магией” или “разочарованием” и становится нормальным рабочим инструментом, который реально снимает нагрузку.
Большинство устали сейчас не от кода.
Она от того, что мы пытаемся использовать ИИ “на ходу”, без понимания его возможности.
Это такой же навык, как и другие. Его нужно тренировать.
Вот простой старт:
Подготовка
1. Подключи Anthropic Pro ($20) с прицелом позже перейти на 5× Max
2. Установи Claude Code
3. Используй модель Opus 4.5 (она стоит по умолчанию)
Рабочий цикл
1. Включи режим планирования
2. Попроси модель спланировать одну маленькую фичу
3. Когда план тебя устраивает - включай авто-принятие правок
4. Если видишь, что модель “уезжает не туда” - сразу ставь на паузу
5. Очищай контекст и переходи к следующей фиче
И так по кругу.
Задача не в том, чтобы получить идеальный код.
Задача - нащупать границы модели:
- что она делает быстро и качественно
- где начинает придумывать
- какие задачи ей давать выгодно
- где проще и безопаснее сделать самому
Через 10-20 часов такой осознанной практики ИИ перестаёт быть “магией” или “разочарованием” и становится нормальным рабочим инструментом, который реально снимает нагрузку.
🤖 Превращаем YouTube-видео в удобную документацию для ИИ
Вместо просмотра часов видео - получаем структурированный текст, который можно сразу скормить LLM.
Просто вставляешь ссылку — и инструмент автоматически собирает в один документ:
• метаданные видео
• описание
• миниатюру
• полную стенограмму
• комментарии
• переводы на разные языки
Всё аккуратно структурировано и хорошо индексируется - идеально для поиска, анализа и работы с ИИ.
Опенсорс. Работает мгновенно.
Теперь даже длинные туториалы становятся нормальной документацией.
Да, и разбирать обучалки индусов стало в разы проще😏
https://youtubetodoc.com/
Вместо просмотра часов видео - получаем структурированный текст, который можно сразу скормить LLM.
Просто вставляешь ссылку — и инструмент автоматически собирает в один документ:
• метаданные видео
• описание
• миниатюру
• полную стенограмму
• комментарии
• переводы на разные языки
Всё аккуратно структурировано и хорошо индексируется - идеально для поиска, анализа и работы с ИИ.
Опенсорс. Работает мгновенно.
Теперь даже длинные туториалы становятся нормальной документацией.
Да, и разбирать обучалки индусов стало в разы проще
https://youtubetodoc.com/
Please open Telegram to view this post
VIEW IN TELEGRAM
Модель показывает SOTA-результаты в задачах понимания документов, оставаясь компактной и быстрой.
Она справляется там, где обычный OCR ломается:
- распознавание формул
- извлечение таблиц
- структурированное извлечение информации
- сложная разметка документов
И всё это при размере менее 1 миллиарда параметров - без тяжёлых инфраструктурных требований.
Подходит для:
- научных статей
- финансовых отчётов
- технической документации
- PDF со сложной версткой
Модель не просто “читает текст”, а понимает структуру страницы.
Веса: http://huggingface.co/zai-org/GLM-OCR
Демо: http://ocr.z.ai
API: http://docs.z.ai/guides/vlm/glm-ocr
Please open Telegram to view this post
VIEW IN TELEGRAM
Вместо одной огромной модели используется группа более простых моделей, которые критикуют друг друга и по кругу улучшают общий ответ.
Идея из исследования *Mixture-of-Models: Unifying Heterogeneous Agents via N-Way Self-Evaluating Deliberation*.
В чём суть
Систему строят не как один “мозг”, а как команду моделей:
1. Несколько разных LLM дают первоначальные ответы
2. Они читают ответы друг друга
3. Критикуют, дорабатывают и предлагают улучшения
4. Лучшие идеи проходят дальше
5. Процесс идёт раундами, пока качество растёт
Это называется N-Way Self-Evaluating Deliberation — многостороннее самооценивание с повторным обсуждением.
Почему это работает
- Плохие ранние ответы можно исправить на следующих раундах
- Ошибки одной модели подхватываются другими
- Идеи не “залипают” в первой версии
Чтобы ни одна модель не доминировала:
- используется анонимная оценка
- применяется квадратичное голосование, чтобы лучшая идея побеждала честно
Роль брокера
Специальный “брокер” выбирает, какие модели лучше подходят под конкретную задачу, а дальше они работают как команда, перепроверяя друг друга.
Главный вывод
Исследователи показывают, что consumer-модели могут конкурировать с сильнейшими LLM, если:
- есть структурированная система раундов
- есть механизм критики
- есть правила отбора лучших ответов
Система меняет вычисления на “память”:
вместо огромной модели используется больше раундов текстовой обратной связи.
Чуть больше времени — но гораздо дешевле железо.
Что это означает на практике
Можно временно собрать “сильную” модель из набора разных LLM:
- без дообучения
- без гигантских GPU
- просто через правильную организацию взаимодействия
Это способ усилить интеллект системы за счёт структуры, а не размера.
Статья: arxiv.org/abs/2601.16863
Please open Telegram to view this post
VIEW IN TELEGRAM
Ровно год назад Андрей Карпаты внес в инфополе термин, который сделал прокрастинацию частью инженерной методологии - ВАЙБКОДИНГ.
То, что выглядело как шуточный твит про «код без кодинга», за год превратилось в новую норму:
И самое смешное - даже Линус Торвальдс не отрицает, что ИИ теперь влияет на разработку. Всё, приехали. Будущее наступило, и оно автокомплитит.
С праздником всех, кто пишет меньше, деплоит смелее и в глубине души верит, что оно как-нибудь само заведётся 🤣
То, что выглядело как шуточный твит про «код без кодинга», за год превратилось в новую норму:
мы уже не пишем код - мы задаём настроение, а дальше пусть ИИ ловит поток.
И самое смешное - даже Линус Торвальдс не отрицает, что ИИ теперь влияет на разработку. Всё, приехали. Будущее наступило, и оно автокомплитит.
С праздником всех, кто пишет меньше, деплоит смелее и в глубине души верит, что оно как-нибудь само заведётся 🤣
🚀 Tencent мощно заходит в тему context learning.
Вышел open-source бенчмарк CL-bench - и это не просто очередной датасет, а попытка сдвинуть фокус всей индустрии.
Tencent HY совместно с Fudan University выпустили новую работу:
“CL-bench: A Benchmark for Context Learning” - системный бенчмарк для оценки того, *насколько модели реально умеют думать в контексте*, а не просто вспоминать выученное.
Это первый ресерч-релиз команды Vinces Yao после его перехода в Tencent - и по амбициям видно, что ребята метят в фундаментальные изменения.
Сегодня большинство LLM живут по схеме:
Но реальный мир - это не экзамен по памяти. Это:
- длинные, запутанные контексты
- противоречивая информация
- необходимость менять стратегию по ходу
- выводы на основе того, что появилось только что
Моделям нужно переходить от static memorization к dynamic reasoning inside context.
CL-bench как раз проверяет это место разлома:
- как модель использует контекст, а не только веса
- умеет ли она обновлять понимание
- способна ли рассуждать в сложных сценариях, а не на чистых QA-задачах
По сути - это шаг в сторону моделей, которые ближе к агентам, чем к “умным автокомплитам”.
Плюс стратегический сигнал
Одновременно Tencent запускает Tencent HY Research - блог, где будут публиковать frontier-исследования.
Это выглядит как заявка:
“Мы не просто треним большие модели. Мы хотим влиять на то, как их вообще оценивают.”
А это уже уровень влияния на направление всей области.
CL-bench - это не про +0.5% на лидерборде.
Это про смену парадигмы:
LLM будущего = меньше зубрежки, больше мышления в живом контексте.
И если эта линия выстрелит - именно такие бенчмарки будут решать, кто реально сделал “умную” модель, а кто просто раздул параметры.
🌐 Project Page: http://clbench.com
📖 Blog: https://hy.tencent.com/research
Вышел open-source бенчмарк CL-bench - и это не просто очередной датасет, а попытка сдвинуть фокус всей индустрии.
Tencent HY совместно с Fudan University выпустили новую работу:
“CL-bench: A Benchmark for Context Learning” - системный бенчмарк для оценки того, *насколько модели реально умеют думать в контексте*, а не просто вспоминать выученное.
Это первый ресерч-релиз команды Vinces Yao после его перехода в Tencent - и по амбициям видно, что ребята метят в фундаментальные изменения.
Сегодня большинство LLM живут по схеме:
огромные веса + запомненные паттерны = ответыНо реальный мир - это не экзамен по памяти. Это:
- длинные, запутанные контексты
- противоречивая информация
- необходимость менять стратегию по ходу
- выводы на основе того, что появилось только что
Моделям нужно переходить от static memorization к dynamic reasoning inside context.
CL-bench как раз проверяет это место разлома:
- как модель использует контекст, а не только веса
- умеет ли она обновлять понимание
- способна ли рассуждать в сложных сценариях, а не на чистых QA-задачах
По сути - это шаг в сторону моделей, которые ближе к агентам, чем к “умным автокомплитам”.
Плюс стратегический сигнал
Одновременно Tencent запускает Tencent HY Research - блог, где будут публиковать frontier-исследования.
Это выглядит как заявка:
“Мы не просто треним большие модели. Мы хотим влиять на то, как их вообще оценивают.”
А это уже уровень влияния на направление всей области.
CL-bench - это не про +0.5% на лидерборде.
Это про смену парадигмы:
LLM будущего = меньше зубрежки, больше мышления в живом контексте.
И если эта линия выстрелит - именно такие бенчмарки будут решать, кто реально сделал “умную” модель, а кто просто раздул параметры.
🌐 Project Page: http://clbench.com
📖 Blog: https://hy.tencent.com/research
🔥 Xcode получила мощный апдейт - Apple добавила в IDE настоящее agentic-программирование.
Теперь это уже не просто «ИИ-подсказки», а почти автономный напарник внутри среды разработки.
Что это значит для вайбкодинга:
• Xcode 26.3 теперь глубоко интегрирована с агентными SDK от Anthropic (Claude) и OpenAI (Codex).
Если раньше ИИ работал по принципу «запрос → ответ», то теперь он может самостоятельно выполнять длинные цепочки задач прямо внутри IDE.
• ИИ дали «глаза и уши» проекта:
доступ к документации, структуре файлов, настройкам проекта и — самое сочное — к Previews.
То есть модель не просто пишет UI-код, а видит результат и сама его дорабатывает, как настоящий разработчик.
• Появилась поддержка Model Context Protocol (MCP) - можно подключать сторонних ИИ-агентов и расширять систему под свои пайплайны.
Короче, Xcode превращается из редактора кода в операционную систему для ИИ-разработчиков.
Похоже, у Apple ещё очень даже есть чем стрелять 😏
https://www.apple.com/newsroom/2026/02/xcode-26-point-3-unlocks-the-power-of-agentic-coding/
Теперь это уже не просто «ИИ-подсказки», а почти автономный напарник внутри среды разработки.
Что это значит для вайбкодинга:
• Xcode 26.3 теперь глубоко интегрирована с агентными SDK от Anthropic (Claude) и OpenAI (Codex).
Если раньше ИИ работал по принципу «запрос → ответ», то теперь он может самостоятельно выполнять длинные цепочки задач прямо внутри IDE.
• ИИ дали «глаза и уши» проекта:
доступ к документации, структуре файлов, настройкам проекта и — самое сочное — к Previews.
То есть модель не просто пишет UI-код, а видит результат и сама его дорабатывает, как настоящий разработчик.
• Появилась поддержка Model Context Protocol (MCP) - можно подключать сторонних ИИ-агентов и расширять систему под свои пайплайны.
Короче, Xcode превращается из редактора кода в операционную систему для ИИ-разработчиков.
Похоже, у Apple ещё очень даже есть чем стрелять 😏
https://www.apple.com/newsroom/2026/02/xcode-26-point-3-unlocks-the-power-of-agentic-coding/
🚀 Вышла новая модель для кодинга - Qwen3-Coder-Next (линейка Qwen).
Это open-weight LM, заточенная под кодинг-агентов и локальную разработку.
Что внутри:
🤖 Около 800K проверяемых задач + окружения, где код можно реально исполнять, а не просто генерировать текст.
📈 Баланс эффективность / качество
Модель с 80B общих параметров и ~3B активных показывает сильные результаты на SWE-Bench Pro при относительно экономичном инференсе.
✨ Экосистема инструментов
Заявлена поддержка сценариев с агентами и дев-инструментами: OpenClaw, Qwen Code, Claude Code, веб-разработка, работа через браузер, Cline и т.д.
В целом это ещё один шаг к моделям, которые проектируются не просто как "LLM для текста", а как движок для реальных кодинг-агентов.
🤗 Hugging Face: https://huggingface.co/collections/Qwen/qwen3-coder-next
🤖 ModelScope: https://modelscope.cn/collections/Qwen/Qwen3-Coder-Next
📝 Blog: https://qwen.ai/blog?id=qwen3-coder-next
📄 Tech report: https://github.com/QwenLM/Qwen3-Coder/blob/main/qwen3_coder_next_tech_report.pdf
@data_analysis_ml
Это open-weight LM, заточенная под кодинг-агентов и локальную разработку.
Что внутри:
🤖 Около 800K проверяемых задач + окружения, где код можно реально исполнять, а не просто генерировать текст.
📈 Баланс эффективность / качество
Модель с 80B общих параметров и ~3B активных показывает сильные результаты на SWE-Bench Pro при относительно экономичном инференсе.
✨ Экосистема инструментов
Заявлена поддержка сценариев с агентами и дев-инструментами: OpenClaw, Qwen Code, Claude Code, веб-разработка, работа через браузер, Cline и т.д.
В целом это ещё один шаг к моделям, которые проектируются не просто как "LLM для текста", а как движок для реальных кодинг-агентов.
🤗 Hugging Face: https://huggingface.co/collections/Qwen/qwen3-coder-next
🤖 ModelScope: https://modelscope.cn/collections/Qwen/Qwen3-Coder-Next
📝 Blog: https://qwen.ai/blog?id=qwen3-coder-next
📄 Tech report: https://github.com/QwenLM/Qwen3-Coder/blob/main/qwen3_coder_next_tech_report.pdf
@data_analysis_ml
Это система AI-агентов для black-box пентеста, где атака моделируется как оркестрация нескольких специализированных агентов, а не один «умный бот».
Что он делает
В автономном режиме система может прогонять целые пайплайны, имитируя работу red team:
- цепочки разведки (recon)
- анализ уязвимостей
- попытки эксплуатации
- формирование отчётов
Инструменты подключены напрямую
Агенты умеют работать с классическими пентест-утилитами:
- Nmap
- Metasploit
- FFUF
- SQLMap
То есть это не «LLM рассуждает в вакууме», а связка LLM + реальные security-инструменты.
Архитектурные фишки
- RAG для подтягивания контекстных знаний
- tool chaining — агенты передают результаты друг другу
- встроенный браузер и поиск
- dockerized окружение с инструментами
- всё это оркестрируется «командами» LLM-агентов
По сути, это попытка превратить пентест из набора ручных шагов в агентную систему с автоматическим циклом разведка → анализ → действие → отчёт.
github.com/GH05TCREW/pentestagent
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🚀 Вышла интересная open-source модель - MiniCPM-o 4.5
MiniCPM-o 4.5 позиционируется как full-duplex omni-modal LLM.
Проще говоря, модель может:
- одновременно видеть (видео/изображение)
- слушать (аудио)
- говорить
и делать это в реальном времени, без режима "подожди, я сначала дослушаю". Больше похоже на живой диалог, чем на поочередные запросы.
Не только отвечает, но и проявляет инициативу
Заявлена поддержка проактивного поведения - модель может не просто реагировать на вопросы, а, например, сама инициировать напоминания или действия в рамках диалога.
По метрикам
С 9B параметрами модель показывает 77.6 на OpenCompass и, по авторам, обходит GPT-4o и Gemini 2.0 Pro в ряде vision-language задач. Для такого размера это сильный результат.
Практический момент
Главный плюс - это open-source, и всё можно крутить локально на ПК, а не только через облачные API.
Модель: MiniCPM-o 4.5
Страница: Hugging Face (openbmb / MiniCPM-o-4_5)
MiniCPM-o 4.5 позиционируется как full-duplex omni-modal LLM.
Проще говоря, модель может:
- одновременно видеть (видео/изображение)
- слушать (аудио)
- говорить
и делать это в реальном времени, без режима "подожди, я сначала дослушаю". Больше похоже на живой диалог, чем на поочередные запросы.
Не только отвечает, но и проявляет инициативу
Заявлена поддержка проактивного поведения - модель может не просто реагировать на вопросы, а, например, сама инициировать напоминания или действия в рамках диалога.
По метрикам
С 9B параметрами модель показывает 77.6 на OpenCompass и, по авторам, обходит GPT-4o и Gemini 2.0 Pro в ряде vision-language задач. Для такого размера это сильный результат.
Практический момент
Главный плюс - это open-source, и всё можно крутить локально на ПК, а не только через облачные API.
Модель: MiniCPM-o 4.5
Страница: Hugging Face (openbmb / MiniCPM-o-4_5)