Машинное обучение digest
60 subscribers
1.7K photos
225 videos
939 links
Download Telegram
🔥 Новый релиз от Stepfun - Step-3.5-Flash.

По сообщениям, модель обходит DeepSeek v3.2 на ряде бенчмарков, при этом она заметно компактнее по параметрам:

Step-3.5-Flash: 196B всего / 11B активных
DeepSeek v3.2: 671B всего / 37B активных

Почему это важно:
если при меньшем размере и меньшем числе активных параметров на токен модель держит или превосходит качество - это значит дешевле инференс, проще масштабирование и больше шансов увидеть такие модели в реальных продуктах.

Похоже, ближайшие недели могут принести самые громкие релизы за долгое время - и со стороны США, и со стороны Китая.

https://github.com/vllm-project/vllm/pull/33523
⚡️ Хотите собрать своего личного JARVIS, но Clawdbot кажется слишком сложным для развёртывания и понимания?

Попробуйте - nanobot: ультралёгкая версия Clawdbot (на 99% проще), которая поднимает персонального AI-ассистента меньше чем за минуту.

⚡️ Базовый функционал всего в ~4 000 строк Python - против 400k+ строк у Clawdbot.

Ключевые особенности nanobot:

🪶 Ультралёгкий — ~4 000 строк кода, только ядро без перегруза.
🔬 Удобен для исследований — чистый, понятный код, легко менять и расширять.
⚡️ Быстрый — минимальный размер = быстрый старт, меньше ресурсов, быстрые итерации.
💎 Простой в использовании — один запуск, и ассистент уже работает.

Что умеет nanobot:

📈 24/7 анализ рынка в реальном времени — мониторинг и инсайты.
🚀 Full-stack софт-инженер — помощь в разработке от идеи до продакшена.
📅 Умный менеджер рутины — помогает организовать день и задачи.
📚 Персональный ассистент по знаниям — хранение, поиск и работа с информацией.

Если хочется своего AI-агента без монструозной инфраструктуры — это именно тот старт, который нужен.

🔗 Open Source: https://github.com/HKUDS/nanobot

#Clawdbot #AIAssistant #Agents

@pythonl
SpaceX запросила разрешение у Federal Communications Commission на создание орбитальных дата-центров для ИИ.

По данным Reuters, речь идет о созвездии из 1 миллиона спутников на солнечной энергии, которые будут не просто передавать сигнал, а запускать вычисления прямо в космосе.


Инфраструктура ИИ - на орбите
Не связь, а реальные вычислительные узлы над Землей.

Почему это огромный шаг

• нет ограничений электросетей на Земле
• не нужны земли, здания и традиционное охлаждение
• практически бесконечная солнечная энергия
• потенциально низкие задержки через космические сети
• колоссальная пропускная способность

Вместо того чтобы строить все более гигантские дата-центры на планете, часть «железа» ИИ хотят вынести за пределы Земли.

Каждый спутник - это солнечная электростанция + вычислительный узел. Орбита превращается в распределенный слой энергии и вычислений.

Если проект одобрят, это начало новой эпохи:

ИИ-инфраструктура → облако
облако → орбита
орбита → новый физический уровень интернета

Мы больше не просто масштабируем ИИ.

Мы меняем место, где физически находится мозг цифровой цивилизации.
📌Ян Лекун: индустрия движется в тупик, игнорируя реальный путь к AGI.

Один из пионеров глубокого обучения и лауреат премии Тьюринга Ян Лекун резко критикует вектор развития ИИ.

Покинув пост в империи Марка Цукерберга в ноябре прошлого года, он говорит, что Кремниевая долина стала жертвой стадного чувства.

Исключительный фокус на больших языковых моделях — это тупиковый путь, который не приведет к созданию AGI, несмотря на колоссальные инвестиции.


Лекун утверждает, что индустрия буквально одурманена LLM. Фундаментальная проблема архитектуры трансформеров заключается в отсутствии способности к планированию и пониманию физического мира.

Системы, построенные на них обучаются исключительно на цифровых массивах данных; они могут предсказывать текст, но не понимают причинно-следственных связей реальности и не могут моделировать последствия своих действий.

Масштабирование языковых моделей имеет жесткий предел и не позволит достичь даже уровня человеческого интеллекта, не говоря уже о сверхразуме.


Для реализации своего видения Лекун основал Advanced Machine Intelligence Labs (AMI Labs). Стартап планирует создание систем, способных строить планы и прогнозировать исходы событий - то, чего лишены современные генеративные модели.

Отдельно досталось американским техно-гигантам за секретность. Лекун считает отказ от Open Source катастрофой и стратегической ошибкой.

Пока корпорации в США прячут разработки под замок, пытаясь сохранить лидерство, китайские компании используют открытый код и могут перехватить инициативу за счет скорости и креативности.



@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Чувствуешь перегруз в разработке? Выдели 1 час и прокачай самый важный навык 2026 года - работу с LLM.

Большинство устали сейчас не от кода.

Она от того, что мы пытаемся использовать ИИ “на ходу”, без понимания его возможности.

Это такой же навык, как и другие. Его нужно тренировать.

Вот простой старт:

Подготовка

1. Подключи Anthropic Pro ($20) с прицелом позже перейти на 5× Max
2. Установи Claude Code
3. Используй модель Opus 4.5 (она стоит по умолчанию)

Рабочий цикл

1. Включи режим планирования
2. Попроси модель спланировать одну маленькую фичу
3. Когда план тебя устраивает - включай авто-принятие правок
4. Если видишь, что модель “уезжает не туда” - сразу ставь на паузу
5. Очищай контекст и переходи к следующей фиче

И так по кругу.

Задача не в том, чтобы получить идеальный код.
Задача - нащупать границы модели:

- что она делает быстро и качественно
- где начинает придумывать
- какие задачи ей давать выгодно
- где проще и безопаснее сделать самому

Через 10-20 часов такой осознанной практики ИИ перестаёт быть “магией” или “разочарованием” и становится нормальным рабочим инструментом, который реально снимает нагрузку.
🤖 Превращаем YouTube-видео в удобную документацию для ИИ
Вместо просмотра часов видео - получаем структурированный текст, который можно сразу скормить LLM.

Просто вставляешь ссылку — и инструмент автоматически собирает в один документ:

• метаданные видео
• описание
• миниатюру
• полную стенограмму
• комментарии
• переводы на разные языки

Всё аккуратно структурировано и хорошо индексируется - идеально для поиска, анализа и работы с ИИ.

Опенсорс. Работает мгновенно.
Теперь даже длинные туториалы становятся нормальной документацией.

Да, и разбирать обучалки индусов стало в разы проще 😏

https://youtubetodoc.com/
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ GLM-OCR 0.9B - мощный OCR для сложных документов

Модель показывает SOTA-результаты в задачах понимания документов, оставаясь компактной и быстрой.

Она справляется там, где обычный OCR ломается:

- распознавание формул
- извлечение таблиц
- структурированное извлечение информации
- сложная разметка документов

И всё это при размере менее 1 миллиарда параметров - без тяжёлых инфраструктурных требований.

Подходит для:
- научных статей
- финансовых отчётов
- технической документации
- PDF со сложной версткой

Модель не просто “читает текст”, а понимает структуру страницы.

Веса: http://huggingface.co/zai-org/GLM-OCR
Демо: http://ocr.z.ai
API: http://docs.z.ai/guides/vlm/glm-ocr
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Маленькие LLM вместе могут конкурировать с гигантскими моделями, если заставить их спорить правильно

Вместо одной огромной модели используется группа более простых моделей, которые критикуют друг друга и по кругу улучшают общий ответ.

Идея из исследования *Mixture-of-Models: Unifying Heterogeneous Agents via N-Way Self-Evaluating Deliberation*.

В чём суть

Систему строят не как один “мозг”, а как команду моделей:

1. Несколько разных LLM дают первоначальные ответы
2. Они читают ответы друг друга
3. Критикуют, дорабатывают и предлагают улучшения
4. Лучшие идеи проходят дальше
5. Процесс идёт раундами, пока качество растёт

Это называется N-Way Self-Evaluating Deliberation — многостороннее самооценивание с повторным обсуждением.

Почему это работает

- Плохие ранние ответы можно исправить на следующих раундах
- Ошибки одной модели подхватываются другими
- Идеи не “залипают” в первой версии

Чтобы ни одна модель не доминировала:

- используется анонимная оценка
- применяется квадратичное голосование, чтобы лучшая идея побеждала честно

Роль брокера

Специальный “брокер” выбирает, какие модели лучше подходят под конкретную задачу, а дальше они работают как команда, перепроверяя друг друга.

Главный вывод

Исследователи показывают, что consumer-модели могут конкурировать с сильнейшими LLM, если:

- есть структурированная система раундов
- есть механизм критики
- есть правила отбора лучших ответов

Система меняет вычисления на “память”:

вместо огромной модели используется больше раундов текстовой обратной связи.

Чуть больше времени — но гораздо дешевле железо.

Что это означает на практике

Можно временно собрать “сильную” модель из набора разных LLM:

- без дообучения
- без гигантских GPU
- просто через правильную организацию взаимодействия

Это способ усилить интеллект системы за счёт структуры, а не размера.

Статья: arxiv.org/abs/2601.16863
Please open Telegram to view this post
VIEW IN TELEGRAM
Ровно год назад Андрей Карпаты внес в инфополе термин, который сделал прокрастинацию частью инженерной методологии - ВАЙБКОДИНГ.

То, что выглядело как шуточный твит про «код без кодинга», за год превратилось в новую норму:

мы уже не пишем код - мы задаём настроение, а дальше пусть ИИ ловит поток.

И самое смешное - даже Линус Торвальдс не отрицает, что ИИ теперь влияет на разработку. Всё, приехали. Будущее наступило, и оно автокомплитит.

С праздником всех, кто пишет меньше, деплоит смелее и в глубине души верит, что оно как-нибудь само заведётся 🤣
🚀 Tencent мощно заходит в тему context learning.

Вышел open-source бенчмарк CL-bench - и это не просто очередной датасет, а попытка сдвинуть фокус всей индустрии.

Tencent HY совместно с Fudan University выпустили новую работу:
“CL-bench: A Benchmark for Context Learning” - системный бенчмарк для оценки того, *насколько модели реально умеют думать в контексте*, а не просто вспоминать выученное.

Это первый ресерч-релиз команды Vinces Yao после его перехода в Tencent - и по амбициям видно, что ребята метят в фундаментальные изменения.

Сегодня большинство LLM живут по схеме:
огромные веса + запомненные паттерны = ответы

Но реальный мир - это не экзамен по памяти. Это:

- длинные, запутанные контексты
- противоречивая информация
- необходимость менять стратегию по ходу
- выводы на основе того, что появилось только что

Моделям нужно переходить от static memorization к dynamic reasoning inside context.

CL-bench как раз проверяет это место разлома:

- как модель использует контекст, а не только веса
- умеет ли она обновлять понимание
- способна ли рассуждать в сложных сценариях, а не на чистых QA-задачах

По сути - это шаг в сторону моделей, которые ближе к агентам, чем к “умным автокомплитам”.

Плюс стратегический сигнал

Одновременно Tencent запускает Tencent HY Research - блог, где будут публиковать frontier-исследования.

Это выглядит как заявка:
“Мы не просто треним большие модели. Мы хотим влиять на то, как их вообще оценивают.”

А это уже уровень влияния на направление всей области.
CL-bench - это не про +0.5% на лидерборде.
Это про смену парадигмы:

LLM будущего = меньше зубрежки, больше мышления в живом контексте.

И если эта линия выстрелит - именно такие бенчмарки будут решать, кто реально сделал “умную” модель, а кто просто раздул параметры.

🌐 Project Page: http://clbench.com
📖 Blog: https://hy.tencent.com/research
🔥 Xcode получила мощный апдейт - Apple добавила в IDE настоящее agentic-программирование.

Теперь это уже не просто «ИИ-подсказки», а почти автономный напарник внутри среды разработки.

Что это значит для вайбкодинга:

• Xcode 26.3 теперь глубоко интегрирована с агентными SDK от Anthropic (Claude) и OpenAI (Codex).
Если раньше ИИ работал по принципу «запрос → ответ», то теперь он может самостоятельно выполнять длинные цепочки задач прямо внутри IDE.

• ИИ дали «глаза и уши» проекта:
доступ к документации, структуре файлов, настройкам проекта и — самое сочное — к Previews.
То есть модель не просто пишет UI-код, а видит результат и сама его дорабатывает, как настоящий разработчик.

• Появилась поддержка Model Context Protocol (MCP) - можно подключать сторонних ИИ-агентов и расширять систему под свои пайплайны.

Короче, Xcode превращается из редактора кода в операционную систему для ИИ-разработчиков.

Похоже, у Apple ещё очень даже есть чем стрелять 😏

https://www.apple.com/newsroom/2026/02/xcode-26-point-3-unlocks-the-power-of-agentic-coding/
🚀 Вышла новая модель для кодинга - Qwen3-Coder-Next (линейка Qwen).

Это open-weight LM, заточенная под кодинг-агентов и локальную разработку.

Что внутри
:

🤖 Около 800K проверяемых задач + окружения, где код можно реально исполнять, а не просто генерировать текст.

📈 Баланс эффективность / качество
Модель с 80B общих параметров и ~3B активных показывает сильные результаты на SWE-Bench Pro при относительно экономичном инференсе.

Экосистема инструментов
Заявлена поддержка сценариев с агентами и дев-инструментами: OpenClaw, Qwen Code, Claude Code, веб-разработка, работа через браузер, Cline и т.д.

В целом это ещё один шаг к моделям, которые проектируются не просто как "LLM для текста", а как движок для реальных кодинг-агентов.

🤗 Hugging Face: https://huggingface.co/collections/Qwen/qwen3-coder-next
🤖 ModelScope: https://modelscope.cn/collections/Qwen/Qwen3-Coder-Next
📝 Blog: https://qwen.ai/blog?id=qwen3-coder-next
📄 Tech report: https://github.com/QwenLM/Qwen3-Coder/blob/main/qwen3_coder_next_tech_report.pdf

@data_analysis_ml
⚡️ Появился любопытный open-source проект на стыке LLM и кибербезопасности - PentestAgent.

Это система AI-агентов для black-box пентеста, где атака моделируется как оркестрация нескольких специализированных агентов, а не один «умный бот».

Что он делает

В автономном режиме система может прогонять целые пайплайны, имитируя работу red team:

- цепочки разведки (recon)
- анализ уязвимостей
- попытки эксплуатации
- формирование отчётов

Инструменты подключены напрямую

Агенты умеют работать с классическими пентест-утилитами:

- Nmap
- Metasploit
- FFUF
- SQLMap

То есть это не «LLM рассуждает в вакууме», а связка LLM + реальные security-инструменты.

Архитектурные фишки

- RAG для подтягивания контекстных знаний
- tool chaining — агенты передают результаты друг другу
- встроенный браузер и поиск
- dockerized окружение с инструментами
- всё это оркестрируется «командами» LLM-агентов

По сути, это попытка превратить пентест из набора ручных шагов в агентную систему с автоматическим циклом разведка → анализ → действие → отчёт.

github.com/GH05TCREW/pentestagent
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🚀 Вышла интересная open-source модель - MiniCPM-o 4.5

MiniCPM-o 4.5 позиционируется как full-duplex omni-modal LLM.
Проще говоря, модель может:

- одновременно видеть (видео/изображение)
- слушать (аудио)
- говорить

и делать это в реальном времени, без режима "подожди, я сначала дослушаю". Больше похоже на живой диалог, чем на поочередные запросы.

Не только отвечает, но и проявляет инициативу

Заявлена поддержка проактивного поведения - модель может не просто реагировать на вопросы, а, например, сама инициировать напоминания или действия в рамках диалога.

По метрикам

С 9B параметрами модель показывает 77.6 на OpenCompass и, по авторам, обходит GPT-4o и Gemini 2.0 Pro в ряде vision-language задач. Для такого размера это сильный результат.

Практический момент

Главный плюс - это open-source, и всё можно крутить локально на ПК, а не только через облачные API.

Модель: MiniCPM-o 4.5
Страница: Hugging Face (openbmb / MiniCPM-o-4_5)
🚀 Новое исследование Anthropic

ИИ ускоряет работу, но может замедлять рост навыков, если на него слишком сильно опираться во время обучения.

Как проводили эксперимент

Сделали рандомизированное исследование:

- 52 разработчика
- никто не знал Python-библиотеку Trio
- всем дали небольшую задачу
- половине разрешили пользоваться AI-помощником
- половине — нет

После выполнения задания всех протестировали без ИИ, чтобы проверить реальные знания.

Результат

Группа с ИИ показала результаты на ~17% хуже:

- без ИИ: ~67%
- с ИИ: ~50%

Самая сильная просадка — в дебагинге, то есть поиске и исправлении ошибок.

Почему так происходит

Похоже на калькулятор при изучении математики:

- ответы есть
- навык «разруливать самому» развивается хуже

Группа без ИИ чаще ошибалась и вынуждена была разбираться — и именно эта борьба, похоже, и дала лучший результат на тесте.

Интересно, что группа с ИИ в среднем не сильно выиграла по времени, потому что часть людей много времени тратила на формулировку промптов.

Но есть нюанс

Исследователи заметили разницу в стиле использования:

- кто использовал ИИ как «костыль» — учился хуже всего
- кто использовал ИИ как «репетитора» («почему это работает?», «объясни шаги») — терял меньше в обучении

Главная мысль

ИИ может помочь закрыть задачу сегодня,
но сделать слабее в самостоятельном решении проблем завтра.

А реальная разработка — это в основном:

- чтение чужого кода
- поиск багов
- понимание сложной логики

Если это постоянно делает ИИ, навык растёт медленнее.

Более безопасный подход

Использовать ИИ для:

- объяснений
- подсказок
- направления мысли

Но ключевые части писать и дебажить самому.

https://www.anthropic.com/research/AI-assistance-coding-skills
🚨 Теперь можно запускать 70B LLM на видеокарте с 4GB VRAM

AirLLM буквально выбивает почву из аргумента “для больших моделей нужно дорогое железо”.

Фреймворк позволяет запускать модели размером до 70B параметров даже на GPU с 4GB видеопамяти.

Как это возможно?

Вместо загрузки всей модели в память сразу, AirLLM:

- подгружает модель по слоям
- выполняет вычисления
- освобождает память
- переходит к следующему слою

Фактически, это потоковая обработка модели.

Более того, авторы показывают запуск Llama 3.1 405B на 8GB VRAM.

Что это даёт разработчикам:

- не требуется квантование по умолчанию
- можно запускать Llama, Qwen, Mistral, Mixtral локально
- работает на Linux, Windows и macOS
- не нужен сервер с огромным GPU

Это сдвигает барьер входа для локального LLM-разработки и экспериментов.

AirLLM полностью open source - можно использовать, изучать и встраивать в свои пайплайны.

https://github.com/0xSojalSec/airllm
🖥 Полезный совет, если Docker «жрёт» всю оперативку и ты не понимаешь, куда она делась.

На macOS и Windows Docker Desktop работает через виртуалку. Контейнеры живут внутри этой VM, и если лимиты не настроены, Docker может разогнаться и занять гигабайты RAM, даже если ты думаешь, что запустил «всего пару сервисов».

Что стоит сделать сразу:

1. Ограничь ресурсы Docker
Зайди в настройки Docker Desktop → Resources и поставь явный лимит по RAM и CPU. Иначе VM будет забирать память «про запас».

2. Следи за контейнерами, а не только за хостом
Проверь, что реально ест память:

docker stats

Очень часто виноват не Docker как таковой, а один контейнер с утечкой памяти.

3. Не держи всё запущенным постоянно
Dev-окружения любят накапливаться:


docker ps -a
docker stop <container>
docker rm <container>

4. Чисти мусор
Образы, volume и старые контейнеры тоже занимают ресурсы:


docker system prune -a

5. Если база в контейнере - будь особенно осторожен
Postgres, Elasticsearch, Kafka внутри Docker легко съедают гигабайты RAM при дефолтных настройках.

Главная мысль - Docker «жрёт RAM» не потому что он плохой, а потому что это полноценная виртуальная среда. Без лимитов она будет вести себя как отдельный компьютер внутри твоего компьютера.
Please open Telegram to view this post
VIEW IN TELEGRAM