Машинное обучение digest
62 subscribers
2.83K photos
462 videos
1.73K links
Download Telegram
🌟 NVIDIA Nemotron-Cascade 2: MoE на 30B параметров и золото на математических олимпиадах.

Nemotron-Cascade 2 - вторая в мире открытая языковая модель, получившая золотую медаль сразу на 3 соревнованиях 2025 года: IMO, IOI и финале ICPC.

До нее это удавалось только DeepSeek-V3.2-Speciale, модели с 671B параметров и 37B активных. У Nemotron-Cascade 2 параметров в 20 раз меньше: 30B общих, 3B активных.

🟠На IMO 2025 модель решила 5 задач из 6 и набрала 35 из 42 баллов.
🟠На IOI - 439 из 600, что соответствует золоту.
🟠На ICPC World Finals 10 задач из 12, это 4 место в золотой зоне. При этом 8 задач ICPC были решены менее чем за 100 попыток.

🟡Архитектура

MoExperts на базе Nemotron-3-Nano-30B-A3B-Base. Отличие от первой версии - расширенный Cascade RL, где обучение с подкреплением проходит последовательно по доменам: сначала следование инструкциям, затем мультидоменное RL, потом дистилляция, RLHF, работа с длинным контекстом, код и, наконец, задачи программной инженерии.

🟡Multi-Domain On-Policy Distillation (MOPD)

На каждом этапе Cascade RL выбирается лучший промежуточный чекпоинт по конкретному домену и используется как учитель. Поскольку все учителя происходят от одной SFT-инициализации, они делят токенайзер и словарь, что упрощает дистилляцию.

MOPD работает на уровне отдельных токенов, а не последовательностей, и сходится быстрее, чем классический GRPO: на AIME 2025 достигает уровня учителя за 30 шагов оптимизации.

🟡Тесты

На бенчмарках модель обходит Qwen3.5-35B-A3B и более крупную Nemotron-3-Super-120B-A12B в математике, коде и следованию инструкциям.

🟢LiveCodeBench v6: 88.4 (у Qwen3.5 74.6);
🟢ArenaHard v2: 83.5 против 65.4 у Qwen3.5;
🟢IFBench: 82.9 против 70.2;
🟢На Codeforces модель набрала рейтинг 2345 с TIR (на уровне моделей с 300B+ параметров).

🟡Слабые места

Задачи, требующие глубоких знаний (MMLU-Pro, GPQA-Diamond) и агентные сценарии (BFCL v4, τ²-Bench, SWE Verified). Тут Qwen3.5 пока впереди.

NVIDIA обещает подтянуть наукоёмкий претрейн и агентный RL в следующих версиях Nemotron-Cascade.


📌Лицензирование: NVIDIA Open Model License.


🟡Модель
🟡SFT-датасет
🟡RL-данные
🟡Техотчет


@ai_machinelearning_big_data

#AI #ML #LLM #Nemotron #Cascade2 #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ ByteDance нашли способ сделать MoE-модели реально умнее без увеличения стоимости

Современные LLM используют Mixture-of-Experts (MoE): задачи распределяются между “экспертами” через специальный роутер.

Проблема?
Роутер по сути угадывает.
Он не знает, какой эксперт в чём действительно силён.

👉 В итоге:
- часть экспертов недоиспользуется
- часть получает нерелевантные задачи
- модель теряет эффективность

🧠 Что сделали исследователи

Они добавили дополнительное правило обучения (auxiliary loss), которое:
заставляет роутер выбирать экспертов строго по их реальным “навыкам”.

Как это работает:
- в систему подается маленький “тестовый” сигнал
- проверяется, какой эксперт реагирует сильнее
- роутер обучается совпадать с этим выбором

📈 Результат

- модели до 15B параметров
- стабильный рост качества на бенчмарках
- без увеличения latency и стоимости

💡 Почему это важно

Теперь MoE:
- становится более специализированным
- лучше использует вычисления
- дает больше качества за те же деньги

Фактически, это шаг к более “осознанному” распределению интеллекта внутри моделей.

И это может стать стандартом для будущих архитектур.

Paper: Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss
arxiv. org/abs/2512.23447
📢 Docker Workflow просто и понятно

Docker кажется сложным, пока не разложишь его на 5 элементов 👇

1. Docker Client
Это то, с чем ты работаешь каждый день:
команды build, push, pull, run

2. Docker Host + Daemon
“Мозг” Docker на машине
- хранит образы
- запускает контейнеры
- управляет всем процессом

3. Docker Registry
Хранилище образов
(например: MySQL, NGINX, Redis)
Ты либо скачиваешь оттуда, либо пушишь свои

4. Images vs Containers
- Image - это шаблон
- Container - это запущенный image

5. Как всё работает вместе

- build → создаешь image
- push → отправляешь в registry
- pull → скачиваешь image
- run → запускаешь container

💡 Вся магия Docker-— это просто поток:

Client → Daemon → Registry → Container

Если понимаешь этот flow - понимаешь Docker.

Именно это спрашивают на собеседованиях.
🚨 В открытом GitHub утекло 29 миллионов секретов за прошлый год

Пароли. API-ключи. Токены.

И почти всегда это происходит по одной причине, разработчик просто не заметил.

Есть бесплатный инструмент, который ловит такие вещи ДО релиза.

Называется Trivy.

Одна команда и он проверяет весь твой стек:
контейнеры, код, Kubernetes, cloud - всё сразу.

• Без платных тарифов
• Без продажников
• Без “enterprise only”

Просто запускаешь и получаешь отчёт.

Что он находит:

→ уязвимости во всех зависимостях и пакетах
→ пароли, API-ключи и секреты в коде
→ ошибки конфигурации в cloud и контейнерах
→ проблемы с лицензиями
→ полный список всего, что ты деплоишь

brew install trivy
trivy image your-app:latest

Две строки и у тебя полный security-аудит.

https://github.com/aquasecurity/trivy
🤯 AI не даёт роста экономике США? Не всё так очевидно

«Инвестиции в AI почти никак не повлияли на рост экономики США в прошлом году»


- главный экономист Goldman Sachs Ян Хациус

Звучит странно, учитывая миллиарды, которые вливаются в ИИ.

Но вот в чём нюанс 👇

👉 большая часть оборудования для AI (чипы, серверы) импортируется
👉 деньги уходят в экономики других стран — например, Тайваня и Южной Кореи
👉 в ВВП США это почти не отражается

То есть компании тратят огромные бюджеты на AI, но эти расходы “засчитываются” в рост других экономик.

Фактически:

💸 деньги - из США
🏭 производство - за пределами США
📊 рост ВВП - тоже не в США

Это один из первых сигналов, что AI-бум может не так прямо влиять на экономику, как все ожидали.


gizmodo.com/ai-added-basically-zero-to-us-economic-growth-last-year-goldman-sachs-says-2000725380
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 16 лучших GitHub-репозиториев для AI-инженера в 2026 (сохрани и не потеряй)

Я собрал 16 ключевых инструментов, которые прямо сейчас формируют стек AI-разработчика 👇

🧠 Агенты и фреймворки

1) OpenClaw
→ персональный AI-агент, работает на твоих устройствах и подключается к 50+ платформам

2) AutoGPT
→ платформа для создания и запуска автономных AI-агентов

3) LangChain
→ база для создания LLM-приложений и агентных систем

4) OpenCode
→ AI-кодинг агент прямо в терминале

🤖 Модели и локальный запуск

5) Hugging Face Transformers
→ главный фреймворк для SOTA моделей (текст, vision, audio)

6) Ollama
→ запуск LLM локально одной командой

7) vLLM
→ быстрый и эффективный inference-движок для продакшена

8) Unsloth
→ ускоренный fine-tuning (x2 быстрее, -70% памяти)

🧩 Инструменты и UI

9) Open WebUI
→ self-hosted альтернатива ChatGPT с RAG и плагинами

10) ComfyUI
→ визуальный workflow для генерации изображений и видео

11) Sim
→ drag-and-drop конструктор AI пайплайнов

📊 Данные, RAG и инфраструктура

12) Firecrawl
→ превращает любой сайт в markdown/структурированные данные

13) Airweave
→ слой контекста: синхронизация 50+ источников для агентов

14) Opik
→ мониторинг, трейсинг и оценка LLM-приложений

🧾 Специализированные модели

15) OpenPipe ART
→ обучение multi-step AI-агентов через reinforcement learning

16) Chandra OCR
→ SOTA OCR для таблиц, форм, рукописного текста и 90+ языков

💡 Это не просто “популярные репы”
Это реальные кирпичи, на которых строятся AI-продукты сегодня

Если ты делаешь:
- LLM-приложения
- AI-агентов
- RAG-системы

→ ты уже используешь часть этого стека (или скоро будешь)

Сохрани пригодится для проектов и собеседований 🚀
🏚 Один промпт - минус $30K комиссии: как ChatGPT продал дом!

ChatGPT продал дом быстрее и дороже, чем риелторы. И это тревожный сигнал для рынка

История началась как обычный эксперимент. Мужчина из Флориды собирался продать дом и, как это делают все, сначала поговорил с риелторами. Ему назвали примерную цену, стандартную стратегию и, конечно, комиссию.

Но дальше он решил проверить одну идею: а что если вообще не использовать людей?

Вместо агента он открыл ChatGPT.

Он начал с простого, попросил ИИ проанализировать рынок. ChatGPT разобрал похожие дома в районе, подсказал диапазон цен и предложил стратегию: не занижать стоимость, а наоборот — выставить чуть выше, чтобы создать ощущение ценности.

Дальше - больше.

Он попросил ИИ написать объявление. Не просто текст, а описание, которое “продаёт”: с правильными акцентами, эмоцией, выгодами. Затем — советы по подготовке дома. ChatGPT предложил, какие комнаты стоит освежить, какие детали убрать, а где наоборот добавить “вау-эффект”.

Фактически, ИИ стал его маркетологом, дизайнером и стратегом одновременно.

Дом выставили.

И тут началось самое интересное.

В первые три дня пришло сразу несколько предложений. Люди активно интересовались, записывались на просмотры. Через пять дней сделка была закрыта.

Финальная цена, почти на $100,000 выше, чем ожидали риелторы.

Комиссия - ноль.

Это не история про “заменили одного специалиста”. Это история про то, как один инструмент закрыл сразу несколько ролей:
- аналитика рынка
- копирайтера
- маркетолога
- консультанта

И сделал это быстрее.

Самое важное здесь даже не деньги. А то, насколько сильно изменилась сама логика процесса.

Раньше, чтобы продать дом, нужно было:
найти агента → согласовать стратегию → ждать → платить комиссию.

Теперь достаточно:
открыть ChatGPT → задать правильные вопросы → действовать.

Та же модель уже применяется в других сферах:
люди используют ИИ для переговоров, составления контрактов, анализа сделок, запуска рекламы.

Постепенно исчезает не профессия целиком, а её “рутинная часть”.
Та самая, за которую раньше платили больше всего.

И вот тут становится немного не по себе.

Потому что если ChatGPT может продать дом…. то что ещё он сможет сделать через год?
🔥 Очень любопытный проект: Supermemory показал 99% на SOTA-бенчмарке памяти

• Supermemory набрал ~99% на LongMemEval_s с использованием экспериментальной техники ASMR (Agentic Search and Memory Retrieval)

• Вместо классического vector search и embeddings используется система параллельных агентов-наблюдателей, которые извлекают структурированные знания из истории взаимодействий сразу по нескольким направлениям

• Используются специализированные поисковые агенты:
→ для точных фактов
→ для связанного контекста
→ для восстановления временной последовательности

• И самое интересное, никакой векторной базы данных не требуется

🚀 Проект станет open-source уже через 11 дней, следим:

https://x.com/DhravyaShah/status/2035517012647272689
📌 NousResearch подвела итоги хакатона Hermes Agent.

NousResearch завершила хакатон, запущенный в конце февраля вслед за релизом Hermes Agent.

Из 187 заявок жюри отобрало финалистов по 3 критериям: креативность, практическая польза и качество презентации. Призовой фонд составил $11 750.

🟡Первое место и $7 500 забрал проект Media Tool

Это набор инструментов для обработки видео и аудио, который встраивается в Hermes как нативный скилл.

Загружаете файл в чат, описываете задачу текстом и получаете результат: обрезка, сжатие, конвертация форматов, наложение субтитров, генерация GIF-файлов, создание стикеров для Telegram или нормализация звука. Под капотом - ffmpeg. Работает через Telegram, Discord и CLI.

🟡На втором месте ($2 500) - Hermes Agentic CAD Builder.

Агент находит реальные комплектующие в каталоге McMaster-Carr, подставляет фактические размеры найденной детали в параметрическую модель FreeCAD, анализирует, какие элементы сборки конфликтуют после изменений, и ведет спецификацию.

При обнаружении повторяющихся сценариев агент сам создает новые скиллы - например, для подбора определенного типа крепежа.

🟡Третье место ($1 000) получил Hermes Sidecar.

Браузерное расширение, которое открывает чат с Hermes Agent рядом с любой страницей. Фишка проекта - селективный контекст: агент видит только то, что пользователь выбрал (текст страницы, выделенный фрагмент, изображения, содержимое PDF). Поддерживаются кастомные темы, голосовой ввод, TTS и работа через SSH.

🟡Четвертое место ($500) - Terminal World Map with Live News.

Спутниковые снимки рендерятся цветными юникод-блоками прямо в терминале, поверх отображаются города из OpenStreetMaps и заголовки новостей, привязанные к координатам в реальном времени. Геокодинг-пайплайн определяет локации из заголовков, расставляет приоритеты по населению и близости к другим видимым новостям. Автор собрал проект за один день, работая через Hermes Agent с Opus 4.6.

🟡Пятое место ($250) досталось HERMES Mars Rover

Симуляция автономного марсохода. Hermes Agent управляет моделью NASA Perseverance в среде Gazebo: планирование маршрута, считывание показаний IMU, четырех камер, LIDAR и контактных сенсоров, обход препятствий и генерация отчета о миссии.

Марсианская физика с гравитацией, проскальзыванием колес и динамикой ODE. За 25 минут автономной работы точность возврата на базу ~ 22 см. Ровер останавливается при наклоне больше 25°, сохраняет удачные треки и улучшает поведение от сессии к сессии.

Кстати, Hermes Agent написал роман «The Second Son of the House of Bells» - 79 456 слов, 19 глав. Агент выстроил собственный пайплайн по схеме, похожей на Autoresearch Андрея Карпатого: мироконструирование, черновики глав, состязательное редактирование, ревью через Opus, верстка в LaTeX, генерация обложки и аудиокниги.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Лучшие GitHub-репозитории для Claude Code, которые могут увеличить эффективность твоего следующего проекта

1. Superpowers
https://github.com/obra/superpowers

2. Awesome Claude Code
https://github.com/hesreallyhim/awesome-claude-code

3. GSD (Get Shit Done)
https://github.com/gsd-build/get-shit-done

4. Claude Mem
https://github.com/thedotmack/claude-mem

5. UI UX Pro Max
https://github.com/nextlevelbuilder/ui-ux-pro-max-skill

6. n8n-MCP
https://github.com/czlonkowski/n8n-mcp

7. Obsidian Skills
https://github.com/kepano/obsidian-skills

8. LightRAG
https://github.com/hkuds/lightrag

9. Everything Claude Code
https://github.com/affaan-m/everything-claude-code

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml
🤖 Этот open-source репозиторий даёт твоему ClawdBot “зрение”

Это AI-ассистент в реальном времени для умных очков Meta Ray-Ban.

Он объединяет:
→ голос
→ зрение
→ действия агента

Работает через Gemini Live и OpenClaw.

Как это выглядит:

Ты надеваешь очки → нажимаешь кнопку AI → просто говоришь

Дальше:

• Gemini видит через камеру очков и описывает происходящее
• передаёт задачу в OpenClaw
• OpenClaw выполняет её через подключённые приложения

Можно:
→ отправлять сообщения в WhatsApp / Telegram / iMessage
→ искать информацию в интернете
→ получать ответы голосом

📊 Технически:

• камера очков передаёт изображение примерно 1 кадр в секунду в Gemini
• аудио работает в обе стороны в реальном времени
• OpenClaw выполняет действия как агент

По сути, это полноценный AI-ассистент, который видит мир вместе с тобой

https://github.com/Intent-Lab/VisionClaw

🐍 Python полезные ресурсы 🚀Max
🔥 Tencent встроила OpenClaw прямо в WeChat

Tencent запустила нативный инструмент, который интегрирует популярного open-source AI-агента OpenClaw прямо в WeChat - самый популярный мессенджер Китая.

Теперь это выглядит как обычный контакт внутри WeChat.

Более 1 миллиарда пользователей могут просто написать агенту в чат и давать команды.

Например:
→ отправка файлов
→ управление email
→ поиск информации в интернете
→ выполнение задач без ручного участия

И всё это через обычный диалог, как с человеком.

Это часть новой экосистемы AI-агентов от Tencent:

• QClaw - для обычных пользователей (desktop)
• Lighthouse - для разработчиков
• WorkBuddy - для бизнеса и компаний

AI-агенты больше не отдельные приложения.

Они становятся:
→ частью мессенджеров
→ частью повседневного общения
→ интерфейсом для выполнения задач

И если раньше ты открывал приложения, чтобы что-то сделать…

то теперь достаточно написать в чат.
🔥 Linux Performance & Deep Debugging команды, которые должен знать каждый DevOps-инженер

Когда дашборды уже не помогают - ты идёшь в ОС.

Вот 10 команд, которые реально используют в продакшн-инцидентах:

1. strace -p <PID> -c
→ трассирует системные вызовы процесса и показывает, на чём он завис

2. perf top -p <PID>
→ live-профилирование CPU, сразу видно “горячие” функции

3. tcpdump -i eth0 -w capture.pcap port 8080
→ захват сетевого трафика для глубокого анализа

4. ab -n 10000 -c 100 http://localhost/
→ быстрый нагрузочный тест: 10k запросов, 100 одновременно

5. kubectl debug node/node1 -it --image=busybox
→ подключение к ноде через временный контейнер

6. dmesg -T | grep -i 'oom'
→ проверка OOM kill событий ядра

7. lsof -i :8080
→ какой процесс занял порт

8. iostat -xz 1 5
→ статистика диска в реальном времени

9. vmstat -w 1 5
→ память, swap и CPU в динамике

10. kubectl debug pod/app -it --copy-to=debug-pod --image=nicolaka/netshoot
→ глубокая диагностика сети внутри кластера

Когда всё горит - именно эти команды спасают.

Сохрани перед следующим прод-инцидентом