Почитай это, если хочешь разобраться в ML-инфраструктуре.
https://www.sei.cmu.edu/blog/a-hitchhikers-guide-to-ml-training-infrastructure/
Это отличный обзор от CMU верхнего уровня про то, что важно учитывать при обучении ML-моделей. В статье разбираются:
Отдельно объясняется, почему GPU настолько важны для обучения моделей, чем они отличаются от CPU и какие аппаратные ограничения сильнее всего влияют на скорость обучения.
👉 @DataSciencegx
https://www.sei.cmu.edu/blog/a-hitchhikers-guide-to-ml-training-infrastructure/
Это отличный обзор от CMU верхнего уровня про то, что важно учитывать при обучении ML-моделей. В статье разбираются:
аппаратное обеспечение
память и пропускная способность памяти
процесс проведения ML-экспериментов
Отдельно объясняется, почему GPU настолько важны для обучения моделей, чем они отличаются от CPU и какие аппаратные ограничения сильнее всего влияют на скорость обучения.
Please open Telegram to view this post
VIEW IN TELEGRAM
SEI Blog
A Hitchhiker’s Guide to ML Training Infrastructure | CMU Software Engineering Institute
Hardware is a key enabler for machine learning. Recent advances in the field, including the introduction of graphics processing units, have had a significant impact on the training of AI systems.
ByteDance выкатили бумагу, от которой у NVIDIA может начать дёргаться глаз.
https://arxiv.org/html/2602.24286v1
Они натренировали агента, который пишет CUDA лучше многих людей.
Называется CUDA Agent.
Схема простая:
→ пишет CUDA-ядро
→ компилирует
→ гоняет профилировщик
→ ищет узкие места
→ переписывает код
→ повторяет цикл снова и снова
По сути это RL-агент, который бесконечно оптимизирует код под конкретное железо.
Самое интересное, что он начал находить оптимизации памяти и стратегии тайлинга, которые обычные компиляторы просто не видят.
Результаты на KernelBench получились очень жирными.
• до 3.2× быстрее стандартного исполнения через PyTorch
• на сложных задачах обошёл Claude Opus 4.5 и Gemini 3 Pro примерно на 40%
• регулярно генерирует более быстрые CUDA-ядра, чем традиционные компиляторы
Почему это важно?
Одна из главных причин доминирования NVIDIA заключается в том, что хороший CUDA-разработчик стоит дорого, а сама экосистема очень липкая.
Когда оптимизация под железо требует лет опыта, большинство компаний просто остаются внутри CUDA.
Но если агент способен сам писать и оптимизировать ядра...
то внезапно становится не так важно, какой у тебя чип.
Сегодня CUDA.
Завтра ROCm.
Послезавтра какой-нибудь кастомный AI-ускоритель.
Самый интересный вывод из всей истории:
возможно, главным конкурентным преимуществом скоро станет не сам SDK, а агент, который умеет автоматически выжимать максимум из любого железа.
👉 @DataSciencegx
https://arxiv.org/html/2602.24286v1
Они натренировали агента, который пишет CUDA лучше многих людей.
Называется CUDA Agent.
Схема простая:
→ пишет CUDA-ядро
→ компилирует
→ гоняет профилировщик
→ ищет узкие места
→ переписывает код
→ повторяет цикл снова и снова
По сути это RL-агент, который бесконечно оптимизирует код под конкретное железо.
Самое интересное, что он начал находить оптимизации памяти и стратегии тайлинга, которые обычные компиляторы просто не видят.
Результаты на KernelBench получились очень жирными.
• до 3.2× быстрее стандартного исполнения через PyTorch
• на сложных задачах обошёл Claude Opus 4.5 и Gemini 3 Pro примерно на 40%
• регулярно генерирует более быстрые CUDA-ядра, чем традиционные компиляторы
Почему это важно?
Одна из главных причин доминирования NVIDIA заключается в том, что хороший CUDA-разработчик стоит дорого, а сама экосистема очень липкая.
Когда оптимизация под железо требует лет опыта, большинство компаний просто остаются внутри CUDA.
Но если агент способен сам писать и оптимизировать ядра...
то внезапно становится не так важно, какой у тебя чип.
Сегодня CUDA.
Завтра ROCm.
Послезавтра какой-нибудь кастомный AI-ускоритель.
Самый интересный вывод из всей истории:
возможно, главным конкурентным преимуществом скоро станет не сам SDK, а агент, который умеет автоматически выжимать максимум из любого железа.
Please open Telegram to view this post
VIEW IN TELEGRAM
Кто-то взял Gemma 4 12B, снял цензуру, сделал аблитерацию модели и получил довольно неожиданный результат.
https://huggingface.co/AEON-7/Gemma-4-12B-it-AEON-Abliterated-K4-BF16
Новая версия показала более высокий результат на OpenAI HumanEval, чем официальный Gemma 4 12B.
Да, модель стала менее выровненной и при этом лучше справилась с задачами по программированию.
Пока доступна только в BF16.
Следующий шаг — NVFP4-квантизация. Интересно будет посмотреть, сохранится ли прирост после квантизации или это преимущество исчезнет вместе с частью весов.
Не каждый день увидишь, как "uncensored" версия обгоняет оригинал в кодинге.
👉 @DataSciencegx
https://huggingface.co/AEON-7/Gemma-4-12B-it-AEON-Abliterated-K4-BF16
Новая версия показала более высокий результат на OpenAI HumanEval, чем официальный Gemma 4 12B.
Да, модель стала менее выровненной и при этом лучше справилась с задачами по программированию.
Пока доступна только в BF16.
Следующий шаг — NVFP4-квантизация. Интересно будет посмотреть, сохранится ли прирост после квантизации или это преимущество исчезнет вместе с частью весов.
Не каждый день увидишь, как "uncensored" версия обгоняет оригинал в кодинге.
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
AEON-7/Gemma-4-12B-it-AEON-Abliterated-K4-BF16 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Туториалов по AI-агентам стало слишком много.
Большинство показывает очередного чат-бота на 50 строк кода, но не объясняет, как строить реальные агентные системы.
Наткнулся на хороший open-source репозиторий для изучения LangChain и LangGraph.
LangGraph 101 проводит путь от базовых агентов до более продвинутых паттернов через ноутбуки и готовые примеры.
Что внутри:
• Два уровня обучения: 101 для основ и 201 для продвинутых сценариев
• Пошаговые ноутбуки по моделям, инструментам, памяти, стримингу, middleware, guardrails и human-in-the-loop
• Готовые проекты: email triage, исследовательские агенты, multi-agent системы и Deep Agents
• Интеграция с LangGraph Studio для локальной разработки и hot reload
• Инструкции по настройке OpenAI, Azure OpenAI, AWS Bedrock и Google Vertex AI
По сути, это структурированная дорожная карта по LangGraph вместо десятков разрозненных статей и видео.
MIT License. Open Source.
https://github.com/langchain-ai/langgraph-101
👉 @DataSciencegx
Большинство показывает очередного чат-бота на 50 строк кода, но не объясняет, как строить реальные агентные системы.
Наткнулся на хороший open-source репозиторий для изучения LangChain и LangGraph.
LangGraph 101 проводит путь от базовых агентов до более продвинутых паттернов через ноутбуки и готовые примеры.
Что внутри:
• Два уровня обучения: 101 для основ и 201 для продвинутых сценариев
• Пошаговые ноутбуки по моделям, инструментам, памяти, стримингу, middleware, guardrails и human-in-the-loop
• Готовые проекты: email triage, исследовательские агенты, multi-agent системы и Deep Agents
• Интеграция с LangGraph Studio для локальной разработки и hot reload
• Инструкции по настройке OpenAI, Azure OpenAI, AWS Bedrock и Google Vertex AI
По сути, это структурированная дорожная карта по LangGraph вместо десятков разрозненных статей и видео.
MIT License. Open Source.
https://github.com/langchain-ai/langgraph-101
Please open Telegram to view this post
VIEW IN TELEGRAM
В большинстве учебников синус и косинус вводят через углы, измеряемые длиной дуги единичной окружности.
Но существует менее известный и при этом полностью строгий подход: определять угол через площадь кругового сектора.
В этой формулировке угол связывается не с длиной кривой, а с величиной, которую можно напрямую вычислить средствами интегрального исчисления.
Получается интересный взгляд на основы тригонометрии: вместо геометрических соглашений и интуитивных определений всё строится на анализе и математически строгих определениях.
Такой подход позволяет вывести тригонометрию из анализа и избежать части логических кругов, которые часто встречаются в классическом изложении темы.
В статье разбираются основы тригонометрии от единичной окружности до строгих аналитических определений синуса и косинуса.
Полный разбор⟶синус и косинус через анализ
👉 @DataSciencegx
Но существует менее известный и при этом полностью строгий подход: определять угол через площадь кругового сектора.
В этой формулировке угол связывается не с длиной кривой, а с величиной, которую можно напрямую вычислить средствами интегрального исчисления.
Получается интересный взгляд на основы тригонометрии: вместо геометрических соглашений и интуитивных определений всё строится на анализе и математически строгих определениях.
Такой подход позволяет вывести тригонометрию из анализа и избежать части логических кругов, которые часто встречаются в классическом изложении темы.
В статье разбираются основы тригонометрии от единичной окружности до строгих аналитических определений синуса и косинуса.
Полный разбор⟶синус и косинус через анализ
Please open Telegram to view this post
VIEW IN TELEGRAM
Если у вас уже 200 открытых вкладок с курсами, статьями и GitHub-репозиториями по ML, этот репозиторий может немного спасти ситуацию.
Awesome Machine Learning Resources — это огромная подборка подборок по машинному обучению, deep learning и AI.
Вместо бесконечного поиска по Google всё разложено по категориям:
• основы машинного обучения
• нейросети и современные архитектуры
• задачи и прикладные области
• датасеты
• библиотеки и инструменты
• fairness и AI ethics
• production ML и MLOps
У каждой ссылки есть короткое описание, поэтому можно быстро понять, стоит ли открывать её или пройти мимо.
Отдельно понравилось, что авторы помечают заброшенные подборки значком , если их не обновляли больше года.
https://github.com/ZhiningLiu1998/awesome-machine-learning-resources
👉 @DataSciencegx
Awesome Machine Learning Resources — это огромная подборка подборок по машинному обучению, deep learning и AI.
Вместо бесконечного поиска по Google всё разложено по категориям:
• основы машинного обучения
• нейросети и современные архитектуры
• задачи и прикладные области
• датасеты
• библиотеки и инструменты
• fairness и AI ethics
• production ML и MLOps
У каждой ссылки есть короткое описание, поэтому можно быстро понять, стоит ли открывать её или пройти мимо.
Отдельно понравилось, что авторы помечают заброшенные подборки значком , если их не обновляли больше года.
https://github.com/ZhiningLiu1998/awesome-machine-learning-resources
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Кто-то потратил несколько месяцев и вручную написал 200-страничный гайд по математике и основам машинного обучения.
Без маркетинговой воды и бесконечных ссылок между статьями. Просто попытка собрать всё самое важное в одном месте.
Внутри:
• нейросети: backpropagation, SGD, Adam, BatchNorm;
• классический ML: SVM, Gradient Boosting, K-Means, PCA;
• железо для AI: Tensor Cores, Systolic Arrays, CUDA;
• трансформеры: Multi-Head Attention, KV Cache, LoRA;
• компьютерное зрение: ViT, CNN, MAE, IoU, NMS, VLM;
• агентные системы: ReAct, память, оркестрация, OpenClaw.
Автор описывает его как материал, который хотел бы получить сам несколько лет назад.
И да, весь гайд распространяется бесплатно.
https://www.arjunvirk.com/writing/ml-guide
👉 @DataSciencegx
Без маркетинговой воды и бесконечных ссылок между статьями. Просто попытка собрать всё самое важное в одном месте.
Внутри:
• нейросети: backpropagation, SGD, Adam, BatchNorm;
• классический ML: SVM, Gradient Boosting, K-Means, PCA;
• железо для AI: Tensor Cores, Systolic Arrays, CUDA;
• трансформеры: Multi-Head Attention, KV Cache, LoRA;
• компьютерное зрение: ViT, CNN, MAE, IoU, NMS, VLM;
• агентные системы: ReAct, память, оркестрация, OpenClaw.
Автор описывает его как материал, который хотел бы получить сам несколько лет назад.
И да, весь гайд распространяется бесплатно.
https://www.arjunvirk.com/writing/ml-guide
Please open Telegram to view this post
VIEW IN TELEGRAM
Хотите не читать про AI Engineering, а реально что-то собрать?
Выложили в опенсорс коллекцию из 50+ практических туториалов по AI Engineering.
Внутри пошаговые проекты по:
• AI-агентам и мультиагентным системам
• RAG (Agentic, Vision и Local)
• MCP-агентам
• OCR-приложениям
• Голосовым AI-агентам
• и многому другому
Всё бесплатно, с исходниками и готовыми примерами.🥩
👉 @DataSciencegx
Выложили в опенсорс коллекцию из 50+ практических туториалов по AI Engineering.
Внутри пошаговые проекты по:
• AI-агентам и мультиагентным системам
• RAG (Agentic, Vision и Local)
• MCP-агентам
• OCR-приложениям
• Голосовым AI-агентам
• и многому другому
Всё бесплатно, с исходниками и готовыми примерами.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - Sumanth077/Hands-On-AI-Engineering: A curated collection of practical AI projects implementing OCR systems, RAG, AI agents…
A curated collection of practical AI projects implementing OCR systems, RAG, AI agents, and other AI use cases. - Sumanth077/Hands-On-AI-Engineering
Hugging Face выпустили Repo2RLEnv — инструмент, который превращает любой GitHub-репозиторий в источник данных для обучения RL-агентов.
Идея довольно красивая.
Каждый смёрженный PR — это уже решённая задача. Кто-то нашёл баг, исправил его и добился прохождения тестов. Repo2RLEnv автоматически собирает такие кейсы и превращает их в RL-задачи.
Указываешь репозиторий, а дальше система сама:
- поднимает Docker-окружение;
- находит смёрженные PR;
- создаёт задачи на основе сломанной версии кода;
- проверяет, что до фикса тесты падают, а после проходят;
- публикует готовый датасет в Hugging Face Hub.
С наградами тоже всё просто.
Агент предлагает исправление → запускаются тесты → прошли = +1, не прошли = 0.
Без LLM-судей и других эвристик.
Под капотом 9 пайплайнов генерации данных: реальные PR, коммиты, баги, CVE, рефакторинг, mutation testing и другие сценарии.
Поддерживаются Claude Code, Codex CLI, Gemini CLI, OpenHands и любые другие агентные фреймворки через Harbor.
Что особенно понравилось — инструмент работает не только с открытыми, но и с приватными репозиториями.
По сути, теперь любой достаточно крупный GitHub-репозиторий можно превратить в фабрику задач для обучения кодовых агентов.
Полностью open source.
Идея довольно красивая.
Каждый смёрженный PR — это уже решённая задача. Кто-то нашёл баг, исправил его и добился прохождения тестов. Repo2RLEnv автоматически собирает такие кейсы и превращает их в RL-задачи.
Указываешь репозиторий, а дальше система сама:
- поднимает Docker-окружение;
- находит смёрженные PR;
- создаёт задачи на основе сломанной версии кода;
- проверяет, что до фикса тесты падают, а после проходят;
- публикует готовый датасет в Hugging Face Hub.
С наградами тоже всё просто.
Агент предлагает исправление → запускаются тесты → прошли = +1, не прошли = 0.
Без LLM-судей и других эвристик.
Под капотом 9 пайплайнов генерации данных: реальные PR, коммиты, баги, CVE, рефакторинг, mutation testing и другие сценарии.
Поддерживаются Claude Code, Codex CLI, Gemini CLI, OpenHands и любые другие агентные фреймворки через Harbor.
Что особенно понравилось — инструмент работает не только с открытыми, но и с приватными репозиториями.
По сути, теперь любой достаточно крупный GitHub-репозиторий можно превратить в фабрику задач для обучения кодовых агентов.
Полностью open source.
GitHub
GitHub - huggingface/Repo2RLEnv: Convert any Repo into an RL Environment
Convert any Repo into an RL Environment . Contribute to huggingface/Repo2RLEnv development by creating an account on GitHub.
This media is not supported in your browser
VIEW IN TELEGRAM
Джек Дорси создал локального ИИ-агента Goose и передал проект в Linux Foundation.
Сейчас у проекта:
• 46,4 тыс. звёзд на GitHub
• 518 контрибьюторов
• 137 релизов
• обновления выходят до сих пор
Goose не ограничивается генерацией кода. Он умеет устанавливать зависимости, запускать приложения, редактировать файлы, выполнять тесты, отлаживать и деплоить проекты.
Что есть из коробки:
Нативное десктопное приложение, CLI и API — можно выбрать любой способ работы
Поддерживает любые LLM: Claude, GPT, Gemini, DeepSeek, Ollama и ещё более 15 моделей
Работает с уже существующими подписками — не нужно отдельно платить за новые API
Более 70 MCP-расширений: GitHub, Google Drive, базы данных, браузер и многое другое
Параллельные субагенты — разбивает сложные задачи на части и выполняет их одновременно
Recipes — позволяет сохранять workflow в YAML и делиться ими с командой
Встроенный режим adversary — ревьюер, который выявляет prompt injection и потенциально опасные действия
Совместим с Claude Code и Codex в качестве провайдеров через ACP
Написан на Rust. Поддерживает macOS, Linux и Windows. Лицензия Apache 2.0
Самая любопытная часть — Goose может использовать Claude Code или Codex как субагентов.
Goose координирует работу, а они выполняют задачи.
https://github.com/aaif-goose/goose
👉 @DataSciencegx
Сейчас у проекта:
• 46,4 тыс. звёзд на GitHub
• 518 контрибьюторов
• 137 релизов
• обновления выходят до сих пор
Goose не ограничивается генерацией кода. Он умеет устанавливать зависимости, запускать приложения, редактировать файлы, выполнять тесты, отлаживать и деплоить проекты.
Что есть из коробки:
Нативное десктопное приложение, CLI и API — можно выбрать любой способ работы
Поддерживает любые LLM: Claude, GPT, Gemini, DeepSeek, Ollama и ещё более 15 моделей
Работает с уже существующими подписками — не нужно отдельно платить за новые API
Более 70 MCP-расширений: GitHub, Google Drive, базы данных, браузер и многое другое
Параллельные субагенты — разбивает сложные задачи на части и выполняет их одновременно
Recipes — позволяет сохранять workflow в YAML и делиться ими с командой
Встроенный режим adversary — ревьюер, который выявляет prompt injection и потенциально опасные действия
Совместим с Claude Code и Codex в качестве провайдеров через ACP
Написан на Rust. Поддерживает macOS, Linux и Windows. Лицензия Apache 2.0
Самая любопытная часть — Goose может использовать Claude Code или Codex как субагентов.
Goose координирует работу, а они выполняют задачи.
https://github.com/aaif-goose/goose
Please open Telegram to view this post
VIEW IN TELEGRAM
Как AI Engineer, изучайте:
- Инженерию агентных рантаймов (agent harness engineering), а не только промпт-инжиниринг
- Контекстную инженерию (context engineering), а не только длинные промпты
- Компромиссы между prompt caching и semantic caching
- Управление KV-кэшем: вытеснение, повторное использование и давление на память при масштабировании
- Разницу между задержкой на prefill и decode, и почему они требуют разных подходов к оптимизации
- Continuous batching, paged attention и повышение пропускной способности (throughput)
- Компромиссы между speculative decoding, квантизацией и дистилляцией
- INT8, INT4, FP8, AWQ, GPTQ и случаи, когда квантизация ухудшает качество
- Сбои структурированного вывода, валидацию схем, циклы исправления (repair loops) и цепочки резервных сценариев (fallback chains)
- Надёжность function calling, контракты инструментов (tool contracts), валидацию аргументов и идемпотентность
- Ограничители для агентов (guardrails), лимиты циклов, лимиты использования инструментов и условия завершения работы
- Маршрутизацию моделей (model routing), логику плавного переключения на резервные сценарии (graceful fallback) и UX в деградированном режиме
- Архитектуру RAG: чанкинг, эмбеддинги, гибридный поиск, реранжирование и актуальность данных
- Оценку качества поиска (retrieval evals): полноту (recall), точность (precision), grounding, attribution и качество цитирования
Evals: эталонные наборы данных (golden sets), регрессионные тесты, adversarial-тесты, LLM-as-a-judge и ручную оценку
- Наблюдаемость LLM-систем (LLM observability) как полноценную инженерную дисциплину: трассировки, спаны, токены, задержки, ошибки и дрейф
- Атрибуцию затрат по функциям, workflow, арендаторам (tenants) и пользовательским сценариям, а не только по моделям
- Инженерию безопасности: защиту от prompt injection, предотвращение утечек данных и разграничение прав доступа
- Изоляцию арендаторов (multi-tenant isolation), безопасность кэшей и предотвращение загрязнения контекста между пользователями
- Fine-tuning, in-context learning, RAG и дистилляцию, а также случаи, когда каждый из этих подходов оказывается неподходящим инструментом
- Компромиссы между задержкой, качеством, стоимостью и надёжностью по всей цепочке инференса
- Типичные сбои в продакшене: галлюцинированные вызовы инструментов, некорректный JSON, устаревшие данные из поиска, зациклившиеся агенты и незаметные регрессии в evals
👉 @DataSciencegx
- Инженерию агентных рантаймов (agent harness engineering), а не только промпт-инжиниринг
- Контекстную инженерию (context engineering), а не только длинные промпты
- Компромиссы между prompt caching и semantic caching
- Управление KV-кэшем: вытеснение, повторное использование и давление на память при масштабировании
- Разницу между задержкой на prefill и decode, и почему они требуют разных подходов к оптимизации
- Continuous batching, paged attention и повышение пропускной способности (throughput)
- Компромиссы между speculative decoding, квантизацией и дистилляцией
- INT8, INT4, FP8, AWQ, GPTQ и случаи, когда квантизация ухудшает качество
- Сбои структурированного вывода, валидацию схем, циклы исправления (repair loops) и цепочки резервных сценариев (fallback chains)
- Надёжность function calling, контракты инструментов (tool contracts), валидацию аргументов и идемпотентность
- Ограничители для агентов (guardrails), лимиты циклов, лимиты использования инструментов и условия завершения работы
- Маршрутизацию моделей (model routing), логику плавного переключения на резервные сценарии (graceful fallback) и UX в деградированном режиме
- Архитектуру RAG: чанкинг, эмбеддинги, гибридный поиск, реранжирование и актуальность данных
- Оценку качества поиска (retrieval evals): полноту (recall), точность (precision), grounding, attribution и качество цитирования
Evals: эталонные наборы данных (golden sets), регрессионные тесты, adversarial-тесты, LLM-as-a-judge и ручную оценку
- Наблюдаемость LLM-систем (LLM observability) как полноценную инженерную дисциплину: трассировки, спаны, токены, задержки, ошибки и дрейф
- Атрибуцию затрат по функциям, workflow, арендаторам (tenants) и пользовательским сценариям, а не только по моделям
- Инженерию безопасности: защиту от prompt injection, предотвращение утечек данных и разграничение прав доступа
- Изоляцию арендаторов (multi-tenant isolation), безопасность кэшей и предотвращение загрязнения контекста между пользователями
- Fine-tuning, in-context learning, RAG и дистилляцию, а также случаи, когда каждый из этих подходов оказывается неподходящим инструментом
- Компромиссы между задержкой, качеством, стоимостью и надёжностью по всей цепочке инференса
- Типичные сбои в продакшене: галлюцинированные вызовы инструментов, некорректный JSON, устаревшие данные из поиска, зациклившиеся агенты и незаметные регрессии в evals
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышла новая работа о том, как ИИ-агенты меняют интеллектуальный труд.
Редкий случай, когда обсуждают не модели и бенчмарки, а то, как меняется сама работа людей.
Авторы рассматривают внедрение агентов через 3 параметра:
• уровень автономности
• рост эффективности
• объём задач, которые сотрудники готовы делегировать агентам
Интересный вывод: главный барьер для внедрения агентов часто связан не с качеством моделей.
Большинство людей просто никогда не учили работать с агентными системами.
Статья: https://arxiv.org/abs/2606.07489
👉 @DataSciencegx
Редкий случай, когда обсуждают не модели и бенчмарки, а то, как меняется сама работа людей.
Авторы рассматривают внедрение агентов через 3 параметра:
• уровень автономности
• рост эффективности
• объём задач, которые сотрудники готовы делегировать агентам
Интересный вывод: главный барьер для внедрения агентов часто связан не с качеством моделей.
Большинство людей просто никогда не учили работать с агентными системами.
Статья: https://arxiv.org/abs/2606.07489
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышел Memento-Skills. И это агентный фреймворк, в котором агенты учатся на собственных ошибках и переписывают свои скиллс самостоятельно.
Большинство агентных систем используют статические скиллы. Тоесть написал один раз, загрузил в контекст и надеешься, что всё сработает. Если скилл ломается — исправлять приходится вручную.
Memento-Skills работает иначе. Если скилл не справляется с задачей, система анализирует причину сбоя, находит проблемный скилл, переписывает его и сохраняет улучшенную версию обратно в библиотеку.
Цикл работы выглядит так:
→ Read — выбирает нужные скиллы из локальной библиотеки
→ Execute — выполняет их в песочнице с доступом к инструментам
→ Reflect — анализирует ошибки и определяет, какой скилл подвёл
→ Write — улучшает существующие скиллс или создаёт новые
По сути, это агентная система, которая постепенно улучшает собственную библиотеку навыков на основе накопленного опыта.
Проект протестировали на бенчмарках HLE (Humanity's Last Exam) и GAIA. По мере роста библиотеки навыков результаты улучшались от раунда к раунду.
Поддерживает Kimi, MiniMax, GLM и другие OpenAI-совместимые API.
В комплекте уже есть 9 базовых скиллов: работа с файлами, веб-поиск, PDF, DOCX, XLSX, PPTX, анализ изображений, создание навыков и установка зависимостей.
Исходный код полностью открыт.🔥
👉 @DataSciencegx
Большинство агентных систем используют статические скиллы. Тоесть написал один раз, загрузил в контекст и надеешься, что всё сработает. Если скилл ломается — исправлять приходится вручную.
Memento-Skills работает иначе. Если скилл не справляется с задачей, система анализирует причину сбоя, находит проблемный скилл, переписывает его и сохраняет улучшенную версию обратно в библиотеку.
Цикл работы выглядит так:
→ Read — выбирает нужные скиллы из локальной библиотеки
→ Execute — выполняет их в песочнице с доступом к инструментам
→ Reflect — анализирует ошибки и определяет, какой скилл подвёл
→ Write — улучшает существующие скиллс или создаёт новые
По сути, это агентная система, которая постепенно улучшает собственную библиотеку навыков на основе накопленного опыта.
Проект протестировали на бенчмарках HLE (Humanity's Last Exam) и GAIA. По мере роста библиотеки навыков результаты улучшались от раунда к раунду.
Поддерживает Kimi, MiniMax, GLM и другие OpenAI-совместимые API.
В комплекте уже есть 9 базовых скиллов: работа с файлами, веб-поиск, PDF, DOCX, XLSX, PPTX, анализ изображений, создание навыков и установка зависимостей.
Исходный код полностью открыт.
Please open Telegram to view this post
VIEW IN TELEGRAM
Google опубликовала бесплатное руководство по масштабированию ИИ-моделей и работе с GPU.
📘 How to Scale Your Model
https://jax-ml.github.io/scaling-book/
📘 How to Think About GPUs
https://jax-ml.github.io/scaling-book/gpus/
В материалах разбираются принципы масштабирования моделей, устройство GPU, вычислительные ограничения, пропускная способность памяти, параллелизм и другие темы, которые пригодятся при обучении и запуске современных ИИ-моделей.
Полностью бесплатно и доступно онлайн.
👉 @DataSciencegx
https://jax-ml.github.io/scaling-book/
https://jax-ml.github.io/scaling-book/gpus/
В материалах разбираются принципы масштабирования моделей, устройство GPU, вычислительные ограничения, пропускная способность памяти, параллелизм и другие темы, которые пригодятся при обучении и запуске современных ИИ-моделей.
Полностью бесплатно и доступно онлайн.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Claude Code может терять направление, когда задача требует реального анализа: отладки, архитектурных компромиссов, оценки рисков или выработки стратегии.
Claude Code Thinking Skills — это библиотека из 39 ментальных моделей и фреймворков критического мышления для пользователей Claude Code, которым нужен более структурированный подход к рассуждениям
Она помогает разбирать сложные задачи через навык thinking-model-router, который подбирает подходящую модель мышления под тип проблемы, вместо того чтобы полагаться на случайные промпты.
Что входит:
• 39 моделей мышления — включая First Principles, Bayesian Reasoning, Systems Thinking, OODA, Pre-Mortem, TRIZ и другие.
• Точка входа через Router — определяет домен и тип задачи, после чего предлагает наиболее подходящий фреймворк.
• Нативная интеграция с Claude Code — каждая модель упакована как отдельный Claude Code Skill, который можно вызвать по имени.
• Установка через плагины — в README есть инструкции по установке через маркетплейс Claude Code и ручному копированию.
• Прозрачная система оценки — проект публикует результаты тестирования и репликации, включая текущий результат: «ноль устойчиво воспроизведённых вердиктов ELEVATE».
Проект распространяется с открытым исходным кодом по лицензии MIT.
https://github.com/tjboudreaux/cc-thinking-skills
👉 @DataSciencegx
Claude Code Thinking Skills — это библиотека из 39 ментальных моделей и фреймворков критического мышления для пользователей Claude Code, которым нужен более структурированный подход к рассуждениям
Она помогает разбирать сложные задачи через навык thinking-model-router, который подбирает подходящую модель мышления под тип проблемы, вместо того чтобы полагаться на случайные промпты.
Что входит:
• 39 моделей мышления — включая First Principles, Bayesian Reasoning, Systems Thinking, OODA, Pre-Mortem, TRIZ и другие.
• Точка входа через Router — определяет домен и тип задачи, после чего предлагает наиболее подходящий фреймворк.
• Нативная интеграция с Claude Code — каждая модель упакована как отдельный Claude Code Skill, который можно вызвать по имени.
• Установка через плагины — в README есть инструкции по установке через маркетплейс Claude Code и ручному копированию.
• Прозрачная система оценки — проект публикует результаты тестирования и репликации, включая текущий результат: «ноль устойчиво воспроизведённых вердиктов ELEVATE».
Проект распространяется с открытым исходным кодом по лицензии MIT.
https://github.com/tjboudreaux/cc-thinking-skills
Please open Telegram to view this post
VIEW IN TELEGRAM
большая подборка материалов по LLM Systems,
• обучение моделей (pre-training, RLHF, fault tolerance, stragglers)
• инференс и serving
• агентные системы
• edge deployment
• мультимодальные модели
• технические отчёты от крупных лабораторий
• обзоры, бенчмарки и лидерборды
• курсы по MLSys и подборки статей с конференций
https://github.com/AmberLJC/LLMSys-PaperList
👉 @DataSciencegx
• обучение моделей (pre-training, RLHF, fault tolerance, stragglers)
• инференс и serving
• агентные системы
• edge deployment
• мультимодальные модели
• технические отчёты от крупных лабораторий
• обзоры, бенчмарки и лидерборды
• курсы по MLSys и подборки статей с конференций
https://github.com/AmberLJC/LLMSys-PaperList
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - AmberLJC/LLMSys-PaperList: Large Language Model (LLM) Systems Paper List
Large Language Model (LLM) Systems Paper List. Contribute to AmberLJC/LLMSys-PaperList development by creating an account on GitHub.
This media is not supported in your browser
VIEW IN TELEGRAM
PixelRAG предлагает довольно простую идею: отказаться от HTML-парсинга в web RAG.
Большинство RAG-систем работают так:
→ HTML
→ Извлечение текста
→ Чанкинг
→ Ретривер
→ LLM
PixelRAG использует другой подход:
→ Рендер страницы
→ Скриншоты (тайлы)
→ Визуальный ретривер
→ VLM читает изображение страницы
Авторы утверждают, что HTML-to-text преобразование часто теряет полезную информацию: структуру страницы, таблицы, инфобоксы и другие визуальные элементы.
Для экспериментов был построен визуальный индекс из более чем 30 млн скриншотов веб-страниц Википедии.
Обучение ретривера полностью автоматизировано. Для генерации обучающих данных используются веб-страницы, LLM-сгенерированные поисковые запросы и автоматически подобранные негативные примеры. Ручная разметка не использовалась.
Для дообучения применялась LoRA к VLM и ViT-энкодеру. По словам авторов, обучение заняло около трёх часов на одной H100.
В статье PixelRAG превосходит лучший текстовый бейзлайн на всех использованных бенчмарках:
• SimpleQA — 78.8% (+7.1)
• NQ-Tables — 48.8% (+6.3)
• EVQA — 45.1% (+15.5)
• LiveVQA — 70.3% (+11.3)
Авторы отдельно отмечают, что улучшения наблюдаются не только на визуальных задачах, но и на бенчмарках, которые обычно относят к текстовым.
Также PixelRAG был интегрирован в ReAct-агента и протестирован на MoNaCo. В статье сообщается, что система показала более высокую точность ответов, чем Google Search и DS-Serve, при меньших затратах на инференс.
Ещё одно наблюдение авторов связано с масштабированием. Поскольку индекс хранится в визуальном виде, качество системы может улучшаться по мере появления более сильных VLM без переиндексации данных и изменения пайплайна.
Код проекта опубликован в открытом доступе, а в статье есть подробные разборы ошибок, абляционные исследования и сравнение более чем с 25 VLM-моделями.
👉 @DataSciencegx
Большинство RAG-систем работают так:
→ HTML
→ Извлечение текста
→ Чанкинг
→ Ретривер
→ LLM
PixelRAG использует другой подход:
→ Рендер страницы
→ Скриншоты (тайлы)
→ Визуальный ретривер
→ VLM читает изображение страницы
Авторы утверждают, что HTML-to-text преобразование часто теряет полезную информацию: структуру страницы, таблицы, инфобоксы и другие визуальные элементы.
Для экспериментов был построен визуальный индекс из более чем 30 млн скриншотов веб-страниц Википедии.
Обучение ретривера полностью автоматизировано. Для генерации обучающих данных используются веб-страницы, LLM-сгенерированные поисковые запросы и автоматически подобранные негативные примеры. Ручная разметка не использовалась.
Для дообучения применялась LoRA к VLM и ViT-энкодеру. По словам авторов, обучение заняло около трёх часов на одной H100.
В статье PixelRAG превосходит лучший текстовый бейзлайн на всех использованных бенчмарках:
• SimpleQA — 78.8% (+7.1)
• NQ-Tables — 48.8% (+6.3)
• EVQA — 45.1% (+15.5)
• LiveVQA — 70.3% (+11.3)
Авторы отдельно отмечают, что улучшения наблюдаются не только на визуальных задачах, но и на бенчмарках, которые обычно относят к текстовым.
Также PixelRAG был интегрирован в ReAct-агента и протестирован на MoNaCo. В статье сообщается, что система показала более высокую точность ответов, чем Google Search и DS-Serve, при меньших затратах на инференс.
Ещё одно наблюдение авторов связано с масштабированием. Поскольку индекс хранится в визуальном виде, качество системы может улучшаться по мере появления более сильных VLM без переиндексации данных и изменения пайплайна.
Код проекта опубликован в открытом доступе, а в статье есть подробные разборы ошибок, абляционные исследования и сравнение более чем с 25 VLM-моделями.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Исследователи показали способ ускорить генерацию LLM до 8,5 раза без потери качества.
Речь идёт о новом методе под названием DFlash, который развивает идею speculative decoding.
Проблема классических LLM хорошо известна: модель генерирует токены по одному. Каждый следующий токен требует нового прохода через модель, что создаёт узкое место при инференсе.
Speculative decoding частично решает эту проблему.
Сначала небольшая draft-модель предлагает несколько следующих токенов, после чего большая модель проверяет их за один проход.
Если где-то обнаруживается ошибка, все токены до неё сохраняются, а генерация продолжается с этого места. Качество остаётся таким же, как при обычном декодировании.
Но у подхода есть ограничение.
Даже draft-модели обычно генерируют токены последовательно, по одному за раз. В результате сам этап черновой генерации становится новым узким местом, и ускорение на практике редко превышает 2–3 раза.
DFlash заменяет авторегрессионную draft-модель на лёгкую diffusion-модель, которая генерирует сразу весь блок токенов параллельно.
Получается следующая схема:
Обычный speculative decoding:
→ Draft-модель предсказывает токены по одному
→ Основная модель проверяет результат
DFlash:
→ Diffusion-драфтер генерирует весь блок сразу
→ Основная модель проверяет результат
Стоимость черновой генерации при этом практически не зависит от количества предполагаемых токенов.
Дополнительно драфтер получает скрытые представления из нескольких слоёв основной модели. Эти признаки передаются во все слои драфтера, что помогает ему делать более точные предсказания.
По данным авторов, в демонстрации:
• Обычный декодинг — 48,5 токена/сек
• DFlash — 415 токенов/сек
При этом качество генерации не ухудшается.
Технология уже интегрирована в:
• vLLM
• SGLang
• Transformers
Также опубликованы готовые draft-модели для:
• Qwen3
• Qwen3.5
• Llama 3.1
• Kimi-K2.5
• gpt-oss
• и других моделей
Если результаты подтвердятся на широком наборе сценариев, DFlash может стать одним из самых заметных улучшений speculative decoding за последнее время, поскольку атакует главное ограничение метода — последовательную работу draft-модели.
https://github.com/z-lab/dflash
👉 @DataSciencegx
Речь идёт о новом методе под названием DFlash, который развивает идею speculative decoding.
Проблема классических LLM хорошо известна: модель генерирует токены по одному. Каждый следующий токен требует нового прохода через модель, что создаёт узкое место при инференсе.
Speculative decoding частично решает эту проблему.
Сначала небольшая draft-модель предлагает несколько следующих токенов, после чего большая модель проверяет их за один проход.
Если где-то обнаруживается ошибка, все токены до неё сохраняются, а генерация продолжается с этого места. Качество остаётся таким же, как при обычном декодировании.
Но у подхода есть ограничение.
Даже draft-модели обычно генерируют токены последовательно, по одному за раз. В результате сам этап черновой генерации становится новым узким местом, и ускорение на практике редко превышает 2–3 раза.
DFlash заменяет авторегрессионную draft-модель на лёгкую diffusion-модель, которая генерирует сразу весь блок токенов параллельно.
Получается следующая схема:
Обычный speculative decoding:
→ Draft-модель предсказывает токены по одному
→ Основная модель проверяет результат
DFlash:
→ Diffusion-драфтер генерирует весь блок сразу
→ Основная модель проверяет результат
Стоимость черновой генерации при этом практически не зависит от количества предполагаемых токенов.
Дополнительно драфтер получает скрытые представления из нескольких слоёв основной модели. Эти признаки передаются во все слои драфтера, что помогает ему делать более точные предсказания.
По данным авторов, в демонстрации:
• Обычный декодинг — 48,5 токена/сек
• DFlash — 415 токенов/сек
При этом качество генерации не ухудшается.
Технология уже интегрирована в:
• vLLM
• SGLang
• Transformers
Также опубликованы готовые draft-модели для:
• Qwen3
• Qwen3.5
• Llama 3.1
• Kimi-K2.5
• gpt-oss
• и других моделей
Если результаты подтвердятся на широком наборе сценариев, DFlash может стать одним из самых заметных улучшений speculative decoding за последнее время, поскольку атакует главное ограничение метода — последовательную работу draft-модели.
https://github.com/z-lab/dflash
Please open Telegram to view this post
VIEW IN TELEGRAM
Теперь можно дообучать Qwen3.5.
Для локального обучения LoRA-адаптера на Qwen3.5-2B достаточно всего 5 ГБ видеопамяти. Обучение стало примерно в 1.5 раза быстрее и требует на 50% меньше VRAM.
Qwen3.5-4B в Google Colab:
https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(4B)_Vision.ipynb
GitHub-проект Unsloth:
https://github.com/unslothai/unsloth
Подходит для быстрого и экономичного дообучения моделей Qwen3.5 на собственных данных даже на относительно слабых видеокартах.
👉 @DataSciencegx
Для локального обучения LoRA-адаптера на Qwen3.5-2B достаточно всего 5 ГБ видеопамяти. Обучение стало примерно в 1.5 раза быстрее и требует на 50% меньше VRAM.
Qwen3.5-4B в Google Colab:
https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(4B)_Vision.ipynb
GitHub-проект Unsloth:
https://github.com/unslothai/unsloth
Подходит для быстрого и экономичного дообучения моделей Qwen3.5 на собственных данных даже на относительно слабых видеокартах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Вау, это интересно.
Исследователи из Stanford проверили распространённое предположение: большие модели якобы нужно обучать только на “высококачественных” отфильтрованных данных.
А что если лучший фильтр — это отсутствие фильтра?
Они сравнили полный датасет Common Crawl с сильно отфильтрованными версиями и получили неожиданные результаты:
1. Фильтрация помогает при ограниченном бюджете вычислений — модель просто не успевает нормально учиться на всём подряд.
2. Но по мере роста модели и увеличения времени обучения полный, неочищенный датасет начинает выигрывать.
Большие модели лучше справляются с “грязными” данными, чем ожидалось. Низкокачественный текст, нерелевантные фрагменты или откровенный мусор не являются критичной проблемой — модель это переваривает.
Более того, она всё равно вытаскивает полезные сигналы даже из слабых данных.
Из этого меняется базовое правило:
→ Фильтрация полезна при ограниченных ресурсах. Но при больших вычислениях чрезмерная очистка данных может просто выбросить полезную информацию.
Это хорошо ложится на идею “bitter lesson”: на масштабе часто побеждает простое масштабирование, а не ручная инженерия.
Дальше всё упирается в ограничения и выбор: увеличивать вычисления или тратить время и ресурсы на жёсткую фильтрацию данных.
Интересно, как бы ты это использовал на практике👀
https://arxiv.org/abs/2605.19407
👉 @DataSciencegx
Исследователи из Stanford проверили распространённое предположение: большие модели якобы нужно обучать только на “высококачественных” отфильтрованных данных.
А что если лучший фильтр — это отсутствие фильтра?
Они сравнили полный датасет Common Crawl с сильно отфильтрованными версиями и получили неожиданные результаты:
1. Фильтрация помогает при ограниченном бюджете вычислений — модель просто не успевает нормально учиться на всём подряд.
2. Но по мере роста модели и увеличения времени обучения полный, неочищенный датасет начинает выигрывать.
Большие модели лучше справляются с “грязными” данными, чем ожидалось. Низкокачественный текст, нерелевантные фрагменты или откровенный мусор не являются критичной проблемой — модель это переваривает.
Более того, она всё равно вытаскивает полезные сигналы даже из слабых данных.
Из этого меняется базовое правило:
→ Фильтрация полезна при ограниченных ресурсах. Но при больших вычислениях чрезмерная очистка данных может просто выбросить полезную информацию.
Это хорошо ложится на идею “bitter lesson”: на масштабе часто побеждает простое масштабирование, а не ручная инженерия.
Дальше всё упирается в ограничения и выбор: увеличивать вычисления или тратить время и ресурсы на жёсткую фильтрацию данных.
Интересно, как бы ты это использовал на практике
https://arxiv.org/abs/2605.19407
Please open Telegram to view this post
VIEW IN TELEGRAM