Про AI: Лучшие cтатьи и исследования

Как мы построили масштабируемую инфраструктуру оценки ИИ-агентов для веба

Глубокое погружение в высокопараллельную платформу оценки на основе LLM-судьи, которая решает проблему дисперсии результатов веб-агентов.

Читать статью

459 views13:00

Могут ли агентные системы справиться с миграцией COBOL?

Инженер из Amp Code провёл эксперимент: полностью перенёс демонстрационное COBOL-приложение с мейнфрейма в облако, написав 100% кода с помощью AI-агентов. Результат оказался неожиданно успешным.

Читать статью

445 views17:00

Про AI: Лучшие cтатьи и исследования

Главные AI-темы с GitHub, Reddit и Hugging Face:

Первые бенчмарки M5 Max
Опубликованы результаты производительности различных LLM на новом 14-дюймовом Apple M5 Max с 128 ГБ памяти.

Autokernel: автоматическая оптимизация GPU-ядер
Инструмент для автоматического исследования и генерации оптимизированных Triton-ядер для любой модели PyTorch.

Отказ от function calling в пользу CLI для агентов
Бывший ведущий бэкенд-разработчик Manus предлагает использовать единый Unix-инструмент командной строки вместо каталога типизированных вызовов функций.

Необычный бенчмарк для проверки навыков кодинга
Предложен новый сложный тест для проверки способностей моделей к написанию анимаций на Three.js.

NVIDIA инвестирует $26 млрд в разработку open-weight моделей
Согласно финансовым отчетам, компания планирует направить значительные средства на создание ИИ-моделей с открытыми весами.

Nah: контроль безопасности для Claude Code
Контекстно-зависимая система разрешений, обеспечивающая контролируемую среду безопасности при работе с Claude Code.

NVIDIA выпустила модель Nemotron-3-Super-120B
Новая крупная языковая модель от NVIDIA на 120 млрд параметров стала доступна на Hugging Face.

Запуск llama.cpp на MacBook Neo
На устройстве с чипом A18 Pro удалось запустить Qwen 3.5 9B, достигнув скорости генерации 3.9 t/s.

Управление экраном Ubuntu для OpenClaw
Инструментарий для работы агентов OpenClaw в среде рабочего стола Ubuntu Xorg (X11).

RoboClaw: ассистент для воплощенного ИИ
Новый ИИ-помощник, ориентированный на задачи в области Embodied AI.

From the LocalLLaMA community on Reddit: M5 Max just arrived - benchmarks incoming

Explore this post and more from the LocalLLaMA community

👍1

431 views05:00

Про AI: Лучшие cтатьи и исследования

Как мы взломали ИИ-платформу McKinsey

Автономный ИИ-агент нашёл SQL-инъекцию в Lilli — внутренней ИИ-платформе McKinsey — и за два часа получил полный доступ к продакшен-базе данных с 46,5 миллионами сообщений.

Читать статью

👀1

451 views08:00

Про AI: Лучшие cтатьи и исследования

Самосовершенствующаяся AI-система, которая построила сама себя

Разработчик из Composio создал оркестратор AI-агентов, который координирует до 30 параллельных coding-агентов, автоматически исправляет ошибки CI и обрабатывает code review - а потом направил агентов на улучшение самого оркестратора. 40 000 строк TypeScript за 8 дней.

Читать статью

👍1

425 viewsedited 11:00

Про AI: Лучшие cтатьи и исследования

Почему SWE-bench Verified больше не измеряет возможности фронтирного кодирования

SWE-bench Verified все больше подвержен контаминации данных. OpenAI рекомендует переходить на SWE-bench Pro для оценки возможностей моделей в программировании.

Читать статью

417 views13:00

Про AI: Лучшие cтатьи и исследования

Файловая система -- это новая база данных: как я построил персональную ОС для ИИ-агентов

Муратджан Коилан рассказывает, как он создал Personal Brain OS -- файловую систему на базе Git-репозитория, которая превращает ИИ-ассистентов из забывчивых собеседников в полноценных рабочих партнёров с доступом к голосу, целям, контактам и рабочим процессам автора.

Читать статью

👍2

455 views17:00

Про AI: Лучшие cтатьи и исследования

От руды к железу: создайте собственного агента для написания кода

Практическое руководство по созданию собственного агента-программиста с помощью навыка Bloomery — от простого чат-цикла до полноценного агентного loop за один час.

Читать статью

👍2

392 views05:01

Про AI: Лучшие cтатьи и исследования

Два убеждения о кодинг-агентах

Автор делится двумя ключевыми наблюдениями о программистских агентах на основе ИИ: талантливые разработчики недооценивают роль своей интуиции в работе с агентами, а большинство впечатляющих проектов на агентах — это личные инструменты, а не полноценные продукты.

Читать статью

👍3

384 views08:01

Про AI: Лучшие cтатьи и исследования

Вы не знаете, что ваш агент будет делать, пока он не окажется в продакшене

Агенты работают иначе, чем традиционное ПО: они принимают естественный язык, ведут себя недетерминированно и принимают решения через сложные цепочки рассуждений. Это требует принципиально иного подхода к мониторингу в продакшене.

Читать статью

👍2

372 views11:00

Про AI: Лучшие cтатьи и исследования

Как OpenAI будет конкурировать?

OpenAI обладает огромной пользовательской базой и амбициозными планами, но не имеет ни уникальной технологии, ни сетевого эффекта, ни чёткого продуктового преимущества. Бенедикт Эванс разбирает четыре фундаментальные стратегические проблемы компании.

Читать статью

👍3

365 views13:00

Про AI: Лучшие cтатьи и исследования

Как мы построили безопасную и масштабируемую инфраструктуру песочниц для агентов

Команда Browser Use рассказывает, как они прошли путь от AWS Lambda до микро-VM на базе Unikraft с архитектурой control plane для изоляции миллионов веб-агентов, выполняющих произвольный код.

Читать статью

344 views17:00

Про AI: Лучшие cтатьи и исследования

AI-сообщество обсуждает сегодня:

MetaClaw
Фреймворк для создания агентов, которые обучаются и развиваются в процессе общения с пользователем.

xiaohongshu-cli
CLI для работы с китайской социальной сетью Xiaohongshu через реверс-инжиниринг API.

mcp2cli
Инструмент для мгновенного превращения любого MCP, OpenAPI или GraphQL сервера в CLI без генерации кода.

ARIS (Auto-Research-In-Sleep)
Автоматизация ML-исследований с помощью Claude Code: автономный поиск идей, кросс-модельное ревью и проведение экспериментов через Codex MCP.

tavily-key-generator
Скрипт для массовой автоматической регистрации API-ключей Tavily с поддержкой различных почтовых сервисов.

Бенчмарки M5 Max в задачах LLM
Первые результаты тестирования MacBook Pro на чипе M5 Max (128 ГБ) при запуске моделей через mlx_lm.

Отказ от function calling в пользу CLI-команд для агентов
Бывший лид бэкенда Manus объясняет, почему использование одной Unix-подобной команды run(command) эффективнее множественных вызовов функций.

Ирония над одержимостью локальными LLM
Юмористический пост о том, как увлечение квантованием, апгрейдом железа и тестированием новых моделей становится всепоглощающим хобби.

GitHub

GitHub - aiming-lab/MetaClaw: Just talk to your agent — it learns and EVOLVES.

Just talk to your agent — it learns and EVOLVES. Contribute to aiming-lab/MetaClaw development by creating an account on GitHub.

👍3

308 viewsedited 05:01

Про AI: Лучшие cтатьи и исследования

Дайте Claude компьютер

Programmatic tool calling (PTC) — новая возможность Claude, которая позволяет модели писать код для оркестрации вызовов инструментов внутри контейнера, вместо того чтобы каждый вызов проходил через контекстное окно. Это снижает расход токенов и повышает качество на многошаговых задачах вроде поиска.

Читать статью

👍5

267 views08:01

Про AI: Лучшие cтатьи и исследования

Интерактивные объяснения

Когда мы перестаём понимать, как работает код, написанный нашими агентами, мы накапливаем «когнитивный долг». Один из лучших способов погасить его — строить интерактивные объяснения, которые помогают по-настоящему разобраться в логике программы.

Читать статью

👍1🔥1

154 views13:00

About

Blog

Apps

Platform