Forwarded from Machinelearning
Awesome-Self-Evolving-Agents - подборка материалов по теме оптимизации агентов в концепции саморазвивающихся систем, в которой собраны работы с 2023 по 2025 год по 3-м направлениям: оптимизация одиночного агента, оптимизация мультиагентных систем и методы их оценки.
Содержание
@ai_machinelearning_big_data
#AI #ML #LLM #Agents #AwesomeList #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍7🥰5
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь можно не только генерировать изображения, но и редактировать их по команде: менять объекты, стиль, фон или даже текст прямо на картинке.
Что умеет:
- ✨ Редактировать смысл и детали — можно, например, повернуть объект, сменить цвет или стиль, не трогая остальное.
- 🔤 Менять текст на картинках — добавлять, убирать или редактировать надписи на китайском и английском, при этом сохраняются шрифт и стиль.
- 🏆 Лучшие результаты на тестах — модель показывает топ-уровень среди открытых решений.
Как работает:
Система сочетает понимание картинки (VL-модель) и точное управление структурой (VAE-кодировщик). Поэтому картинка сохраняет и смысл, и детали после правок.
Достаточно открыть Qwen Chat и выбрать режим *Image Editing*.
@ai_machinelearning_big_data
#qwen #ml #llm #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍8🔥1
🕹️ Новый мощный бенчмарк для ИИ — **HeroBench** 👏
Он проверяет, умеют ли LLM планировать длинные цепочки действий в реалистичном RPG-мире: выбрать снаряжение, собрать ресурсы, скрафтить предметы и победить монстра.
⚔️ Особенность: всё завязано на урон, резисты и здоровье, поэтому модели должны рассуждать о компромиссах, а не просто угадывать шаги.
🤖 Модели пишут Python-код со стратегией, симулятор исполняет его и оценивает прогресс.
🔑 Итоги:
- Grok-4 лидирует на сложных заданиях
- За ним GPT-5 и Gemini 2.5 Pro
- GPT-4.1 остаётся сильнейшей «обычной» моделью без спец. reasoning-режимов
- Ошибки чаще всего связаны с неверным выбором экипировки или кривым исполнением
📄 Paper: arxiv.org/abs/2508.12782
#AI #LLM #benchmark #gaming #reasoning
Он проверяет, умеют ли LLM планировать длинные цепочки действий в реалистичном RPG-мире: выбрать снаряжение, собрать ресурсы, скрафтить предметы и победить монстра.
⚔️ Особенность: всё завязано на урон, резисты и здоровье, поэтому модели должны рассуждать о компромиссах, а не просто угадывать шаги.
🤖 Модели пишут Python-код со стратегией, симулятор исполняет его и оценивает прогресс.
🔑 Итоги:
- Grok-4 лидирует на сложных заданиях
- За ним GPT-5 и Gemini 2.5 Pro
- GPT-4.1 остаётся сильнейшей «обычной» моделью без спец. reasoning-режимов
- Ошибки чаще всего связаны с неверным выбором экипировки или кривым исполнением
📄 Paper: arxiv.org/abs/2508.12782
#AI #LLM #benchmark #gaming #reasoning
❤13👍7🔥5