#news #microsoft #omnitool #omniparser #agent #opensource #automation
🤖 Microsoft представила OmniParser V2 и OmniTool
👀 Похоже, у OpenAI Operator появился еще один серьезный конкурент! Microsoft выпустила два open-source инструмента, позволяющих языковым моделям (LLM) видеть, понимать и управлять компьютером почти как человек.
🔍 Почему это может быть интересно? В отличие от закрытого OpenAI Operator, эти инструменты доступны как open-source решения, что дает больше гибкости в использовании и настройке.
📱 OmniParser V2:
• Анализирует скриншоты и преобразует UI в структурированные данные
• На 60% быстрее первой версии
• Улучшенное распознавание мелких элементов интерфейса
• Работает на CPU (с опциональной поддержкой GPU)
• Поддерживает парсинг документов и UI-компонентов
🛠 OmniTool:
• Автоматизирует компьютерные задачи
• Умеет навигировать по браузеру
• Открывает приложения
• Выполняет команды
💻 Требования для установки OmniParser V2: • Git • Python • Conda • Токен Hugging Face
🖥 Требования для OmniTool : • Windows 11 VM • Docker • 20+ ГБ свободного места • Мощный ПК
⚡️ Важно: несмотря на пока еще достаточно сложный процесс установки, OmniTool после настройки может автоматизировать практически любую компьютерную задачу (демка здесь). Это делает его мощным AI-помощником для автоматизации повторяющихся задач, анализа UI-компонентов и интеграции с другими рабочими процессами.
🎯 Где это можно применить:
• Автоматизация тестирования ПО
• Извлечение данных из разных источников
• Автоматизация рабочего стола
• Корпоративная автоматизация
• Кибербезопасность и мониторинг систем
🤔 Интересный факт: с помощью таких инструментов AI может, например, самостоятельно найти репозиторий на GitHub, скопировать ссылку для клонирования, открыть терминал и выполнить команду clone.
Полный набор роликов со сценариями использования от разработчиков здесь.
#AI #Microsoft #Automation #Tech #Development #OpenAI
🤖 Microsoft представила OmniParser V2 и OmniTool
👀 Похоже, у OpenAI Operator появился еще один серьезный конкурент! Microsoft выпустила два open-source инструмента, позволяющих языковым моделям (LLM) видеть, понимать и управлять компьютером почти как человек.
🔍 Почему это может быть интересно? В отличие от закрытого OpenAI Operator, эти инструменты доступны как open-source решения, что дает больше гибкости в использовании и настройке.
📱 OmniParser V2:
• Анализирует скриншоты и преобразует UI в структурированные данные
• На 60% быстрее первой версии
• Улучшенное распознавание мелких элементов интерфейса
• Работает на CPU (с опциональной поддержкой GPU)
• Поддерживает парсинг документов и UI-компонентов
🛠 OmniTool:
• Автоматизирует компьютерные задачи
• Умеет навигировать по браузеру
• Открывает приложения
• Выполняет команды
💻 Требования для установки OmniParser V2: • Git • Python • Conda • Токен Hugging Face
🖥 Требования для OmniTool : • Windows 11 VM • Docker • 20+ ГБ свободного места • Мощный ПК
⚡️ Важно: несмотря на пока еще достаточно сложный процесс установки, OmniTool после настройки может автоматизировать практически любую компьютерную задачу (демка здесь). Это делает его мощным AI-помощником для автоматизации повторяющихся задач, анализа UI-компонентов и интеграции с другими рабочими процессами.
🎯 Где это можно применить:
• Автоматизация тестирования ПО
• Извлечение данных из разных источников
• Автоматизация рабочего стола
• Корпоративная автоматизация
• Кибербезопасность и мониторинг систем
🤔 Интересный факт: с помощью таких инструментов AI может, например, самостоятельно найти репозиторий на GitHub, скопировать ссылку для клонирования, открыть терминал и выполнить команду clone.
Полный набор роликов со сценариями использования от разработчиков здесь.
#AI #Microsoft #Automation #Tech #Development #OpenAI
GitHub
GitHub - microsoft/OmniParser: A simple screen parsing tool towards pure vision based GUI agent
A simple screen parsing tool towards pure vision based GUI agent - microsoft/OmniParser