OmniParser - инструмент для анализа скриншотов пользовательского интерфейса, разработанный для улучшения работы агентов UI на основе LLM.
Он преобразует скриншоты в структурированный формат, выделяя интерактивные области и описывая функции элементов(кнопки, иконки, значки и т.д) и не требует исходного HTML или иерархии представлений.
OmniParser состоит из двух моделей:
OmniParser был протестирован в бенчмарках ScreenSpot, Mind2Web и AITW, где превзошел агентов на основе GPT-4V и модели, обученные на данных графических интерфейсов (SeeClick, CogAgent и Fuyu).
⚠️ OmniParser может испытывать трудности с распознаванием повторяющихся элементов, текста и с определением точных границ кликабельных областей.
# Create conda env
conda create -n "omni" python==3.12
conda activate omni
# Install requirement
pip install -r requirement.txt
# Run Gradio UI
python gradio_demo.py
#AI #ML #Microsoft #YOLO8 #BLIP #OmniParser
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤2🔥2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Простое приложение React + Vite для запуска OuteTTS с помощью Transformers.js и WebGPU.
Попробовать демо можно на HuggingSpace. При первом запуске модель загружается в кэш браузера, это занимает какое-то время.
# Clone the repository
git clone https://github.com/huggingface/transformers.js-examples.git
# Go to project dir
cd transformers.js-examples/text-to-speech-webgpu
# Install the dependencies via npm
npm i
# Run dev server
npm run dev
# Open your browser and go to http://localhost:5173
@ai_machinelearning_big_data
#AI #ML #TTS #WebGPU #TransfomersJS
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2🔥2👏2