#news #microsoft #omnitool #omniparser #agent #opensource #automation
🤖 Microsoft представила OmniParser V2 и OmniTool
👀 Похоже, у OpenAI Operator появился еще один серьезный конкурент! Microsoft выпустила два open-source инструмента, позволяющих языковым моделям (LLM) видеть, понимать и управлять компьютером почти как человек.
🔍 Почему это может быть интересно? В отличие от закрытого OpenAI Operator, эти инструменты доступны как open-source решения, что дает больше гибкости в использовании и настройке.
📱 OmniParser V2:
• Анализирует скриншоты и преобразует UI в структурированные данные
• На 60% быстрее первой версии
• Улучшенное распознавание мелких элементов интерфейса
• Работает на CPU (с опциональной поддержкой GPU)
• Поддерживает парсинг документов и UI-компонентов
🛠 OmniTool:
• Автоматизирует компьютерные задачи
• Умеет навигировать по браузеру
• Открывает приложения
• Выполняет команды
💻 Требования для установки OmniParser V2: • Git • Python • Conda • Токен Hugging Face
🖥 Требования для OmniTool : • Windows 11 VM • Docker • 20+ ГБ свободного места • Мощный ПК
⚡️ Важно: несмотря на пока еще достаточно сложный процесс установки, OmniTool после настройки может автоматизировать практически любую компьютерную задачу (демка здесь). Это делает его мощным AI-помощником для автоматизации повторяющихся задач, анализа UI-компонентов и интеграции с другими рабочими процессами.
🎯 Где это можно применить:
• Автоматизация тестирования ПО
• Извлечение данных из разных источников
• Автоматизация рабочего стола
• Корпоративная автоматизация
• Кибербезопасность и мониторинг систем
🤔 Интересный факт: с помощью таких инструментов AI может, например, самостоятельно найти репозиторий на GitHub, скопировать ссылку для клонирования, открыть терминал и выполнить команду clone.
Полный набор роликов со сценариями использования от разработчиков здесь.
#AI #Microsoft #Automation #Tech #Development #OpenAI
🤖 Microsoft представила OmniParser V2 и OmniTool
👀 Похоже, у OpenAI Operator появился еще один серьезный конкурент! Microsoft выпустила два open-source инструмента, позволяющих языковым моделям (LLM) видеть, понимать и управлять компьютером почти как человек.
🔍 Почему это может быть интересно? В отличие от закрытого OpenAI Operator, эти инструменты доступны как open-source решения, что дает больше гибкости в использовании и настройке.
📱 OmniParser V2:
• Анализирует скриншоты и преобразует UI в структурированные данные
• На 60% быстрее первой версии
• Улучшенное распознавание мелких элементов интерфейса
• Работает на CPU (с опциональной поддержкой GPU)
• Поддерживает парсинг документов и UI-компонентов
🛠 OmniTool:
• Автоматизирует компьютерные задачи
• Умеет навигировать по браузеру
• Открывает приложения
• Выполняет команды
💻 Требования для установки OmniParser V2: • Git • Python • Conda • Токен Hugging Face
🖥 Требования для OmniTool : • Windows 11 VM • Docker • 20+ ГБ свободного места • Мощный ПК
⚡️ Важно: несмотря на пока еще достаточно сложный процесс установки, OmniTool после настройки может автоматизировать практически любую компьютерную задачу (демка здесь). Это делает его мощным AI-помощником для автоматизации повторяющихся задач, анализа UI-компонентов и интеграции с другими рабочими процессами.
🎯 Где это можно применить:
• Автоматизация тестирования ПО
• Извлечение данных из разных источников
• Автоматизация рабочего стола
• Корпоративная автоматизация
• Кибербезопасность и мониторинг систем
🤔 Интересный факт: с помощью таких инструментов AI может, например, самостоятельно найти репозиторий на GitHub, скопировать ссылку для клонирования, открыть терминал и выполнить команду clone.
Полный набор роликов со сценариями использования от разработчиков здесь.
#AI #Microsoft #Automation #Tech #Development #OpenAI
GitHub
GitHub - microsoft/OmniParser: A simple screen parsing tool towards pure vision based GUI agent
A simple screen parsing tool towards pure vision based GUI agent - microsoft/OmniParser
👍2❤🔥1🔥1
#ai #news #openai #microsoft #anthropic
🚀 Новости из мира ИИ: OpenAI, Microsoft и Anthropic
Всем добрый вечер!
Небольшая подборка новостей из мира искусственного интеллекта. 🧠
🔥 OpenAI представляет o3 и o4-mini
Модели рассуждения получили возможность использовать те же инструменты, что и мы для решения задач:
• Codex CLI — опенсорсный агент, который подключается к компьютеру и помогает с задачами программирования. В демонстрации исследователь сделал снимок экрана приложения, сгенерированного кем-то другим, а затем попросил Codex воссоздать его локально. Он даже добавил специальные инструкции, например, как сделать приложение совместимым с веб-камерой.
• Модели o3 и o4-mini теперь считаются лучшими практически во всех категориях математики и науки. o4-mini получила почти идеальный балл на математическом конкурсе AIME 2025.
• "Это первые модели, о которых ведущие ученые говорят, что они производят действительно хорошие и полезные новые идеи," — отметил президент OpenAI Грег Брокман.
• Модели могут "думать" с помощью изображений: при загрузке сложной диаграммы ChatGPT самостоятельно увеличивает нужные фигуры и решает связанные с ними уравнения.
💻 Microsoft Copilot Studio получает новые возможности
• Платформа разработки ИИ от Microsoft научилась самостоятельно перемещаться по интернету (без помощи MCP серверов, как мы сегодня рассматривали на вебинаре)
• Теперь можно создавать агентов для проведения маркетинговых исследований, обработки счетов и выполнения задач по вводу данных автономно.
• В отличие от потребительской версии Copilot, эта версия имеет возможность посещать любые веб-страницы, а не только определенные сайты (
🗣 Anthropic готовит голосовой режим
• Airy, Mellow и Buttery — три новые голосовые личности, которые Anthropic планирует добавить в своего чат-бота Claude уже в этом месяце.
• Anthropic остается последним крупным игроком в сфере ИИ без голосового помощника.
🔮 Другие новости
По слухам, OpenAI ведет переговоры о покупке стартапа Windsurf (ранее известного как Codeium) за $3 млрд — это может стать крупнейшим приобретением создателя ChatGPT.
Один из самых ходовых сценариев использования агентов - это не только поиск в Интернете (Deep Research) и работа в браузере (Openai Operator), но и Vibe Coding (AI-программирование), поэтому шаг ожидаемый.
Почему Windsurf, а не Cursor ? Скорее всего потому, что у Windsurf более широкий взгляд на "путь пользователя" в Vibe кодинге - они раньше Cursor сделали внешнее партнерство (с Netlify) по быстрому деплою готовых приложений в облако (вот здесь писал об этом).
А у вас какие мысли на этот счет? Пишите в комментариях👇
🚀 Новости из мира ИИ: OpenAI, Microsoft и Anthropic
Всем добрый вечер!
Небольшая подборка новостей из мира искусственного интеллекта. 🧠
🔥 OpenAI представляет o3 и o4-mini
Модели рассуждения получили возможность использовать те же инструменты, что и мы для решения задач:
• Codex CLI — опенсорсный агент, который подключается к компьютеру и помогает с задачами программирования. В демонстрации исследователь сделал снимок экрана приложения, сгенерированного кем-то другим, а затем попросил Codex воссоздать его локально. Он даже добавил специальные инструкции, например, как сделать приложение совместимым с веб-камерой.
• Модели o3 и o4-mini теперь считаются лучшими практически во всех категориях математики и науки. o4-mini получила почти идеальный балл на математическом конкурсе AIME 2025.
• "Это первые модели, о которых ведущие ученые говорят, что они производят действительно хорошие и полезные новые идеи," — отметил президент OpenAI Грег Брокман.
• Модели могут "думать" с помощью изображений: при загрузке сложной диаграммы ChatGPT самостоятельно увеличивает нужные фигуры и решает связанные с ними уравнения.
💻 Microsoft Copilot Studio получает новые возможности
• Платформа разработки ИИ от Microsoft научилась самостоятельно перемещаться по интернету (без помощи MCP серверов, как мы сегодня рассматривали на вебинаре)
• Теперь можно создавать агентов для проведения маркетинговых исследований, обработки счетов и выполнения задач по вводу данных автономно.
• В отличие от потребительской версии Copilot, эта версия имеет возможность посещать любые веб-страницы, а не только определенные сайты (
Actions can be performed in the background while you work on other tasks. Copilot can now do things like book restaurant reservations, event tickets, and purchase items from online stores. The Actions experience is limited to a number of partners though, and it sounds like Copilot Studio will be free to work with more websites and apps.
)🗣 Anthropic готовит голосовой режим
• Airy, Mellow и Buttery — три новые голосовые личности, которые Anthropic планирует добавить в своего чат-бота Claude уже в этом месяце.
• Anthropic остается последним крупным игроком в сфере ИИ без голосового помощника.
🔮 Другие новости
По слухам, OpenAI ведет переговоры о покупке стартапа Windsurf (ранее известного как Codeium) за $3 млрд — это может стать крупнейшим приобретением создателя ChatGPT.
Один из самых ходовых сценариев использования агентов - это не только поиск в Интернете (Deep Research) и работа в браузере (Openai Operator), но и Vibe Coding (AI-программирование), поэтому шаг ожидаемый.
Почему Windsurf, а не Cursor ? Скорее всего потому, что у Windsurf более широкий взгляд на "путь пользователя" в Vibe кодинге - они раньше Cursor сделали внешнее партнерство (с Netlify) по быстрому деплою готовых приложений в облако (вот здесь писал об этом).
А у вас какие мысли на этот счет? Пишите в комментариях👇
GitHub
GitHub - openai/codex: Lightweight coding agent that runs in your terminal
Lightweight coding agent that runs in your terminal - openai/codex
👍5❤2🔥1
Новые компактные модели Phi-4 от Microsoft с улучшенными возможностями рассуждения
30 апреля Microsoft запустила три новые модели семейства Phi, ориентированные на сложные рассуждения. Эти компактные модели превосходят более крупных конкурентов в задачах, требующих логического мышления, и при этом достаточно малы для работы на смартфонах и ноутбуках! 🚀
🔍 Что нового?
• Phi-4-reasoning (14 млрд параметров) — флагманская модель, которая превосходит OpenAI o1-mini и не уступает DeepSeek с 671 млрд параметров по ключевым показателям
• Phi-4-reasoning-plus — улучшенная версия с дополнительной тренировкой через обучение с подкреплением
• Phi-4-mini-reasoning (3,8 млрд параметров) — сверхкомпактная модель, способная работать на мобильных устройствах и не уступающая 7-миллиардным моделям в математических задачах
💡 Почему это важно?
Эти модели специально разработаны для эффективной работы в условиях ограниченных ресурсов — на периферийных устройствах и компьютерах Copilot+ PC. Несмотря на компактный размер, они демонстрируют впечатляющие результаты в сложных задачах рассуждения.
Как показывают тесты, Phi-4-reasoning превосходит DeepSeek-R1-Distill-Llama-70B (в 5 раз больше по размеру!) и демонстрирует конкурентоспособные результаты по сравнению со значительно более крупными моделями, такими как Deepseek-R1.
🔓 Открытый исходный код
Все три модели выпущены с открытым исходным кодом и лицензиями, позволяющими неограниченное коммерческое использование и модификацию разработчиками.
🖥 Применение в Windows
Модели Phi уже интегрированы в Copilot+ PC с оптимизированным для NPU вариантом Phi Silica. Они используются в таких функциях как Click to Do и доступны разработчикам через API.
🧠 Хотите попробовать?
• Протестируйте новые модели на Azure AI Foundry
• Изучите Phi Cookbook
• Узнайте больше о Phi-4-mini-reasoning
• Узнайте больше о Phi-4-reasoning
• Узнайте больше о Phi-4-reasoning-plus
Это новый шаг в развитии малых языковых моделей, которые становятся всё умнее, оставаясь при этом компактными и эффективными. Будущее ИИ уже здесь — прямо на наших устройствах! 📱💻
Источник: Microsoft Azure Blog
#Microsoft #Phi4 #МалыеЯзыковыеМодели #ИИнаУстройстве #ОткрытыйИсходныйКод
30 апреля Microsoft запустила три новые модели семейства Phi, ориентированные на сложные рассуждения. Эти компактные модели превосходят более крупных конкурентов в задачах, требующих логического мышления, и при этом достаточно малы для работы на смартфонах и ноутбуках! 🚀
🔍 Что нового?
• Phi-4-reasoning (14 млрд параметров) — флагманская модель, которая превосходит OpenAI o1-mini и не уступает DeepSeek с 671 млрд параметров по ключевым показателям
• Phi-4-reasoning-plus — улучшенная версия с дополнительной тренировкой через обучение с подкреплением
• Phi-4-mini-reasoning (3,8 млрд параметров) — сверхкомпактная модель, способная работать на мобильных устройствах и не уступающая 7-миллиардным моделям в математических задачах
💡 Почему это важно?
Эти модели специально разработаны для эффективной работы в условиях ограниченных ресурсов — на периферийных устройствах и компьютерах Copilot+ PC. Несмотря на компактный размер, они демонстрируют впечатляющие результаты в сложных задачах рассуждения.
Как показывают тесты, Phi-4-reasoning превосходит DeepSeek-R1-Distill-Llama-70B (в 5 раз больше по размеру!) и демонстрирует конкурентоспособные результаты по сравнению со значительно более крупными моделями, такими как Deepseek-R1.
🔓 Открытый исходный код
Все три модели выпущены с открытым исходным кодом и лицензиями, позволяющими неограниченное коммерческое использование и модификацию разработчиками.
🖥 Применение в Windows
Модели Phi уже интегрированы в Copilot+ PC с оптимизированным для NPU вариантом Phi Silica. Они используются в таких функциях как Click to Do и доступны разработчикам через API.
🧠 Хотите попробовать?
• Протестируйте новые модели на Azure AI Foundry
• Изучите Phi Cookbook
• Узнайте больше о Phi-4-mini-reasoning
• Узнайте больше о Phi-4-reasoning
• Узнайте больше о Phi-4-reasoning-plus
Это новый шаг в развитии малых языковых моделей, которые становятся всё умнее, оставаясь при этом компактными и эффективными. Будущее ИИ уже здесь — прямо на наших устройствах! 📱💻
Источник: Microsoft Azure Blog
#Microsoft #Phi4 #МалыеЯзыковыеМодели #ИИнаУстройстве #ОткрытыйИсходныйКод
⚡3👍1
Microsoft представила концепцию "открытого агентного веба" на Build 2025 🚀
Очень много крутых анонсов от Microsoft.
Microsoft представила свое видение "открытого агентного веба" (open agentic web) на конференции Build 2025, выпустив целый ряд новых инструментов и обновлений с поддержкой искусственного интеллекта.
Ключевые анонсы:
• GitHub Copilot эволюционирует из помощника в редакторе кода в полноценного агента, работающего асинхронно. Также Microsoft сделала открытым исходный код Copilot Chat в VS Code 🔧
• Компания выпустила Magentic-UI — исследовательский прототип с открытым исходным кодом для веб-агентов (построенных на базе агентного фреймворка AutoGen), ориентированный на сотрудничество с пользователем и контроль 🕸 (ссылка на github здесь)
• Microsoft добавляет модели Grok 3 и Grok 3 mini от xAI в Azure AI Foundry, что позволит разработчикам выбирать из более чем 1900 моделей 🧠
• Новый открытый проект NLWeb стремится стать аналогом HTML для агентного веба, упрощая добавление разговорного интерфейса на веб-сайты 💬 (ссылка на github тут)
• Copilot расширяется с новыми возможностями настройки, позволяя организациям обучать модели на корпоративных данных (можно зарегистрироваться на соответствующую сессию завтра), а также оркестрировать взаимодействие нескольких агентов для совместного решения бизнес-задач 📊
Почему это важно
Хотя "год AI-агентов" пока не оправдал всех ожиданий в плане практического применения, индустрия движется в правильном направлении. Заметен также сдвиг в сторону открытого исходного кода, что подтверждается многочисленными релизами от технологического гиганта.
Если вдруг пропустили вот ссылка на Keynote от Satya Nadella (CEO Microsoft)
Для тех, у кого мало времени, или кто не любит youtube, подготовил краткий транскрипт и саммари выступления.
P.S. Будет чем заняться на выходных - продукты классные, будем тестировать.
#ai #microsoft #copilot #agents #opensource
Очень много крутых анонсов от Microsoft.
Microsoft представила свое видение "открытого агентного веба" (open agentic web) на конференции Build 2025, выпустив целый ряд новых инструментов и обновлений с поддержкой искусственного интеллекта.
Ключевые анонсы:
• GitHub Copilot эволюционирует из помощника в редакторе кода в полноценного агента, работающего асинхронно. Также Microsoft сделала открытым исходный код Copilot Chat в VS Code 🔧
• Компания выпустила Magentic-UI — исследовательский прототип с открытым исходным кодом для веб-агентов (построенных на базе агентного фреймворка AutoGen), ориентированный на сотрудничество с пользователем и контроль 🕸 (ссылка на github здесь)
• Microsoft добавляет модели Grok 3 и Grok 3 mini от xAI в Azure AI Foundry, что позволит разработчикам выбирать из более чем 1900 моделей 🧠
• Новый открытый проект NLWeb стремится стать аналогом HTML для агентного веба, упрощая добавление разговорного интерфейса на веб-сайты 💬 (ссылка на github тут)
• Copilot расширяется с новыми возможностями настройки, позволяя организациям обучать модели на корпоративных данных (можно зарегистрироваться на соответствующую сессию завтра), а также оркестрировать взаимодействие нескольких агентов для совместного решения бизнес-задач 📊
Почему это важно
Хотя "год AI-агентов" пока не оправдал всех ожиданий в плане практического применения, индустрия движется в правильном направлении. Заметен также сдвиг в сторону открытого исходного кода, что подтверждается многочисленными релизами от технологического гиганта.
Если вдруг пропустили вот ссылка на Keynote от Satya Nadella (CEO Microsoft)
Для тех, у кого мало времени, или кто не любит youtube, подготовил краткий транскрипт и саммари выступления.
P.S. Будет чем заняться на выходных - продукты классные, будем тестировать.
#ai #microsoft #copilot #agents #opensource
The Official Microsoft Blog
Microsoft Build 2025: The age of AI agents and building the open agentic web
TL;DR? Hear the news as an AI-generated audio overview made using Microsoft 365 Copilot. You can read the transcript here. We’ve entered the era of AI agents. Thanks to groundbreaking advancements in reasoning and memory, AI models are now more capable…
❤🔥2👍2