AI Product | Igor Akimov

YCombinator собирает заявки на AI School. 16-17 июня в Сан-Франциско. Состав звездный! От Альтмана до Маска, от Карпатого до Наделлы. Студентов зовут, исследователей и тех специалистов. Даже подкинут 500 долларов на билеты.

https://events.ycombinator.com/ai-sus?x=22

1.8K views18:26

Forwarded from Machinelearning

🌟

Magentic‑UI от Microsoft — человеко‑ориентированный веб‑агент нового поколения

Что если ИИ-агент в браузере не просто «делает всё сам», а работает вместе с тобой — предлагает план, спрашивает разрешения, показывает действия и обучается на опыте?
Именно так работает Magentic‑UI — новый эксперимент от Microsoft Research.

🔜

Что это такое?

Magentic‑UI — это платформа, в которой ИИ-агенты помогают людям выполнять сложные задачи в браузере (заполнить форму, найти нужные данные, скачать файлы и т.д.), но при этом не берут всё на себя, а работают в паре с пользователем.

Это не автономный бот, а интерфейс взаимодействия: человек остаётся в центре принятия решений, а агент — в роли помощника.

🔜

Что умеет Magentic‑UI?

1) Планирует вместе с тобой
Агент предлагает пошаговый план действий. Ты можешь изменить, утвердить или уточнить его.

2) Показывает, что делает
Все действия видны — клики, ввод текста, навигация. Никакой «магии за кадром».

3) Спрашивает разрешение перед важными действиями
Агент не будет нажимать на кнопки "удалить" или "оплатить" без твоего согласия.

4) Обучается на успешных сценариях
Завершил задачу? Теперь этот план можно переиспользовать в будущем.

Где это может пригодиться?

• Заполнение длинных форм и анкет
• Автоматизация рутинных действий в браузере
• Создание умных пользовательских сценариев (например: «найди и скачай последние отчёты с нужного сайта»)
• Обучение и настройка собственных браузерных агентов

А как насчёт безопасности?

• Агент работает только на разрешённых сайтах (white-list)
• Весь код и браузер изолированы в Docker — ничего не утечёт
• Все действия — прозрачны и отменяемы

🔜

Официальная страница проекта

🔜

GitHub

@ai_machinelearning_big_data

#microsoft #ai #aiuagent #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

1.0K views12:12

AI Product | Igor Akimov

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

Микрософт анонсировала MCP for Windows.

Ну то есть теперь можно голосом сказать, Клод, отформатируй все жёсткие диски.

Слово - не воробей...

Шутки шутками, но на очереди MCP для офиса. И вот уже операционка превращается в LMOS, о которой говорил Андрей Карпатый.

@cgevent

960 views12:13

AI Product | Igor Akimov

Вот основное, что Microsoft представил вчера.

1. GitHub Copilot превращается в полноценного AI-агента, способного выполнять задачи по разработке и сопровождению кода, включая исправление ошибок и рефакторинг. Очень похоже на Codex от OpenAI.

2. Azure AI Foundry (коллекция подключаемых моделек) расширен до более чем 1900 моделей, включая интеграцию с Grok 3 от xAI Илона Маска, предоставляя разработчикам доступ к разнообразным AI-инструментам.

3. Windows AI Foundry представлен как локальная платформа для разработки и развертывания AI-моделей, поддерживающая Model Context Protocol (MCP) для бесшовной интеграции AI-приложений в Windows.

4. Microsoft 365 Copilot получил обновления, включая настройку агентов и оркестрацию нескольких агентов для повышения продуктивности и автоматизации рабочих процессов.

5. NLWeb — новый открытый протокол, позволяющий разработчикам интегрировать интерфейсы на естественном языке в веб-сайты, упрощая взаимодействие пользователей с контентом.

6. Windows Subsystem for Linux (WSL) стал проектом с открытым исходным кодом, что способствует большей прозрачности и участию сообщества в его развитии.

7. Edit on Windows — новый легковесный текстовый редактор командной строки Windows, предоставляющий разработчикам удобный инструмент для редактирования файлов прямо в терминале.

8. Microsoft Discovery — платформа, использующая AI-агентов для ускорения научных исследований и разработок, включая генерацию идей и моделирование результатов.

https://blogs.microsoft.com/blog/2025/05/19/microsoft-build-2025-the-age-of-ai-agents-and-building-the-open-agentic-web/

The Official Microsoft Blog

Microsoft Build 2025: The age of AI agents and building the open agentic web

TL;DR? Hear the news as an AI-generated audio overview made using Microsoft 365 Copilot. You can read the transcript here. We’ve entered the era of AI agents. Thanks to groundbreaking advancements in reasoning and memory, AI models are now more capable…

1.4K views17:05

AI Product | Igor Akimov

А сейчас Google IO
https://youtu.be/o8NiE3XMPrM

YouTube

Google I/O '25 Keynote

It's time to I/O! Tune in to learn the latest news, announcements, and AI updates from Google.

00:00:00 Opening
00:02:17 Introduction
00:19:29 Google DeepMind + Gemini for Developers
00:46:04 Search
01:11:06 Gemini
01:24:02 Generative Media
01:37:37 Android…

8.6K views17:06

AI Product | Igor Akimov

Forwarded from эйай ньюз

Что показали на Google I/O?

Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.

Сначала самое жаркое:

- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".

Для технарей:

- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.

Mic drop...🎤

@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

1.0K views06:39

AI Product | Igor Akimov

1:04

This media is not supported in your browser

VIEW IN TELEGRAM

Кажется, роботов персональных уже скоро можно будет видеть в домах все чаще. Только с перемешиванием тяжеловато )

1.3K views11:26

AI Product | Igor Akimov

Forwarded from Machinelearning

🚀 Mistral AI представила Devstral — новый open-source LLM для автономных кодинг-агентов

Mistral AI представил Devstral — свою первую модель, специально разработанную для решения реальных задач в области кодинга.

Созданная в сотрудничестве с All Hands AI, Devstral демонстрирует выдающиеся результаты на бенчмарке SWE-Bench Verified, превзойдя все существующие open-source модели с результатом 46,8%.

💡Лицензирвоание: Apache 2.0 — свободное коммерческое использование.

https://huggingface.co/mistralai/Devstral-Small-2505

@ai_machinelearning_big_data

#Devstral #MistralAI #Кодинг #ИИ #OpenSource

1.2K views14:57

AI Product | Igor Akimov

Forwarded from Точки над ИИ