AI Product | Igor Akimov
4.21K subscribers
701 photos
125 videos
46 files
707 links
Download Telegram
YCombinator собирает заявки на AI School. 16-17 июня в Сан-Франциско. Состав звездный! От Альтмана до Маска, от Карпатого до Наделлы. Студентов зовут, исследователей и тех специалистов. Даже подкинут 500 долларов на билеты.

https://events.ycombinator.com/ai-sus?x=22
Forwarded from Machinelearning
🌟 Magentic‑UI от Microsoft — человеко‑ориентированный веб‑агент нового поколения

Что если ИИ-агент в браузере не просто «делает всё сам», а работает вместе с тобой — предлагает план, спрашивает разрешения, показывает действия и обучается на опыте?
Именно так работает Magentic‑UI — новый эксперимент от Microsoft Research.

🔜 Что это такое?

Magentic‑UI — это платформа, в которой ИИ-агенты помогают людям выполнять сложные задачи в браузере (заполнить форму, найти нужные данные, скачать файлы и т.д.), но при этом не берут всё на себя, а работают в паре с пользователем.

Это не автономный бот, а интерфейс взаимодействия: человек остаётся в центре принятия решений, а агент — в роли помощника.

🔜 Что умеет Magentic‑UI?

1) Планирует вместе с тобой
Агент предлагает пошаговый план действий. Ты можешь изменить, утвердить или уточнить его.

2) Показывает, что делает
Все действия видны — клики, ввод текста, навигация. Никакой «магии за кадром».

3) Спрашивает разрешение перед важными действиями
Агент не будет нажимать на кнопки "удалить" или "оплатить" без твоего согласия.

4) Обучается на успешных сценариях
Завершил задачу? Теперь этот план можно переиспользовать в будущем.

Где это может пригодиться?

• Заполнение длинных форм и анкет
• Автоматизация рутинных действий в браузере
• Создание умных пользовательских сценариев (например: «найди и скачай последние отчёты с нужного сайта»)
• Обучение и настройка собственных браузерных агентов

А как насчёт безопасности?

• Агент работает только на разрешённых сайтах (white-list)
• Весь код и браузер изолированы в Docker — ничего не утечёт
• Все действия — прозрачны и отменяемы

🔜 Официальная страница проекта
🔜 GitHub

@ai_machinelearning_big_data


#microsoft #ai #aiuagent #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Микрософт анонсировала MCP for Windows.

Ну то есть теперь можно голосом сказать, Клод, отформатируй все жёсткие диски.

Слово - не воробей...

Шутки шутками, но на очереди MCP для офиса. И вот уже операционка превращается в LMOS, о которой говорил Андрей Карпатый.

@cgevent
Вот основное, что Microsoft представил вчера.

1. GitHub Copilot превращается в полноценного AI-агента, способного выполнять задачи по разработке и сопровождению кода, включая исправление ошибок и рефакторинг. Очень похоже на Codex от OpenAI.

2. Azure AI Foundry (коллекция подключаемых моделек) расширен до более чем 1900 моделей, включая интеграцию с Grok 3 от xAI Илона Маска, предоставляя разработчикам доступ к разнообразным AI-инструментам.

3. Windows AI Foundry представлен как локальная платформа для разработки и развертывания AI-моделей, поддерживающая Model Context Protocol (MCP) для бесшовной интеграции AI-приложений в Windows.

4. Microsoft 365 Copilot получил обновления, включая настройку агентов и оркестрацию нескольких агентов для повышения продуктивности и автоматизации рабочих процессов.

5. NLWeb — новый открытый протокол, позволяющий разработчикам интегрировать интерфейсы на естественном языке в веб-сайты, упрощая взаимодействие пользователей с контентом.

6. Windows Subsystem for Linux (WSL) стал проектом с открытым исходным кодом, что способствует большей прозрачности и участию сообщества в его развитии.

7. Edit on Windows — новый легковесный текстовый редактор командной строки Windows, предоставляющий разработчикам удобный инструмент для редактирования файлов прямо в терминале.

8. Microsoft Discovery — платформа, использующая AI-агентов для ускорения научных исследований и разработок, включая генерацию идей и моделирование результатов.

https://blogs.microsoft.com/blog/2025/05/19/microsoft-build-2025-the-age-of-ai-agents-and-building-the-open-agentic-web/
Forwarded from эйай ньюз
Что показали на Google I/O?

Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.

Сначала самое жаркое:

- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".

Для технарей:

- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.

Mic drop...🎤

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Кажется, роботов персональных уже скоро можно будет видеть в домах все чаще. Только с перемешиванием тяжеловато )
Forwarded from Machinelearning
🚀 Mistral AI представила Devstral — новый open-source LLM для автономных кодинг-агентов

Mistral AI представил Devstral — свою первую модель, специально разработанную для решения реальных задач в области кодинга.

Созданная в сотрудничестве с All Hands AI, Devstral демонстрирует выдающиеся результаты на бенчмарке SWE-Bench Verified, превзойдя все существующие open-source модели с результатом 46,8%.

💡Лицензирвоание: Apache 2.0 — свободное коммерческое использование.

https://huggingface.co/mistralai/Devstral-Small-2505

@ai_machinelearning_big_data

#Devstral #MistralAI #Кодинг #ИИ #OpenSource
Ну что же, есть время разобрать анонсы от OpenAI для разработчиков, там есть много интересного
https://openai.com/index/new-tools-and-features-in-the-responses-api/

- Поддержка удалённых MCP серверов: по сути убили все конкурирующие стандарты, потому что поддержка Anthropic + Microsoft + OpenAI + комьюнити означает доминирующее положение и все большую поддержку. Можете теперь в API вызывать другие приложения через их MCP (по сути API для ллм-ок) и конечно же добавить в свой продукт MCP.

- Генерация изображений: выделили для генерации новую модель gpt-image-1, которая может выдавать потоковую генерацию картинок (постепенно улучшать качество, как в ChatGPT) и позволять редактировать сгенерированные изображения дальше (просто ID картинки прошлой запихнуть в промпт)

- Code Interpreter - наконец-то: и в Responses теперь есть написание и вызов кода, а также можно "думать по картинке", например, какую-то часть "увеличить", чтобы детальнее рассмотреть или перевернуть.

- Улучшенный поиск по файлам: тоже маст-хев для RAG, а теперь добавили возможность поиска сразу по нескольким хранилищам данных и расширенные фильтры поиска, но пока только на уровне файлов, то есть можно например указать дату файла и при поиске, например, данных по прошлой неделе, фильтровать для RAG только файлы с датой на прошлой неделе.

- Фоновый режим, как в Deep Search: не нужно постоянно опрашивать результат и бояться таймаута, можно запулить и потом получить вебхук о том, что результат готов.

- Сводки рассуждений (Reasoning Summaries): естественные описания внутренней логики модели для удобства отладки и аудита. Так же как в ChatGPT работают. Можно внутри использовать, либо прям пользователям показывать.

- Шифрование элементов рассуждений: возможность повторного использования контекста без его хранения на серверах OpenAI, улучшая безопасность и производительность. Но только для тех, у кого персональный контракт и Zero Retention.

Все функции доступны в моделях GPT-4o, GPT-4.1, а также в линейке моделей OpenAI o-series (o1, o3, o3-mini, o4-mini).