AI Product | Igor Akimov
4.21K subscribers
701 photos
125 videos
46 files
709 links
Download Telegram
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Микрософт анонсировала MCP for Windows.

Ну то есть теперь можно голосом сказать, Клод, отформатируй все жёсткие диски.

Слово - не воробей...

Шутки шутками, но на очереди MCP для офиса. И вот уже операционка превращается в LMOS, о которой говорил Андрей Карпатый.

@cgevent
Вот основное, что Microsoft представил вчера.

1. GitHub Copilot превращается в полноценного AI-агента, способного выполнять задачи по разработке и сопровождению кода, включая исправление ошибок и рефакторинг. Очень похоже на Codex от OpenAI.

2. Azure AI Foundry (коллекция подключаемых моделек) расширен до более чем 1900 моделей, включая интеграцию с Grok 3 от xAI Илона Маска, предоставляя разработчикам доступ к разнообразным AI-инструментам.

3. Windows AI Foundry представлен как локальная платформа для разработки и развертывания AI-моделей, поддерживающая Model Context Protocol (MCP) для бесшовной интеграции AI-приложений в Windows.

4. Microsoft 365 Copilot получил обновления, включая настройку агентов и оркестрацию нескольких агентов для повышения продуктивности и автоматизации рабочих процессов.

5. NLWeb — новый открытый протокол, позволяющий разработчикам интегрировать интерфейсы на естественном языке в веб-сайты, упрощая взаимодействие пользователей с контентом.

6. Windows Subsystem for Linux (WSL) стал проектом с открытым исходным кодом, что способствует большей прозрачности и участию сообщества в его развитии.

7. Edit on Windows — новый легковесный текстовый редактор командной строки Windows, предоставляющий разработчикам удобный инструмент для редактирования файлов прямо в терминале.

8. Microsoft Discovery — платформа, использующая AI-агентов для ускорения научных исследований и разработок, включая генерацию идей и моделирование результатов.

https://blogs.microsoft.com/blog/2025/05/19/microsoft-build-2025-the-age-of-ai-agents-and-building-the-open-agentic-web/
Forwarded from эйай ньюз
Что показали на Google I/O?

Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.

Сначала самое жаркое:

- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".

Для технарей:

- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.

Mic drop...🎤

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Кажется, роботов персональных уже скоро можно будет видеть в домах все чаще. Только с перемешиванием тяжеловато )
Forwarded from Machinelearning
🚀 Mistral AI представила Devstral — новый open-source LLM для автономных кодинг-агентов

Mistral AI представил Devstral — свою первую модель, специально разработанную для решения реальных задач в области кодинга.

Созданная в сотрудничестве с All Hands AI, Devstral демонстрирует выдающиеся результаты на бенчмарке SWE-Bench Verified, превзойдя все существующие open-source модели с результатом 46,8%.

💡Лицензирвоание: Apache 2.0 — свободное коммерческое использование.

https://huggingface.co/mistralai/Devstral-Small-2505

@ai_machinelearning_big_data

#Devstral #MistralAI #Кодинг #ИИ #OpenSource
Ну что же, есть время разобрать анонсы от OpenAI для разработчиков, там есть много интересного
https://openai.com/index/new-tools-and-features-in-the-responses-api/

- Поддержка удалённых MCP серверов: по сути убили все конкурирующие стандарты, потому что поддержка Anthropic + Microsoft + OpenAI + комьюнити означает доминирующее положение и все большую поддержку. Можете теперь в API вызывать другие приложения через их MCP (по сути API для ллм-ок) и конечно же добавить в свой продукт MCP.

- Генерация изображений: выделили для генерации новую модель gpt-image-1, которая может выдавать потоковую генерацию картинок (постепенно улучшать качество, как в ChatGPT) и позволять редактировать сгенерированные изображения дальше (просто ID картинки прошлой запихнуть в промпт)

- Code Interpreter - наконец-то: и в Responses теперь есть написание и вызов кода, а также можно "думать по картинке", например, какую-то часть "увеличить", чтобы детальнее рассмотреть или перевернуть.

- Улучшенный поиск по файлам: тоже маст-хев для RAG, а теперь добавили возможность поиска сразу по нескольким хранилищам данных и расширенные фильтры поиска, но пока только на уровне файлов, то есть можно например указать дату файла и при поиске, например, данных по прошлой неделе, фильтровать для RAG только файлы с датой на прошлой неделе.

- Фоновый режим, как в Deep Search: не нужно постоянно опрашивать результат и бояться таймаута, можно запулить и потом получить вебхук о том, что результат готов.

- Сводки рассуждений (Reasoning Summaries): естественные описания внутренней логики модели для удобства отладки и аудита. Так же как в ChatGPT работают. Можно внутри использовать, либо прям пользователям показывать.

- Шифрование элементов рассуждений: возможность повторного использования контекста без его хранения на серверах OpenAI, улучшая безопасность и производительность. Но только для тех, у кого персональный контракт и Zero Retention.

Все функции доступны в моделях GPT-4o, GPT-4.1, а также в линейке моделей OpenAI o-series (o1, o3, o3-mini, o4-mini).
Forwarded from Machinelearning
Anthropic представили: Claude Opus 4 и Claude Sonnet 4 — новое поколение ИИ

Компания Anthropic выпустила обновлённую линейку моделей — Claude Opus 4 и Claude Sonnet 4. Это шаг вперёд в разработке ИИ, ориентированного на глубокое мышление и эффективное программирование.

Claude Opus 4 — самая мощная ИИ-модель от Anthropic на сегодняшний день и, по их утверждению, лучший в мире инструмент для программирования. Он способен работать часами над сложными задачами, что делает его идеальным для автономных агентов и масштабных проектов.

Claude Sonnet 4 стал серьёзным обновлением по сравнению с предыдущей версией (Sonnet 3.7). Он демонстрирует улучшенные способности в кодинге и логике, а также предоставляет пользователю больше контроля над тем, как быстро модель генерирует код.

Обе модели являются гибридными — умеют переключаться между быстрыми откликами и глубокой проработкой задач, а также комбинируют рассуждение с инструментами вроде веб-поиска для повышения качества ответов.

Они показывают лучшие результаты на SWE-bench Verified — эталонном тесте, оценивающем способность ИИ решать реальные программные проблемы.

Anthropic позиционирует Claude Opus 4 как платформу для новых возможностей, а Sonnet 4 — как инструмент для более точной и контролируемой работы.
Кстати, кто следил за этим с прошлого Google I/O, Google движется-таки к релизу Gemini-модели внутри Chrome, то есть можно будет на веб-сайте вызывать локальную небольшую модель и делать все, что нужно, офлайн, безопасно, без использования сторонних библиотек. Мне кажется это просто нереальные возможности открывает, в частности в корпоративном и закрытом окружении.
Вот подробности
https://developer.chrome.com/docs/ai

Пока зарелизили только определение языка, но в сентябре будет и все остальное, причем как на странице, так и в экстеншенах: writer для написания текстов, rewriter, translator, summarizer и в целом кастомный prompt. Сейчас можно присоединиться к preview.
Но конечно нужен Win 10+, Mac OS 13+, 4 GB GPU, 22GB на жестком диске (жестоко)