OpenAI представил бенчмарк оценки AI моделей в медицине
https://openai.com/index/healthbench/
- Создан совместно с 262 врачами из 60 стран, владеющими 49 языками и 26 специальностями.
- Содержит 5 000 реалистичных мультиязычных диалогов «пользователь ↔️ ИИ» с индивидуальными рубриками‑чек‑листами, написанными врачами.
Три ключевых принципа бенчмарка
- Осмысленность (Meaningful): сценарии приближены к реальной клинической практике, а баллы коррелируют с потенциальным влиянием на здоровье.
- Надёжность (Trustworthy): критерии и весы отражают приоритеты мед‑сообщества; оценка основана на медицинских стандартах.
- Неисчерпанность (Unsaturated): даже новейшим LLM есть куда расти, что мотивирует дальнейшее улучшение.
Как устроен датасет
Диалоги получены комбинацией синтетической генерации и «человеческого» стресс‑тестирования.
Охватывают разные роли (пациент, врач), 7 тем (неотложка, неопределённость, глобальное здоровье и т.д.) и 48 562 уникальных рубрик‑критериев.
Оценку проводит модель‑грейдер GPT‑4.1: за каждый выполненный критерий начисляются взвешенные баллы.
Результаты моделей (апрель 2025)
o3 лидирует по всем темам и осям; заметно опережает Claude 3.7 Sonnet и Gemini 2.5 Pro.
Прогресс OpenAI‑линий с авг‑24 по апр‑25 — ≈ +28 % среднего балла HealthBench.
Баланс «качество ↔️ стоимость»
Линейка апреля‑25 (o3, o4‑mini, GPT‑4.1) задаёт новую «фронтирную» кривую эффективности: выше качество при той же или меньшей цене вычислений.
Модель GPT‑4.1 nano обходит GPT‑4o (2024), оставаясь ~25 раз дешевле.
Надёжность (worst‑of‑n)
Анализ «худшего из n» ответов показывает: новые модели ощутимо устойчивее, но даже лучшие ещё допускают слабые ответы, поэтому есть простор для повышения safety.
Варианты HealthBench
Consensus: 3 671 пример, где критерии прошли мульти‑валидацию врачей; целится в практически нулевую ошибку.
Hard: 1 000 сложных кейсов, на которых современные LLM пока «проваливаются» — площадка для будущих улучшений.
Сравнение с врачами
Врачи без помощи ИИ уступают сентябрьским моделям 2024.
Врачи + подсказки моделей 2024 улучшают ответы (human‑in‑the‑loop > model).
Для апрельских моделей 2025 врачи уже не могут заметно улучшить их ответы, что подтверждает рост качества.
Достоверность автоматической оценки
Согласие «модель‑грейдер ↔️ врач» сопоставимо со согласием «врач ↔️ врач», то есть автоматический скоринг адекватно отражает экспертное мнение.
HealthBench доступен на GitHub (код, данные, инструкции).
https://github.com/openai/simple-evals
https://openai.com/index/healthbench/
- Создан совместно с 262 врачами из 60 стран, владеющими 49 языками и 26 специальностями.
- Содержит 5 000 реалистичных мультиязычных диалогов «пользователь ↔️ ИИ» с индивидуальными рубриками‑чек‑листами, написанными врачами.
Три ключевых принципа бенчмарка
- Осмысленность (Meaningful): сценарии приближены к реальной клинической практике, а баллы коррелируют с потенциальным влиянием на здоровье.
- Надёжность (Trustworthy): критерии и весы отражают приоритеты мед‑сообщества; оценка основана на медицинских стандартах.
- Неисчерпанность (Unsaturated): даже новейшим LLM есть куда расти, что мотивирует дальнейшее улучшение.
Как устроен датасет
Диалоги получены комбинацией синтетической генерации и «человеческого» стресс‑тестирования.
Охватывают разные роли (пациент, врач), 7 тем (неотложка, неопределённость, глобальное здоровье и т.д.) и 48 562 уникальных рубрик‑критериев.
Оценку проводит модель‑грейдер GPT‑4.1: за каждый выполненный критерий начисляются взвешенные баллы.
Результаты моделей (апрель 2025)
o3 лидирует по всем темам и осям; заметно опережает Claude 3.7 Sonnet и Gemini 2.5 Pro.
Прогресс OpenAI‑линий с авг‑24 по апр‑25 — ≈ +28 % среднего балла HealthBench.
Баланс «качество ↔️ стоимость»
Линейка апреля‑25 (o3, o4‑mini, GPT‑4.1) задаёт новую «фронтирную» кривую эффективности: выше качество при той же или меньшей цене вычислений.
Модель GPT‑4.1 nano обходит GPT‑4o (2024), оставаясь ~25 раз дешевле.
Надёжность (worst‑of‑n)
Анализ «худшего из n» ответов показывает: новые модели ощутимо устойчивее, но даже лучшие ещё допускают слабые ответы, поэтому есть простор для повышения safety.
Варианты HealthBench
Consensus: 3 671 пример, где критерии прошли мульти‑валидацию врачей; целится в практически нулевую ошибку.
Hard: 1 000 сложных кейсов, на которых современные LLM пока «проваливаются» — площадка для будущих улучшений.
Сравнение с врачами
Врачи без помощи ИИ уступают сентябрьским моделям 2024.
Врачи + подсказки моделей 2024 улучшают ответы (human‑in‑the‑loop > model).
Для апрельских моделей 2025 врачи уже не могут заметно улучшить их ответы, что подтверждает рост качества.
Достоверность автоматической оценки
Согласие «модель‑грейдер ↔️ врач» сопоставимо со согласием «врач ↔️ врач», то есть автоматический скоринг адекватно отражает экспертное мнение.
HealthBench доступен на GitHub (код, данные, инструкции).
https://github.com/openai/simple-evals
Kling is the new King.
Китайская Kling - самая предпочитаемая моделька в видеогенерации по фото. Выше даже Veo 2 и Sora.
https://artificialanalysis.ai/text-to-video/arena?tab=leaderboard&input=image
Китайская Kling - самая предпочитаемая моделька в видеогенерации по фото. Выше даже Veo 2 и Sora.
https://artificialanalysis.ai/text-to-video/arena?tab=leaderboard&input=image
Вау, на хабре сегодня классная статья про оптимизацию использования cursor.
https://habr.com/ru/articles/908750/
Бывший разработчик, а 15 лет как менеджер, собрал для себя инструмент подпинывания курсора в нужном направлении (закидывая индекс файлов и весь контекст, формируя большой подробный промпт). В итоге всяких тупых действий становится меньше, размышлений по делу - сильно больше
Код его утилиты тут: https://github.com/glebkudr/shotgun_code
https://habr.com/ru/articles/908750/
Бывший разработчик, а 15 лет как менеджер, собрал для себя инструмент подпинывания курсора в нужном направлении (закидывая индекс файлов и весь контекст, формируя большой подробный промпт). В итоге всяких тупых действий становится меньше, размышлений по делу - сильно больше
Код его утилиты тут: https://github.com/glebkudr/shotgun_code
Хабр
One-shot промптинг. Как я начал вайбкодить в 10? раз быстрее
Shotgun: +100 к урону Вообще, я менеджер. Но когда-то писал код и всегда любил это занятие. Серьезно прогал мобильные приложения, и даже заработал за один из ответов на SO больше 100 звездочек. Но с...
This media is not supported in your browser
VIEW IN TELEGRAM
Офигеть, конечно, точность и скорость движений. Новый герой дискотеки 100%
CodeRabbit запустил AI code reviews свои в виде плагина в VSCode и соответственно Cursor, WindSurf. Автоматически проверяет ваш код, пишет саммари, рисует диаграммки, сам исправляет.
Причем часть работы даже до коммита может делать, на уровне редактирования кода. Простая версия бесплатная, продвинутая - 12-24 доллара на человека в месяц.
https://www.coderabbit.ai/blog/ai-code-reviews-vscode-cursor-windsurf
Причем часть работы даже до коммита может делать, на уровне редактирования кода. Простая версия бесплатная, продвинутая - 12-24 доллара на человека в месяц.
https://www.coderabbit.ai/blog/ai-code-reviews-vscode-cursor-windsurf
OpenAI тут представляет своего копилота - Codex, AI-агент без IDE со специальной моделью на базе o3 и доступом к GitHub. Только для Pro/Teams/Enterprise пока, Plus - позже
https://www.youtube.com/watch?v=hhdpnbfH6NU
https://www.youtube.com/watch?v=hhdpnbfH6NU
Вот подробности
Что такое Codex в ChatGPT и как это работает?
Codex — это новый AI-ассистент для автоматизации разработки кода, доступный прямо в интерфейсе ChatGPT (пока для Pro, Enterprise и Team-пользователей). Codex способен брать на себя конкретные задачи — от написания тестов до рефакторинга, и даже более сложные задачи вроде исправления багов или автоматизации рутинных процессов в вашем проекте.
Как устроена работа с Codex
1. Запуск через ChatGPT
Codex доступен через боковое меню ChatGPT. Чтобы назначить задачу, достаточно написать инструкцию и выбрать “Code”. Можно также использовать “Ask”, чтобы получить разъяснения по коду.
2. Изолированное выполнение задач
Каждая задача Codex выполняется в отдельной, безопасной среде, предзагруженной вашим кодом (например, с GitHub). Codex может:
- читать и редактировать файлы,
- запускать тесты, линтеры, проверки типов,
- коммитить изменения в своей среде,
- показывать логи терминала и результаты тестов.
3. Прозрачность и контроль
Codex документирует все свои шаги:
Вы видите логи терминала, диффы изменений, результаты тестов.
Можно просматривать изменения, запрашивать доработки, делать pull request в GitHub или сразу интегрировать правки.
4. Гибкая настройка среды
Вы можете настроить окружение Codex под ваш стек — например, предустановить нужные зависимости, скрипты, добавить AGENTS.md с инструкциями по работе с проектом.
Принципы работы Codex
Codex ориентирован на безопасную автоматизацию:
Все задачи выполняются в облачном контейнере без доступа к интернету (кроме вашего кода и нужных зависимостей).
Codex самостоятельно отказывается выполнять запросы, похожие на задачи по разработке вредоносного ПО.
Рекомендуется всегда вручную проверять предложенные изменения перед интеграцией.
AGENTS.md — как обучить Codex работать с вашим проектом
Это инструкция в репозитории (аналог README.md), где описываются стандарты, команды тестирования, нюансы навигации по коду.
Чем лучше документация и настройка — тем качественнее решения предлагает Codex.
Возможности и кейсы использования
Codex особенно эффективен для:
- Рефакторинга и автоматизации: переименование функций, выделение модулей, обновление стиля кода.
- Написания и запуска тестов: быстро создает юнит-тесты, интеграционные сценарии.
- Исправления багов: находит и устраняет ошибки на основе ваших описаний и логов.
- Добавления фич: создаёт каркас новых компонентов, функций.
- Документирования: генерирует README, docstrings и другую техническую документацию.
- Обработка повторяющихся задач: автоматизация рутинных изменений по всему проекту.
Примеры из индустрии:
Cisco использует Codex для быстрого прототипирования новых идей и ускорения работы команд.
Temporal ускоряет поиск багов и добавление фич.
Superhuman — автоматизация покрытия тестами и исправление мелких интеграционных ошибок.
Как повысить эффективность работы с Codex
- Делите задачи на небольшие, четко сформулированные подзадачи.
- Пробуйте назначать несколько задач разным агентам параллельно — это ускоряет работу.
- Обязательно предоставляйте хорошую документацию и тесты (через AGENTS.md и README).
- Следите за логами и результатами тестов, которые показывает Codex — так вы поймёте логику изменений.
Codex CLI и локальная работа
Codex CLI — это консольная версия ассистента для терминала:
Можно запускать задачи на локальном проекте, получать ответы в реальном времени.
Поддержка модели codex-mini-latest с быстрым откликом.
Теперь можно войти через ChatGPT-аккаунт, чтобы быстро получать API-ключ и даже бесплатные кредиты ($5/$50 для Plus/Pro).
Доступность и тарифы
Сейчас Codex открыт для Pro, Enterprise, Team-пользователей ChatGPT. Скоро добавят поддержку Plus и Edu.
В ближайшие недели доступ бесплатный, далее появится лимитированная бесплатная квота и платные опции.
Для Codex CLI: $1.50 за 1М входных токенов, $6 за 1М выходных, скидка на кешированные промпты.
Что такое Codex в ChatGPT и как это работает?
Codex — это новый AI-ассистент для автоматизации разработки кода, доступный прямо в интерфейсе ChatGPT (пока для Pro, Enterprise и Team-пользователей). Codex способен брать на себя конкретные задачи — от написания тестов до рефакторинга, и даже более сложные задачи вроде исправления багов или автоматизации рутинных процессов в вашем проекте.
Как устроена работа с Codex
1. Запуск через ChatGPT
Codex доступен через боковое меню ChatGPT. Чтобы назначить задачу, достаточно написать инструкцию и выбрать “Code”. Можно также использовать “Ask”, чтобы получить разъяснения по коду.
2. Изолированное выполнение задач
Каждая задача Codex выполняется в отдельной, безопасной среде, предзагруженной вашим кодом (например, с GitHub). Codex может:
- читать и редактировать файлы,
- запускать тесты, линтеры, проверки типов,
- коммитить изменения в своей среде,
- показывать логи терминала и результаты тестов.
3. Прозрачность и контроль
Codex документирует все свои шаги:
Вы видите логи терминала, диффы изменений, результаты тестов.
Можно просматривать изменения, запрашивать доработки, делать pull request в GitHub или сразу интегрировать правки.
4. Гибкая настройка среды
Вы можете настроить окружение Codex под ваш стек — например, предустановить нужные зависимости, скрипты, добавить AGENTS.md с инструкциями по работе с проектом.
Принципы работы Codex
Codex ориентирован на безопасную автоматизацию:
Все задачи выполняются в облачном контейнере без доступа к интернету (кроме вашего кода и нужных зависимостей).
Codex самостоятельно отказывается выполнять запросы, похожие на задачи по разработке вредоносного ПО.
Рекомендуется всегда вручную проверять предложенные изменения перед интеграцией.
AGENTS.md — как обучить Codex работать с вашим проектом
Это инструкция в репозитории (аналог README.md), где описываются стандарты, команды тестирования, нюансы навигации по коду.
Чем лучше документация и настройка — тем качественнее решения предлагает Codex.
Возможности и кейсы использования
Codex особенно эффективен для:
- Рефакторинга и автоматизации: переименование функций, выделение модулей, обновление стиля кода.
- Написания и запуска тестов: быстро создает юнит-тесты, интеграционные сценарии.
- Исправления багов: находит и устраняет ошибки на основе ваших описаний и логов.
- Добавления фич: создаёт каркас новых компонентов, функций.
- Документирования: генерирует README, docstrings и другую техническую документацию.
- Обработка повторяющихся задач: автоматизация рутинных изменений по всему проекту.
Примеры из индустрии:
Cisco использует Codex для быстрого прототипирования новых идей и ускорения работы команд.
Temporal ускоряет поиск багов и добавление фич.
Superhuman — автоматизация покрытия тестами и исправление мелких интеграционных ошибок.
Как повысить эффективность работы с Codex
- Делите задачи на небольшие, четко сформулированные подзадачи.
- Пробуйте назначать несколько задач разным агентам параллельно — это ускоряет работу.
- Обязательно предоставляйте хорошую документацию и тесты (через AGENTS.md и README).
- Следите за логами и результатами тестов, которые показывает Codex — так вы поймёте логику изменений.
Codex CLI и локальная работа
Codex CLI — это консольная версия ассистента для терминала:
Можно запускать задачи на локальном проекте, получать ответы в реальном времени.
Поддержка модели codex-mini-latest с быстрым откликом.
Теперь можно войти через ChatGPT-аккаунт, чтобы быстро получать API-ключ и даже бесплатные кредиты ($5/$50 для Plus/Pro).
Доступность и тарифы
Сейчас Codex открыт для Pro, Enterprise, Team-пользователей ChatGPT. Скоро добавят поддержку Plus и Edu.
В ближайшие недели доступ бесплатный, далее появится лимитированная бесплатная квота и платные опции.
Для Codex CLI: $1.50 за 1М входных токенов, $6 за 1М выходных, скидка на кешированные промпты.
Ограничения и будущее
- Пока не поддерживает работу с изображениями и не позволяет “подсказывать” агенту в процессе выполнения задачи.
- Работа с Codex — асинхронная: задание отправили, ждете результат (от 1 до 30 минут), потом проверяете и внедряете изменения.
- В будущем появится больше интерактива, интеграций с IDE, CI/CD, трекерами задач.
https://openai.com/index/introducing-codex/
- Пока не поддерживает работу с изображениями и не позволяет “подсказывать” агенту в процессе выполнения задачи.
- Работа с Codex — асинхронная: задание отправили, ждете результат (от 1 до 30 минут), потом проверяете и внедряете изменения.
- В будущем появится больше интерактива, интеграций с IDE, CI/CD, трекерами задач.
https://openai.com/index/introducing-codex/
Openai
Introducing Codex
Introducing Codex: a cloud-based software engineering agent that can work on many tasks in parallel, powered by codex-1. With Codex, developers can simultaneously deploy multiple agents to independently handle coding tasks such as writing features, answering…
YCombinator собирает заявки на AI School. 16-17 июня в Сан-Франциско. Состав звездный! От Альтмана до Маска, от Карпатого до Наделлы. Студентов зовут, исследователей и тех специалистов. Даже подкинут 500 долларов на билеты.
https://events.ycombinator.com/ai-sus?x=22
https://events.ycombinator.com/ai-sus?x=22
Forwarded from Machinelearning
Что если ИИ-агент в браузере не просто «делает всё сам», а работает вместе с тобой — предлагает план, спрашивает разрешения, показывает действия и обучается на опыте?
Именно так работает Magentic‑UI — новый эксперимент от Microsoft Research.
Magentic‑UI — это платформа, в которой ИИ-агенты помогают людям выполнять сложные задачи в браузере (заполнить форму, найти нужные данные, скачать файлы и т.д.), но при этом не берут всё на себя, а работают в паре с пользователем.
Это не автономный бот, а интерфейс взаимодействия: человек остаётся в центре принятия решений, а агент — в роли помощника.
1) Планирует вместе с тобой
Агент предлагает пошаговый план действий. Ты можешь изменить, утвердить или уточнить его.
2) Показывает, что делает
Все действия видны — клики, ввод текста, навигация. Никакой «магии за кадром».
3) Спрашивает разрешение перед важными действиями
Агент не будет нажимать на кнопки "удалить" или "оплатить" без твоего согласия.
4) Обучается на успешных сценариях
Завершил задачу? Теперь этот план можно переиспользовать в будущем.
Где это может пригодиться?
• Заполнение длинных форм и анкет
• Автоматизация рутинных действий в браузере
• Создание умных пользовательских сценариев (например: «найди и скачай последние отчёты с нужного сайта»)
• Обучение и настройка собственных браузерных агентов
А как насчёт безопасности?
• Агент работает только на разрешённых сайтах (white-list)
• Весь код и браузер изолированы в Docker — ничего не утечёт
• Все действия — прозрачны и отменяемы
@ai_machinelearning_big_data
#microsoft #ai #aiuagent #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Микрософт анонсировала MCP for Windows.
Ну то есть теперь можно голосом сказать, Клод, отформатируй все жёсткие диски.
Слово - не воробей...
Шутки шутками, но на очереди MCP для офиса. И вот уже операционка превращается в LMOS, о которой говорил Андрей Карпатый.
@cgevent
Ну то есть теперь можно голосом сказать, Клод, отформатируй все жёсткие диски.
Слово - не воробей...
Шутки шутками, но на очереди MCP для офиса. И вот уже операционка превращается в LMOS, о которой говорил Андрей Карпатый.
@cgevent
Вот основное, что Microsoft представил вчера.
1. GitHub Copilot превращается в полноценного AI-агента, способного выполнять задачи по разработке и сопровождению кода, включая исправление ошибок и рефакторинг. Очень похоже на Codex от OpenAI.
2. Azure AI Foundry (коллекция подключаемых моделек) расширен до более чем 1900 моделей, включая интеграцию с Grok 3 от xAI Илона Маска, предоставляя разработчикам доступ к разнообразным AI-инструментам.
3. Windows AI Foundry представлен как локальная платформа для разработки и развертывания AI-моделей, поддерживающая Model Context Protocol (MCP) для бесшовной интеграции AI-приложений в Windows.
4. Microsoft 365 Copilot получил обновления, включая настройку агентов и оркестрацию нескольких агентов для повышения продуктивности и автоматизации рабочих процессов.
5. NLWeb — новый открытый протокол, позволяющий разработчикам интегрировать интерфейсы на естественном языке в веб-сайты, упрощая взаимодействие пользователей с контентом.
6. Windows Subsystem for Linux (WSL) стал проектом с открытым исходным кодом, что способствует большей прозрачности и участию сообщества в его развитии.
7. Edit on Windows — новый легковесный текстовый редактор командной строки Windows, предоставляющий разработчикам удобный инструмент для редактирования файлов прямо в терминале.
8. Microsoft Discovery — платформа, использующая AI-агентов для ускорения научных исследований и разработок, включая генерацию идей и моделирование результатов.
https://blogs.microsoft.com/blog/2025/05/19/microsoft-build-2025-the-age-of-ai-agents-and-building-the-open-agentic-web/
1. GitHub Copilot превращается в полноценного AI-агента, способного выполнять задачи по разработке и сопровождению кода, включая исправление ошибок и рефакторинг. Очень похоже на Codex от OpenAI.
2. Azure AI Foundry (коллекция подключаемых моделек) расширен до более чем 1900 моделей, включая интеграцию с Grok 3 от xAI Илона Маска, предоставляя разработчикам доступ к разнообразным AI-инструментам.
3. Windows AI Foundry представлен как локальная платформа для разработки и развертывания AI-моделей, поддерживающая Model Context Protocol (MCP) для бесшовной интеграции AI-приложений в Windows.
4. Microsoft 365 Copilot получил обновления, включая настройку агентов и оркестрацию нескольких агентов для повышения продуктивности и автоматизации рабочих процессов.
5. NLWeb — новый открытый протокол, позволяющий разработчикам интегрировать интерфейсы на естественном языке в веб-сайты, упрощая взаимодействие пользователей с контентом.
6. Windows Subsystem for Linux (WSL) стал проектом с открытым исходным кодом, что способствует большей прозрачности и участию сообщества в его развитии.
7. Edit on Windows — новый легковесный текстовый редактор командной строки Windows, предоставляющий разработчикам удобный инструмент для редактирования файлов прямо в терминале.
8. Microsoft Discovery — платформа, использующая AI-агентов для ускорения научных исследований и разработок, включая генерацию идей и моделирование результатов.
https://blogs.microsoft.com/blog/2025/05/19/microsoft-build-2025-the-age-of-ai-agents-and-building-the-open-agentic-web/
The Official Microsoft Blog
Microsoft Build 2025: The age of AI agents and building the open agentic web
TL;DR? Hear the news as an AI-generated audio overview made using Microsoft 365 Copilot. You can read the transcript here. We’ve entered the era of AI agents. Thanks to groundbreaking advancements in reasoning and memory, AI models are now more capable…
А сейчас Google IO
https://youtu.be/o8NiE3XMPrM
https://youtu.be/o8NiE3XMPrM
YouTube
Google I/O '25 Keynote
It’s time to I/O! Tune in to learn the latest news, announcements, and AI updates from Google. Click “Notify me” to receive a notification to join us LIVE on Google’s YouTube channel on May 20 at 10am PT. Be the first to hear what’s new and what’s next from…
Forwarded from эйай ньюз
Что показали на Google I/O?
Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.
Сначала самое жаркое:
- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".
Для технарей:
- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.
Mic drop...🎤
@ai_newz
Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.
Сначала самое жаркое:
- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".
Для технарей:
- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.
Mic drop...
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Кажется, роботов персональных уже скоро можно будет видеть в домах все чаще. Только с перемешиванием тяжеловато )
Forwarded from Machinelearning
🚀 Mistral AI представила Devstral — новый open-source LLM для автономных кодинг-агентов
Mistral AI представил Devstral — свою первую модель, специально разработанную для решения реальных задач в области кодинга.
Созданная в сотрудничестве с All Hands AI, Devstral демонстрирует выдающиеся результаты на бенчмарке SWE-Bench Verified, превзойдя все существующие open-source модели с результатом 46,8%.
💡Лицензирвоание: Apache 2.0 — свободное коммерческое использование.
https://huggingface.co/mistralai/Devstral-Small-2505
@ai_machinelearning_big_data
#Devstral #MistralAI #Кодинг #ИИ #OpenSource
Mistral AI представил Devstral — свою первую модель, специально разработанную для решения реальных задач в области кодинга.
Созданная в сотрудничестве с All Hands AI, Devstral демонстрирует выдающиеся результаты на бенчмарке SWE-Bench Verified, превзойдя все существующие open-source модели с результатом 46,8%.
💡Лицензирвоание: Apache 2.0 — свободное коммерческое использование.
https://huggingface.co/mistralai/Devstral-Small-2505
@ai_machinelearning_big_data
#Devstral #MistralAI #Кодинг #ИИ #OpenSource