Google добавили computer use в Gemini 3.5 Flash.
Теперь модель может вызывать функции, а работать с интерфейсом как пользователь: видеть экран, понимать задачу, нажимать, проверять и продолжать действие.
Раньше computer use был отдельной моделью, теперь это часть основной Gemini Flash.
Отдельно добавили защиту: подтверждение чувствительных действий и остановку задач при подозрении на prompt injection.
https://blog.google/innovation-and-ai/models-and-research/gemini-models/introducing-computer-use-gemini-3-5-flash/
Теперь модель может вызывать функции, а работать с интерфейсом как пользователь: видеть экран, понимать задачу, нажимать, проверять и продолжать действие.
Раньше computer use был отдельной моделью, теперь это часть основной Gemini Flash.
Отдельно добавили защиту: подтверждение чувствительных действий и остановку задач при подозрении на prompt injection.
https://blog.google/innovation-and-ai/models-and-research/gemini-models/introducing-computer-use-gemini-3-5-flash/
🔥11❤6👍6
🌺 Релиз Ornith-1.0 - новое семейство open-source LLM, специализированных под agentic coding.
Ornith-1.0 выходит в разных размерах:
• 9B Dense
• 31B Dense
• 35B MoE
• 397B MoE
Модели показывают state-of-the-art результаты среди open-source моделей сопоставимого размера на coding-бенчмарках:
• Terminal-Bench 2.1 — 77.5
• SWE-Bench — 82.4 на verified, 62.2 на pro, 78.9 на Multilingual
• NL2Repo — 48.2
• SWE Atlas — 41.2 на QnA, 42.6 RF, 39.1 TW
• ClawEval — 77.1
Ornith-1.0 дообучали поверх Gemma 4 и Qwen 3.5.
Reinforcement learning используется не только для генерации решений, но и для создания task-specific scaffolds, которые направляют эти решения.
То есть модель совместно улучшает и «каркас» задачи, и итоговое решение. За счёт этого она генерирует более качественные ответы в agentic coding.
Все модели выпущены под MIT-лицензией, поэтому их можно использовать и в коммерческих, и в исследовательских проектах.
📖Tech Blog: http://deep-reinforce.com/ornith_1_0.html
🤗Huggingface: http://huggingface.co/collections/deepreinforce-ai/ornith-10
Ornith-1.0 выходит в разных размерах:
• 9B Dense
• 31B Dense
• 35B MoE
• 397B MoE
Модели показывают state-of-the-art результаты среди open-source моделей сопоставимого размера на coding-бенчмарках:
• Terminal-Bench 2.1 — 77.5
• SWE-Bench — 82.4 на verified, 62.2 на pro, 78.9 на Multilingual
• NL2Repo — 48.2
• SWE Atlas — 41.2 на QnA, 42.6 RF, 39.1 TW
• ClawEval — 77.1
Ornith-1.0 дообучали поверх Gemma 4 и Qwen 3.5.
Reinforcement learning используется не только для генерации решений, но и для создания task-specific scaffolds, которые направляют эти решения.
То есть модель совместно улучшает и «каркас» задачи, и итоговое решение. За счёт этого она генерирует более качественные ответы в agentic coding.
Все модели выпущены под MIT-лицензией, поэтому их можно использовать и в коммерческих, и в исследовательских проектах.
📖Tech Blog: http://deep-reinforce.com/ornith_1_0.html
🤗Huggingface: http://huggingface.co/collections/deepreinforce-ai/ornith-10
❤8👍5🔥1🥱1
🚨 Правительство США будет решать, кто получит доступ к GPT-5.6.
OpenAI выпустит GPT-5.6 только в формате ограниченного preview для небольшой группы партнёров.
Сэм Альтман сказал сотрудникам, что правительство будет «одобрять доступ отдельно для каждого клиента».
Министр торговли Говард Латник лично звонил Альтману с предупреждением: не запускать модель без согласований с другими ведомствами.
Это уже де-факто режим лицензирования.
https://www.theinformation.com/articles/trump-administration-asks-openai-stagger-release-new-model-security-concerns
OpenAI выпустит GPT-5.6 только в формате ограниченного preview для небольшой группы партнёров.
Сэм Альтман сказал сотрудникам, что правительство будет «одобрять доступ отдельно для каждого клиента».
Министр торговли Говард Латник лично звонил Альтману с предупреждением: не запускать модель без согласований с другими ведомствами.
Это уже де-факто режим лицензирования.
https://www.theinformation.com/articles/trump-administration-asks-openai-stagger-release-new-model-security-concerns
🤣19🔥7🌚5👍4❤3
Это очень сильный отчёт - The State of the AI Economy от Exponential View.
Главная идея: AI-экономика уже стала реальным рынком, а не только хайпом вокруг инфраструктуры.
Ключевые цифры:
• $110 млрд реальной AI-выручки за последние 12 месяцев после удаления двойного счёта. То есть если $1 потратили на Claude, он считается один раз, даже если часть денег потом ушла Amazon или другому инфраструктурному провайдеру.
• $175 млрд - текущий annualized run rate. Это показывает резкое ускорение рынка. Считаются расходы конечных клиентов, а не деньги, которые просто проходят по цепочке поставщиков.
В расчёт не включали Китай, внутреннюю экономию компаний от AI, рост рекламы, консалтинг и системную интеграцию.
Темпы роста примерно в 3 раза быстрее, чем у мобильного интернета и обычного интернета на ранних этапах.
Скорость формирования выручки резко выросла: новый $1 млрд AI-выручки теперь появляется меньше чем за 2 дня. В 2023 году на это уходило около 180 дней.
Enterprise AI уже вышел за рамки пилотов, но глубокое внедрение на уровне всей компании всё ещё только начинается.
Упоминания AI появились в отчётных звонках у 31% отслеживаемых компаний из S&P 500.
Но только 20% компаний дали конкретные численные оценки влияния AI на бизнес.
Интересный момент по инфраструктуре: AI-выручка hyperscalers пока примерно покрывает амортизацию AI-инфраструктуры.
Но экономика GPU сильно зависит от предположения, что вычислительное оборудование будет использоваться около 6 лет. Для другой AI-инфраструктуры срок моделируют примерно на 14 лет.
Снижение цен на токены не обязательно снижает выручку.
Каждое снижение цены токенов на 10% приводит к росту использования токенов примерно на 12-18%.
Это значит, что спрос на AI выглядит эластичным по цене: чем дешевле становится AI, тем быстрее растёт использование.
Главные ограничения для будущего масштабирования - доступность электроэнергии и стоимость дата-центров.
intelligence.exponentialview.co
Главная идея: AI-экономика уже стала реальным рынком, а не только хайпом вокруг инфраструктуры.
Ключевые цифры:
• $110 млрд реальной AI-выручки за последние 12 месяцев после удаления двойного счёта. То есть если $1 потратили на Claude, он считается один раз, даже если часть денег потом ушла Amazon или другому инфраструктурному провайдеру.
• $175 млрд - текущий annualized run rate. Это показывает резкое ускорение рынка. Считаются расходы конечных клиентов, а не деньги, которые просто проходят по цепочке поставщиков.
В расчёт не включали Китай, внутреннюю экономию компаний от AI, рост рекламы, консалтинг и системную интеграцию.
Темпы роста примерно в 3 раза быстрее, чем у мобильного интернета и обычного интернета на ранних этапах.
Скорость формирования выручки резко выросла: новый $1 млрд AI-выручки теперь появляется меньше чем за 2 дня. В 2023 году на это уходило около 180 дней.
Enterprise AI уже вышел за рамки пилотов, но глубокое внедрение на уровне всей компании всё ещё только начинается.
Упоминания AI появились в отчётных звонках у 31% отслеживаемых компаний из S&P 500.
Но только 20% компаний дали конкретные численные оценки влияния AI на бизнес.
Интересный момент по инфраструктуре: AI-выручка hyperscalers пока примерно покрывает амортизацию AI-инфраструктуры.
Но экономика GPU сильно зависит от предположения, что вычислительное оборудование будет использоваться около 6 лет. Для другой AI-инфраструктуры срок моделируют примерно на 14 лет.
Снижение цен на токены не обязательно снижает выручку.
Каждое снижение цены токенов на 10% приводит к росту использования токенов примерно на 12-18%.
Это значит, что спрос на AI выглядит эластичным по цене: чем дешевле становится AI, тем быстрее растёт использование.
Главные ограничения для будущего масштабирования - доступность электроэнергии и стоимость дата-центров.
intelligence.exponentialview.co
❤9👍7
Forwarded from Machinelearning
OpenAI показала GPT-5.6 Sol.
Это новый флагман в линейке GPT-5.6. Вместе с ним идут Terra - более сбалансированная модель для повседневной работы, и Luna - быстрый и дешёвый вариант.
Главный фокус Sol: сложные агентные задачи, кодинг, биология и кибербезопасность.
Появляются два важных режима:
•
•
Пока GPT-5.6 доступен только в ограниченном preview для доверенных партнёров через API и Codex. Более широкий запуск в ChatGPT, Codex и API обещают позже.
https://openai.com/index/previewing-gpt-5-6-sol/
Это новый флагман в линейке GPT-5.6. Вместе с ним идут Terra - более сбалансированная модель для повседневной работы, и Luna - быстрый и дешёвый вариант.
Главный фокус Sol: сложные агентные задачи, кодинг, биология и кибербезопасность.
Появляются два важных режима:
•
max — больше времени на глубокое рассуждение •
ultra — работа через субагентов для сложных процессовПока GPT-5.6 доступен только в ограниченном preview для доверенных партнёров через API и Codex. Более широкий запуск в ChatGPT, Codex и API обещают позже.
https://openai.com/index/previewing-gpt-5-6-sol/
👍7🔥5❤4🥰2
Anthropic начала возвращать доступ к Claude Mythos 5, но пока не всем.
Компания заявила, что с 12 июня работала с правительством США, чтобы восстановить доступ к Claude Mythos 5 и Fable 5.
Теперь власти разрешили снова развернуть Mythos 5 для части американских организаций, которые занимаются эксплуатацией и защитой критической инфраструктуры.
Anthropic называет Mythos 5 своей самой сильной моделью для кибербезопасности.
То есть доступ возвращают не глобально, а сначала тем структурам, которые работают с инфраструктурой, безопасностью и защитой систем.
Параллельно компания продолжает переговоры с правительством, чтобы расширить доступ к Mythos 5 и снова сделать Fable 5 доступной для общего использования.
Ситуация хорошо показывает новый режим для frontier-моделей: релиз уже зависит не только от самой лаборатории, но и от согласований с государством.
https://x.com/AnthropicAI/status/2070665903440871779
Компания заявила, что с 12 июня работала с правительством США, чтобы восстановить доступ к Claude Mythos 5 и Fable 5.
Теперь власти разрешили снова развернуть Mythos 5 для части американских организаций, которые занимаются эксплуатацией и защитой критической инфраструктуры.
Anthropic называет Mythos 5 своей самой сильной моделью для кибербезопасности.
То есть доступ возвращают не глобально, а сначала тем структурам, которые работают с инфраструктурой, безопасностью и защитой систем.
Параллельно компания продолжает переговоры с правительством, чтобы расширить доступ к Mythos 5 и снова сделать Fable 5 доступной для общего использования.
Ситуация хорошо показывает новый режим для frontier-моделей: релиз уже зависит не только от самой лаборатории, но и от согласований с государством.
https://x.com/AnthropicAI/status/2070665903440871779
❤3👍2🌭2🔥1