Анализ данных (Data analysis)

Google добавили computer use в Gemini 3.5 Flash.

Теперь модель может вызывать функции, а работать с интерфейсом как пользователь: видеть экран, понимать задачу, нажимать, проверять и продолжать действие.

Раньше computer use был отдельной моделью, теперь это часть основной Gemini Flash.

Отдельно добавили защиту: подтверждение чувствительных действий и остановку задач при подозрении на prompt injection.

https://blog.google/innovation-and-ai/models-and-research/gemini-models/introducing-computer-use-gemini-3-5-flash/

🔥11❤6👍6

3.22K views16:48

🌺 Релиз Ornith-1.0 - новое семейство open-source LLM, специализированных под agentic coding.

Ornith-1.0 выходит в разных размерах:

• 9B Dense

• 31B Dense

• 35B MoE

• 397B MoE

Модели показывают state-of-the-art результаты среди open-source моделей сопоставимого размера на coding-бенчмарках:

• Terminal-Bench 2.1 — 77.5

• SWE-Bench — 82.4 на verified, 62.2 на pro, 78.9 на Multilingual

• NL2Repo — 48.2

• SWE Atlas — 41.2 на QnA, 42.6 RF, 39.1 TW

• ClawEval — 77.1

Ornith-1.0 дообучали поверх Gemma 4 и Qwen 3.5.

Reinforcement learning используется не только для генерации решений, но и для создания task-specific scaffolds, которые направляют эти решения.

То есть модель совместно улучшает и «каркас» задачи, и итоговое решение. За счёт этого она генерирует более качественные ответы в agentic coding.

Все модели выпущены под MIT-лицензией, поэтому их можно использовать и в коммерческих, и в исследовательских проектах.

📖Tech Blog: http://deep-reinforce.com/ornith_1_0.html
🤗Huggingface: http://huggingface.co/collections/deepreinforce-ai/ornith-10

❤8👍5🔥1🥱1

3.02K views06:15

Анализ данных (Data analysis)

🚨 Правительство США будет решать, кто получит доступ к GPT-5.6.

OpenAI выпустит GPT-5.6 только в формате ограниченного preview для небольшой группы партнёров.

Сэм Альтман сказал сотрудникам, что правительство будет «одобрять доступ отдельно для каждого клиента».

Министр торговли Говард Латник лично звонил Альтману с предупреждением: не запускать модель без согласований с другими ведомствами.

Это уже де-факто режим лицензирования.

https://www.theinformation.com/articles/trump-administration-asks-openai-stagger-release-new-model-security-concerns

🤣19🔥7🌚5👍4❤3

2.54K views13:32

Анализ данных (Data analysis)

Это очень сильный отчёт - The State of the AI Economy от Exponential View.

Главная идея: AI-экономика уже стала реальным рынком, а не только хайпом вокруг инфраструктуры.

Ключевые цифры:

• $110 млрд реальной AI-выручки за последние 12 месяцев после удаления двойного счёта. То есть если $1 потратили на Claude, он считается один раз, даже если часть денег потом ушла Amazon или другому инфраструктурному провайдеру.

• $175 млрд - текущий annualized run rate. Это показывает резкое ускорение рынка. Считаются расходы конечных клиентов, а не деньги, которые просто проходят по цепочке поставщиков.

В расчёт не включали Китай, внутреннюю экономию компаний от AI, рост рекламы, консалтинг и системную интеграцию.

Темпы роста примерно в 3 раза быстрее, чем у мобильного интернета и обычного интернета на ранних этапах.

Скорость формирования выручки резко выросла: новый $1 млрд AI-выручки теперь появляется меньше чем за 2 дня. В 2023 году на это уходило около 180 дней.

Enterprise AI уже вышел за рамки пилотов, но глубокое внедрение на уровне всей компании всё ещё только начинается.

Упоминания AI появились в отчётных звонках у 31% отслеживаемых компаний из S&P 500.

Но только 20% компаний дали конкретные численные оценки влияния AI на бизнес.

Интересный момент по инфраструктуре: AI-выручка hyperscalers пока примерно покрывает амортизацию AI-инфраструктуры.

Но экономика GPU сильно зависит от предположения, что вычислительное оборудование будет использоваться около 6 лет. Для другой AI-инфраструктуры срок моделируют примерно на 14 лет.

Снижение цен на токены не обязательно снижает выручку.

Каждое снижение цены токенов на 10% приводит к росту использования токенов примерно на 12-18%.

Это значит, что спрос на AI выглядит эластичным по цене: чем дешевле становится AI, тем быстрее растёт использование.

Главные ограничения для будущего масштабирования - доступность электроэнергии и стоимость дата-центров.

intelligence.exponentialview.co

❤9👍7

1.91K views16:03

Анализ данных (Data analysis)

Forwarded from Machinelearning

OpenAI показала GPT-5.6 Sol.

Это новый флагман в линейке GPT-5.6. Вместе с ним идут Terra - более сбалансированная модель для повседневной работы, и Luna - быстрый и дешёвый вариант.

Главный фокус Sol: сложные агентные задачи, кодинг, биология и кибербезопасность.

Появляются два важных режима:

• max — больше времени на глубокое рассуждение
• ultra — работа через субагентов для сложных процессов

Пока GPT-5.6 доступен только в ограниченном preview для доверенных партнёров через API и Codex. Более широкий запуск в ChatGPT, Codex и API обещают позже.

https://openai.com/index/previewing-gpt-5-6-sol/

👍7🔥5❤4🥰2

1.53K views17:18

Анализ данных (Data analysis)

Anthropic начала возвращать доступ к Claude Mythos 5, но пока не всем.

Компания заявила, что с 12 июня работала с правительством США, чтобы восстановить доступ к Claude Mythos 5 и Fable 5.

Теперь власти разрешили снова развернуть Mythos 5 для части американских организаций, которые занимаются эксплуатацией и защитой критической инфраструктуры.

Anthropic называет Mythos 5 своей самой сильной моделью для кибербезопасности.

То есть доступ возвращают не глобально, а сначала тем структурам, которые работают с инфраструктурой, безопасностью и защитой систем.

Параллельно компания продолжает переговоры с правительством, чтобы расширить доступ к Mythos 5 и снова сделать Fable 5 доступной для общего использования.

Ситуация хорошо показывает новый режим для frontier-моделей: релиз уже зависит не только от самой лаборатории, но и от согласований с государством.

https://x.com/AnthropicAI/status/2070665903440871779

❤3👍2🌭2🔥1

527 views01:04

About

Blog

Apps

Platform