Machinelearning – Telegram

Machinelearning

@ai_machinelearning_big_data

305K subscribers

4.94K photos

1.1K videos

17 files

5.32K links

Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri

Download Telegram

About

Blog

Apps

Platform

Machinelearning

305K subscribers

Machinelearning

✔️

Конгресс США начал расследование против Сэма Альтмана

Комитет по надзору Палаты представителей США направил официальное письмо Сэму Альтману с требованием раскрыть детали его личных инвестиций и финансовые связи с топ-менеджментом.

Власти подозревают, что ресурсы OpenAI могли использоваться для искусственного завышения капитализации компаний, в которых CEO имеет личную долю.

Главным поводом для расследования стала ситуация вокруг разработчика термоядерных реакторов Helion.

В 2021 году Альтман вложил в него $375 млн из собственных средств, а позже предложил OpenAI инвестировать в проект еще $500 млн. Эта сделка могла увеличить оценку Helion в шесть раз - до $35 млрд.

Согласно документам комитета, сотрудники OpenAI были настолько встревожены инициативой, что избегали ее обсуждения в корпоративном Slack из-за страха перед возможным судебным преследованием.

Расследование также выявило непубличные связи внутри руководства компании: выяснилось, что президент OpenAI Грег Брокман владеет долями в двух стартапах Альтмана и имеет процент в его семейном фонде.

Конгресс обязал OpenAI до 22 мая провести брифинг с участием главного юрисконсульта и предоставить всю внутреннюю переписку с 2015 года, касающуюся конфликтов интересов.

Отдельно законодатели запросили доступ к отчета аудиторского комитета, созданного советом директоров OpenAI после скандального увольнения и возвращения Альтмана в 2023 году.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍170🤔62😐39❤19🤨12😁9🔥7🙈4👏3💔2

19.2K views06:31

Machinelearning

LLM — это не новая профессия — это апгрейд к твоей текущей.
Backend, ML, DevOps — добавляешь LLM → растёшь в задачах, деньгах и грейде

Записывайся на новый поток курса LLM-инженер от AI Talent Hub и GIGASCHOOL🚀

Сейчас уже недостаточно просто знать RAG, рынок ищет тех, кто умеет собирать сложные AI-системы и доводить их до продакшена. Поэтому мы пересобрали программу, сохранили фундаментальную базу и усилили практическую часть, чтобы ты смог:

📁 Освоить стек LLM-инженера: трансформеры, RAG (retrieval, reranking, eval), агенты, LLMOps, vLLM/SGLang, observability
📁 Вырости в грейде: перейти от простых интеграций к проектированию AI-систем с учётом latency, cost и scaling
📁 Пройти весь цикл создания LLM-продукта: от дообучения (QLoRA, PEFT) до production-сервиса с нагрузкой и мониторингом
📁 Получить фундамент по LLM: освоить, как устроены модели, механика инференса и оптимизации - не только вызов API
📁 Освоить редкие навыки: AI Red Teaming и обеспечением безопасности агентных систем
📁 Работать с реальными инженерными задачами: observability, оценка качества
📁 Учиться у практикующих экспертов из индустрии, которые собирают и развивают AI-системы в продакшене

Что будет в твоём GitHub:
✔️ Опыт дообученния LLM/энкодер под домен
✔️RAG над корпоративной базой
✔️Мультиагентная система
✔️Production-сервис в Docker
✔️Observability и отчет по безопасности

Формат: онлайн-семинары
Старт: 4 июня
Длительность: 6 месяцев

До четверга — самая низкая цена, дальше повышение

🔜

Посмотреть программу и попасть в поток

Please open Telegram to view this post

VIEW IN TELEGRAM

🤩68🔥31👍17😁15❤7👌5👏4🙊3🤣1

16.3K views08:04

Machinelearning

Media is too big

VIEW IN TELEGRAM

✔️

OpenAI анонсировала платформу проактивной киберзащиты

Компания запустила инициативу Daybreak для задач киберзащиты и анализа ПО. В основе - собственные LLM, где Codex используется в качестве управляющего агентного каркаса.

Daybreak анализирует объемные кодовые базы и незнакомые архитектуры, выявляет уязвимости, проводит секьюрити-ревью и оценивает риски зависимостей. Инструмент встроен напрямую в цикл разработки для моделирования угроз и валидации патчей.

Из-за рисков двойного назначения платформа использует жесткие механизмы верификации. В ближайшие недели OpenAI совместно с госсектором и ИБ-партнерами начнет поэтапный релиз новых специализированных моделей для кибербезопасности.
openai.com

✔️

В Claude Code появился дашборд для управления параллельными агентами.

CLI-утилита получила консольный дашборд Agent View, который позволяет запускать фоновые задачи и контролировать их через единый интерфейс без использования мультиплексоров.

В дашборде отображаются статусы процессов (в работе, завершено, ожидание ввода). Встроенная функция Peek позволяет просматривать последние ответы и передавать промпты без открытия полного транскрипта чата.

Разработчики могут делегировать агентам создание PR, запуск долгих задач или поиск по кодовой базе, не прерывая свой основной контекст в терминале. Функция доступна для пользователей Claude API и подписчиков платных тарифов.
claude.com

✔️

Thinking Machines Lab анонсировал мультимодальную модель непрерывного взаимодействия

Стартап Мирs Мурати представил ИИ-архитектуру, которая обрабатывает аудио, видео и текст единым потоком, считывая входящие данные микро-шагами по 200 мс. Генерацию ответа можно прерывать, корректировать голосом или показать новые объекты.

Система построена на двухуровневой архитектуре. За удержание диалога отвечает MoE-модель на 276B параметров, из которых при генерации активны 12B. Параллельно асинхронная фоновая модель забирает на себя задачи сложного логического вывода, веб-поиска и вызова инструментов.

Ограниченный доступ к превью-версии откроют в ближайшие месяцы. До конца года запланирован публичный релиз и выход более крупных версий модели.
thinkingmachines.ai

✔️

Google анонсировала Gemini Intelligence для Android

Cистема на базе ИИ-агентов Gemini Intelligence для Android автоматизирует многосоставные задачи в приложениях - от бронирования поездок до переноса списков из заметок в корзину магазина.

Интеграция затронет базовые компоненты ОС. В Chrome появится опциональная функция обобщения веб-страниц и автозаполнения форм. В клавиатуру Gboard добавят инструмент Rambler, который на конвертирует неструктурированную мультиязычную речь в форматированный текст. Также заявлен генератор Create My Widget для создания кастомных виджетов рабочего стола по текстовому промпту.

Первыми доступ к системе получат смартфоны Samsung Galaxy S26 и Google Pixel 10, релиз которых ожидается летом. До конца года Google планирует развернуть инструменты на смарт-часах, ноутбуках, гарнитурах и в автомобильных медиасистемах.
blog.google

✔️

Artificial Analysis представил первый бенчмарк для кодинг-агентов

Индекс замеряет производительность по 3-м метрикам: генерация кода (SWE-Bench-Pro-Hard-AA), работа в терминале (Terminal-Bench v2) и ответы на технические вопросы (SWE-Atlas-QnA).

В первой редакции рейтинга Cursor CLI с Opus 4.7 набрал 61 балл, обойдя на 1 пункт OpenAI Codex (GPT-5.5) и Anthropic Claude Code (с Opus 4.7). При использовании одинаковой модели решение Cursor точнее нативного Claude Code, но уступает в скорости и цене: 7,8 минуты и $1,47 за задачу против 5,8 минуты и $1,24 у агента Anthropic.

Самым дешевым вариантом оказался встроенный в Cursor движок Composer 2 - всего 7 центов за выполнение теста. Deepseek v4 Pro (35 центов) и Kimi K2.6 (76 центов) тоже довольно бюджетны, но проигрывают лидерам в скорости: 18 и 41,5 минуты на задачу соответственно.
artificialanalysis.ai

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍71🤓15🤩13❤10🎉9🗿1

16.6K views09:01

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

Anthropic собрала юридический стек поверх Claude Opus 4.7

Компания выпустила набор инструментов для юристов: 20+ MCP-коннекторов и 12 плагинов под отдельные практики.

Claude работает внутри Microsoft Word, Outlook, Excel и PowerPoint и умеет переносить контекст: правки к договору в Word не нужно заново объяснять при составлении сопроводительного письма в Outlook.

Коннекторы дают доступ к Docusign, iManage, NetDocuments, Relativity, Everlaw, Datasite, Box, Thomson Reuters CoCounsel и базам прецедентов Free Law Project и Midpage.

Плагины покрывают корпоративное право, M&A, трудовые споры, приватность, регуляторику, интеллектуальную собственность и ведение судебного производства.

При установке каждый плагин проходит короткое сетап-интервью и подстраивается под стандарты компании, цепочку согласований и стиль оформления.

По словам Anthropic, плагины ускоряют поиск прецедентов, сверку договоров с базой знаний и первичный комплаенс.

Всё доступно корпоративным пользователям в Claude Cowork.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍85🎉22🔥15👏12❤8🤩4🥰1🤬1

19.8K views11:36

Machinelearning

Устройтесь в Яндекс за выходные: 30–31 мая

Если вы ML- или DL-инженер с опытом в доменных областях NLP, CV, RecSys и Classic ML, участвуйте в Weekend Offer ML. Это один из наймовых ивентов Яндекса: вы проходите все секции онлайн в ускоренном режиме и сразу получаете обратную связь.

Как всё устроено:

🔴 до 20 мая — регистрация;

🔴 30 мая — две технические секции, вместо трёх в обычном найме;

🔴 31 мая — финальное интервью с командами и офер.

Если хотите работать в одной из команд Яндекса — R&D, Поиск с Алисой AI, Яндекс Карты, Алиса и Умные устройства, Рекламные технологии Яндекса — регистрируйтесь!

Подробности и полезные ссылки — на сайте: https://yandex.ru/project/events/wo-ml-0526. После регистрации с вами свяжется рекрутер и расскажет все детали.

👏43🎉17🤣17👍14🤬7💯3🙈2🗿2💔1

17.1K views13:04

Machinelearning

🌟

TwELL от Sakana AI и NVIDIA: до 30% к инференсу и −24% VRAM на H100

Sakana AI и NVIDIA представили TwELL - формат данных и набор CUDA-ядер под неструктурированную разреженность в LLM.

На H100 это даёт до 30% к инференсу, до 24% к скорости обучения и более чем 24% снижения пикового VRAM при трейне.

Работа заявлена на ICML 2026.

В FFN-блоках современных LLM для каждого токена реально работает малая доля скрытых активаций - остальное болтается около нуля и впустую тратит вычисления.

Если поверх ReLU добавить вспомогательный L1-лосс на скрытые активации прямо во время обучения, долю нулей можно загнать выше 95% без видимой просадки на downstream-задачах.

Проблема в том, что, что тензорные ядра H100 заточены под плотные матричные умножения и тайлинг. Если скормить им обычный ELLPACK, то теоретическая экономия убивается накладными расходами: построчная упаковка не ложится на тайловую структуру, появляются синхронизации между CTA и лишний трафик в HBM.

🟡

Вот тут и решает TwELL

Колонки активаций гейта бьются на горизонтальные тайлы. Внутри каждого тайла лежат только ненулевые значения и их индексы в локальном ELL-формате.

Размер тайла подобран так, чтобы каждая CTA паковала свой кусок прямо в разделяемой памяти без синхронизаций между блоками и без лишних обращений к глобальной памяти.

Дальше - 2 разных ядра:

🟢

Инференс

Up- и down-проекции выполняются в одном ядре. Плотная матрица скрытых активаций вообще не материализуется: ядро пробегается по упакованным нулям, подтягивает только нужные строки Wu и Wd и считает скалярное произведение.

🟠

Обучение

Гибридное представление: каждая строка либо ужимается в один глобально выровненный разреженный блок, либо в редких случаях переполнения падает в плотный резерв. Результат - обратный проход без единого умножения двух плотных матриц.

Интересный момент: даже без учёта разреженности кастомные TwELL-ядра вышли чуть быстрее плотных матмулов из PyTorch и CuDNN, в основном за счёт переиспользования ядер, совмещения загрузки данных с вычислениями и оптимизированных шаблонов доступа к памяти.

🟡

Цифры на H100 (замер по модели 1.5B)

🟢до 30% ускорения на пакетном инференсе;
🟢до 24% ускорения на обучении;
🟢пиковый VRAM при обучении падает более чем на 24%;
🟢энергопотребление GPU - примерно на 3% ниже.

🟡

Скейлинг

Считали на моделях 0.5B–2B. При фиксированном L1 у 2B доля ненулевых активаций на 38% меньше, чем у 0.5B (крупнее модель, охотнее уходит в разреженность).

На 2B инференс быстрее на 20.5%, обучение - на 21.9%, и в память влезает вдвое больший микробатч.

🟡

Очевидные минусы

Кастомные CUDA-ядра привязаны к NVIDIA: альтернативное железо и PyTorch - мимо.

Эксперименты упираются в 2B, как поведёт себя более крупная модель, никто не проверял.

📌Лицензирование: MIT License

🟡

Блогпост

🟡

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #TwELL #SakanaAI #NVIDIA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1🤓46❤22🤔16👌10👍7👏7🔥4

17.6K views14:05

Machinelearning

⚡️

Claude становится самым дорогим корпоративным наркотиком

IT-директор Telaid коротко описал свой новый счёт за Claude: «Офигеть».

За 30 дней расходы выросли втрое. И это всего на 30 пользователей.

Anthropic и так была одной из самых дорогих AI-лабораторий, а теперь корпоративных клиентов переводят с фиксированной оплаты на оплату по фактическому использованию. Плюс новый токенизатор, который тратит больше токенов на те же запросы.

Но клиенты не уходят от Anthropic.

ServiceNow сожгла годовой бюджет на Anthropic за несколько месяцев. Workato увидела, как один агент за день потратил лимит целого пользователя. NinjaOne переводит 700 инженеров с GitHub Copilot на Claude Code.

Claude становится дороже, счета растут, но компании всё равно платят.

https://www.theinformation.com/articles/anthropic-flexes-pricing-power-customers-willingly-eat-cost

Please open Telegram to view this post

VIEW IN TELEGRAM

3🤔150😁51🤬26😢21❤10👏9🌭4🥱3🔥2

19.4K views17:02

Machinelearning

⚡️

Anthropic вводит ежемесячный кредит для разработчиков

С 15 июня все платные тарифы Claude получат отдельный месячный кредит на программное использование.
Кредит покрывает:

• Claude Agent SDK
claude -p (CLI)
• Claude Code GitHub Actions
• Сторонние приложения на базе Agent SDK

И главное - автоматизация и агенты на Claude не будут «съедать» обычный лимит подписки - для них выделен свой бюджет.

https://support.claude.com/en/articles/15036540-use-the-claude-agent-sdk-with-your-claude-plan

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍136🔥30🎉22🤣10😐8🥰7❤5👏4😭4🤔3🗿2

21.8K views18:02

Machinelearning

Media is too big

VIEW IN TELEGRAM

✔️

Anthropic запустила платформу Claude for Small Business

Компания представила пакет интеграций Claude через интерфейс Claude Cowork, который связывает языковую модель с QuickBooks, PayPal, HubSpot, Canva, Docusign, Google Workspace и Microsoft 365.

Пользователям доступны 15 готовых агентов для финансов, операционной деятельности, продаж, маркетинга и HR. Система умеет сводить бухгалтерский баланс, искать расхождения в транзакциях PayPal, составлять финансовые прогнозы, анализировать метрики HubSpot и генерировать промо-материалы в Canva.

В архитектуру заложен принцип human-in-the-loop. Модель берет на себя вычисления и рутинную нагрузку, но критические действия - проводка платежей, подписание контрактов и отправка писем требуют финального подтверждения пользователя.
anthropic.com

✔️

Создатель Qwen ищет инвестиции на свою ИИ-лабораторию

Бывший технический руководитель Qwen в Alibaba привлекает финансирование для своего стартапа. Целевая оценка около $2 млрд, в переговорах об инвестициях участвуют Gaorong Capital и Sequoia China.

Готового продукта у компании нет, оценка строится на репутации основателя. За 3 года в Alibaba он развил Qwen в одно из самых востребованных семейств open-source моделей. В марте техлид объявил об уходе из корпорации, после чего Alibaba перевела команду Qwen в прямое подчинение CEO и сместила фокус на закрытую коммерциализацию.

Американские проекты выходцев из OpenAI стартуют выше: SSI Ильи Суцкевера на старте оценивали в $5 млрд, стартап Миры Мурати - в $10 млрд. Инвесторы осторожничают с китайским рынком: здесь не работает поглощение IT-гигантами, а экспортные санкции США на чипы ограничивают лаборатории в доступе к вычислениям.
theinformation.com

✔️

Xiaomi опубликовала модель для автономного вождения

Xiaomi Embodied Intelligence опубликовала код и веса 4B VLA-модели OneVL для беспилотных автомобилей и робототехники. По заявлению разработчиков, она принимает решения точнее, чем более крупные модели, и делает это почти мгновенно.

Архитектура построена на Latent CoT, под капотом Qwen3-VL. Модель сжимает логику принятия решений в 55 скрытых токенов (35 визуальных и 20 текстовых). Подход сохраняет глубину рассуждений при задержке инференса на бортовом оборудовании в 0,24 секунды.

На бенчмарках NAVSIM и ROADWork OneVL обходит аналоги вдвое крупнее. Xiaomi утверждает, что это первый случай, когда сеть с латентными рассуждениями превосходит текстовые CoT-модели по точности при сохранении скорости предиктивных систем.
xiaomi.github.io

✔️

Индекс Ramp: Anthropic обошла OpenAI по доле корпоративных клиентов

По данным платежного индекса Ramp AI, решения Anthropic используют 34,4% корпоративных клиентов платформы, OpenAI - 32,3%. За год доля Anthropic выросла в 4 раза, база OpenAI увеличилась на 0,3%.

Статистика опирается на транзакции преимущественно американских компаний. Индекс учитывает факт оплаты услуг провайдера, а не реальные объемы API-запросов или токенов.

Динамика спроса связана с ростом цен на проприетарные решения. Из-за удорожания закрытых API бизнес переходит на платформы инференса для open-source моделей и дешевые специализированные инструменты.
ramp.com

✔️

Xynova анонсировала роботизированную кисть Flex 2

Китайская компания Xynova представила роботизированную кисть Flex 2 для гуманоидных роботов и систем воплощённого ИИ. При собственной массе 400 граммов манипулятор удерживает объекты весом до 12 кг.

Кинематика устройства обеспечивает 23 степени свободы. Встроенные сенсоры проскальзывания и миллисекундный аппаратный отклик позволяют алгоритмам адаптивного захвата корректировать силу давления на предмет при контакте.

Xynova самостоятельно производит аппаратные и программные компоненты продукта: сборку электродвигателей, редукторов, роликовых винтов, сервоконтроллеров и драйверов, а также написание алгоритмов управления. Разработкой занимается R&D-центр компании из 40 специалистов, более 70% из которых имеют ученые степени.
xynova.com.cn

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍45❤18👏10🤩5🔥3🥱2🤔1🎉1

14.6K views07:23

Machinelearning

Руководитель направления «AI для разработки» в 2ГИС

Ищем руководителя, который поможет встроить AI в работу 800+ инженеров.

Не с нуля: AI-инструменты уже используются в командах, теперь важно собрать сильное направление, масштабировать рабочие практики и сделать AI частью ежедневной разработки.

Что нужно:
— опыт управления командой или направлением в IT
— технический бэкграунд (разработка / инженерия)
— практический опыт работы с AI-инструментами (Cursor, Copilot, Claude и др.)
— понимание процессов разработки: CI/CD, code review, incidents

Что делать:
— собрать core-команду
— запускать AI-пилоты в командах
— развивать внутренние AI-инструменты
— измерять результат и улучшать процессы
Удалёнка или гибрид. Белая зарплата, ДМС, аккредитованная IT-компания.

Подробнее и отклик здесь

Другие инженерные инсайты от 2ГИС → в Telegram-канале RnD
#реклама
О рекламодателе

👍32❤7😁7🤔6👏2

14.2K views08:52

Machinelearning

✔️

GPT 5.5 полностью решила задание из бенчмарка ProgramBench

Команда ProgramBench сообщила, что модель GPT 5.5 в режимах high и xhigh впервые в истории теста полностью прошла одно из заданий - задачу cmatrix.

До этого ни одна модель из публичного рейтинга не доводила задания до конца.

ProgramBench - набор реальных задач программирования, в которых агент должен с нуля переписать утилиту с открытым исходным кодом и пройти при этом скрытые поведенческие тесты.

🟡

Лидерборд выглядит так

🟢GPT 5.5 (xhigh) - 1 место: 0,5% полностью решённых задач и 13,5% почти решённых (то есть проходящих свыше 95% поведенческих тестов)

🟠GPT 5.5 (high) - те же 0,5% при 5% почти решённых

🟠Claude Opus 4.7 (xhigh) показала 0% и 4,5%, обычная версия Opus 4.7 - 0% и 3%

🟠Opus 4.6 - 0% и 2,5% соответственно

Совокупно число почти решённых задач у GPT 5.5 достигло 26, это рекорд рейтинга.

Примечательно, что в режиме medium, который OpenAI выставляет по умолчанию, GPT 5.5 лишь незначительно опережает Claude Sonnet 4.6. При включении расширенного рассуждения её результат заметно улучшается.

🟡

Разброс по стоимости

Запуск GPT 5.5 (high) стоил $3,17 и потребовал 34 обращения к API, GPT 5.5 (xhigh) - $4,84 и 40 обращений.

Тот же запуск Claude Opus 4.7 (xhigh) обошёлся в $10,74 при 178 обращениях, однако решение содержало 19 ошибок в поведенческих тестах.

По разбору авторов, все провалы объясняются 2-мя багами в коде Claude: чувствительностью парсера цветов к регистру и неверным кодом возврата.

Интересно, что 2 версии GPT 5.5 выбрали разные языки для одной и той же задачи: high решала на C с ANSI escape-последовательностями, xhigh предпочла Python.

Claude Opus 4.7 (xhigh) использовала библиотеку ncurses и команда бенчмарка охарактеризовала этот подход как креативное системное решение, которое, впрочем, не дало преимущества в итоговом результате.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍88❤29👏22🤔10🔥9🥰1

16.6K views09:52

Machinelearning

Media is too big

VIEW IN TELEGRAM

🌟

Perceptron AI представил недорогую модель анализа видео

Американский стартап выпустил флагманскую мультимодальную модель Mk1 (Mark One) для анализа видео и воплощенного ризонинга - способности ИИ оперировать пространственно-временной информацией о физическом мире.

Стартап основали в ноябре 2024 года Армен Агаджанян и Акшат Шривастава - бывшие научные сотрудники подразделения FAIR Марка Цукерберга, соавторы работ по мультимодальным архитектурам Chameleon и MoMa.

Perceptron AI позиционирует Mk1 как инструмент для видеонаблюдения, инспекции оборудования, инвентаризации складов, аналитики безопасности и автоматической разметки обучающих данных для роботов.

Модель обрабатывает видео с частотой до 2-х кадров в секунду и отслеживает объекты между кадрами, в том числе при их частичном перекрытии.

Mk1 работает в гибридном режиме: цепочку рассуждений можно включать или отключать на уровне отдельного запроса.

Для видео доступна разметка временных меток событий; для изображений - детекция объектов, подсчёт, распознавание текста, разбор сложных документов в HTML, JSON или Markdown, а также вывод геометрических примитивов (точек, рамок и полигонов), которые могут использоваться робототехническими системами.

По бенчмаркам, опубликованным самой Perceptron, модель в задачах работы с изображением, видео и пространственным рассуждением сопоставима с топовыми моделями Google, Anthropic, OpenAI и Qwen, а в ряде тестов опережает их.

В частности, на EmbSpatialBench модель набрала 85,1 балла против 78,4 у Google Robotics-ER 1.5.

Модель доступна через API и площадку OpenRouter. Попробовать Mk1 можно на сайте стартапа.

Заявленная цена: 15 центов за миллион входных токенов и 1,50 доллара за миллион выходных, контекстное окно - 32 тыс. токенов.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍50👏19🤓9❤8🔥4

12K views14:05

Machinelearning

📌

Anthropic опубликовал документ о конкуренции США и Китая на горизонте 2028 года.

Компания напрямую агитирует за ужесточение экспортного контроля и закрытие каналов, через которые китайские лаборатории догоняют фронтир.

Логика статьи строится на одном наблюдении.

По интеллекту моделей отставание китайских лабораторий от американских сократилось до нескольких месяцев.

По компьюту (вычислительные мощности) разрыв пока огромный: согласно дорожным картам, Huawei в 2026 году произведёт около 4% от совокупной вычислительной мощности Nvidia, в 2027-м - 2%.

Но именно компьют, по мнению Anthropic, пока удерживает китайские лаборатории от паритета. И компанию беспокоит то, насколько изобретательно этот барьер обходится.

Каналов обхода два:

- физический и инфраструктурный доступ к компьюту в обход санкций: контрабанда чипов и обучение моделей в датацентрах за пределами Китая
- distillation attacks: массовое создание поддельных аккаунтов для систематического сбора ответов фронтирных моделей и воспроизведения их возможностей у себя

Текущее экспортное право регулирует продажу железа, но не удалённый доступ к нему. По данным FT, Alibaba и ByteDance уже тренируют флагманские модели на подсанкционных американских чипах в датацентрах Юго-Восточной Азии.

Distillation attacks Anthropic квалифицирует как промышленный шпионаж, фактически субсидируемый американскими инвестициями.

Особое место в статье занимает Mythos Preview - модель, которую Anthropic в апреле передал ограниченному кругу партнёров в рамках Project Glasswing. Команда Firefox с её помощью за месяц закрыла больше уязвимостей, чем за весь 2025 год.

Один китайский аналитик по кибербезопасности отреагировал фразой, которую теперь цитируют в статье: «

мы всё ещё точим мечи, а у соперника внезапно появился полностью автоматический пулемёт Гатлинга».

Этот эпизод Anthropic подаёт как репетицию будущего. При таком темпе ускорения отставание даже в несколько месяцев превращается в качественно другой уровень возможностей.

Два сценария на 2028 год выстроены вокруг одной развилки - что сделает Вашингтон в ближайшие месяцы.

В сценарии лидерства США закрывают лазейки в экспортном контроле, давят дистилляцию, ускоряют экспорт американского ИИ-стека и получают отрыв в 12-24 месяца по фронтиру. Этот отрыв самоусиливается: лидерство притягивает таланты и капитал, расширяет коалицию союзников, даёт США рычаги для диалога с Пекином, включая темы безопасности.

В сценарии паритета Вашингтон оставляет всё как есть. Китайские лаборатории за счёт удалённого компьюта и продолжающейся дистилляции выходят на околофронтирный уровень. Huawei и Alibaba занимают рынки Глобального Юга дешёвыми и достаточно качественными моделями, а нормы применения ИИ начинают формироваться под влиянием авторитарных режимов.

Отдельный важный блок - безопасность китайских моделей.

Anthropic ссылается на оценку CAISI: DeepSeek R1-0528 под распространённым джейлбрейком выполняет 94% явно вредоносных запросов против 8% у американских референсных моделей. Независимая проверка Kimi K2.5 от Moonshot показала похожую картину на CBRN-тематике.

Открытые веса делают проблему острее. После публикации модели встроенные ограничения можно снять, и любой актор получает доступ к её возможностям.

На уровне политики Anthropic предлагает четыре шага:

- ужесточить экспортный контроль на чипы и оборудование для их производства
- закрыть лазейку с удалённым доступом к зарубежным мощностям
- законодательно квалифицировать distillation attacks как незаконную практику
- продолжать продвигать американский ИИ-стек на внешних рынках

По расчётам, на которые ссылается компания, при ужесточении ограничений у американского сектора будет примерно в 11 раз больше компьюта, чем у китайского.

Любопытна и сама форма высказывания. Anthropic окончательно вышел за рамки роли исследовательской лаборатории - это полноценный лоббистский документ, оформленный как ресёрч.

Оригинал: https://www.anthropic.com/research/2028-ai-leadership

@ai_machinelearning_big_data

#anthropic

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥28🤔25❤10🤬10👍8😁6👌5👏3🤨2🤣1

8.04K views19:20