🚀 Cloud·ru добавил внешние LLM в сервис Foundation Models
Сервис теперь работает не только с локально развёрнутыми, но и с внешними большими языковыми моделями — единая точка доступа к пулу глобальных провайдеров и потенциальная замена OpenRouter, ушедшему с рынка РФ в июне 2026.
В каталоге 20+ моделей: семейства Alibaba, DeepSeek, Z·ai, MiniMax, GigaChat и др.
Среди доступного — GLM-5.2, заметная за счёт сильных результатов в кодинге и агентных задачах.
В сервис вшит инструмент Guardrails — автоматическая проверка и маскирование корпоративных и пользовательских данных в запросах, минимизация рисков утечек
Все случаи обнаружения чувствительных данных фиксируются в алертах мониторинга, данные остаются внутри корпоративного ИТ-контура
Для сценариев под 152-ФЗ — модели, развёрнутые в собственной инфраструктуре Cloud.ru.
Доступ через единый API и веб-интерфейс, оплата за фактическое использование, сравнение по параметрам и цене. С момента коммерческого запуска в ноябре 2025 модели обработали 450 млрд токенов — топ-сценарии: разработка, клиентская поддержка, продажи, генерация контента.
Каталог будут регулярно расширять, наблюдаем…
Сервис теперь работает не только с локально развёрнутыми, но и с внешними большими языковыми моделями — единая точка доступа к пулу глобальных провайдеров и потенциальная замена OpenRouter, ушедшему с рынка РФ в июне 2026.
В каталоге 20+ моделей: семейства Alibaba, DeepSeek, Z·ai, MiniMax, GigaChat и др.
Среди доступного — GLM-5.2, заметная за счёт сильных результатов в кодинге и агентных задачах.
В сервис вшит инструмент Guardrails — автоматическая проверка и маскирование корпоративных и пользовательских данных в запросах, минимизация рисков утечек
Все случаи обнаружения чувствительных данных фиксируются в алертах мониторинга, данные остаются внутри корпоративного ИТ-контура
Для сценариев под 152-ФЗ — модели, развёрнутые в собственной инфраструктуре Cloud.ru.
Доступ через единый API и веб-интерфейс, оплата за фактическое использование, сравнение по параметрам и цене. С момента коммерческого запуска в ноябре 2025 модели обработали 450 млрд токенов — топ-сценарии: разработка, клиентская поддержка, продажи, генерация контента.
Каталог будут регулярно расширять, наблюдаем…
🤣29👍21❤7🔥6😭2🗿1
Google Research опубликовала модель машинного обучения для классификации и регрессии на табличных данных. TabFM делает прогнозы на ранее не встречавшихся таблицах без отдельной тренировки под каждый набор данных.
Табличные данные лежат в основе множества прикладных задач - от прогноза оттока клиентов до выявления финансового мошенничества. Десятилетиями здесь доминировали алгоритмы на основе деревьев решений, которые требуют долгого подбора параметров и выстраивания признаков под каждую новую задачу.
TabFM использует подход, заимствованный у LLM - обучение в контексте.
Модель получает всю таблицу целиком как единый запрос и определяет связи между столбцами и строками прямо в момент прогноза, не меняя своих внутренних параметров. Эту архитектуру Гугл описывает как гибрид двух ранее опубликованных решений TabPFN и TabICL.
TabFM обучалась на сотнях миллионов сгенерированных таблиц, построенных с помощью структурных причинных моделей.
Разработку проверили на бенчмарке TabArena, который ранжирует системы по итогам прямых сравнений между собой. Тестирование включало 38 наборов для классификации и 13 для регрессии, размером от 700 до 150 000 строк.
По результатам TabFM обошла тщательно настроенные отраслевые решения TabPFN-3, AutoGluon и RealMLP.
В ближайшие недели TabFM будет встроена в сервис Google BigQuery, там классификацию и регрессию можно будет запускать одной SQL-командой, без специальных знаний в области ML.
@ai_machinelearning_big_data
#AI #ML #TabFM #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41👨💻21❤11👍7👏6😁3🤔3🤷♂2🥰1💯1
Thinking Machines Миры Мурати показала, как превратить закрытую экспертизу компании в обучающий сигнал для модели.
Кейс сделали с Bridgewater. На вход модели давали финансовые статьи, отчёты, документы центробанков и письма. Задача: определить, что инвестор или аналитик должен прочитать первым.
Для LLM это оказалось сложнее, чем кажется. Обычные промпты давали 46–50% accuracy, почти уровень угадывания. Экспертные промпты поднимали качество до 74–78%, но лучший результат дала разметка от опытных инвесторов Bridgewater.
Подход в том, что модель обучали по решениям экспертов. Один заголовок про тарифы может быть важным рыночным сигналом, другой громкий геополитический инфоповод останется ни на что не влияющим шумом. ственные метрики экспертов.
Bridgewater отдельно вручную спорные кейсы. Если модель расходилась с разметкой, пример возвращали экспертам на повторную проверку. Так в датасет попадали решения, за которыми стоит реальный профессиональный контекст.
В обучении смешивали разные типы задач, аккуратно ограничивали слишком резкие обновления модели и дообучали её на ответах более сильных версий. Без перегруза: модель постепенно училась повторять экспертное суждение и меньше цепляться за случайные признаки.
Результат: на 29.8% меньше ошибок, чем у лучшей frontier-модели, и в 13.8 раза ниже inference cost.
Как применять в работе- брать узкий процесс, где у команды есть сильная экспертиза, собирать решения лучших специалистов, прогонять спорные случаи через повторное ревью и обучать модель на этих метках. Особенно подходит для triage, risk review, аналитики, поддержки, compliance, отбора документов и внутренних research workflow.
Заметное преимущество, благодаря качеству экспертных решений. Такой датасет конкурент не скачает с Hugging Face.
https://thinkingmachines.ai/news/learning-to-replicate-expert-judgment-in-financial-tasks/
Кейс сделали с Bridgewater. На вход модели давали финансовые статьи, отчёты, документы центробанков и письма. Задача: определить, что инвестор или аналитик должен прочитать первым.
Для LLM это оказалось сложнее, чем кажется. Обычные промпты давали 46–50% accuracy, почти уровень угадывания. Экспертные промпты поднимали качество до 74–78%, но лучший результат дала разметка от опытных инвесторов Bridgewater.
Подход в том, что модель обучали по решениям экспертов. Один заголовок про тарифы может быть важным рыночным сигналом, другой громкий геополитический инфоповод останется ни на что не влияющим шумом. ственные метрики экспертов.
Bridgewater отдельно вручную спорные кейсы. Если модель расходилась с разметкой, пример возвращали экспертам на повторную проверку. Так в датасет попадали решения, за которыми стоит реальный профессиональный контекст.
В обучении смешивали разные типы задач, аккуратно ограничивали слишком резкие обновления модели и дообучали её на ответах более сильных версий. Без перегруза: модель постепенно училась повторять экспертное суждение и меньше цепляться за случайные признаки.
Результат: на 29.8% меньше ошибок, чем у лучшей frontier-модели, и в 13.8 раза ниже inference cost.
Как применять в работе- брать узкий процесс, где у команды есть сильная экспертиза, собирать решения лучших специалистов, прогонять спорные случаи через повторное ревью и обучать модель на этих метках. Особенно подходит для triage, risk review, аналитики, поддержки, compliance, отбора документов и внутренних research workflow.
Заметное преимущество, благодаря качеству экспертных решений. Такой датасет конкурент не скачает с Hugging Face.
https://thinkingmachines.ai/news/learning-to-replicate-expert-judgment-in-financial-tasks/
💯88❤43👏21🤔20👍10🎉7🔥6🥱3😁1🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
🐡 Еще одна интересная работа от Sakana AI, они представила работу Learning Multi-Agent Coordination via Sheaf-ADMM, которая будет показана на ICML 2026.
Авторы рассматривают интеллект как распределённую систему: сложная задача делится на пересекающиеся фрагменты, а каждый агент работает только со своей частью. Затем агенты согласуют решения с соседями на границах, где их области пересекаются.
В Sheaf-ADMM координация строится в несколько раундов. Сначала агент предлагает локальное решение. Потом он сверяется с соседями и сглаживает конфликтующие части. Если согласия нет, конфликт сохраняется в памяти и влияет на следующий раунд переговоров.
Подход проверили на задачах, где одному агенту не хватает всей информации.
В Multi-Agent Sudoku каждый агент видел только строку, столбец или блок 3×3. Sheaf-ADMM решил 93% задач, тогда как сопоставимый message-passing baseline набрал 11%.
В image classification при domain shift по размеру canvas обычная CNN падала до 11% accuracy на MNIST, а метод Sakana AI сохранял 86%.
В maze pathfinding Sheaf-ADMM достиг точности message-passing baseline, но использовал 5-мерный канал коммуникации вместо 42-мерного.
Координация агентов полностью прозрачная. Можно видеть, как локальные агенты спорят, корректируют решения и приходят к общему результату, вместо того чтобы прятать всё в hidden states.
Метод опирается на ADMM из distributed optimization и sheaves из applied topology.
Метод помогает нескольким агентам решать одну сложную задачу по частям, договариваться на пересечениях и собирать итоговое решение без постоянного обмена всей информацией.
Paper: https://arxiv.org/abs/2605.31005
Code: https://github.com/SakanaAI/sheaf-admm
Blog: https://pub.sakana.ai/sheaf-admm/
@ai_machinelearning_big_data
#ai #ml #sakana
Авторы рассматривают интеллект как распределённую систему: сложная задача делится на пересекающиеся фрагменты, а каждый агент работает только со своей частью. Затем агенты согласуют решения с соседями на границах, где их области пересекаются.
В Sheaf-ADMM координация строится в несколько раундов. Сначала агент предлагает локальное решение. Потом он сверяется с соседями и сглаживает конфликтующие части. Если согласия нет, конфликт сохраняется в памяти и влияет на следующий раунд переговоров.
Подход проверили на задачах, где одному агенту не хватает всей информации.
В Multi-Agent Sudoku каждый агент видел только строку, столбец или блок 3×3. Sheaf-ADMM решил 93% задач, тогда как сопоставимый message-passing baseline набрал 11%.
В image classification при domain shift по размеру canvas обычная CNN падала до 11% accuracy на MNIST, а метод Sakana AI сохранял 86%.
В maze pathfinding Sheaf-ADMM достиг точности message-passing baseline, но использовал 5-мерный канал коммуникации вместо 42-мерного.
Координация агентов полностью прозрачная. Можно видеть, как локальные агенты спорят, корректируют решения и приходят к общему результату, вместо того чтобы прятать всё в hidden states.
Метод опирается на ADMM из distributed optimization и sheaves из applied topology.
Метод помогает нескольким агентам решать одну сложную задачу по частям, договариваться на пересечениях и собирать итоговое решение без постоянного обмена всей информацией.
Paper: https://arxiv.org/abs/2605.31005
Code: https://github.com/SakanaAI/sheaf-admm
Blog: https://pub.sakana.ai/sheaf-admm/
@ai_machinelearning_big_data
#ai #ml #sakana
❤70🤓37👍21👏16❤🔥12🔥7🤔7👨💻1
Leanstral 1.5 - новая версия ранее выпущенной модели для формальной верификации в языке Lean 4. Задача подобных моделей помогать составлять и проверять доказательства, которые компилятор Lean принимает как корректные.
Lean 4 - это система интерактивного доказательства теорем, которая позволяет записывать математические утверждения и проверять их строго формально, а также описывать свойства программного кода.
Обновление не затронуло изменение архитектуры, количество параметров и окно контекста, под капотом также MoE на 119 млрд общих и 6,5 млрд активных параметров, 256 тысяч токенов контекст и мультимодальность на входе.
Версия 1.5 прошла техэтапное обучение в 2-х средах: одна отрабатывает доказательство теорем в диалоге с компилятором Lean, другая учит модель действовать как программист в реальных репозиториях.
Апдейт полностью насыщает бенчмарк miniF2F, набирая 100% на проверочной и тестовой выборках, решает 587 из 672 задач PutnamBench и показывает лучшие на сегодня результаты на наборах FATE-H и FATE-X.
К слову, на PutnamBench, Leanstral 1.5 опережает систему Seed-Prover 1.5 на 7 задач при затратах около 4 долларов на задачу (против 300+ долларов у соперника).
В тесте по кодингу на 57 репозиториях, система с участием Leanstral выявила 47 нарушенных свойств, из которых 11 оказались реальными ошибками, а 5 ранее не были известны.
@ai_machinelearning_big_data
#AI #ML #LLM #LEAN #LeanStral #MistralAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28👍8❤6👀5😁2👏1🤔1
Media is too big
VIEW IN TELEGRAM
Anthropic блокирует доступ к Claude Code для разработчиков из КНР из-за дистилляции моделей. Компания обвиняет DeepSeek, Alibaba, MiniMax и Moonshot AI в парсинге инференса Claude для обучения собственных продуктов.
Пользовательское соглашение запрещает работу с сервисами Anthropic в юрисдикции КНР. Китайские компании, в свою очередь, обходят ограничения через VPN, облачных провайдеров и сингапурские филиалы.
В ответ Alibaba обязала инженеров прекратить использование Claude Code и удалить инструмент. Поводом стало обнаружение в утилите скриптов, идентифицирующих пользователей из Китая.
ft.com
В августе корпорация объединит пользовательскую и корпоративную версии Copilot в единое приложение. В обновлении появятся фоновые агенты AutoPilot для автоматизации рутины, а также новые инструменты для написания кода. Доступ к этим функциям будет платным.
Согласно внутреннему меморандуму вице-президента компании, Microsoft закрывает экспериментальные надстройки Copilot Podcasts и Labs. Разработка смещает фокус с демонстрации возможностей ИИ на решение прикладных задач. По его словам, обновленному Copilot еще предстоит заслужить право на существование.
theinformation.com
Глава Superintelligence Labs сообщил, что новая модель с кодовым названием Watermelon показывает результаты на уровне GPT-5.5 уже на этапе обучения.
Вычислительные затраты её на тренировку на порядок превысили показатели предыдущего поколения Muse Spark (Avocado), вышедшей в апреле.
Параллельно Ванг анонсировал в X обновление Muse Spark. Апдейт сфокусирован на генерации кода и поддержке автономных агентов. Отвечая на вопрос о сроках достижения паритета с Claude Opus, Ванг ответил, что это произойдет скоро.
businessinsider.com
Epoch AI подсчитали, что использование LLM для автоматизированного поиска багов привело к росту выявленных критических и высокоопасных уязвимостей в 3,5 раза. За один месяц 21 организация отчиталась о 1500 найденных уязвимостях.
Аналитики связывают динамику с релизом Mythos. Партнеры по программе Glasswing суммарно выявили более 10 000 уязвимостей, часть из которых пока не раскрыта. По оценкам Epoch AI, сопоставимый вклад в статистику вносит инициатива Daybreak от OpenAI.
epoch.ai
В Остине открылся комплекс Robot Park компании Apptronik площадью 8000 кв. м для непрерывного сбора датасетов. CEO Apptronik позиционирует площадку как фабрику данных.
На полигоне роботы Apollo 2 в двуногих и колесных конфигурациях автономно и через телеоперирование выполняют логистические задачи: переносят коробки, открывают двери, перемещаются по неровным поверхностям.
Собранная информация применяется для проектирования следующего поколения, Apollo 3. Также массив используется Google DeepMind для обучения ИИ-моделей Gemini Robotics.
За счет собственного полигона Apptronik рассчитывает преодолеть дефицит тренировочной базы. Это должно дать компании преимущество перед 1X, Figure и Tesla Optimus Academy в создании универсальных роботов для работы в неадаптированной человеческой среде.
apptronik.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔37👏26❤10😇10⚡7👨💻6❤🔥2🔥2👌2💯1