GeneBench-Pro - набор тестов, проверяющий, способны ли модели самостоятельно принимать исследовательские решения при работе с биологическими данными. Он оценивает умение проводить сложный анализ данных в генетике и смежных областях биологии и медицины.
Моделям дают неструктурированные, как в реальной лаборатории, данные, краткое описание задачи и целевую величину, которую нужно оценить (но не говорят, как считать).
Чтобы прийти к верному ответу, система должна сама пройти цепочку зависимых решений: очистить данные, выявить артефакты, выбрать подходящий статистический метод и пересмотреть план, если промежуточные результаты противоречат исходной гипотезе.
Для всех 129 задач условия смоделированы так, чтобы проверять ответ однозначно, по принципу "всё или ничего".
Набор охватывает 10 областей и 21 подобласть, а 82 задачи прошли проверку у экспертов-биологов.
Сильнейшая из протестированных моделей, GPT-5.6 Sol, верно решает 28,7% задач на максимальном уровне рассуждений и 31,5% в режиме Pro.
Лучший результат среди моделей других вендоров у Claude Opus 4.8 (16,0%).
OpenAI называет такой результат заметным для настолько трудного теста.
По опросу рецензентов, одна задача GeneBench-Pro заняла бы у специалиста порядка 20–40 часов, что при ставке около $200 в час выливается в несколько тысяч долларов.
Расчёт той же задачи моделью стоит значительно меньше, но конкретных цифр OpenAI не дает. Для стандартных моделей в техотчёте приведён средний расход токенов как приблизительная оценка вычислительных затрат (около 33 200 токенов для Sol в максимальном режиме).
Обозначение Pro в контексте бенчмарка - это режим работы модели, а не отдельная линейка продуктов или новые тарифы ChatGPT.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓95👍30👏13❤10🤔8🔥3🥰3
Это «теплое» объектное хранилище на NVMe-дисках, которое рассчитано на сценарии, где критичны скорость чтения и минимальные задержки. Сервис является частью MWS Cloud Platform.
Скорость передачи данных составляет до 1,8 ГиБ/с и TTFB около 20 мс. Хранилище подходит для обучения нейросетей, аналитики, медиа сервисов и высоконагруженных веб-приложений, есть совместимость с AWS S3 API, поэтому можно мигрировать в MWS Cloud Platform без переписывания сервисов;
Помимо этого, у хранилища есть шифрование, репликация между дата-центрами, версионирование и IAM-права. Оплата проходит по модели pay-as-you-go.
MWS Cloud опубликовали методологию и результаты внутреннего тестирования, показавшего, что это самое быстрое S3-совместимое объектное хранилище среди крупных российских облачных провайдеров.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94🔥33👏20🤩8🏆6❤4🤣3🥱1💯1
Уязвимость, получившая название BioShocking, позволяет злоумышленникам обходить базовые ограничения агентов и незаметно извлекать конфиденциальные данные из активных сессий пользователя.
Эксплойт успешно протестировали на 6 популярных решениях, включая ChatGPT Atlas, Perplexity Comet и расширение Claude для Chrome.
В основе атаки лежит техника манипуляции контекстом
Жертву заманивают на вредоносную страницу с игрой-головоломкой, которую должен решить ИИ-браузер.
По правилам игры правильными признаются абсурдные ответы (например, ИИ заставляют согласиться с тем, что 2 + 2 = 5). Как только ИИ принимает эту альтернативную логику, он начинает считать, что находится в вымышленной среде, где реальные правила безопасности больше не действуют.
На финальном этапе скомпрометированная страница дает агенту команду скопировать текст по скрытому URL-адресу. Этот линк незаметно перенаправляет ИИ в приватный или корпоративный GitHub-репозиторий пользователя.
Поскольку ИИ-браузер работает локально и имеет доступ ко всем авторизованным сессиям, в ходе тестов агенты беспрепятственно похитили SSH-ключи и передали их на сервер атакующего. Ни один из них не классифицировал эту операцию как угрозу и не запросил подтверждения.
Специалисты LayerX призывают разработчиков внедрить строгие проверки разрешений перед тем, как ИИ обращается к конфиденциальным источникам данных.
OpenAI уже устранила уязвимость в ChatGPT Atlas осенью 2025 года, однако остальные вендоры, по данным исследователей, пока не закрыли брешь или полностью проигнорировали отчеты.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔45😐17❤7😨7👍5🤣5🔥2🤬2😁1
🚨 Anthropic готовит собственный AI-чип для inference.
Компания ведёт ранние переговоры с Samsung по производству на 2-нм техпроцессе и с advanced packaging.
Кстати, Samsung уже инвестировала в Anthropic в рамках Series H.
https://www.theinformation.com/articles/anthropic-talks-samsung-manufacture-custom-ai-chip
@ai_machinelearning_big_data
Компания ведёт ранние переговоры с Samsung по производству на 2-нм техпроцессе и с advanced packaging.
Кстати, Samsung уже инвестировала в Anthropic в рамках Series H.
https://www.theinformation.com/articles/anthropic-talks-samsung-manufacture-custom-ai-chip
@ai_machinelearning_big_data
👍127🤩62👏36😇14❤8🥰7🎉7🔥6💯5🤣3👻1
Forwarded from Яндекс
Почитать:
Посмотреть:
Посетить:
👀 Делитесь дайджестом с другими разработчиками
Please open Telegram to view this post
VIEW IN TELEGRAM
❤81👍27🔥16👏6😁4🤔1🤩1
Автоконцерн начал использование человекоподобных роботов Figure 03 на заводе в Спартанберге (США) для комплектации и сортировки деталей.
Предыдущая модель, Figure 02, за 10 месяцев тестирования на предприятии поучаствовала в сборке более 30 тысяч автомобильных кузовов.
Новая версия гуманоида от Figure AI получила беспроводную зарядку, мягкие элементы корпуса и аудиосистему для голосового общения с персоналом. Манипуляторы оснастили тактильными сенсорами и встроенными в ладони камерами для повышения точности мелкой моторики.
На конвейере Figure 03 будет распознавать несортированные компоненты в общих контейнерах и извлекать их, раскладывая по логистическим тележкам в заданной последовательности.
Доставку собранных тележек на сборочную линию осуществляют беспилотные складские тягачи.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍124🔥31🤔20👏7❤5🤓4👌2❤🔥1
В ежегодном экологическом отчёте, компания сообщила, что её потребление электроэнергии за год выросло на 37%.
С 2019 года общий спрос на электроэнергию вырос более чем на 250%. Google связывает это с развитием платформы Google Cloud, инвестициями в поиск, ростом YouTube и расширением инфраструктуры для ИИ.
Согласно разбору отчёта в отраслевых СМИ, только дата-центры израсходовали в 2025 году свыше 42 млн МВт·ч электроэнергии, это примерно на треть больше, чем годом ранее.
Примерно столько же за год потребляют Новая Зеландия или Дания.
В 2025 году Google заключила соглашения о закупке более 12 ГВт новых мощностей чистой энергии
Google признаёт, что строительство ИИ-инфраструктуры идёт быстрее, чем переход энергосетей на низкоуглеродные источники.
При этом 9-й год подряд ИТ-гигант в сумме за год закупает объём возобновляемой энергии, равный всему её годовому потреблению.
Этот годовой баланс не означает, что каждый дата-центр в любой час работает на чистой энергии (в периоды, когда возобновляемой генерации не хватает, нагрузку по-прежнему закрывают ископаемые источники).
Косвенные выбросы CO2 в цепочке поставок Google за год выросли на 25%.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50❤13😢8🌚3🔥2👀2🤔1😭1
Хочешь за год вырасти от стажера до уровня middle DS-инженера?
Авито впервые запускает годовой Data Science Bootcamp, где участники смогут вырасти до middle DS-инженера. На программе стажеры будут работать с реальными продуктами и технологиями компании. В конце всех ждет техническое интервью, чтобы подтвердить уровень middle DS на основе матрицы компетенций Авито.
В рамках буткемпа можно выбрать из 2 треков:
- Классический ML — работа с рекомендательными системами, ранжированием объявлений и другими ML-моделями полного цикла.
- NLP и LLM — разработка AI-ассистентов, улучшение поиска и создание решений на базе больших языковых моделей.
На программе стажеры будут работать с реальными продуктами и технологиями Авито, получать поддержку наставников и обмениться опытом в коммьюнити стажеров. Лучшие участники получат шанс продолжить работу в компании.
Программа подходит для студентов 2–4 курса бакалавриата, 4–5 курса специалитета, 1-2 курс магистратуры или выпускников технических, математических или IT-специальностей.
Подать заявку можно из любого региона России. Стажировка доступна как удалённо, так и очно в одном из пяти офисов компании.
Подать заявку нужно до 9 июля.
Авито впервые запускает годовой Data Science Bootcamp, где участники смогут вырасти до middle DS-инженера. На программе стажеры будут работать с реальными продуктами и технологиями компании. В конце всех ждет техническое интервью, чтобы подтвердить уровень middle DS на основе матрицы компетенций Авито.
В рамках буткемпа можно выбрать из 2 треков:
- Классический ML — работа с рекомендательными системами, ранжированием объявлений и другими ML-моделями полного цикла.
- NLP и LLM — разработка AI-ассистентов, улучшение поиска и создание решений на базе больших языковых моделей.
На программе стажеры будут работать с реальными продуктами и технологиями Авито, получать поддержку наставников и обмениться опытом в коммьюнити стажеров. Лучшие участники получат шанс продолжить работу в компании.
Программа подходит для студентов 2–4 курса бакалавриата, 4–5 курса специалитета, 1-2 курс магистратуры или выпускников технических, математических или IT-специальностей.
Подать заявку можно из любого региона России. Стажировка доступна как удалённо, так и очно в одном из пяти офисов компании.
Подать заявку нужно до 9 июля.
🤣27👍9❤3🔥2
Media is too big
VIEW IN TELEGRAM
Сэм Альтман предложил администрации Президента США передать 5% акций OpenAI государству для создания национального ИИ-фонда. Инициатива предполагает аналогичные отчисления в единый пул от остальных американских ИИ-вендоров.
Структуру планируют выстроить по модели Аляскинского фонда - доходы от ИИ-отрасли пойдут на выплату обычным гражданам. Обсуждение концепции идет больше года.
По версии критиков, сделав государство прямым акционером, OpenAI получит негласную страховку от банкротства в случае неокупаемости текущей бизнес-модели.
Реализация этого предложения потребует одобрения Конгресса.
ft.com
1 июля репозиторий arXiv вышел из состава Корнеллского университета, где базировался последние 25 лет. Платформа продолжит работу как самостоятельная некоммерческая организация.
Независимая структура даст проекту управленческую гибкость для развития инфраструктуры. Условия для исследователей не изменятся, сервис сохранит свободный доступ к базе и бесплатное размещение материалов. Технических перебоев из-за переезда не ожидается.
В ближайшее время arXiv представит обновленную политику модерации публикаций об ИИ и отметит рубеж в 3 миллиона загруженных научных статей.
arxiv.org
ИИ-блокнот от Google получил возможность автоматически генерировать 60-секундные ролики в стиле TikTok на основе загруженных материалов.
Система анализирует разрозненные пользовательские источники и собирает из них емкую видеовыжимку, раскрывающую конкретную тему. Нововведение расширяет базовые возможности сервиса, главная задача которого - анализировать большие объемы данных и переупаковывать их в удобные форматы.
На данный момент новый формат постепенно разворачивается на мобильных устройствах и в веб-версии для подписчиков тарифов AI Ultra и Pro. В скором времени доступ обещают и на бесплатных аккаунтах.
NotebookLM в сети Х
Корпорация выделяет $2,5 млрд на создание подразделения Frontier Company для интеграции ИИ в корпоративные бизнес-процессы. Главная метрика новой структуры - подтвержденный ROI и измеримые коммерческие результаты от внедрения нейросетей.
В штат войдут 6000 инженеров и отраслевых экспертов. Они будут работать напрямую с заказчиками в проектировании и масштабировании систем ИИ, встраивая их в существующие бизнес-процессы и комплаенс-инфраструктуру.
Microsoft позиционирует Frontier Company как независимого интегратора, не привязанного к собственным моделям, в отличие от служб внедрения OpenAI и Anthropic. Развивать направление помогут партнёры Accenture, Capgemini, EY, KPMG и PwC.
microsoft.com
Американский стартап представил робота для домашней рутины. В его базовые задачи входит сбор вещей с пола, перенос корзин, складывание одежды, заправка кроватей, а также загрузка и разгрузка стиральных машин.
Isaac 1 построен на колесной платформе и оснащен телескопическим туловищем, меняющим высоту вплоть до человеческого роста. Внутренний каркас обтянут тканью для защиты при контакте с людьми.
Время автономной работы составляет 8 часов, полная зарядка занимает 2 часа. Первые поставки стартуют в Калифорнии осенью 2026 года по цене $7999 с альтернативой в виде подписки за $449 в месяц.
weaverobotics.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣15👍13❤9🔥5👏2😁1🤔1
🚀 Cloud·ru добавил внешние LLM в сервис Foundation Models
Сервис теперь работает не только с локально развёрнутыми, но и с внешними большими языковыми моделями — единая точка доступа к пулу глобальных провайдеров и потенциальная замена OpenRouter, ушедшему с рынка РФ в июне 2026.
В каталоге 20+ моделей: семейства Alibaba, DeepSeek, Z·ai, MiniMax, GigaChat и др.
Среди доступного — GLM-5.2, заметная за счёт сильных результатов в кодинге и агентных задачах.
В сервис вшит инструмент Guardrails — автоматическая проверка и маскирование корпоративных и пользовательских данных в запросах, минимизация рисков утечек
Все случаи обнаружения чувствительных данных фиксируются в алертах мониторинга, данные остаются внутри корпоративного ИТ-контура
Для сценариев под 152-ФЗ — модели, развёрнутые в собственной инфраструктуре Cloud.ru.
Доступ через единый API и веб-интерфейс, оплата за фактическое использование, сравнение по параметрам и цене. С момента коммерческого запуска в ноябре 2025 модели обработали 450 млрд токенов — топ-сценарии: разработка, клиентская поддержка, продажи, генерация контента.
Каталог будут регулярно расширять, наблюдаем…
Сервис теперь работает не только с локально развёрнутыми, но и с внешними большими языковыми моделями — единая точка доступа к пулу глобальных провайдеров и потенциальная замена OpenRouter, ушедшему с рынка РФ в июне 2026.
В каталоге 20+ моделей: семейства Alibaba, DeepSeek, Z·ai, MiniMax, GigaChat и др.
Среди доступного — GLM-5.2, заметная за счёт сильных результатов в кодинге и агентных задачах.
В сервис вшит инструмент Guardrails — автоматическая проверка и маскирование корпоративных и пользовательских данных в запросах, минимизация рисков утечек
Все случаи обнаружения чувствительных данных фиксируются в алертах мониторинга, данные остаются внутри корпоративного ИТ-контура
Для сценариев под 152-ФЗ — модели, развёрнутые в собственной инфраструктуре Cloud.ru.
Доступ через единый API и веб-интерфейс, оплата за фактическое использование, сравнение по параметрам и цене. С момента коммерческого запуска в ноябре 2025 модели обработали 450 млрд токенов — топ-сценарии: разработка, клиентская поддержка, продажи, генерация контента.
Каталог будут регулярно расширять, наблюдаем…
🤣29👍21❤7🔥6😭2🗿1
Google Research опубликовала модель машинного обучения для классификации и регрессии на табличных данных. TabFM делает прогнозы на ранее не встречавшихся таблицах без отдельной тренировки под каждый набор данных.
Табличные данные лежат в основе множества прикладных задач - от прогноза оттока клиентов до выявления финансового мошенничества. Десятилетиями здесь доминировали алгоритмы на основе деревьев решений, которые требуют долгого подбора параметров и выстраивания признаков под каждую новую задачу.
TabFM использует подход, заимствованный у LLM - обучение в контексте.
Модель получает всю таблицу целиком как единый запрос и определяет связи между столбцами и строками прямо в момент прогноза, не меняя своих внутренних параметров. Эту архитектуру Гугл описывает как гибрид двух ранее опубликованных решений TabPFN и TabICL.
TabFM обучалась на сотнях миллионов сгенерированных таблиц, построенных с помощью структурных причинных моделей.
Разработку проверили на бенчмарке TabArena, который ранжирует системы по итогам прямых сравнений между собой. Тестирование включало 38 наборов для классификации и 13 для регрессии, размером от 700 до 150 000 строк.
По результатам TabFM обошла тщательно настроенные отраслевые решения TabPFN-3, AutoGluon и RealMLP.
В ближайшие недели TabFM будет встроена в сервис Google BigQuery, там классификацию и регрессию можно будет запускать одной SQL-командой, без специальных знаний в области ML.
@ai_machinelearning_big_data
#AI #ML #TabFM #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👨💻21❤11👍7👏6😁3🤔3🤷♂2
Thinking Machines Миры Мурати показала, как превратить закрытую экспертизу компании в обучающий сигнал для модели.
Кейс сделали с Bridgewater. На вход модели давали финансовые статьи, отчёты, документы центробанков и письма. Задача: определить, что инвестор или аналитик должен прочитать первым.
Для LLM это оказалось сложнее, чем кажется. Обычные промпты давали 46–50% accuracy, почти уровень угадывания. Экспертные промпты поднимали качество до 74–78%, но лучший результат дала разметка от опытных инвесторов Bridgewater.
Подход в том, что модель обучали по решениям экспертов. Один заголовок про тарифы может быть важным рыночным сигналом, другой громкий геополитический инфоповод останется ни на что не влияющим шумом. ственные метрики экспертов.
Bridgewater отдельно вручную спорные кейсы. Если модель расходилась с разметкой, пример возвращали экспертам на повторную проверку. Так в датасет попадали решения, за которыми стоит реальный профессиональный контекст.
В обучении смешивали разные типы задач, аккуратно ограничивали слишком резкие обновления модели и дообучали её на ответах более сильных версий. Без перегруза: модель постепенно училась повторять экспертное суждение и меньше цепляться за случайные признаки.
Результат: на 29.8% меньше ошибок, чем у лучшей frontier-модели, и в 13.8 раза ниже inference cost.
Как применять в работе- брать узкий процесс, где у команды есть сильная экспертиза, собирать решения лучших специалистов, прогонять спорные случаи через повторное ревью и обучать модель на этих метках. Особенно подходит для triage, risk review, аналитики, поддержки, compliance, отбора документов и внутренних research workflow.
Заметное преимущество, благодаря качеству экспертных решений. Такой датасет конкурент не скачает с Hugging Face.
https://thinkingmachines.ai/news/learning-to-replicate-expert-judgment-in-financial-tasks/
Кейс сделали с Bridgewater. На вход модели давали финансовые статьи, отчёты, документы центробанков и письма. Задача: определить, что инвестор или аналитик должен прочитать первым.
Для LLM это оказалось сложнее, чем кажется. Обычные промпты давали 46–50% accuracy, почти уровень угадывания. Экспертные промпты поднимали качество до 74–78%, но лучший результат дала разметка от опытных инвесторов Bridgewater.
Подход в том, что модель обучали по решениям экспертов. Один заголовок про тарифы может быть важным рыночным сигналом, другой громкий геополитический инфоповод останется ни на что не влияющим шумом. ственные метрики экспертов.
Bridgewater отдельно вручную спорные кейсы. Если модель расходилась с разметкой, пример возвращали экспертам на повторную проверку. Так в датасет попадали решения, за которыми стоит реальный профессиональный контекст.
В обучении смешивали разные типы задач, аккуратно ограничивали слишком резкие обновления модели и дообучали её на ответах более сильных версий. Без перегруза: модель постепенно училась повторять экспертное суждение и меньше цепляться за случайные признаки.
Результат: на 29.8% меньше ошибок, чем у лучшей frontier-модели, и в 13.8 раза ниже inference cost.
Как применять в работе- брать узкий процесс, где у команды есть сильная экспертиза, собирать решения лучших специалистов, прогонять спорные случаи через повторное ревью и обучать модель на этих метках. Особенно подходит для triage, risk review, аналитики, поддержки, compliance, отбора документов и внутренних research workflow.
Заметное преимущество, благодаря качеству экспертных решений. Такой датасет конкурент не скачает с Hugging Face.
https://thinkingmachines.ai/news/learning-to-replicate-expert-judgment-in-financial-tasks/
💯85❤43👏21🤔20👍10🎉7🔥6🥱3😁1🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
🐡 Еще одна интересная работа от Sakana AI, они представила работу Learning Multi-Agent Coordination via Sheaf-ADMM, которая будет показана на ICML 2026.
Авторы рассматривают интеллект как распределённую систему: сложная задача делится на пересекающиеся фрагменты, а каждый агент работает только со своей частью. Затем агенты согласуют решения с соседями на границах, где их области пересекаются.
В Sheaf-ADMM координация строится в несколько раундов. Сначала агент предлагает локальное решение. Потом он сверяется с соседями и сглаживает конфликтующие части. Если согласия нет, конфликт сохраняется в памяти и влияет на следующий раунд переговоров.
Подход проверили на задачах, где одному агенту не хватает всей информации.
В Multi-Agent Sudoku каждый агент видел только строку, столбец или блок 3×3. Sheaf-ADMM решил 93% задач, тогда как сопоставимый message-passing baseline набрал 11%.
В image classification при domain shift по размеру canvas обычная CNN падала до 11% accuracy на MNIST, а метод Sakana AI сохранял 86%.
В maze pathfinding Sheaf-ADMM достиг точности message-passing baseline, но использовал 5-мерный канал коммуникации вместо 42-мерного.
Координация агентов полностью прозрачная. Можно видеть, как локальные агенты спорят, корректируют решения и приходят к общему результату, вместо того чтобы прятать всё в hidden states.
Метод опирается на ADMM из distributed optimization и sheaves из applied topology.
Метод помогает нескольким агентам решать одну сложную задачу по частям, договариваться на пересечениях и собирать итоговое решение без постоянного обмена всей информацией.
Paper: https://arxiv.org/abs/2605.31005
Code: https://github.com/SakanaAI/sheaf-admm
Blog: https://pub.sakana.ai/sheaf-admm/
@ai_machinelearning_big_data
#ai #ml #sakana
Авторы рассматривают интеллект как распределённую систему: сложная задача делится на пересекающиеся фрагменты, а каждый агент работает только со своей частью. Затем агенты согласуют решения с соседями на границах, где их области пересекаются.
В Sheaf-ADMM координация строится в несколько раундов. Сначала агент предлагает локальное решение. Потом он сверяется с соседями и сглаживает конфликтующие части. Если согласия нет, конфликт сохраняется в памяти и влияет на следующий раунд переговоров.
Подход проверили на задачах, где одному агенту не хватает всей информации.
В Multi-Agent Sudoku каждый агент видел только строку, столбец или блок 3×3. Sheaf-ADMM решил 93% задач, тогда как сопоставимый message-passing baseline набрал 11%.
В image classification при domain shift по размеру canvas обычная CNN падала до 11% accuracy на MNIST, а метод Sakana AI сохранял 86%.
В maze pathfinding Sheaf-ADMM достиг точности message-passing baseline, но использовал 5-мерный канал коммуникации вместо 42-мерного.
Координация агентов полностью прозрачная. Можно видеть, как локальные агенты спорят, корректируют решения и приходят к общему результату, вместо того чтобы прятать всё в hidden states.
Метод опирается на ADMM из distributed optimization и sheaves из applied topology.
Метод помогает нескольким агентам решать одну сложную задачу по частям, договариваться на пересечениях и собирать итоговое решение без постоянного обмена всей информацией.
Paper: https://arxiv.org/abs/2605.31005
Code: https://github.com/SakanaAI/sheaf-admm
Blog: https://pub.sakana.ai/sheaf-admm/
@ai_machinelearning_big_data
#ai #ml #sakana
❤69🤓37👍21👏16❤🔥12🤔7🔥6👨💻1
Leanstral 1.5 - новая версия ранее выпущенной модели для формальной верификации в языке Lean 4. Задача подобных моделей помогать составлять и проверять доказательства, которые компилятор Lean принимает как корректные.
Lean 4 - это система интерактивного доказательства теорем, которая позволяет записывать математические утверждения и проверять их строго формально, а также описывать свойства программного кода.
Обновление не затронуло изменение архитектуры, количество параметров и окно контекста, под капотом также MoE на 119 млрд общих и 6,5 млрд активных параметров, 256 тысяч токенов контекст и мультимодальность на входе.
Версия 1.5 прошла техэтапное обучение в 2-х средах: одна отрабатывает доказательство теорем в диалоге с компилятором Lean, другая учит модель действовать как программист в реальных репозиториях.
Апдейт полностью насыщает бенчмарк miniF2F, набирая 100% на проверочной и тестовой выборках, решает 587 из 672 задач PutnamBench и показывает лучшие на сегодня результаты на наборах FATE-H и FATE-X.
К слову, на PutnamBench, Leanstral 1.5 опережает систему Seed-Prover 1.5 на 7 задач при затратах около 4 долларов на задачу (против 300+ долларов у соперника).
В тесте по кодингу на 57 репозиториях, система с участием Leanstral выявила 47 нарушенных свойств, из которых 11 оказались реальными ошибками, а 5 ранее не были известны.
@ai_machinelearning_big_data
#AI #ML #LLM #LEAN #LeanStral #MistralAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27👍9❤6👀5😁2👏1💯1