Почему большинство тестов ИИ-ассистентов не работают в реальности
Российские исследователи из SberAI, MWS AI, а также ИТМО, ВШЭ, МИСИС и других университетов представили методологию DRAGOn – это новый подход к оценке RAG-систем, которые лежат в основе современных ИИ-ассистентов. Ключевая идея в том, чтобы уйти от статичных тестов к динамической среде с постоянно обновляющимися данными. Саму работу приняли на международной конференции EACL 2026.
Классические бенчмарки быстро устаревают и плохо отражают реальные условия. В бизнесе ИИ работает с живыми базами знаний, где важны актуальность и связность фактов, а не просто точность на фиксированном датасете. DRAGOn предлагает тестировать ИИ-системы на свежих новостях, автоматически собирая из них «карту знаний».
Вместо простых вопросов «кто/где/когда», система создает многоуровневые логические задачи. Чтобы ответить, ИИ должен сопоставить несколько фактов из разных новостей, а не просто скопировать кусок текста, а проверкой ответов занимается нейросеть-судья.
Что это дает на практике:
- Задачи становятся многошаговыми, а не тривиальными;
- Проверяется способность связывать факты, а не копировать ответы;
- Оценка учитывает полноту и фактическую точность, а не совпадение слов.
Методологию можно развернуть внутри компании и тестировать ИИ на собственных данных до внедрения. Это позволяет сравнивать решения в реальных сценариях и снижать риски ошибок, особенно в задачах аналитики, поддержки и работы с документами.
https://arxiv.org/abs/2507.05713
Российские исследователи из SberAI, MWS AI, а также ИТМО, ВШЭ, МИСИС и других университетов представили методологию DRAGOn – это новый подход к оценке RAG-систем, которые лежат в основе современных ИИ-ассистентов. Ключевая идея в том, чтобы уйти от статичных тестов к динамической среде с постоянно обновляющимися данными. Саму работу приняли на международной конференции EACL 2026.
Классические бенчмарки быстро устаревают и плохо отражают реальные условия. В бизнесе ИИ работает с живыми базами знаний, где важны актуальность и связность фактов, а не просто точность на фиксированном датасете. DRAGOn предлагает тестировать ИИ-системы на свежих новостях, автоматически собирая из них «карту знаний».
Вместо простых вопросов «кто/где/когда», система создает многоуровневые логические задачи. Чтобы ответить, ИИ должен сопоставить несколько фактов из разных новостей, а не просто скопировать кусок текста, а проверкой ответов занимается нейросеть-судья.
Что это дает на практике:
- Задачи становятся многошаговыми, а не тривиальными;
- Проверяется способность связывать факты, а не копировать ответы;
- Оценка учитывает полноту и фактическую точность, а не совпадение слов.
Методологию можно развернуть внутри компании и тестировать ИИ на собственных данных до внедрения. Это позволяет сравнивать решения в реальных сценариях и снижать риски ошибок, особенно в задачах аналитики, поддержки и работы с документами.
https://arxiv.org/abs/2507.05713
❤68🗿20👍13🤨7🤯5🤩3🫡2❤🔥1🔥1👏1😁1
Найдена та самая модель, которую Дженсен Хуанг назвал AGI
https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
😁444🤯24 18❤7 4🏆3🔥2👍1
Сегодня вышло самое масштабное обновление ГигаЧат в этом году. Новость интересна не только самим фактом релиза, а тем, что Сбер выложил код и веса в открытый доступ на HuggingFace под MIT-лицензией, приправив это очень детальным разбором своей инженерной кухни.
Переезд на архитектуру MoE предсказуемо оказался непростым, и в блоге команда довольно откровенно рассказала, например, о том, как боролись с зацикливанием генераций. Плюс ко всему, ребята перевели этап DPO в нативный FP8 — памяти ест в два раза меньше, а качество не падает. По ходу дела еще и откопали критичный баг в SGLang, который портил бенчмарки.
В опенсорс выложены две модели. Первая — флагманская GigaChat Ultra. По замерам в математике и общих рассуждениях она обходит DeepSeek-V3-0324 и Qwen3-235B.
А вот вторая модель – компактная GigaChat-3.1-Lightning. При скромных 1,8 млрд активных параметров она на аренах выдает результаты на уровне GPT-4o. Маленькая, быстрая и при этом конкурентная по качеству база.
Покрутить обновленную модель без развертывания уже можно на сайте.
Переезд на архитектуру MoE предсказуемо оказался непростым, и в блоге команда довольно откровенно рассказала, например, о том, как боролись с зацикливанием генераций. Плюс ко всему, ребята перевели этап DPO в нативный FP8 — памяти ест в два раза меньше, а качество не падает. По ходу дела еще и откопали критичный баг в SGLang, который портил бенчмарки.
В опенсорс выложены две модели. Первая — флагманская GigaChat Ultra. По замерам в математике и общих рассуждениях она обходит DeepSeek-V3-0324 и Qwen3-235B.
А вот вторая модель – компактная GigaChat-3.1-Lightning. При скромных 1,8 млрд активных параметров она на аренах выдает результаты на уровне GPT-4o. Маленькая, быстрая и при этом конкурентная по качеству база.
Покрутить обновленную модель без развертывания уже можно на сайте.
🗿175❤92🔥49👍30😁14🤔6🤨6 5 3⚡2
Ян Лекун резко шагнул вперед в изобретении универсальной архитектуры для world models
Очень многие точно слышали про JEPA. Расшифровывается JEPA как Joint Embedding Predictive Architecture – Self-Supervised архитектура, предназначенная для понимания внешнего физического мира.
Идея там красивая: вместо предсказания следующего токена или генерации пикселей JEPA пытается предсказывать смысл наблюдаемого фрагмента на основе контекста (по факту это предсказание эмбеддингов).
Лекун считает, что это идеалогическая альтернатива привычному ИИ, потому что предсказание пикселей или токенов – это лишь имитация понимания структуры мира, а тут модель действительно учится понимать физику и логические связи.
Все это здорово, но основная проблема в том, что JEPA очень плохо обучается: лосс почти всегда схлопывается в тривиальное решение и реальной world model не получается.
Но кажется, теперь это препятствие разрушено. Лекун с соавторами выпустили статью, в которой представлена первая end-to-end JEPA, которая обучается из сырых изображений без эвристик, сложных лоссов и прочих танцев с бубном.
Модель красиво называется LeWorldModel (LeWM), и в ней всего 15М параметров. От коллапсов при обучении она защищается очень простым способом: кроме лосса на предсказание следующего latent-state, добавляется регуляризатор, который заставляет латенты быть похожими на изотропное гауссово распределение. Это и есть главный технический ход статьи.
На практике это значит, что рецепт, который раньше был капризным и дорогим в настройке, упростился настолько, что world models наконец-то можно скейлить во что-то рабочее.
Эксперименты, кстати, показывают, что LeWM действительно учит не ерунду, а нечто похожее на физическую структуру мира. Так что идея, кажется, работает.
www.alphaxiv.org/abs/2603.19312v1
Очень многие точно слышали про JEPA. Расшифровывается JEPA как Joint Embedding Predictive Architecture – Self-Supervised архитектура, предназначенная для понимания внешнего физического мира.
Идея там красивая: вместо предсказания следующего токена или генерации пикселей JEPA пытается предсказывать смысл наблюдаемого фрагмента на основе контекста (по факту это предсказание эмбеддингов).
Лекун считает, что это идеалогическая альтернатива привычному ИИ, потому что предсказание пикселей или токенов – это лишь имитация понимания структуры мира, а тут модель действительно учится понимать физику и логические связи.
Все это здорово, но основная проблема в том, что JEPA очень плохо обучается: лосс почти всегда схлопывается в тривиальное решение и реальной world model не получается.
Но кажется, теперь это препятствие разрушено. Лекун с соавторами выпустили статью, в которой представлена первая end-to-end JEPA, которая обучается из сырых изображений без эвристик, сложных лоссов и прочих танцев с бубном.
Модель красиво называется LeWorldModel (LeWM), и в ней всего 15М параметров. От коллапсов при обучении она защищается очень простым способом: кроме лосса на предсказание следующего latent-state, добавляется регуляризатор, который заставляет латенты быть похожими на изотропное гауссово распределение. Это и есть главный технический ход статьи.
На практике это значит, что рецепт, который раньше был капризным и дорогим в настройке, упростился настолько, что world models наконец-то можно скейлить во что-то рабочее.
Эксперименты, кстати, показывают, что LeWM действительно учит не ерунду, а нечто похожее на физическую структуру мира. Так что идея, кажется, работает.
www.alphaxiv.org/abs/2603.19312v1
2🔥322❤55👍35😁24 15🤔10👨💻1 1
This media is not supported in your browser
VIEW IN TELEGRAM
В Claude Code агент теперь может принимать решения о правах доступа от вашего имени
Обычно варианта два: либо агент спрашивает разрешения очень часто, либо не спрашивает совсем, если установить skip permissions. Первое бесит, второе – небезопасно.
Anthropic выкатили auto mode: в нем Claude сам будет принимать решения о правах доступа и о том, какие действия одобрять, а какие нет.
То есть, по сути, это тот же skip permissions, только над ним еще работает классификатор, который проверяет каждый шаг на предмет потенциально деструктивных действий. Безопасные действия выполняются автоматически. Рискованные блокируются, и Claude применяет другой подход.
Выглядит очень удобно, и все-таки это следующий уровень доверия к ассистенту. Так что доброе утро, у нас тут новая глава Черного Зеркала🤡
Обычно варианта два: либо агент спрашивает разрешения очень часто, либо не спрашивает совсем, если установить skip permissions. Первое бесит, второе – небезопасно.
Anthropic выкатили auto mode: в нем Claude сам будет принимать решения о правах доступа и о том, какие действия одобрять, а какие нет.
То есть, по сути, это тот же skip permissions, только над ним еще работает классификатор, который проверяет каждый шаг на предмет потенциально деструктивных действий. Безопасные действия выполняются автоматически. Рискованные блокируются, и Claude применяет другой подход.
Выглядит очень удобно, и все-таки это следующий уровень доверия к ассистенту. Так что доброе утро, у нас тут новая глава Черного Зеркала
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤130 60😁32👍14🤔9 5🦄2
За какие идеи можно получить деньги от МТС?
Подключайся 26 марта в 18:00 на встречу с экспертами МТС: они расскажут, какие решения лучше использовать для победы на True Tech Hack с призовым фондом в 1 500 000 рублей.
Будет полезно инженерам данных, разработчикам и аналитикам. Узнаешь про практику применения ИИ, выберешь одну из трех задач и задашь по ней вопросы.
Все подробности читай тут
Подключайся 26 марта в 18:00 на встречу с экспертами МТС: они расскажут, какие решения лучше использовать для победы на True Tech Hack с призовым фондом в 1 500 000 рублей.
Будет полезно инженерам данных, разработчикам и аналитикам. Узнаешь про практику применения ИИ, выберешь одну из трех задач и задашь по ней вопросы.
Все подробности читай тут
🗿31❤3😁1
Почему OpenAI закрывает SORA
Вчера вечером OpenAI объявили, что прощаются с SORA. На самом деле, решение было не то чтобы ожидаемым, но лежало на поверхности. И вот почему:
1. Юнит-экономика, вероятно, очень далека от того, чтобы сойтись. Публичные оценки доходят до $15 млн/день вычислительных затрат (≈ $5+ млрд/год в пересчете), при том что сама компания через руководителя Sora публично называла экономику «неустойчивой». Несложные расчеты, даже основанные только на прайсе в API, показывают, что маржа каждого ролика sora‑2, скорее всего, отрицательна.
2. При этом другие метрики далеки от привычных OpenAI. Если у ChatGPT WAU и ретеншен пользователя запредельные, то у SORA аналитики из a16z насчитали retention < 8% на 30‑й день. Хотя приложение и скачивали очень активно в самом начале, но охваты оно не держит.
2. В начале года OpenAI сами говорили, что компьют – их главный ресурс. Логично, что они стараются перераспределить его разумно, и сверхдорогой видеопродукт становится в этой картине самым стратегически уязвимым. Так что это в первую очередь решение высвободить мощности для других направлений.
Кстати, важная деталь: исходная формулировка «We’re saying goodbye to Sora» была уточнена до «We’re saying goodbye to the Sora app», так что тут трактовка уже несколько другая. Возможно, ричерч подразделение видеомоделей все-таки продолжит работать.
Вчера вечером OpenAI объявили, что прощаются с SORA. На самом деле, решение было не то чтобы ожидаемым, но лежало на поверхности. И вот почему:
1. Юнит-экономика, вероятно, очень далека от того, чтобы сойтись. Публичные оценки доходят до $15 млн/день вычислительных затрат (≈ $5+ млрд/год в пересчете), при том что сама компания через руководителя Sora публично называла экономику «неустойчивой». Несложные расчеты, даже основанные только на прайсе в API, показывают, что маржа каждого ролика sora‑2, скорее всего, отрицательна.
2. При этом другие метрики далеки от привычных OpenAI. Если у ChatGPT WAU и ретеншен пользователя запредельные, то у SORA аналитики из a16z насчитали retention < 8% на 30‑й день. Хотя приложение и скачивали очень активно в самом начале, но охваты оно не держит.
2. В начале года OpenAI сами говорили, что компьют – их главный ресурс. Логично, что они стараются перераспределить его разумно, и сверхдорогой видеопродукт становится в этой картине самым стратегически уязвимым. Так что это в первую очередь решение высвободить мощности для других направлений.
Кстати, важная деталь: исходная формулировка «We’re saying goodbye to Sora» была уточнена до «We’re saying goodbye to the Sora app», так что тут трактовка уже несколько другая. Возможно, ричерч подразделение видеомоделей все-таки продолжит работать.
❤76🤔30 26👍6 4🔥3😁3
Роботы начнут думать быстрее: исследователи из Центрального университета использовали квантовый процессор для ускорения движений робо-руки в 30 раз
Российские ученые из научного центра Центрального университета и Университета Иннополис решили главную проблему робототехники — как заставить робота двигаться быстро, точно и без лишних действий.
На практике это адская вычислительная задача. Робот должен мгновенно решить, как попасть в определенную точку, ничего не задев. И чем больше ограничений, тем медленнее думают кремниевые процессоры.
– Исследователи переписали задачу в формат, понятный квантовым компьютерам D-Wave: все возможные движения представляются как комбинация нулей и единиц, среди которых нужно найти оптимальное положение «руки» робота.
– Потом в дело идет технология квантового отжига — она быстрее находит лучшее решение среди миллиарда вариантов.
– Новый метод дал ускорение более чем в 30 раз. Для роботов это означает меньше задержек, более плавные движения и отсутствие лишней суеты.
Подход актуален для всех сфер, например, автономного транспорта и хирургии. Его распространение даст буст российской робототехники и сделает ее более конкурентоспособной.
Квантовые технологии уже не из будущего — они учат роботов быстрее поднимать чашки
Российские ученые из научного центра Центрального университета и Университета Иннополис решили главную проблему робототехники — как заставить робота двигаться быстро, точно и без лишних действий.
На практике это адская вычислительная задача. Робот должен мгновенно решить, как попасть в определенную точку, ничего не задев. И чем больше ограничений, тем медленнее думают кремниевые процессоры.
– Исследователи переписали задачу в формат, понятный квантовым компьютерам D-Wave: все возможные движения представляются как комбинация нулей и единиц, среди которых нужно найти оптимальное положение «руки» робота.
– Потом в дело идет технология квантового отжига — она быстрее находит лучшее решение среди миллиарда вариантов.
– Новый метод дал ускорение более чем в 30 раз. Для роботов это означает меньше задержек, более плавные движения и отсутствие лишней суеты.
Подход актуален для всех сфер, например, автономного транспорта и хирургии. Его распространение даст буст российской робототехники и сделает ее более конкурентоспособной.
Квантовые технологии уже не из будущего — они учат роботов быстрее поднимать чашки
1❤178👍78🤯50😁20❤🔥16🗿10🤔4🏆4🤨4
Google перепридумали квантование: их алгоритм TurboQuant может стать новым стандартом эффективности LLM
В современных моделях проблема памяти не только в числе параметров, но и в том, что модель постоянно таскает за собой огромное количество векторов – в KV-cache для длинного контекста и в индексах vector search для RAG. Именно они тормозят модель и делают инференс дорогим. Можно квантовать векторы (то есть уменьшать битность вычислений), но тогда модель теряет в качестве.
Google придумали, как сжимать умнее: не просто округлить числа погрубее, а сделать это так, чтобы модель почти не замечала потери точности. Для практики это означает три вещи:
1. Длинный контекст становится дешевле
2. Инференс на том же железе ускоряется
3. Vector search по огромным базам становится компактнее и быстрее
Технически метод TurboQuant состоит из двух слоев. PolarQuant сначала преобразует вектор через случайное вращение так, чтобы его можно было эффективно сжать с минимальными служебными затратами – именно за счет этого происходит основное сжатие без потери смысла. Затем QJL (Quantized Johnson-Lindenstrauss) добавляет сверхдешевую коррекцию ошибки, кодируя остаток всего одним дополнительным битом на компоненту. Это помогает еще точнее восстановить attention score с минимальной нагрузкой на вычисления.
В экспериментах TurboQuant показывает лучший баланс между искажением скалярного произведения, recall и размером KV-cache – его удалось квантануть аж до 3 бит без дообучения и без компромисса по точности. В статье подчеркивается, что значения близки к теоретическим нижним границам, то есть это почти оптимум.
Очень сильная инфрастуктурная работа. Google, как всегда, молодцы.
research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
В современных моделях проблема памяти не только в числе параметров, но и в том, что модель постоянно таскает за собой огромное количество векторов – в KV-cache для длинного контекста и в индексах vector search для RAG. Именно они тормозят модель и делают инференс дорогим. Можно квантовать векторы (то есть уменьшать битность вычислений), но тогда модель теряет в качестве.
Google придумали, как сжимать умнее: не просто округлить числа погрубее, а сделать это так, чтобы модель почти не замечала потери точности. Для практики это означает три вещи:
1. Длинный контекст становится дешевле
2. Инференс на том же железе ускоряется
3. Vector search по огромным базам становится компактнее и быстрее
Технически метод TurboQuant состоит из двух слоев. PolarQuant сначала преобразует вектор через случайное вращение так, чтобы его можно было эффективно сжать с минимальными служебными затратами – именно за счет этого происходит основное сжатие без потери смысла. Затем QJL (Quantized Johnson-Lindenstrauss) добавляет сверхдешевую коррекцию ошибки, кодируя остаток всего одним дополнительным битом на компоненту. Это помогает еще точнее восстановить attention score с минимальной нагрузкой на вычисления.
В экспериментах TurboQuant показывает лучший баланс между искажением скалярного произведения, recall и размером KV-cache – его удалось квантануть аж до 3 бит без дообучения и без компромисса по точности. В статье подчеркивается, что значения близки к теоретическим нижним границам, то есть это почти оптимум.
Очень сильная инфрастуктурная работа. Google, как всегда, молодцы.
research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
🔥190❤49👍24😁3❤🔥2✍2🤝1🫡1
Если вы планируете внедрить ИИ в свои решения, есть шанс упростить и ускорить запуск. Яндекс открывает программу Yandex AI Studio Boost, в рамках которой компании могут получить грант до 1 млн рублей на создание ИИ-агентов и других ИИ-продуктов на базе Yandex AI Studio в течение полугода.
Помимо финансирования, участники получают экспертную поддержку, маркетинговые ресурсы и скидку до 70% на платформу до полугода после окончания программы. Программа подходит стартапам и крупным компаниям, уже работающим над цифровыми продуктами для внешнего рынка и планирующим интеграцию ИИ.
Среди первых участников — проект R77.ai, ускоряющий проверку документов для банков, страховых и девелоперов до нескольких минут; Noumy.ai, внедряющий анализ кандидатов и их поведения на интервью с помощью моделей машинного обучения; и GO2AI, создающий ИИ-агентов для стратегического планирования, что в пилоте позволило сократить цикл принятия решений с нескольких дней до часа.
Участники программы также могут получить софинансирование маркетинговых активностей и разместить свои решения на маркетплейсе внешних продуктов Yandex Cloud. Ранее в рамках Cloud Boost стартапы уже получили 625 млн рублей на облачную инфраструктуру.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁37🗿16❤13🔥5👍4
Data Secrets
Ян Лекун резко шагнул вперед в изобретении универсальной архитектуры для world models Очень многие точно слышали про JEPA. Расшифровывается JEPA как Joint Embedding Predictive Architecture – Self-Supervised архитектура, предназначенная для понимания внешнего…
This media is not supported in your browser
VIEW IN TELEGRAM
Breaking: наконец-то выяснилось, чем вдохновлялся Ян Лекун, придумывая название для модели JEPA
52😁156😎13 10 6
OpenAI закончила претрейн своей следующей модели, а еще в стартапе появился отдел AGI Deployment
The Information получили доступ к нескольким внутренним запискам стартапа и выяснили, что там сейчас происходят довольно большие изменения.
Альтман якобы говорит сотрудникам, что в течение нескольких недель у компании будет очень сильная модель, которая "действительно может повлиять на экономику". Речь идет о модели под кодовым названием Spud (картошка), и судя по всему, ее претрейн уже окончен.
Вокруг этой модели меняется структура стартапа. Во-первых, Альтман перестает лично курировать часть своих прямых подчиненных (в частности, safety & security команды) и с головой уходит в привлечение капитала, выстраивание цепочек поставок и строительство дата‑центров.
Во-вторых, продуктовая организация под руководством Fidji Simo переименовывается в «AGI Deployment». Эта команда будет отвечать за то, как следующая модель будет работать в продуктах. Известно также, что они планируют построить на ее основе «супер‑приложение», в котором объединят ChatGPT, Codex и браузер Atlas.
Почему в названии фигурирует именно AGI (а не AI, по старинке), непонятно. Может, это прогрев перед официальным объявлением достижения AGI?
Говорят, кстати, что отказ от SORA App – тоже часть перестройки и перераспределения компьюта для Spud.
The Information получили доступ к нескольким внутренним запискам стартапа и выяснили, что там сейчас происходят довольно большие изменения.
Альтман якобы говорит сотрудникам, что в течение нескольких недель у компании будет очень сильная модель, которая "действительно может повлиять на экономику". Речь идет о модели под кодовым названием Spud (картошка), и судя по всему, ее претрейн уже окончен.
Вокруг этой модели меняется структура стартапа. Во-первых, Альтман перестает лично курировать часть своих прямых подчиненных (в частности, safety & security команды) и с головой уходит в привлечение капитала, выстраивание цепочек поставок и строительство дата‑центров.
Во-вторых, продуктовая организация под руководством Fidji Simo переименовывается в «AGI Deployment». Эта команда будет отвечать за то, как следующая модель будет работать в продуктах. Известно также, что они планируют построить на ее основе «супер‑приложение», в котором объединят ChatGPT, Codex и браузер Atlas.
Почему в названии фигурирует именно AGI (а не AI, по старинке), непонятно. Может, это прогрев перед официальным объявлением достижения AGI?
Говорят, кстати, что отказ от SORA App – тоже часть перестройки и перераспределения компьюта для Spud.
🤔85❤29👍17 6 6🤓4👏2😁2 2
MWS Cloud запустила MWS GPT Model Hub - сервис по работе с большими языковыми моделями.
Его суть в том, что LLM можно за несколько минут подключить к продуктам компании и системам без управления инфраструктурой моделей. Благодаря этому время вывода продуктов с AI-функциями на рынок может сократиться в 2 раза.
Сервис запущен в публичном облаке MWS Cloud Platform. Компании из России могут внедрять ведущие мировые модели. Сейчас, к примеру, доступны LLM от DeepSeek, Google, Alibaba и другие, а до конца 2025 года появятся еще 10 моделей, в том числе преобразующих текст в речь и обратно.
Инструмент позволяет разработчикам интегрировать ИИ-функции – от чат-ботов до систем аналитики – без необходимости самостоятельно разворачивать и обслуживать ИТ-инфраструктуру.
Настоящий подарок для backend-разработчиков, AI-инженеров, DevOps и platform-команд, разработчиков SaaS-продуктов и стартап-команд.
Его суть в том, что LLM можно за несколько минут подключить к продуктам компании и системам без управления инфраструктурой моделей. Благодаря этому время вывода продуктов с AI-функциями на рынок может сократиться в 2 раза.
Сервис запущен в публичном облаке MWS Cloud Platform. Компании из России могут внедрять ведущие мировые модели. Сейчас, к примеру, доступны LLM от DeepSeek, Google, Alibaba и другие, а до конца 2025 года появятся еще 10 моделей, в том числе преобразующих текст в речь и обратно.
Инструмент позволяет разработчикам интегрировать ИИ-функции – от чат-ботов до систем аналитики – без необходимости самостоятельно разворачивать и обслуживать ИТ-инфраструктуру.
Настоящий подарок для backend-разработчиков, AI-инженеров, DevOps и platform-команд, разработчиков SaaS-продуктов и стартап-команд.
🗿48❤12🔥7😁6👍3❤🔥1 1 1
В первых двух версиях задачки были статичные. А тут фишка как раз в динамике: бенчмарк полностью состоит из игровых сред.
Каждая из игр устроена так, что ее правила, цели и механики неизвестны участнику заранее. Человек справляется с такими задачками легко, с абсолютным скором 100% (требуются только базовые знания). А вот агенты с треском проваливаются и в основном выбивают меньше 1 процента.
Вот здесь примеры, как тест проходит Gemini 3.1: с некоторыми задачками она справляется нормально, с некоторыми – очень плохо.
Самостоятельно поиграть можно здесь.
Ключевые проверяемые способности – самостоятельное исследование, быстрое обучение, адаптация к новым ситуациям, умение планировать и гибко перестраиваться.
В общем, команда продолжает выискивать именно то, что делает интеллект человека по-настоящему сильным, и что пока недоступно моделям.
Ну и стартовало традиционное соревнование по обновленной версии. Призовой фонд на этот раз – 2 миллиона долларов.
Хотя больше интересно, когда опубликуют лидерборд фронтиров
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥97❤22👍15😁3😎2✍1☃1❤🔥1
Data Secrets
Хотя больше интересно, когда опубликуют лидерборд фронтиров
Нашелся лидерборд: https://arcprize.org/leaderboard
Кратко:
– Gemini 3.1 Pro: 0.2% за 2.2к$
– Opus 4.6: 0.2% за 8.9к$ (!)
– GPT-5.4: 0.3% за 5.2к$
– Grok 4.20: 0.0% за 3.8к$ (хаха)
Кратко:
– Gemini 3.1 Pro: 0.2% за 2.2к$
– Opus 4.6: 0.2% за 8.9к$ (!)
– GPT-5.4: 0.3% за 5.2к$
– Grok 4.20: 0.0% за 3.8к$ (хаха)
😁205🔥20❤11🤯4🗿1
Отрывок из новой статьи Теренса Тао ⬆️
А вот отрывок из сопутствующего блога:
Такая вот новая реальность: ChatGPT доказывает утверждения для лучшего математика в мире. Фактически, это чуть не соавторство.
А вот отрывок из сопутствующего блога:
Один из аргументов для теоремы 1.4 был предложен мне ChatGPT, так как я ранее не знал о теореме двух констант Неванлинны. <> Затем ChatGPT доказал первое из двух утверждений, лежащих в основе теоремы. Также для нахождения доказательства теоремы 1.4 через лемму 1.1 использовались AlphaEvolve и ChatGPT Pro.
Такая вот новая реальность: ChatGPT доказывает утверждения для лучшего математика в мире. Фактически, это чуть не соавторство.
Please open Telegram to view this post
VIEW IN TELEGRAM
😎107👍41❤26😁7🤯4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Вайбкодить теперь можно даже виртуальную реальность
Google выкатили Vibe Coding XR – платформу для генерации AR/VR интерфейсов из промпта.
Под капотом, конечно, Gemini, но генерирует моделька уже не просто код, а пространство + объекты + физику + интерактивность.
На самом деле, операции тут происходят даже не с кодом, а со смысловыми блоками XR Blocks. Так что в строгом смысле слова это не вайбкодинг, а вайб-билдинг.
Пока что выпустили в виде исследовательского прототипа (те потрогать нельзя), но это уже сильный шаг. Google, видимо, все еще надеются продвинуть Android XR и повоевать за рынок с Apple Vision Pro. А как мы знаем, если Google захотят – Google сделают.
research.google/blog/vibe-coding-xr-accelerating-ai-xr-prototyping-with-xr-blocks-and-gemini/
Google выкатили Vibe Coding XR – платформу для генерации AR/VR интерфейсов из промпта.
Под капотом, конечно, Gemini, но генерирует моделька уже не просто код, а пространство + объекты + физику + интерактивность.
На самом деле, операции тут происходят даже не с кодом, а со смысловыми блоками XR Blocks. Так что в строгом смысле слова это не вайбкодинг, а вайб-билдинг.
Пока что выпустили в виде исследовательского прототипа (те потрогать нельзя), но это уже сильный шаг. Google, видимо, все еще надеются продвинуть Android XR и повоевать за рынок с Apple Vision Pro. А как мы знаем, если Google захотят – Google сделают.
research.google/blog/vibe-coding-xr-accelerating-ai-xr-prototyping-with-xr-blocks-and-gemini/
🔥65👏12🤯10😁4 3❤2👍2 2
Ускорьте работу с ИИ и генеративными моделями с новыми видеокартами в облаке Selectel — H100, H200, RTX 6000 Pro, L4.
✅Почасовая аренда, быстрый запуск и гибкая настройка под задачи любой сложности.
Посмотреть цены и арендовать сервер 👉 https://slc.tl/wabpm
Реклама. АО "Селектел". erid:2W5zFJKK4zV
✅Почасовая аренда, быстрый запуск и гибкая настройка под задачи любой сложности.
Посмотреть цены и арендовать сервер 👉 https://slc.tl/wabpm
Реклама. АО "Селектел". erid:2W5zFJKK4zV
😁20🗿12👍8🤓3