Машинное обучение digest

⚡️ Google показала интересный пример того, как мультимодели уже помогают в гуманитарных исследованиях.

Gemini 3.0 Pro смогла расшифровать загадочные пометки в «Нюрнбергской хронике», которым более 500 лет. В модель залили сканы страниц и попросили не просто переписать текст, а объяснить, что означают заметки с учетом контекста.

Оказалось, что круговые таблицы на полях были попыткой примирить две конкурирующие библейские хронологии и вычислить год рождения Авраама.

Сложность состояла в том, что заметки смешивали латинские сокращения, римские цифры и обрывки надписей.

Gemini связала вычисления с системой датировки Anno Mundi (год от сотворения мира), привязала их к традициям Септуагинты и еврейской Библии, а затем перевела в «до н.э.», получив расхождение примерно в 100 лет.

siliconangle. com/2026/01/01/googles-gemini-3-0-pro-helps-solve-long-standing-mystery-nuremberg-chronicle/

22 views08:11

⚡️ Samsung подтвердила, что к концу 2026 года 800 миллионов устройств будут работать под управлением Google Gemini.

> К концу 2025 года 400 миллионов устройств будут продаваться с Gemini на борту.
> эта цифра удвоится до 800 млн в этом году
> Со-генеральный директор Samsung:

«Это дает Google преимущество перед конкурентами»

Google все активнее захватывает рынок.

https://www.reuters.com/world/china/samsung-double-mobile-devices-powered-by-googles-gemini-800-mln-units-this-year-2026-01-05/?utm_source=braze&utm_medium=notifications&utm_campaign=2025_engagement

21 views13:40

Машинное обучение digest

📌

Как делали MiniMax М2.1 и что будет дальше.

Когда говорят, что одна модель пишет код лучше другой, обычно имеется ввиду бенчмарк SWE-Bench. Модель получает реальный баг из настоящего проекта с Github, который она должна прочитать, найти ошибку и исправить её. Это частично повторяет ежедневную работу программиста.

Но у этого бенча, как и у любого другого, есть свои недостатки.

🟠SWE-Bench работает только с Python. В реальном мире разработчики имеют дело с Java, Go, TypeScript, Rust, C++ и еще кучей других.

🟠Бенчмарк только про исправление ошибок, а программисты еще пишут новые функции, занимаются рефакторингом и оптимизацией.

🟠Его результаты сильно зависят от того, в каком окружении работает модель.

И вот здесь MiniMax-AI задалась вопросом: как создать по-настоящему универсального ИИ-программиста?

Ответ они нашли и реализовали его в своей свежайшей модели M2.1.

🟡Масштабирование окружения.

За этим расплывчатым термином кроется огромная система, которая оперирует популярными языками: JS, TS, Python, Java, Go, C++ и Rust.

Для этого с GitHub были собраны более 100 тыс. реальных задач с описанием проблемы, кодом и тестами. Это было непросто, так как сложные языки (Java или C++) требуют настройки и у каждого языка свои фреймворки и системы управления зависимостями.

Чтобы обучить модель на таком массиве данных, MiniMax построил инфраструктуру, способную запускать более 5 тыс. изолированных сред выполнения за максимально короткое время - 10 секунд.

🟡Выход за рамки баг-фиксов.

MiniMax-M2.1 обучали и генерации тестов и в результате оказалось, что это критически важный навык.

Предыдущая версия, M1, писала слишком простые тесты и часто выбирала неверные решения. M2.1 в этом преуспела и сравнялась по результатам с мощным конкурентом Claude Sonnet 4.5.

Еще она научилась оптимизировать производительность кода — на SWE-Perf показала средний прирост эффективности в 3.1%.

И наконец, M2.1 научили делать Code Review, для чего создали внутренний бенчмарк SWE-Review.

🟡Обобщение на незнакомых окружениях (Generalization on OOD Scaffolds).

Модель должна одинаково хорошо следовать длинным инструкциям и адаптироваться к разным способам управления контекстом диалога.

Команда провела тесты в mini-swe-agent, Droid и Claude Code и если посмотреть на цифры из их сравнительной таблицы, то можно увидель, что модель стала гораздо более гибкой и универсальной.

На том же SWE-Bench, при использовании Claude Code, MiniMax-M2.1 выбила 74 балла, что выше, чем у модели M2 с ее 69.2 баллами, и практически наравне с Claude Sonnet 4.5 и DeepSeek V3.2.

На другом тесте, OctoCodingBench, разрыв еще больше: 26.1 у новой модели против 13.3 у старой.

🟡

Планы на 2026.

Во-первых, MiniMax планирует научить модель оценивать не только правильность кода, но и читаемость кода, качество комментариев, прозрачность процесса работы.

Во-вторых - повысить эффективность решения задач, чтобы модель не делала лишних шагов, например, не перечитывала один и тот же файл по несколько раз.

Но самое интересное — это их планы по RL Scaling, и создание так называемой Coding World Model.

Идея в том, чтобы построить модель-симулятор, которая сможет предсказывать результат выполнения кода, не запуская его в реальности.

Наконец, они планируют расширяться в узкоспециализированные области: разработка GPU Kernel, компиляторов и смарт-контрактов.

Похоже, концепция "ИИ-кодера" становится все более реальной. Успех MiniMax-M2.1 показал, что дело уже не в написании отдельных строк кода, а в комплексном понимании всего процесса разработки.

@ai_machinelearning_big_data

#AI #ML #LLM #MiniMaх

Please open Telegram to view this post

VIEW IN TELEGRAM

20 views15:26

Машинное обучение digest

✔️

Зафиксировано значительно падение трафика ChatGPT на праздниках - что это значит

По оценкам аналитиков, ежедневные посещение приложения ChatGPT снизились примерно с 200 млн до ~158 млн - около -22% за праздничный период.

При этом Gemini держался гораздо стабильнее, около 60 млн визитов, показав лишь небольшой спад.

Самое простое объяснение:
использование ChatGPT сильнее связано с работой и учебой. Как только люди уходят на каникулы - трафик резко падает.

У Gemini, похоже, другой профиль аудитории: больше постоянных потребителей и сильнее интеграция в экосистему Google, поэтому просадка мягче.

Важно: речь идёт о оценках веб-трафика, а не об общем использовании сервисов (мобильные приложения, API и т.д. сюда не входят).

Please open Telegram to view this post

VIEW IN TELEGRAM

23 views05:47

Машинное обучение digest

23 views06:02

Машинное обучение digest

🔥 Год ChatGPT Plus бесплатно: экономим 20 000 рублей

Нашли рабочую лазейку в правилах OpenAI.
Вы получаете полноценный аккаунт без лимитов и с доступом ко всем топовым моделям.
Инструкция (займет 2 минуты):

1️⃣ Переходим на сервис временной почты: https://em.bjedu.tech/en/
2️⃣ Важно: в списке доменов выбираем erzi me.
3️⃣ Регистрируем новый аккаунт ChatGPT на этот адрес.
4️⃣ Получаем код подтверждения в почту - готово!

⚡️ Проверили, пока еще работает

@data_analysis_ml

27 views06:02

Машинное обучение digest

✔ Science Context Protocol: научное расширение стандарта MCP.

Шанхайская лаборатория ИИ выложила (https://github.com/InternScience/scp) в опенсорс спецификации SCP — протокола, созданного для формирования глобальной сети автономных исследовательских систем. Новинка развивает идеи стандарта MCP от Anthropic, добавляя к нему критически важный слой для взаимодействия с физическим миром науки.

В отличие от MCP, ориентированного на подключение данных, SCP поддерживает подключение лабораторного оборудования, расширенные метаданные экспериментов и API для оркестрации сложных рабочих процессов.

Фактически это позволяет ИИ-агентам напрямую управлять приборами и обмениваться результатами между различными институтами. Технология уже обкатана на платформе Internal Discovery (https://discovery.intern-ai.org.cn/home), где доступно более 1600 инструментов, преимущественно для биологии, физики и химии.
arxiv.org (https://arxiv.org/pdf/2512.24189)

✔ OpenAI переводит производство своего первого гаджета на заводы Foxconn.

Компания Сэма Альтмана меняет стратегию выпуска дебютного аппаратного устройства под кодовым именем «Gumdrop». По данным Economic Daily News, OpenAI отказалась от услуг китайской Luxshare и передала контракт тайваньскому гиганту Foxconn, чтобы исключить материковый Китай из цепочки поставок - сборка будет развернута на мощностях во Вьетнаме или США.

Gumdrop находится на стадии проектирования и, вероятно, это будет умная ручка или носимый аудио-гаджет. Устройство получит камеру и микрофон, а его киллер-фичей станет нативная интеграция с ChatGPT для оцифровки и анализа рукописных заметок.
Релиз устройства запланирован на 2026–2027 годы.
money.udn.com (https://money.udn.com/money/story/5612/9239738)

✔ Попытка главы Microsoft защитить репутацию ИИ обернулась вирусным трендом «Microslop».

Сатья Наделла непреднамеренно спровоцировал имиджевый кризис, опубликовав в конце 2025 года призыв к обществу «перерасти» использование термина «slop» в отношении генеративного контента. Реакция сообщества оказалась мгновенной: эффект Стрейзанд вывел в тренды тег «Microslop», ставший символом отторжения агрессивной политики компании по повсеместному внедрению ИИ.

Пользователи выражают недовольство тем, что Microsoft принудительно встраивает Copilot в каждый продукт, игнорируя реальные потребности аудитории. Пока руководство Big Tech обещает глобальные прорывы, рынок фиксирует негативные побочные эффекты: от дефицита и удорожания памяти и сокращения рабочих мест до засорения экосистемы бесполезными функциями.
windowscentral.com (https://www.windowscentral.com/artificial-intelligence/microslop-trends-on-social-media-backlash-to-microsofts-on-going-ai-obsession-continues)

✔ Neuralink запускает серийное производство нейро-чипов.

Илон Маск подтвердил планы компании начать массовый выпуск интерфейсов «мозг-компьютер» в 2026 году. Технологический процесс станет полностью автономной хирургической процедурой: роботы будут устанавливать импланты без прямого участия людей-нейрохирургов.

Проект уже вышел за рамки лабораторных экспериментов - база пациентов с активными имплантами достигла 12 человек. Устройства позволяют людям с тяжелыми нарушениями моторики управлять цифровыми интерфейсами и игровыми контроллерами напрямую через нейронную активность.
reuters.com (https://www.reuters.com/business/healthcare-pharmaceuticals/musk-says-neuralink-start-high-volume-production-interface-devices-by-2026-2026-01-01/)

✔ Армия США ввела специальность по ИИ и ML для офицеров.

С 5 января Пентагон официально открыл прием заявок на новую специализацию, позволяющую офицерам строить карьеру в ИИ и ML. Приоритет при отборе отдается кандидатам с профильным образованием и опытом разработки.

Офицеры пройдут углубленную подготовку, после чего займутся созданием, развертыванием и поддержкой военных ИИ-систем. Инициатива реализуется на фоне жестких дедлайнов по внедрению ИИ-управления в штабах к 2027 году и обеспечению армии автономными системами до конца 2026 года.

GitHub

GitHub - InternScience/scp

Contribute to InternScience/scp development by creating an account on GitHub.

14 views06:40

Машинное обучение digest

Параллельно Минобороны США запустило платформу GenAi.mil с Gemini for Government на борту, чтобы предоставить армии доступ к передовым языковым моделям. Таким образом, ИИ перестает быть экспериментальным направлением и становится штатной функцией офицерского состава.
federalnewsnetwork.com (https://federalnewsnetwork.com/army/2025/12/army-launches-ai-and-machine-learning-career-path-for-officers/)

GitHub

GitHub - InternScience/scp

Contribute to InternScience/scp development by creating an account on GitHub.

15 views06:40

Машинное обучение digest

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

🧠

DFlash: как ускорить LLM без потери качества

DFlash - это способ ускорить генерацию текста у больших моделей.

Он работает так: одна модель быстро делает черновик, другая - проверяет его и исправляет ошибки.

Почему это круто?

🚀 6.2× быстрее без потери качества на Qwen3-8B
⚡ в 2.5 раза быстрее EAGLE-3

Идея простая:

• диффузионные модели - генерируют быстро, но иногда ошибаются
• автогенеративные (AR) - очень точные, но работают медленно
• DFlash сочетает оба подхода:
диффузия — черновик → AR — проверка и подтверждение

Получается: и быстро, и аккуратно, вместо того, чтобы выбирать одно.

🔗 Блог: https://z-lab.ai/projects/dflash/
💻 Код: https://github.com/z-lab/dflash
🤗 Модели: https://huggingface.co/collections/z-lab/dflash

Please open Telegram to view this post

VIEW IN TELEGRAM

15 views07:24

Машинное обучение digest

Создатель Claude Code поделился своим сетапом

1. Параллельные сессии — это база

Борис держит 5 инстансов Claude одновременно в терминале.

Чтобы не пропустить момент, когда модели нужен ввод, использует системные уведомления.

2. Веб + локальная версия параллельно

К 5 терминальным сессиям добавляет ещё 5-10 в вебе.

Задачи между вебом и терминалом передаёт через "&", а для быстрого перехода туда-сюда использует "--teleport".

3. Opus 4.5 с thinking — лучшая модель

Да, она крупнее и медленнее Sonnet. Но её меньше нужно направлять, она лучше работает с инструментами, и в итоге почти всегда оказывается быстрее, чем использование меньшей модели.

4. Командный CLAUDE.md

Вся команда работает с одним файлом CLAUDE.md на репозиторий. Его хранят в git и обновляют несколько раз в неделю. Если видят, что Claude делает что-то не так — сразу добавляют туда, чтобы ошибка не повторялась.

5. Код-ревью через @claude

Во время ревью PR коллег, тегают @claude, чтобы он сразу добавил правки в CLAUDE.md. Используют для этого Claude Code Github action.

6. Plan mode — стартовая точка

Большинство сессий начинается в Plan mode. Борис работает над планом, пока тот не станет идеальным. Потом переключается в auto-accept edits mode, и Claude обычно делает всё за один проход.

7. Slash commands для рутины

Для рабочих процессов, которые повторяются много раз в день, использует slash commands. Команды хранятся в ".claude/commands/". Например, "commit-push-pr" — коммит, пуш и открытие PR.

8. Subagents для автоматизации

Агент "code-simplifier" упрощает код после того, как Claude закончил, а "verify-app" содержит детальные инструкции для e2e-тестирования.

Борис думает о сабагентах как об автоматизации самых частых рабочих процессов для PR.

9. Команда permissions вместо --dangerously-skip-permissions

Через "permissions" заранее разрешает bash-команды, которые безопасны в его окружении.

Настройки хранит в ".claude/settings.json" и делится ими с командой.

10. MCP для интеграций

Claude сам использует Slack-поиск, BigQuery, Sentry и т.д. Конфигурация в .mcp.json делится внутри команды.

Конфиг в .mcp.json тоже шарится с командой.

15 views10:09

Машинное обучение digest

NVIDIA представила Alpamayo-R1 - новый открытый AI для автономных автомобилей, способную не просто «видеть», но и думать, рассуждать и планировать действия, как человек.

Это первый в мире крупномасштабный open-source VLA-модель (Vision-Language-Action), объединяющая:

• восприятие окружающего мира (камера, сенсоры)
• понимание сцены и причинно-следственное рассуждение
• генерацию пути и управление автомобилем

Такая структура позволяет автомобилю не только реагировать на препятствия, но оценивать ситуацию, выбирать безопасную траекторию и «объяснять» свои решения, чего не было в традиционных моделях без явного рассуждения.

👉 Модель открыта для исследователей и разработчиков на GitHub и Hugging Face, что позволит ускорить исследования автономного вождения и повысить безопасность.

https://developer.nvidia.com/blog/building-autonomous-vehicles-that-reason-with-nvidia-alpamayo/

20 views10:13

Машинное обучение digest

⚡️

Сам Шиллейс (Deputy CTO Microsoft), как искусственный интеллект уже меняет программирование и это только начало.

Идея проста: то, что уже случилось с программированием, вскоре произойдет почти везде.

Что уже видно на примере разработки
- Раньше ИИ был как умное автодополнение. Помогал, но не менял правила игры.
- Теперь он анализирует, пишет и отлаживает код, снимая львиную долю рутины.
- Команды, которые встроили ИИ глубоко в процессы, работают быстрее и качественнее.
- Те, кто игнорирует инструменты, постепенно отстают.

Как выглядит общий цикл изменений
1. ИИ становится достаточно хорошим, чтобы помогать.
2. Появляются новые практики и инструменты под конкретные задачи.
3. Ранние пользователи ускоряются и усиливают конкурентное преимущество.
4. Наступает точка, где без ИИ уже нельзя. Кто не адаптируется - исчезает с рынка.

Почему это важнее, чем просто новые инструменты
- Это не косметическое улучшение.
- Это смена модели работы: меньше ручной рутины, больше фокуса на стратегию и постановку задач.
- Такой сдвиг затронет дизайн, аналитику, инженерные и научные профессии.

Что это значит для нас
- Навык использовать ИИ быстро становится базовым.
- Побеждают не те, кто знает больше фактов, а те, кто умеет работать вместе с ИИ.
- Лучшее время учиться этому - сейчас.

Короткий вывод
ИИ сначала делает работу удобнее, потом дешевле, потом неизбежной. И те, кто освоит его раньше, зададут правила игры.

sundaylettersfromsam.substack.com/p/how-it-will-happen

Please open Telegram to view this post

VIEW IN TELEGRAM

18 views05:21

Машинное обучение digest

✔️

C# стал языком 2025 года по версии TIOBE.

Индекс TIOBE подвел итоги года: звание «Язык 2025 года» досталось C#, который показал рекордный рост популярности (+2.94%)? однако в общем зачете он по-прежнему занимает 5-ю строчку. Абсолютным лидером остается Python с 22.61% долей рынка.

В первой пятерке произошли перестановки: язык C поднялся на 2 место, сместив C++ на 4-ю позицию; 3 место досталось Java, а R вернулся в топ-10. Провал года - Go, который неожиданно сдал позиции, опустившись сразу на 16-е место.

Индекс оценивает популярность технологий на основе поисковых запросов, активности комьюнити и количества обучающих материалов.

https://www.tiobe.com/tiobe-index/

Please open Telegram to view this post

VIEW IN TELEGRAM

20 views06:12

Машинное обучение digest

🌟

Открытые модели и инструментарий для автопилотов от NVIDIA.

NVIDIA, сдержала обещания c NeurIPS 2025 и сделала еще один шаг к тому чтобы автомобили наконец научились понимать контекст вождения, а не просто детектировать разметку.

Современные автопилоты неплохо справляются со стандартными ситуациями. Но главная головная боль инженеров — это редкие, сложные сценарии, которые почти невозможно предугадать. Традиционные архитектуры, где восприятие отделено от планирования, часто пасуют, когда случается что-то нестандартное.

И вот здесь предлагается подход, где модель учится рассуждать причинно-следственными связями, почти как человек, разбирая ситуацию шаг за шагом. А это важный фактор для безопасности и доверия к системе.

🟡

NVIDIA выкатила целую экосистему, которую можно пощупать руками:

🟢

Alpamayo - первая в индустрии 10 миллиардная VLA-модель с поддержкой СoT, созданная специально для исследований. Она берет на вход видеопоток и генерирует не только траекторию движения, но и "reasoning traces" — то есть буквально объясняет логику своего решения.

Модель позиционируется как модель-учитель, которая может быть использована для обучения более компактных моделей или для авто-разметки данных.

🟢

AlpaSim - полностью открытый, end-to-end фреймворк для симуляции, который позволяет моделировать реалистичные сенсоры и трафик, создавая идеальную песочницу для тестов.

🟢

Physical AI Open Datasets - пожалуй, самый богатый датасет для автономного вождения на сегодняшний день. Туда входит более 1700 часов записей вождения из самых разных географических зон и условий. И, что важно, там куча тех самых редких кейсов, о которых мы говорили выше.

На практике, NVIDIA предлагает применять эти инструменты в своих решениях NVIDIA Cosmos и NVIDIA Omniverse.

В них можно дообучать модели на своих данных, валидировать их в симуляции и затем деплоить на железо.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

2.26K views15:22

Машинное обучение digest

🔥 Karpathy выпустил nanochat miniseries v1.

Главная идея: мы не оптимизируем одну конкретную модель, а целое семейство моделей, где качество растёт монотонно вместе с вычислительными затратами. Это позволяет строить реальные scaling laws и быть уверенными, что когда платишь за большой прогон, результат оправдает деньги.

В nanochat был сделан упор на полный LLM-пайплайн. Теперь акцент сместился на предобучение как фундамент интеллекта модели.

После тюнинга гиперпараметров выяснилось, что nanochat отлично следует законам масштабирования и ведет себя как в Chinchilla: оптимальное соотношение параметров и токенов сохраняется. Причем константа у nanochat примерно 8, а у Chinchilla была 20.

Далее была обучена мини-серия моделей d10...d20. У всех чистые, не пересекающиеся кривые обучения. Чтобы сравнить их с GPT-2 и GPT-3, Karpathy использовал CORE score вместо validation loss. В итоге nanochat корректно ложится на ту же шкалу и показывает, что всё движется в правильном направлении.

Стоимость экспериментов примерно 100 долларов за 4 часа на 8×H100. Уже сейчас можно тренировать вычислительно оптимальные модели и улучшать их просто увеличивая compute. А соответствие GPT-2 пока стоит около 500 долларов, но, по мнению автора, можно довести до менее 100.

Полный разбор и код: github.com/karpathy/nanochat/discussions/420

Смысл: масштабирование работает, пайплайн воспроизводим, и дальше всё упирается только в то, сколько вычислений вы готовы включить.

18 views02:57

Машинное обучение digest

🔥 AI-исследователи сегодня стоят слишком дорого.

По данным СМИ, OpenAI осенью 2025 года зарезервировала пул акций на 50 млрд долларов для будущих опционов и RSU.
Это примерно 10% компании при оценке около 500 млрд долларов.

Уже выдано акций примерно на 80 млрд.
Вместе с новым пулом это около 26% всей компании.

Вывод простой: рынок ИИ полностью перестраивает компенсации и фонды под сотрудников. Компании борются не за сервера, а за людей, которые умеют тренировать модели мирового уровня.

Подробнее: reuters.com/technology/openai-reserves-50-billion-stock-grant-pool-information-reports-2026-01-08/

17 views03:01

Машинное обучение digest

Главные новости ИИ и Мл.

✔️

OpenAI запустила ChatGPT Health.

ChatGPT Health — отдельный раздел чат-бота исключительно для запросов, связанных со здоровьем, с возможностью интеграции с сервисами трекинга: Apple Health, MyFitnessPal, а также с личными медицинскими записями для анализа результатов анализов и истории болезни.

Вопросы приватности и безопасности данных решены с помощью многоуровневого шифрования и отдельной инфраструктуры; данные из ChatGPT Health по умолчанию не используются для обучения основных моделей ChatGPT.

Доступ к бета-версии открыт через лист ожидания для пользователей за пределами ЕС, Швейцарии и Великобритании; интеграция с медицинскими картами пока доступна только в США.
openai.com

✔️

Китай проверяет сделку по покупке Manus на нарушение экспортного контроля.

Министерство торговли КНР начало расследование приобретения стартапа Manus. Власти подозревают, что релокация сотрудников и технологий компании из Китая в Сингапур с последующей продажей американскому техно-гиганту могла быть попыткой обхода требований по лицензированию экспорта технологий.

Команда и основатели Manus покинули Китай летом 2025 года, чтобы дистанцироваться от геополитических рисков. Этот маневр позволил привлечь $75 млн. от американского фонда Benchmark, что ранее уже вызывало вопросы у Минфина США.

Компания Цукерберга утверждает, что на момент закрытия сделки в Manus не осталось китайского капитала, однако Пекин намерен выяснить, легально ли технологии покинули страну до того, как стартап сменил юрисдикцию.
ft.com

✔️

Siemens и NVIDIA создадут ИИ-ОС для заводов.

Компании объявили о расширении партнерства ради создания единой среды Industrial AI Operating System. Она построена на концепции централизованного интеллекта, который позволит непрерывно анализировать цифровые двойники и валидировать любые производственные изменения в виртуальной среде до их реализации в поле. Эталоном такого производства станет завод Siemens в немецком Эрлангене.

Для инженеров альянс готовит новые инструменты. В середине 2026 года выйдет Digital Twin Composer на движке NVIDIA Omniverse для построения промышленных мета-вселенных, а интеграция библиотек CUDA-X в программный стек Siemens обещает кратный прирост производительности в проектировании полупроводников и тяжелых инженерных симуляциях.
press.siemens.com

✔️

OpenAI, Anthropic и Google разделили лидерство в Intelligence Index 4.0.

Artificial Analysis представила 4-ю версию рейтинга ИИ-моделей, зафиксировав жесткую конкуренцию между топовыми игроками. Формальное лидерство досталось GPT-5.2 (Х-High), однако Claude Opus 4.5 и Gemini 3 Pro отстают от нее с минимальным разрывом, фактически образуя тройку равных лидеров.

В новой итерации индекса заметно просели абсолютные показатели: лучшие модели теперь набирают в районе 50 баллов против 73 в прошлой версии. Это связано с ужесточением методологии и ротацией тестовых наборов.

На смену AIME 2025 и MMLU-Pro пришли более суровые тесты: AA-Omniscience для проверки эрудиции и склонности к галлюцинациям, GDPval-AA для прикладных задач в 44 сферах и CritPt, оценивающий способности в физических исследованиях. Итоговый балл формируется из 4-х категорий: агенты, программирование, научное мышление и общие задачи.
Artificial Analysis в сети Х

✔️

Учёные из Ватерлоо научились бэкапить квантовые данные.

Команда из Университета Ватерлоо решила одну из фундаментальных проблем квантовых вычислений — невозможность прямого копирования информации. Суть метода, описанного в Physical Review Letters, заключается в шифровании квантовой информации в процессе ее копирования.

Как поясняют авторы, запрет на клонирование можно обойти, если создавать неограниченное количество зашифрованных дубликатов кубитов. Механизм защиты работает через одноразовые ключи: как только пользователь расшифровывает одну из копий, ключ автоматически аннулируется.

Это открытие фактически легализует создание «квантового облака». Технология позволяет хранить квантовые данных на распределенных серверах и создать аналог квантового Dropbox или Google Drive.
uwaterloo.ca

Please open Telegram to view this post

VIEW IN TELEGRAM

14 views06:15

About

Blog

Apps

Platform