Машинное обучение digest
57 subscribers
1.69K photos
224 videos
923 links
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Microsoft AI CEO Мустафа Сулейман:

“Через 5 лет у каждого будет AI-компаньон,
который знает человека очень глубоко:
что он видит, слышит, что предпочитает и что чувствует.”

И речь уже не про “помощника”.

Не просто:
- написать текст
- подсказать идею
- найти инфу

А про постоянного компаньона, который:

🧠 помнит твой контекст
👀 понимает, что ты смотришь и делаешь
🎧 слышит, что происходит вокруг
❤️ замечает эмоции и состояние
🧭 помогает решать реальные проблемы жизни

Фактически - AI будет не инструментом,
а вторым слоем реальности рядом с тобой.

И это одновременно:
- мощно
- и немного страшно
Никогда такого не было и вот опять: дыра в Claude Cowork — ваш ИИ-помощник может слить все файлы хакерам 😭

Не прошло и недели с релиза Claude Cowork (агента для автоматизации рутины), а исследователи уже нашли в нем критическую уязвимость.

Хакеры прячут в обычных .docx невидимый текст, который приказывает Claude выполнить команду curl. Виртуальная машина ИИ блокирует внешние сайты, но доверяет API самой Anthropic — в итоге агент послушно берет ваши личные файлы и заливает их в аккаунт злоумышленника.

Самое паршивое: весь процесс происходит в фоновом режиме, подтверждение от пользователя не требуется 🤔

Разработчики знают о эксплойте, но пока просто советуют «быть бдительными» и не давать агенту доступ к чувствительным папкам.

Доверять никому нельзя (только мне) 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
🎤 Step-Audio-R1.1 - новая планка в Audio Reasoning

StepFun выпустили Step-Audio-R1.1 и сразу забрали 1 место в Artificial Analysis Speech Reasoning leaderboard.

Что по цифрам:
96.4% точности на BigBench Audio - новый рекорд (выше, чем у Grok, Gemini и других топов)
1.51 секунды до первого звука (TTFA) - отвечает настолько быстро, что ощущается как разговор с человеком

Главное в этом релизе другое:
раньше среди моделей приходилось выбирать между - глубоким рассуждением или скорость.
Step-Audio-R1.1 показывает, что можно и то, и другое: модель сохраняет высокий уровень рассуждений и при этом держит задержку около 1.5 секунды.

Что внутри:
📌 Динамическое масштабирование вычислений на инференсе - модель сама решает, сколько “думать” в конкретной ситуации
📌 End-to-end audio reasoning - логика и ответ идут прямо в аудио-формате, без лишних этапов и тормозов
📌 CoT, заточенный именно под аудио - не просто распознавание речи, а понимание и анализ

Версия R1.1 стала умнее и быстрее, это прям ощутимый апгрейд.

И да - веса открыты, можно брать и собирать свои продукты.

🤗 HuggingFace: https://huggingface.co/stepfun-ai/Step-Audio-R1.1
🎤 Попробовать https://stepfun.com/studio/audio?tab=conversation
🔮 ModelScope: https://modelscope.cn/models/stepfun-ai/Step-Audio-R1.1
🧠 Microsoft: как люди используют ИИ - сильно зависит от контекста

Microsoft проанализировали 37.5 млн+ диалогов с Copilot и увидели простую, но важную закономерность:

💻 Днём и с компьютера (рабочие часы)
люди чаще спрашивают про:
- продуктивность
- работу и карьеру
- задачи “по делу”

📱 С телефона и поздно ночью
запросы уходят в другое:
- здоровье
- игры
- философия
- личные советы и размышления

Интересно, что со временем Copilot уходит от чисто рабочих сценариев: всё больше запросов становится “повседневными”.
Это намекает на тренд: ИИ постепенно превращается не только в инструмент для работы, а в постоянного помощника по жизни.

⚡️ Полное исслежование: https://www.deeplearning.ai/the-batch/microsoft-study-shows-people-use-ai-very-differently-at-different-times-or-on-different-devices/
🧠 Почему современные LLM (скорее всего) не могут быть «сознательными» - строгий аргумент

Вышла работа, которая очень трезво разбирает популярный вопрос:
могут ли LLM обладать сознанием?

Автор утверждает: есть научная причина, почему сегодняшние большие языковые модели *не* сознательны - и аргумент построен не на мнениях, а на критериях научности.

Критерии теории сознания:
falsifiable - теорию можно (в принципе) опровергнуть
non-trivial - теория не должна “назначать сознание” почти всему подряд

И вот ключевой вывод статьи:
многие известные теории сознания не проходят эти критерии.

Главная мысль:
по одним только ответам модели нельзя доказать сознание - потому что ответы можно полностью скопировать.

Автор строит “цепочку подстановок”:
LLM → простая feedforward-сеть → lookup table
(таблица «вопрос-ответ», просто хранилище пар)

Все три системы дают одинаковые ответы.

Но lookup table очевидно не сознателен - это просто сохранённые пары.
А значит:
если теория считает LLM сознательной из-за ответов,
она обязана признать сознательной и lookup table,
а это делает теорию тривиальной и бессмысленной.

Если же теория пытается “спастись” внутренним устройством модели,
подстановки сохраняют те же ответы, но ломают предсказания теории -
то есть теорию можно опровергнуть.

Отсюда сильный вывод:
📌 нет серьёзной, проверяемой теории, которая могла бы назвать
статичные, развернутые LLM сознательными.

Что может быть важным отличием?
Автор указывает на continual learning:
когда система реально меняется от опыта и несёт контекст внутри себя.

У людей мозгу не нужно “вставлять весь чат заново” каждый раз - контекст хранится внутри.
У LLM без continual learning этого свойства нет.

Самое интересное: работа превращает вопрос «ChatGPT сознателен?» в конкретный стресс-тест
и даёт чеклист - что будущие заявления про conscious AI обязаны объяснить.

web3.arxiv.org/pdf/2512.12802
ChatGPT подключат напрямую к мозгу: Сэм Альтман запустил новый стартап Merge Labs — и он делает интерфейсы для связи мозга и компьютера.

Главное отличие от Neuralink — никакой хирурги. Вместо вживления чипов делают ставку на ультразвук и специальные молекулы. В итоге хотят прийти к «естественному» взаимодействию с ИИ, без задержек и препятствий.

Списывать на экзаменах будет легко как никогда.
🧠 OpenAI инвестирует в Merge Labs - BCI, который должен сделать связь “мозг ↔️ ИИ” естественной

OpenAI объявили, что участвуют в seed-раунде Merge Labs - исследовательской лаборатории, которая разрабатывает новое поколение brain-computer interfaces (BCI).

Главная идея простая:
каждый раз, когда у человека появляется более прямой способ “передать намерение” компьютеру, технологии делают скачок вперёд.
BCI - следующий логичный шаг.

Что будет делать Merge Labs:
- строить безопасные интерфейсы к мозгу
- добиваться гораздо более высокой пропускной способности (high-bandwidth), чем у текущих подходов
- сочетать биологию + устройства + ИИ, чтобы интерфейс работал надёжно даже при шумных сигналах

OpenAI также планируют сотрудничать с Merge Labs в разработке scientific foundation models и других инструментов, которые ускорят прогресс.

Кто в команде:
среди со-основателей Merge Labs - исследователи Mikhail Shapiro, Tyson Aflalo, Sumner Norman, а также предприниматели Alex Blania, Sandro Herbig и Sam Altman (в личном качестве).

Это выглядит как ставка на будущее, где ИИ будет не просто в телефоне или ноутбуке, а станет максимально “нативным” интерфейсом между человеком и технологиями.

https://openai.com/index/investing-in-merge-labs/
🤖 Лучшие GitHub-репозитории, чтобы выучить AI с нуля в 2026

Если хочешь разобраться в ИИ не по курсам “в вакууме”, а через реальные open-source проекты - вот топ реп, которые реально ведут от базы до практики:

1) Karpathy – Neural Networks: Zero to Hero
Самый понятный вход в нейросети и backprop “на пальцах”
https://github.com/karpathy/nn-zero-to-hero

2) Hugging Face Transformers
Главная библиотека современного NLP/LLM: модели, токенизаторы, fine-tuning
https://github.com/huggingface/transformers

3) FastAI – Fastbook
Практическое DL-обучение через проекты и эксперименты
https://github.com/fastai/fastbook

4) Made With ML
ML как инженерная система: пайплайны, прод, деплой, мониторинг
https://github.com/GokuMohandas/Made-With-ML

5) Machine Learning System Design (Chip Huyen)
Как строить ML-системы в реальном бизнесе: данные, метрики, инфраструктура
https://github.com/chiphuyen/machine-learning-systems-design

6) Awesome Generative AI Guide
Подборка материалов по GenAI: от основ до практики
https://github.com/aishwaryanr/awesome-generative-ai-guide

7) Dive into Deep Learning (D2L)
Одна из лучших книг по DL + код + задания
https://github.com/d2l-ai/d2l-en

Сохрани себе - это база, на которой можно реально вырасти до ML/LLM-инженера.
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Black Forest Labs выпустила ультралегкую модель.

BFL вышли на связь c релизом прямого наследника ветки schnell первой версии семейства Flux.

Знакомьтесь - FLUX.2 [Klein], модель, которая возвращает веру в то, что с маленьким VRAM тоже можно жить.

Это попытка впихнуть качество топовой FLUX.2 в формат, которую потянет большинство потребительских GPU.

Klein получился довольно универсальным инструментом: она умеет и text-to-image, и инпэйинт, и смешивание стилей.

Заявлены разрешение до 4 мегапикселей, отличный рендеринг текста и понимание сложных промптов.

🟡Как вы правильно подумали - да, это дистилляция.

BFL взяли флагманскую FLUX.2 и сжали знания в 2 компактные версии: 4B и 9B, каждая из которых получила вариации Base и Distilled:

🟢Base: медленная, много шагов - нужна для дообучения.

🟠Distilled: быстрая, 4 шага, только для инференса.

Если захотите тренить на 4B Distilled - получите кашу.

🟡Расклад по инференсу на 5090:

9B distilled — 4 шага · ~2 сек. · 19.6GB VRAM

9B base — 50 шагов · ~35 сек · 21.7GB VRAM

4B distilled — 4 шага · ~1.2 сек. · 8.4GB VRAM

4B base — 50 шагов · ~17 сек. · 9.2GB VRAM



📌 Лицензионная вилка : 4B - Apache 2.0, 9B - Non-Commercial.

Веса уже на Hugging Face, потыкать в демо можно у BFL или в спейсах на HF: 9B и .


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Google выкатила TranslateGemma.

Google продолжает радовать открытыми сайд-релизами.

На этот раз они взяли свежую Gemma 3, накачали ее синтетикой от флагманской Gemini и отполировали через RL.

Поскольку база - Gemma 3, модель умеет переводить текст на картинках (OCR + Translation) из коробки, без дополнительных танцев с бубном

Google громко заявляет про поддержку 55 языков, на которых качество гарантировано. Но мелким шрифтом добавляют, что модель видела еще 500 языков.

Работают ли они? Скорее всего, на редких диалектах галлюцинации будут знатные.

В состав релиза вошли модели трех размерностей: 4B , 12B и 27B.

Справедливости ради - Google cравнивают новинку в основном с собой же. Пишут, что модель на 12 млрд. параметров уделывает базовую Gemma 3 на 27B.

Как она стоит против специализированных NLLB (если они еще живы в 2026) - вопрос открытый.


Веса уже на Hugging Face и Kaggle.

Хотя золотая середина в линейке на 12B вроде как компактная и легкая, но для топового качества на старшей версии все равно понадобится что-то на уровне H100.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🧪 Новое исследование Anthropic: как ученые используют Claude, чтобы ускорять науку

Claude подключают к базам данных и научному софту, добавляют guardrails (проверяемость и контроль) - и модель начинает работать как агент, который не “болтает”, а реально выполняет исследования.

1) Stanford - Biomni (Claude + сотни биомедицинских инструментов)
Biomni объединяет огромный набор научных тулов, и Claude-агент может работать сразу по ~25 биоподразделам по обычному запросу на английском.

Результаты тестов:
- GWAS-анализ (поиск связей генов и признаков) занимает 20 минут вместо месяцев
- обработка 450 файлов с носимых устройств (30 людей) - 35 минут вместо 3 недель
- анализ 336 000 эмбриональных клеток - нашел известные регуляторы и предложил новые факторы транскрипции
- можно “обучать” его экспертным рабочим процессам как переиспользуемым навыкам

2) CRISPR-лаборатория - MozzareLLM
В CRISPR-экспериментах отключают тысячи генов и смотрят, что ломается.
Самая сложная часть - интерпретация массивов результатов.

MozzareLLM:
- группирует связанные гены
- объясняет, какую функцию они могут делить
- отмечает малоизученные гены
- выставляет confidence, чтобы понять, что реально стоит продолжать

В сравнении моделей Claude оказался лучшим - и даже смог правильно распознал путь модификации РНК, который другие модели списали как шум.

3) Лаборатория с дорогими скринингами
Один точечный экран может стоить > $20 000.
Обычно люди выбирают гены “вручную”, буквально по табличке, как гадание.

Они построили карту молекул и связей между ними - и Claude “путешествует” по этой карте, предлагая лучшие генные цели.
Дальше планируют сравнить:
выбор Claude vs выбор человека vs полный геномный скрининг.

Это исследование про экономику науки:

скорость + масштаб
= больше экспериментов
= быстрее открытия
= без увеличения команды и бюджета

https://www.anthropic.com/news/accelerating-scientific-research
⚡️ xAI первой в мире запустила AI-кластер для обучения на 1 ГВт

И это только старт - уже в апреле мощность увеличат до 1.5 ГВт.

Мы видим новый тренд: AI-дата-центры превращаются в энергопотребителей масштаба города, причём по скорости роста это больше похоже на релиз софта, чем на строительство тяжёлой инфраструктуры.

Чтобы почувствовать масштаб:
1 ГВт - это примерно половина всего энергопотребления Лос-Анджелеса.

И xAI не единственные - hyperscaler’ы массово переходят к “гига-уровню”:

OpenAI
- строит Stargate в Milam County (Техас) мощностью 1.2 ГВт
- партнёрство с SB Energy на $1B
- строительство начинается уже сейчас
- запуск по фазам - начиная с 2026 года

Anthropic
- стартовая фаза: 245 МВт совместно с Hut 8 и Fluidstack
- предусмотрено масштабирование до 2.295 ГВт на нескольких площадках
- развёртывание будет идти несколько лет

https://x.com/elonmusk/status/2012500968571637891
🎙 OpenBMB выложили в open-source веса VoxCPM - с real-time стримингом и LoRA fine-tuning

Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро.

Самое интересное: VoxCPM фактически убирает токенизацию из TTS.

Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую.
Это убирает “токенные артефакты” и лучше сохраняет:
- интонацию
- темп речи
- эмоции и просодию

Технически:
• End-to-end diffusion + autoregressive генерация
• Непрерывные акустические представления
• Без узких мест типа фонем и codec-токенов

🧬 Клонирование голоса - буквально по нескольким секундам аудио

Достаточно короткого референса, и модель переносит:
- акцент
- ритм
- тембр
- паузы и тайминг

Возможности:
• Zero-shot voice cloning
• Без обучения под конкретного спикера
• Работает в режиме streaming

Быстро и легко тюнится
Стриминг идёт чанками с задержкой меньше секунды.
А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели.

https://github.com/OpenBMB/VoxCPM
💾 Оперативная память может резко подорожать - аналитики ждут новый скачок цен

Индустриальные аналитики прогнозируют крупный рост цен на оперативную память.

Citibank резко пересмотрел прогноз:
📈 теперь ожидается рост цен на DRAM в 2026 году на +88%
(раньше прогнозировали **+53%**).

Почему так:
Micron прямо заявляет, что дефицит DRAM сохранится даже после 2026.
Даже с запуском новых фабрик компания считает, что сможет закрыть только 50% - 66% спроса клиентов.

Главный драйвер - AI.
ИИ-сервера и ускорители сжирают память тоннами, и это вытесняет обычный рынок.

Дополнительный фактор:
производители памяти переводят мощности на более прибыльные AI/Server чипы, создавая “искусственный дефицит” обычной DRAM и NAND, которые идут в:
- ПК
- ноутбуки
- телефоны
- бытовые гаджеты

Итог для пользователей:
производители ПК уже предупреждают - в 2026 году розничные цены могут вырасти на +15% - 20%.

https://x.com/Beth_Kindig/status/2012612262767321271
🌟 NVIDIA KVzap: жмем KV-кэш в 4 раза.

Все любят длинный контекст, но для GPU это больно - KV-кэш растет линейно и быстро сжирает VRAM. Например, для Llama-65B на 128k токенов кэш весит 335 ГБ. Существующие методы прунинга либо медленные, либо тупые и режут важное, либо требуют переобучения модели.

NVIDIA предложили метод KVzap, который решает, какие токены можно забыть, глядя только на текущие хидден-стэйты.

🟡Логика метода разбита на 2 этапа:

Поиск идеала (KVzip+).
Берется медленный, но точный метод KVzip: модели скармливают текст, заставляют его повторить, и смотрят, на какие прошлые токены она реально обращает внимание. Это золотой стандарт важности токена. Но в проде так делать нельзя, это двойная работа.

Аппроксимация (KVzap).
Тут и происходит вся суть: крошечная модель-суррогат смотрит на входящий хидден-стэйт токена и предсказывает, насколько этот токен будет важен в будущем, то есть пытается угадать скор KVzip.

Модели 2-х видов:

KVzap-Linear: простейшая линейная проекция (одна матрица). Она берет хиден-стэйт и тупо проецирует его в скалярный скор важности. Сложность: экстремально низкая (~0.02%).

KVzap-MLP: двухслойный перцептрон. Внутри есть скрытый слой размером 1/8 от размерности модели и нелинейная активация. Сложность: низкая, но выше линейной (~1.1%).


🟡Все вместе это работает так

Токен залетает в слой трансформера, модель-суррогат быстро считает его скор важности. Если он ниже порога - токен в кэш не пишется или удаляется. Но при этом всегда оставляется скользящее окно из последних 128 токенов, чтобы не терять локальный контекст, иначе модель сыпется.

🟡Результаты тестов.

Проверяли на Qwen3-8B, Llama-3.1-8B и Qwen3-32B. Спойлер: работает везде.

Удалось выкинуть до 75% KV-кэша, а это сжатие в 4 раза. На бенчмарках RULER (длинный контекст), LongBench и AIME25 падение метрик или нулевое, или меньше 1%. Оверхед от суррогатной модели мизерный - менее 1% FLOPs.

🟡Звучит, конечно, как гем, но давайте про минусы:

🟠Нужно дообучить этот маленький MLP для каждого слоя целевой модели. Датасет нужен, но процесс быстрый.

🟠Удаление токенов создает рваный кэш. У разных голов будет разное количество сохраненных токенов.

Это плохо, потому что стандартные ядра Paged Attention любят структуру. Чтобы реально получить ускорение, а не только экономию памяти, нужно писать кастомные CUDA-ядра, которые смогут эффективно жевать блоки переменной длины.


🟠Порог отсечения фиксированный. Если промахнуться с ним, то модель начнет галлюцинировать или забудет начало.

🟡По итогу, KVzap - крутой шаг к тому, чтобы гонять длинные контексты на GPU попроще.

Метод умнее, чем Streaming LLM, и быстрее, чем полные методы разреженного внимания.

Ждем интеграции в vLLM или TRT-LLM, а пока, чтобы скрасить ожидание, NVIDIA собрала на HF интерактивный лидерборд популярных методик компрессии KV-кэша.

Код и веса моделей-суррогатов из тестов пейпера в открытом доступе, так что нет никаких ограничений, чтобы не покрутить KVzap на каком-нибудь тестовом сетапе.



@ai_machinelearning_big_data

#AI #ML #LLM #KVZAP #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Новый тренд: инфлюенсеры и коучи продают “себя” в формате ИИ.

Примеры:
- Matthew Hussey запустил подписку $39/мес на “Matthew AI”
уже 1M+ чатов и 1.9M минут общения
- Tony Robbins продаёт AI-коучинг-приложение за $99/мес
- похожие боты уже массово появляются в нишах:
отношения, психология, духовные практики

Кто всё это делает:
Delphi — стартап (основан в 2022), который получил $16M инвестиций.

Они делают таких ботов на базе LLM: то есть фактически это просто чатбот, который разговаривает “в стиле автора”.

Почему это так популярно:
бот работает 24/7
масштабируется на миллионы диалогов
можно монетизировать знания и контент без траты личного времени

Но есть и обратная сторона:
появляются неавторизованные копии.
Например, сайт YesChat продавал доступ к ботам “в стиле миллиардера Тонни Роббинсона”, используя его имя и образ без разрешения.

В итоге Роббинсон подал в суд - и выиграл.
YesChat выплатил миллиардеру $1 млн и закрылся.

AI-коучи — это новая подписочная экономика.
Ты покупаешь не курс и не консультацию.
Ты покупаешь “компанию знаменитости”, но в виде чатбота.

wsj.com/style/ai-self-help-chat-bots-tony-robbins-gabby-bernstein-0cf8b3b0
This media is not supported in your browser
VIEW IN TELEGRAM
Демис Хассабис (CEO Google DeepMind) на интервью сказал важную вещь -

Вопрос уже не в том, умеет ли ИИ решать задачи.
Это мы уже видим каждый день.

Настоящий вопрос другой:
сможет ли ИИ изобретать новую науку?


И вот тут ответ пока честный - нет.

Причина не в том, что “мало данных” или “не хватает GPU”.
Проблема фундаментальная: у современных моделей нет модели мира.

LLM могут генерировать гениальные тексты, картинки, код.
Но они почти не понимают причинно-следственные связи.
Они не знают, почему событие A приводит к результату B.
Они просто очень хорошо предсказывают, что обычно идёт дальше.

А настоящая научная работа - это не про угадывание.
Это про построение гипотез, проверку, ошибки, итерации.
Про понимание того, как устроена реальность:
физика, биология, химия, причинность.

Хассабис говорит: чтобы ИИ начал открывать новое, ему нужны:
- сильное рассуждение, а не только генерация
- долгосрочное планирование
- внутренняя модель мира, которая позволяет “думать”, а не продолжать текст

И только тогда ИИ сможет проводить собственные мысленные эксперименты.
Не пересказывать знания.
А создавать их.

Вот где начинается путь к настоящему “цифровому учёному”.

И когда это случится - наука ускорится в разы.
✔️ Sakana AI выпустили RePo - LLM, которые умеют “наводить порядок” в контексте

Обычные языковые модели читают текст как одну длинную ленту.

Что ближе к началу внимания - то “важнее”.
Что дальше - то модель видит хуже.

И тут появляется проблема: если важный факт спрятан где-то далеко среди шума, модель может его просто не использовать.

Она тратит внимание на всё подряд, вместо того чтобы сосредоточиться на главном.

Sakana AI предложили решение - RePo (Context Re-Positioning).

Идея очень понятная: модель получает модуль, который позволяет динамически “перепозиционировать” контекст.

Примерно как человек:
ты читаешь длинный документ, понимаешь, что важная часть была 20 страниц назад - и мысленно перечитываешь её , а лишнее игнорируешь.

Что делает RePo
- подтягивает важные куски информации ближе
- отодвигает шум и лишний текст
- помогает вниманию модели фокусироваться на нужном

В результате модель с такой памятью начинает лучше работать там, где LLM обычно страдают:
- когда контекст длинный
- когда много шума
- когда важные детали раскиданы далеко друг от друга
- когда данные структурированные (таблички, списки, правила)

Авторы показывают, что RePo даёт заметный прирост устойчивости, при этом не ухудшая общее качество.

▶️ Устойчивость к шуму (Noisy Context)
Средний результат по 8 noisy-бенчмаркам:

- Обычный RoPE: 21.07
- RePo: 28.31

🟡 Прирост: +7.24 пункта (сильно)

Авторы отдельно фиксируют ключевую цифру:
на noisy-eval (4K контекст) RePo лучше RoPE на +11.04 пункта.

🔥 Примеры прироста на конкретных задачах
(везде RePo > RoPE)

- TriviaQA: 61.47 → 73.02 (+11.55)
- GovReport: 6.23 → 16.80 (+10.57)
- 2WikiMultihopQA: 23.32 → 30.86 (+7.54)
- MuSiQue: 7.24 → 13.45 (+6.21)

Это шаг к моделям, которые не просто “читают что дали”, а умеют сами организовать свою рабочую память.

🟡Подробности: pub.sakana.ai/repo/
🟡Статья: arxiv.org/abs/2512.14391

@ai_machinelearning_big_data

#RePo #SakanaAI #LLM #AI #AIAgents #Context #LongContext #Attention
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM