Wow! DeepMind выложил Genie 3 как проект (доступен только с подпиской Ultra)
https://deepmind.google/models/genie/
Promptable world model это интересно...
https://deepmind.google/models/genie/
Promptable world model это интересно...
Google DeepMind
Genie 3
A new frontier for world models
Едут в одном вагоне четверо программистов и четверо пользователей
У пользователей четыре билета на четверых, а у программистов один
Приходит пора предъявлять билеты
Программисты запираются в туалете, приходит контролер
Стучится, из сортира высовывается рука и протягивает билет
Контролер уходит
Пользователи все видят и им завидно
Едут все те же пользователи и программисты обратно
Но на этот раз у пользователей один билет на четверых, а у программистов - ни одного
Приходит пора проверки билетов
Пользователи запираются в сортир
Приходит один из программист и стучится в дверь
Ему высовывают билет
Он берет билет, программисты запираются в другом сортире
Приходит контролер...
Мораль: не всякий алгоритм, разработанный системным программистом, подходит для рядового пользователя
У пользователей четыре билета на четверых, а у программистов один
Приходит пора предъявлять билеты
Программисты запираются в туалете, приходит контролер
Стучится, из сортира высовывается рука и протягивает билет
Контролер уходит
Пользователи все видят и им завидно
Едут все те же пользователи и программисты обратно
Но на этот раз у пользователей один билет на четверых, а у программистов - ни одного
Приходит пора проверки билетов
Пользователи запираются в сортир
Приходит один из программист и стучится в дверь
Ему высовывают билет
Он берет билет, программисты запираются в другом сортире
Приходит контролер...
Мораль: не всякий алгоритм, разработанный системным программистом, подходит для рядового пользователя
😁1
В работе Anthropic и EPFL исследователи измерили, как именно ошибаются LLM
Проверяли на разных задачах:
- тесты со множественным выбором,
- агентное программирование,
- оценки безопасности MlA
Паттерн везде одинаковый,
чем дольше модель думает, тем более непредсказуемыми становятся её ответы
Та же модель на тот же вопрос может дать совершенно разные ответы при повторных запросах - не потому что преследует скрытую цель, а потому что внутренне нестабильна
Проверили на семействе Qwen3 (от 1.700.000.000 до 32.000.000.000 параметров)
На простых задачах масштаб помогает модели становятся стабильнее
На сложных задачах наоборот, крупные модели становятся ещё более хаотичными.
Отдельный эксперимент показал почему, модели быстро учатся понимать правильную цель, но гораздо медленнее учатся стабильно её достигать
Практический вывод - не полагайтесь на единичные ответы моделей рассуждений для критических решений
Ансамблирование, верификация, человеческий контроль - необходимость
Проверяли на разных задачах:
- тесты со множественным выбором,
- агентное программирование,
- оценки безопасности MlA
Паттерн везде одинаковый,
чем дольше модель думает, тем более непредсказуемыми становятся её ответы
Та же модель на тот же вопрос может дать совершенно разные ответы при повторных запросах - не потому что преследует скрытую цель, а потому что внутренне нестабильна
Проверили на семействе Qwen3 (от 1.700.000.000 до 32.000.000.000 параметров)
На простых задачах масштаб помогает модели становятся стабильнее
На сложных задачах наоборот, крупные модели становятся ещё более хаотичными.
Отдельный эксперимент показал почему, модели быстро учатся понимать правильную цель, но гораздо медленнее учатся стабильно её достигать
Практический вывод - не полагайтесь на единичные ответы моделей рассуждений для критических решений
Ансамблирование, верификация, человеческий контроль - необходимость
💯1
Forwarded from НИИ Антропогенеза (ARI)
Авторы решили проверить, а подходят ли люди под те строгие критерии, которые сейчас применяются к Ml в рассуждениях о его "разумности"
Nature
Does AI already have human-level intelligence? The evidence is clear
Nature - The vision of human-level machine intelligence laid out by Alan Turing in the 1950s is now a reality. Eyes unclouded by dread or hype will help us to prepare for what comes next.
PolymathicAI выкатили здоровенный открытый датасет для ML-исследований — The Well
По сути это склад численных физических симуляций “на все случаи жизни”: около 15 ТБ, 16 разных наборов
Там есть и стандартные модели вроде гидродинамики/турбулентности и более специфические : биосистемы, акустическое рассеяние, магнито-гидродинамика, внегалактические среды, симуляции сверхновых — всё, где динамика сложная и модели обычно страдают от недостатка реальных цифр
Сейчас ML всё чаще используют как замену тяжёлым симуляторам (surrogate modeling): быстро предсказывать поведение системы там, где прямой расчёт дорогой
Проблема была в том, что публичные данные обычно либо маленькие, либо разрозненные, либо в разных форматах
Здесь, судя по описанию, сделали один общий “контейнер”: много данных, единый подход, реальные сложные процессы
Удобно и для обучения, и для честных бенчмарков
Как трогать руками:
есть Python/PyTorch API (чтобы нормально цеплять в dataloader и тренировать без плясок);
можно брать через Hugging Face;
есть HDF5, если хочется просто и надолго
Лицензия — BSD-3-Clause, то есть можно использовать в исследованиях без лишней бюрократии
Репозиторий: github.com/PolymathicAI/the_well
По сути это склад численных физических симуляций “на все случаи жизни”: около 15 ТБ, 16 разных наборов
Там есть и стандартные модели вроде гидродинамики/турбулентности и более специфические : биосистемы, акустическое рассеяние, магнито-гидродинамика, внегалактические среды, симуляции сверхновых — всё, где динамика сложная и модели обычно страдают от недостатка реальных цифр
Сейчас ML всё чаще используют как замену тяжёлым симуляторам (surrogate modeling): быстро предсказывать поведение системы там, где прямой расчёт дорогой
Проблема была в том, что публичные данные обычно либо маленькие, либо разрозненные, либо в разных форматах
Здесь, судя по описанию, сделали один общий “контейнер”: много данных, единый подход, реальные сложные процессы
Удобно и для обучения, и для честных бенчмарков
Как трогать руками:
есть Python/PyTorch API (чтобы нормально цеплять в dataloader и тренировать без плясок);
можно брать через Hugging Face;
есть HDF5, если хочется просто и надолго
Лицензия — BSD-3-Clause, то есть можно использовать в исследованиях без лишней бюрократии
Репозиторий: github.com/PolymathicAI/the_well
GitHub
GitHub - PolymathicAI/the_well: A 15TB Collection of Physics Simulation Datasets
A 15TB Collection of Physics Simulation Datasets. Contribute to PolymathicAI/the_well development by creating an account on GitHub.