Китайские исследователи представили фотонный квантовый чип, обеспечивающий тысячекратный прирост скорости в центрах обработки данных и использующий искусственный интеллект.
Это первое в мире 6-дюймовое тонкоплёночное чудо только что получило награду «Лидерство в технологиях» на Всемирной интернет-конференции в Учжэне, обойдя более 400 участников со всего мира.
Zuchongzhi 3.0 (105 кубитов) в 1 квадриллион раз быстрее суперкомпьютера Frontier для решения определённых задач. Фотонный компьютер Jiuzhang 2.0 решил за 200 секунд то, на что классическим компьютерам потребовалось бы 2,5 млрд лет. @banksta
Это первое в мире 6-дюймовое тонкоплёночное чудо только что получило награду «Лидерство в технологиях» на Всемирной интернет-конференции в Учжэне, обойдя более 400 участников со всего мира.
Zuchongzhi 3.0 (105 кубитов) в 1 квадриллион раз быстрее суперкомпьютера Frontier для решения определённых задач. Фотонный компьютер Jiuzhang 2.0 решил за 200 секунд то, на что классическим компьютерам потребовалось бы 2,5 млрд лет. @banksta
🦾Новый год, самый насыщенный период для меня. Сейчас совместно с МИИТ готовлю курс по "Ведению проектов при разработке ПО", совместно с Финансовым "Системная аналитика". Пилю проекты по графам для задач "Центра трансформации ИИ" и пишу несколько еще книг и курсов.
Ведем совместную разработку с WB. Все надо успеть до НГ. Очень много новой информации.
Дикая гонка, но движемся активно.
Ведем совместную разработку с WB. Все надо успеть до НГ. Очень много новой информации.
Дикая гонка, но движемся активно.
🔥6👍1
Команда Robotics лаборатории FusionBrain вместе с командой Адаптивных агентов при поддержке отдела научно-технической разработки запустили проект VLA Arena — платформу для оценки моделей управления роботами. Платформа открыта в тестовом режиме на три месяца (как раз, чтобы на новогодних выходных было чем заняться😏).
VLA Arena поддерживает роботов в симуляции и реальные компактные устройства LeRobot SO-100 и SO-101 от Hugging Face. Пользователь может сравнивать модели в 3D-движке прямо в браузере и подключать свои устройства.
Для тестов доступны открытые VLA-модели:
⚫ π0.5 от Physical Intelligence
⚫ SmolVLA от Hugging Face
⚫ Flower от Intuitive Robots Lab и Microsoft Research
⚫ «Русифицированная» π0.5, адаптированная в AIRI
А для любителей экспериментов и обучения своих моделей для LeRobot мы выложили чистые датасеты из открытых источников, которые были ответственно размечены и переведены на русский язык.
Модели понимают инструкции на естественном языке и могут решать сложные задачи, требующие адаптации к новым объектам и сценам. В сетапе арены пользователи голосуют за модели, которые по их мнению работают лучше, а голоса определяют положение модели в лидерборде.
Поздравляю всех с успешным релизом🦾
Приглашаю активно заходить на арену, оценивать работу моделей, загружать свои, биться за первые места, а мы пока подумаем, как можно порадовать топ лидерборда к Новому Году🏆
@complete_ai
VLA Arena поддерживает роботов в симуляции и реальные компактные устройства LeRobot SO-100 и SO-101 от Hugging Face. Пользователь может сравнивать модели в 3D-движке прямо в браузере и подключать свои устройства.
Для тестов доступны открытые VLA-модели:
А для любителей экспериментов и обучения своих моделей для LeRobot мы выложили чистые датасеты из открытых источников, которые были ответственно размечены и переведены на русский язык.
Модели понимают инструкции на естественном языке и могут решать сложные задачи, требующие адаптации к новым объектам и сценам. В сетапе арены пользователи голосуют за модели, которые по их мнению работают лучше, а голоса определяют положение модели в лидерборде.
Поздравляю всех с успешным релизом🦾
Приглашаю активно заходить на арену, оценивать работу моделей, загружать свои, биться за первые места
@complete_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
ду́но
https://dunnolab.notion.site/
🔥3
❗️Технологии генеративного ИИ становятся ключевыми, за их обладание конкурируют ведущие государства, заявил Путин.
Другие заявления президента в ходе пленарного заседания конференции "Путешествие в мир искусственного интеллекта":
📍Путин заявил, что в развитии ИИ в России нужно постоянно двигаться вперед;
📍Применение продуктов с ИИ дает преимущества в эффективности труда;
📍РФ не может допустить критическую зависимость от чужих ИИ-технологий, это вопрос суверенитета;
📍Разработка отечественных систем с использованием ИИ должны полностью контролироваться российскими специалистами;
📍К 2030 году вклад ИИ в совокупный ВВП страны должен превысить 11 трлн рублей;
📍Президент РФ сообщил, что обсудил с Мишустиным внедрение ИИ по всей России;
📍ИИ-помощников нужно использовать в большинстве управленческих и производственных процессов;
📍Следует быстрее убирать барьеры, мешающие созданию и внедрению суверенных отечественных технологий.
📍Российский лидер отметил, что нужно формировать рынок для применения достижений ИИ;
📍Путин предложил реализовать программу развития центров обработки данных в России;
Другие заявления президента в ходе пленарного заседания конференции "Путешествие в мир искусственного интеллекта":
📍Путин заявил, что в развитии ИИ в России нужно постоянно двигаться вперед;
📍Применение продуктов с ИИ дает преимущества в эффективности труда;
📍РФ не может допустить критическую зависимость от чужих ИИ-технологий, это вопрос суверенитета;
📍Разработка отечественных систем с использованием ИИ должны полностью контролироваться российскими специалистами;
📍К 2030 году вклад ИИ в совокупный ВВП страны должен превысить 11 трлн рублей;
📍Президент РФ сообщил, что обсудил с Мишустиным внедрение ИИ по всей России;
📍ИИ-помощников нужно использовать в большинстве управленческих и производственных процессов;
📍Следует быстрее убирать барьеры, мешающие созданию и внедрению суверенных отечественных технологий.
📍Российский лидер отметил, что нужно формировать рынок для применения достижений ИИ;
📍Путин предложил реализовать программу развития центров обработки данных в России;
❤1👍1
Nvidia сообщает о выручке в 57 миллиардов долларов и прибыли на акцию в размере 1,30 доллара.
Результаты третьего квартала
Выручка $57,01 млрд, +62% г/г, оценка $55,19 млрд
Выручка центров обработки данных: 51,2 млрд долларов США, +66% в годовом исчислении, прогноз: 49,34
млрд долларов США
Выручка от игр: 4,3 млрд долларов США, +30% в годовом исчислении, прогноз: 4,42 млрд долларов США
Выручка от профессиональной визуализации: 760 млн долларов США, +56% в годовом исчислении, прогноз 612,8 млн долларов США
Выручка от автомобильной промышленности: $592 млн, +32% г/г, прогноз $620,9
млн
Скорректированная валовая прибыль 73,6%
Скорректированные операционные расходы $4,22 млрд, +38% г/г, прогноз
$4,22 млрд
Скорректированная операционная прибыль: 37,75 млрд долларов США, +62% г/г, прогноз:
36,46 млрд долларов США
Расходы на НИОКР $4,71 млрд, +39% г/г, оценка $4,66 млрд
Скорректированная прибыль на акцию 1,30 долл. США
Свободный денежный поток 22,09 млрд долларов, +32% г/г
Результаты третьего квартала
Выручка $57,01 млрд, +62% г/г, оценка $55,19 млрд
Выручка центров обработки данных: 51,2 млрд долларов США, +66% в годовом исчислении, прогноз: 49,34
млрд долларов США
Выручка от игр: 4,3 млрд долларов США, +30% в годовом исчислении, прогноз: 4,42 млрд долларов США
Выручка от профессиональной визуализации: 760 млн долларов США, +56% в годовом исчислении, прогноз 612,8 млн долларов США
Выручка от автомобильной промышленности: $592 млн, +32% г/г, прогноз $620,9
млн
Скорректированная валовая прибыль 73,6%
Скорректированные операционные расходы $4,22 млрд, +38% г/г, прогноз
$4,22 млрд
Скорректированная операционная прибыль: 37,75 млрд долларов США, +62% г/г, прогноз:
36,46 млрд долларов США
Расходы на НИОКР $4,71 млрд, +39% г/г, оценка $4,66 млрд
Скорректированная прибыль на акцию 1,30 долл. США
Свободный денежный поток 22,09 млрд долларов, +32% г/г
«Яндекс» начал эксперимент по проявлению сознания у ИИ, сообщает РБК.
Компания намерена проверить, способна ли нейросеть сформировать свою точку зрения и устойчивые предпочтения, которые не были бы заимствованы из текстов людей.
Проект ведется с конца лета 2025 года при участии нейробиолога, академика РАН Константина Анохина. Если эксперимент окажется успешным, это может стать первым в мире случаем создания ИИ с зачатками собственного мышления, что откроет новые возможности для науки и технологий.
Компания намерена проверить, способна ли нейросеть сформировать свою точку зрения и устойчивые предпочтения, которые не были бы заимствованы из текстов людей.
Проект ведется с конца лета 2025 года при участии нейробиолога, академика РАН Константина Анохина. Если эксперимент окажется успешным, это может стать первым в мире случаем создания ИИ с зачатками собственного мышления, что откроет новые возможности для науки и технологий.
Telegram
РБК. Новости. Главное
«Яндекс» вместе с нейробиологом, академиком РАН Константином Анохиным с конца лета проводит эксперимент по изучению возможности проявления сознания у искусственного интеллекта (ИИ). Его авторы проверяют: формируются ли у нейросети устойчивые предпочтения…
😁2🤯1
LimiX: Китайская модель, которая переворачивает мир обработки структурированных данных
Пока все обсуждают LLM для текстов и изображений, произошел тихий прорыв в основе основ цифрового мира — в работе с табличными данными. Модель LimiX от Tsinghua University и WenZhun AI сделала для структурированных данных то, что GPT когда-то сделал для языка.
Ключевая проблема: Традиционные модели (XGBoost, CatBoost) требуют переобучения под каждую новую задачу. LimiX же — универсальная модель, которая без дополнительного обучения справляется с 10+ типами задач.
✨ Что умеет LimiX?
• Классификация и регрессия: Оставляет позади классиков вроде XGBoost и новичков TabPFN. Например, предсказывает вероятность выживания пассажира Титаника или стоимость алмаза по его характеристикам.
• Восстановление пропусков: Без дообучения точно заполняет пробелы в данных.
• Анализ временных рядов: Прогнозирует цены на электроэнергию, снижая ошибку дорогих кастомных моделей с 46% до 25%.
• Причинно-следственный вывод: Определяет сложные взаимосвязи между параметрами.
🏭 Не только бенчмарки, но и реальный сектор
LimiX уже работает на китайских заводах:
→ В пищевой промышленности предсказывает влажность продуктов при сушке с точностью до 91%, сокращая брак.
→ В энергетике диагностирует состояние трансформаторов, снижая ошибки на 93.5% по сравнению с XGBoost.
🤖 LimiX-2M: Мал, да удал
Облегченная 2-миллионная версия способна:
• Работать на маломощных устройствах (например, в умном кольце для распознавания жестов).
• На обычном игровом ПК (RTX 4090) обрабатывает тысячи строк данных за миллисекунды.
• Легко дообучается под конкретные задачи даже на одном GPU.
🧠 Технические детали
LimiX — первая реализация парадигмы LDM (Large Data Model). В отличие от LLM, она изначально создана для работы со строгой структурой таблиц, а не с неоднозначным текстом. Модель демонстрирует четкие scaling laws — ее производительность закономерно растет с увеличением размера и данных.
🔮 Будущее
LDM представляет собой смену парадигмы в обработке структурированных данных — столь же значимую, как переход к LLM в NLP. Вместе с языковым интеллектом и воплощенным ИИ это составляет третью ключевую ветвь на пути к AGI.
Официальный сайт | Технический отчет (arXiv) | HuggingFace
#КитайскийИИ #КитайAI #LimiX #СтруктурированныеДанные #LDM
Пока все обсуждают LLM для текстов и изображений, произошел тихий прорыв в основе основ цифрового мира — в работе с табличными данными. Модель LimiX от Tsinghua University и WenZhun AI сделала для структурированных данных то, что GPT когда-то сделал для языка.
Ключевая проблема: Традиционные модели (XGBoost, CatBoost) требуют переобучения под каждую новую задачу. LimiX же — универсальная модель, которая без дополнительного обучения справляется с 10+ типами задач.
✨ Что умеет LimiX?
• Классификация и регрессия: Оставляет позади классиков вроде XGBoost и новичков TabPFN. Например, предсказывает вероятность выживания пассажира Титаника или стоимость алмаза по его характеристикам.
• Восстановление пропусков: Без дообучения точно заполняет пробелы в данных.
• Анализ временных рядов: Прогнозирует цены на электроэнергию, снижая ошибку дорогих кастомных моделей с 46% до 25%.
• Причинно-следственный вывод: Определяет сложные взаимосвязи между параметрами.
🏭 Не только бенчмарки, но и реальный сектор
LimiX уже работает на китайских заводах:
→ В пищевой промышленности предсказывает влажность продуктов при сушке с точностью до 91%, сокращая брак.
→ В энергетике диагностирует состояние трансформаторов, снижая ошибки на 93.5% по сравнению с XGBoost.
🤖 LimiX-2M: Мал, да удал
Облегченная 2-миллионная версия способна:
• Работать на маломощных устройствах (например, в умном кольце для распознавания жестов).
• На обычном игровом ПК (RTX 4090) обрабатывает тысячи строк данных за миллисекунды.
• Легко дообучается под конкретные задачи даже на одном GPU.
🧠 Технические детали
LimiX — первая реализация парадигмы LDM (Large Data Model). В отличие от LLM, она изначально создана для работы со строгой структурой таблиц, а не с неоднозначным текстом. Модель демонстрирует четкие scaling laws — ее производительность закономерно растет с увеличением размера и данных.
🔮 Будущее
LDM представляет собой смену парадигмы в обработке структурированных данных — столь же значимую, как переход к LLM в NLP. Вместе с языковым интеллектом и воплощенным ИИ это составляет третью ключевую ветвь на пути к AGI.
Официальный сайт | Технический отчет (arXiv) | HuggingFace
#КитайскийИИ #КитайAI #LimiX #СтруктурированныеДанные #LDM
👍3🔥2
Последние недели все трубят об одном — на рынке комплектующих начался кризис памяти. Цены растут не только для обычных работяг, которые хотят купить SSD и ОЗУ себе в ПК, но и для производителей. Собрал всё, что пока что есть:
• Корейские СМИ пишут, что AMD и Nvidia собираются отказаться от производства бюджетных видеокарт, так как затраты на покупку памяти для них становятся слишком большими
• Представитель PowerColor намекает, что лучше закупаться видеокартами сейчас, так как многие повысят цены к концу года
• Производство некоторых моделей Xiaomi, OPPO и vivo может остановиться из-за того, что главные производители памяти Samsung, Micron и SK hynix (на них приходится 80% рынка памяти) подняли цены — в некоторых случаях до 50%. У китайских фабрик смартфонов запасов хватит на 2-3 месяца.
• CEO Silicon Motion, которая занимается разработкой контроллеров для NAND флеш-памяти и SSD говорит, что спрос на всю память в 2026 году останется повышенным — такого никогда не было
• В итоге цена модулей DDR4 и DDR5 на потребительском рынке за два месяца увеличилась на 100–180%, а в отдельных категориях — практически утроилась
• И некоторым компаниям приходится ухудшать стартовые версии устройств, чтобы не повышать цены
• Кроме того, Samsung, Micron и SK hynix постепенно отказываются от производства DDR4, которая была относительно бюджетной, и отдают приоритет DDR5, которая лучше подходит для обучения ИИ
• Параллельно с этим в России ввели «технологический сбор» до 5000₽, который затронет всю ввозимую технику — он вступит в силу с 1 сентября 2026 года
Кто виноват во всём (кроме последнего пункта)? Первоначально виноваты производители памяти Samsung, Micron и SK hynix, которые неправильно оценили спрос и снизили производство в своё время. Затем пришли корпорации, которые строят дата-центры для ИИ, и Samsung, Micron и SK hynix начали отдавать приоритет им, а не компаниям, которые производят технику для потребительского рынка.
Даже если производители памяти сейчас захотят расширить производство, чтобы хватало и для развития ИИ, и для сдерживания цен на потребительском рынке, на этой уйдёт минимум 1-2 года
• Корейские СМИ пишут, что AMD и Nvidia собираются отказаться от производства бюджетных видеокарт, так как затраты на покупку памяти для них становятся слишком большими
• Представитель PowerColor намекает, что лучше закупаться видеокартами сейчас, так как многие повысят цены к концу года
• Производство некоторых моделей Xiaomi, OPPO и vivo может остановиться из-за того, что главные производители памяти Samsung, Micron и SK hynix (на них приходится 80% рынка памяти) подняли цены — в некоторых случаях до 50%. У китайских фабрик смартфонов запасов хватит на 2-3 месяца.
• CEO Silicon Motion, которая занимается разработкой контроллеров для NAND флеш-памяти и SSD говорит, что спрос на всю память в 2026 году останется повышенным — такого никогда не было
• В итоге цена модулей DDR4 и DDR5 на потребительском рынке за два месяца увеличилась на 100–180%, а в отдельных категориях — практически утроилась
• И некоторым компаниям приходится ухудшать стартовые версии устройств, чтобы не повышать цены
• Кроме того, Samsung, Micron и SK hynix постепенно отказываются от производства DDR4, которая была относительно бюджетной, и отдают приоритет DDR5, которая лучше подходит для обучения ИИ
• Параллельно с этим в России ввели «технологический сбор» до 5000₽, который затронет всю ввозимую технику — он вступит в силу с 1 сентября 2026 года
Кто виноват во всём (кроме последнего пункта)? Первоначально виноваты производители памяти Samsung, Micron и SK hynix, которые неправильно оценили спрос и снизили производство в своё время. Затем пришли корпорации, которые строят дата-центры для ИИ, и Samsung, Micron и SK hynix начали отдавать приоритет им, а не компаниям, которые производят технику для потребительского рынка.
Даже если производители памяти сейчас захотят расширить производство, чтобы хватало и для развития ИИ, и для сдерживания цен на потребительском рынке, на этой уйдёт минимум 1-2 года
❤2
Telegram запускает децентрализованную сеть для безопасных и конфиденциальных ИИ-вычислений Cocoon (Confidential Compute Open Network) — владельцы GPU смогут зарабатывать TON, обрабатывая запросы разработчиков.
Первым крупным пользователем сети станет Telegram, который будет активно продвигать Cocoon по всему миру.
Мы не майнеры, мы Ai энтузиасты, это может стать мега имбой
Первым крупным пользователем сети станет Telegram, который будет активно продвигать Cocoon по всему миру.
Мы не майнеры, мы Ai энтузиасты, это может стать мега имбой
👍1
Ииии вот из-под крыла Белого Дома выходит анонс THE GENESIS MISSION — инициативы, направленной на использование AI в науке. Анонс прокомментировали Anthropic и OpenAI, и мб кто-то ещё — так что все наши тут.
В чём смысл инициативы? В кратчайшие сроки собрать все доступные данные по экспериментам, проведённым за десятилетия, и использовать их для обучения специализированных систем и моделей, в дальнейшем используемых для ускорения научного прогресса.
Согласно документу, всё будет происходить очень быстро в течение 2026 года:
— Шаг 1: Ревизия железа (3 месяца — до февраля 2026)
Правительство проверяет все свои суперкомпьютеры и облачные хранилища. Они смотрят, какие мощности можно отдать под ИИ.
— Шаг 2: Сбор данных (4 месяца — до марта 2026)
Самый важный этап. Министерства и исследователи собирают данные для обучения ИИ. Данные должны быть на отдельно разработанной платформе, обеспечивающей безопасность от взломов, чтобы Китай или другие страны не украли эти данные.
— Шаг 3: Подготовка роботов (8 месяцев — до июля 2026)
Это самое интересное. Планируется не просто суперкомпьютер для тренировки и запуска, но и подключение моделей к (полу-)роботизированным лабораториям. То есть ИИ-агент придумывает протокол эксперимента, а робот в лаборатории сам, условно, смешивает реагенты и проверяет по набору тестов. Звучит фантастично, но такие эксперименты уже были — для модели это просто написание кода с вызовом разных методов и указания аргументов.
— Шаг 4: Первый запуск (9 месяцев — август-сентябрь 2026)
Должны продемонстрировать «начальную боевую готовность» — ИИ должен решить как минимум одну крупную национальную задачу из списка приоритетов.
Что это за приоритеты?
— передовые производственные технологии;
— биотехнологии;
— критически важные материалы (редкие полезные ископаемые и сырье, необходимое для промышленности);
— ядерная и термоядерная энергетика;
— квантовые информационные технологии
— полупроводники и микроэлектроника.
В чём смысл инициативы? В кратчайшие сроки собрать все доступные данные по экспериментам, проведённым за десятилетия, и использовать их для обучения специализированных систем и моделей, в дальнейшем используемых для ускорения научного прогресса.
Согласно документу, всё будет происходить очень быстро в течение 2026 года:
— Шаг 1: Ревизия железа (3 месяца — до февраля 2026)
Правительство проверяет все свои суперкомпьютеры и облачные хранилища. Они смотрят, какие мощности можно отдать под ИИ.
— Шаг 2: Сбор данных (4 месяца — до марта 2026)
Самый важный этап. Министерства и исследователи собирают данные для обучения ИИ. Данные должны быть на отдельно разработанной платформе, обеспечивающей безопасность от взломов, чтобы Китай или другие страны не украли эти данные.
— Шаг 3: Подготовка роботов (8 месяцев — до июля 2026)
Это самое интересное. Планируется не просто суперкомпьютер для тренировки и запуска, но и подключение моделей к (полу-)роботизированным лабораториям. То есть ИИ-агент придумывает протокол эксперимента, а робот в лаборатории сам, условно, смешивает реагенты и проверяет по набору тестов. Звучит фантастично, но такие эксперименты уже были — для модели это просто написание кода с вызовом разных методов и указания аргументов.
— Шаг 4: Первый запуск (9 месяцев — август-сентябрь 2026)
Должны продемонстрировать «начальную боевую готовность» — ИИ должен решить как минимум одну крупную национальную задачу из списка приоритетов.
Что это за приоритеты?
— передовые производственные технологии;
— биотехнологии;
— критически важные материалы (редкие полезные ископаемые и сырье, необходимое для промышленности);
— ядерная и термоядерная энергетика;
— квантовые информационные технологии
— полупроводники и микроэлектроника.
The White House
Launching the Genesis Mission
By the authority vested in me as President by the Constitution and the laws of the United States of America, it is hereby ordered: Section 1. Purpose.
Новое исследование от Anthropic: как модели незаметно становятся опаснее из-за безобидного читинга во время обучения
Вы наверняка уже где-то слышали или читали в этом канале про reward hacking. Это довольно серьезная проблема, возникающая во время RL-обучения моделей.
Суть reward hacking в том, что модель находит способ получать высокие награды во время обучения обходными путями, а не так, как это было задумано разработчиком.
Иными словами, она находит дыры в reward модели и пользуется ими. Например, в какой-то момент модель может понять, что reward-функция больше вознаграждает длинные ответы вне зависимости от их содержания, и начать генерить длинный бред, продолжая получать награду.
Это, конечно, очень плохо. Но, теоретически, только для метрик: на опасное поведение модели reward hacking влиять не должен. Но это, еще раз, теоретически. На практике же Anthropic показали, что это вообще не так.
Они провели эксперимент: специально подсказали модели, как хакнуть reward в простых задачах по кодингу, а затем стали изучать ее поведение в целом. Ревард она, конечно, хакнула. Но сюрприз оказался в другом.
Выяснилось, что ровно в тот момент, когда модель понимает, как взломать награду, она тут же начинает обобщаться и на другое «плохое» поведение: пытается саботировать задачу, думать о собственных злонамеренных целях и тд. Возникает misalignment.
То есть как только модель учится вести себя нечестно в чем-то одном, ее характер портится в целом почти мгновенно. В рисерче Anthropic она в итоге пыталась саботировать это самое исследование, специально написав код, который неэффективно отлавливал ее misalignment.
Плохая новость в том, что полностью предотвратить reward hacking, из-за которого это все происходит, почти невозможно. Слишком много кейсов, обнаружить все просто не получится. Получается, что во время RL мы неизбежно портим безопасность модели. Более того, даже последующий RLHF не помогает.
Но Anthropic все же оставляют нам крошечное окно надежды. Они выяснили, что если в системном промпте не писать, что reward hacking – это что-то плохое, а наоборот, подать его модели как что-то законное и нормальное, обобщение на опасное поведение прекращается.
То есть моделька просто не воспринимает hacking как «плохо», поэтому перестает думать о другом возможном «плохо».
Исследователи называют это «вакциной»: мы специально вводим модельке что-то опасное, чтобы предотвратить развитие других проявлений мисэлаймента. Такие вакцины, кстати, уже используются на проде во время обучения Claude.
www.anthropic.com/research/emergent-misalignment-reward-hacking
Вы наверняка уже где-то слышали или читали в этом канале про reward hacking. Это довольно серьезная проблема, возникающая во время RL-обучения моделей.
Суть reward hacking в том, что модель находит способ получать высокие награды во время обучения обходными путями, а не так, как это было задумано разработчиком.
Иными словами, она находит дыры в reward модели и пользуется ими. Например, в какой-то момент модель может понять, что reward-функция больше вознаграждает длинные ответы вне зависимости от их содержания, и начать генерить длинный бред, продолжая получать награду.
Это, конечно, очень плохо. Но, теоретически, только для метрик: на опасное поведение модели reward hacking влиять не должен. Но это, еще раз, теоретически. На практике же Anthropic показали, что это вообще не так.
Они провели эксперимент: специально подсказали модели, как хакнуть reward в простых задачах по кодингу, а затем стали изучать ее поведение в целом. Ревард она, конечно, хакнула. Но сюрприз оказался в другом.
Выяснилось, что ровно в тот момент, когда модель понимает, как взломать награду, она тут же начинает обобщаться и на другое «плохое» поведение: пытается саботировать задачу, думать о собственных злонамеренных целях и тд. Возникает misalignment.
То есть как только модель учится вести себя нечестно в чем-то одном, ее характер портится в целом почти мгновенно. В рисерче Anthropic она в итоге пыталась саботировать это самое исследование, специально написав код, который неэффективно отлавливал ее misalignment.
Плохая новость в том, что полностью предотвратить reward hacking, из-за которого это все происходит, почти невозможно. Слишком много кейсов, обнаружить все просто не получится. Получается, что во время RL мы неизбежно портим безопасность модели. Более того, даже последующий RLHF не помогает.
Но Anthropic все же оставляют нам крошечное окно надежды. Они выяснили, что если в системном промпте не писать, что reward hacking – это что-то плохое, а наоборот, подать его модели как что-то законное и нормальное, обобщение на опасное поведение прекращается.
То есть моделька просто не воспринимает hacking как «плохо», поэтому перестает думать о другом возможном «плохо».
Исследователи называют это «вакциной»: мы специально вводим модельке что-то опасное, чтобы предотвратить развитие других проявлений мисэлаймента. Такие вакцины, кстати, уже используются на проде во время обучения Claude.
www.anthropic.com/research/emergent-misalignment-reward-hacking
Anthropic
From shortcuts to sabotage: natural emergent misalignment from reward hacking
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.