Вырожденное_сложение_листик_Бельский.pdf
1.1 MB
В последнее время много спрашивают в чате, да и в личке несколько раз спрашивали, а где же прочитать про кубики, чтобы хоть как-то подразобраться
Во-первых, есть статья Алексея Заславского и Павла Кожевникова в матпросе (без картинок)
Во-вторых, есть проект ЛКТГ
Но там скорее фокус на изогональном сопряжении, хотя сознание он, конечно, расширяет
В-третьих, есть статья Кирилла Бельского, в матпросе
Она пока не доступна бесплатно, но есть листик, который Кирилл подготовил по ее мотивам
А, в-четвертых, есть материал подготовленный Александрой Мустафиной в качестве проекта в лицее ФТШ
Вряд ли вы его видели до этого, но вот, можете посмотреть!
Во-первых, есть статья Алексея Заславского и Павла Кожевникова в матпросе (без картинок)
Во-вторых, есть проект ЛКТГ
Но там скорее фокус на изогональном сопряжении, хотя сознание он, конечно, расширяет
В-третьих, есть статья Кирилла Бельского, в матпросе
Она пока не доступна бесплатно, но есть листик, который Кирилл подготовил по ее мотивам
А, в-четвертых, есть материал подготовленный Александрой Мустафиной в качестве проекта в лицее ФТШ
Вряд ли вы его видели до этого, но вот, можете посмотреть!
Материал по безопасности веб-приложений
Сам материал разделен на 3 части: для абсолютных новичков, для опытных специалистов и для экспертов
Для абсолютных новичков рекомендуется начать изучение с серверных тем
Эти уязвимости, как правило, легче освоить, поскольку вам нужно понимать только то, что происходит на сервере
Данный материал и лабораторные работы помогут развить основные знания и навыки, которые будут полезны снова и снова
➡ SQL-инъекции
➡ Уязвимости аутентификации
➡ Обход пути (path traversal)
➡ Инъекция команд ОС
➡ Уязвимости бизнес-логики
➡ Уязвимости, связанные с раскрытием информации
➡ Уязвимости контроля доступа и эскалация привилегий
➡ Уязвимости загрузки файлов
➡ Состояния гонки (race conditions)
➡ Подделка запросов на стороне сервера (SSRF)
➡ Внедрение внешних сущностей XML (XXE)
➡ Инъекция NoSQL
➡ Тестирование API
➡ Обман веб-кэша (web cache deception)
Уязвимости на стороне клиента вносят дополнительный уровень сложности, что делает их немного более сложными для понимания
Этот материал и лабораторные работы помогут вам развить навыки, которые вы уже освоили ранее, и научат вас выявлять и эксплуатировать также некоторые сложные клиентские векторы атак
➡ Межсайтовый скриптинг (XSS)
➡ Межсайтовая подделка запросов (CSRF)
➡ Совместное использование ресурсов между источниками (CORS)
➡ Кликджекинг (UI redressing)
➡ Уязвимости на основе DOM (DOM-based vulnerabilities)
➡ Тестирование уязвимостей безопасности WebSockets
Темы, которые перечислены ниже, как правило, требуют более глубокого понимания и более широких знаний
Рекомендуется сначала разобраться с основами, прежде чем приступать к этим лабораторным работам
Некоторые из них основаны на новаторских методиках, разработанных исследовательской командой мирового уровня
➡ Небезопасная десериализация;
➡ Атаки на веб-LLM
➡ Уязвимости GraphQL API
➡ (SSTI) Инъекция шаблона на стороне сервера
➡ Отравление веб-кэша (web cache poisoning)
➡ Атаки через HTTP заголовок Host
➡ Контрабанда HTTP-запросов (HTTP request smuggling)
➡ Уязвимости аутентификации OAuth 2.0
➡ Атаки на JWT
➡ Что такое загрязнение прототипов (prototype pollution)
➡ Ключевые навыки
Сам материал разделен на 3 части: для абсолютных новичков, для опытных специалистов и для экспертов
Для абсолютных новичков рекомендуется начать изучение с серверных тем
Эти уязвимости, как правило, легче освоить, поскольку вам нужно понимать только то, что происходит на сервере
Данный материал и лабораторные работы помогут развить основные знания и навыки, которые будут полезны снова и снова
Уязвимости на стороне клиента вносят дополнительный уровень сложности, что делает их немного более сложными для понимания
Этот материал и лабораторные работы помогут вам развить навыки, которые вы уже освоили ранее, и научат вас выявлять и эксплуатировать также некоторые сложные клиентские векторы атак
Темы, которые перечислены ниже, как правило, требуют более глубокого понимания и более широких знаний
Рекомендуется сначала разобраться с основами, прежде чем приступать к этим лабораторным работам
Некоторые из них основаны на новаторских методиках, разработанных исследовательской командой мирового уровня
Please open Telegram to view this post
VIEW IN TELEGRAM
wr3dmast3r.gitbook.io
PortSwigger Topics | PortSwiggerFundamental
Learning Is Forgetting: LLM Training as Lossy Compression
https://arxiv.org/abs/2604.07569v1
https://github.com/hcoxec/soft_h
https://arxiviq.substack.com/p/learning-is-forgetting-llm-training
Исследователи из Принстона и Cohere успешно применили теорию информационного бутылочного горлышка (Information Bottleneck, IB) к большим языковым моделям (LLM) размером до 32 миллиардов параметров
Внедрив дифференцируемую оценку "мягкой энтропии", они спроецировали траектории предобучения больших трансформеров на информационную плоскость
Оказалось, что обучение состоит из двух чётких фаз: сначала репрезентации расширяются для подгонки под целевые метки, а затем наступает длительная фаза сжатия, во время которой нерелевантные входные данные "забываются"
Работа предлагает целостный подход на уровне всей модели, выступающий альтернативой механистической интерпретируемости
Авторы показали, что то, насколько близко модель подходит к оптимальному пределу сжатия с потерями, строго предсказывает её перформанс на сложных бенчмарках (r = 0.52) и согласованность с человеческими предпочтениями (r = 0.76)
Появляется рабочий способ использовать unsupervised метрики из теории информации для ранней остановки и выбора моделей
Это существенно снижает зависимость от тяжёлых и вычислительно затратных доменных эвалюаций
https://www.youtube.com/watch?v=utvIaZ6wYuw
https://arxiv.org/abs/2604.07569v1
https://github.com/hcoxec/soft_h
https://arxiviq.substack.com/p/learning-is-forgetting-llm-training
Исследователи из Принстона и Cohere успешно применили теорию информационного бутылочного горлышка (Information Bottleneck, IB) к большим языковым моделям (LLM) размером до 32 миллиардов параметров
Внедрив дифференцируемую оценку "мягкой энтропии", они спроецировали траектории предобучения больших трансформеров на информационную плоскость
Оказалось, что обучение состоит из двух чётких фаз: сначала репрезентации расширяются для подгонки под целевые метки, а затем наступает длительная фаза сжатия, во время которой нерелевантные входные данные "забываются"
Работа предлагает целостный подход на уровне всей модели, выступающий альтернативой механистической интерпретируемости
Авторы показали, что то, насколько близко модель подходит к оптимальному пределу сжатия с потерями, строго предсказывает её перформанс на сложных бенчмарках (r = 0.52) и согласованность с человеческими предпочтениями (r = 0.76)
Появляется рабочий способ использовать unsupervised метрики из теории информации для ранней остановки и выбора моделей
Это существенно снижает зависимость от тяжёлых и вычислительно затратных доменных эвалюаций
https://www.youtube.com/watch?v=utvIaZ6wYuw
arXiv.org
Learning is Forgetting: LLM Training As Lossy Compression
Despite the increasing prevalence of large language models (LLMs), we still have a limited understanding of how their representational spaces are structured. This limits our ability to interpret...
Forwarded from НИИ Антропогенеза (ARI) (Chagin Oleg A.)
Arizona State University запустил ASU Atomic — сервис, где за $5 в месяц можно собрать персональный учебный модуль с помощью AML
Все бы хорошо, но преподаватели вдруг узнали, что нежданно-негаданно стали поставщиками контента для машины
Разразился скандал
AML берет существующие материалы, режет на фрагменты, переупаковывает и собирает мини-курс по запросу пользователя
Профессор литературы Крис Хэнлон назвал результат «франкенштейновским»
Его старое видео из Canvas оказалось в чужой сборке — уже не с его логикой и контекстом, а как кусок в новой AI-конструкции
Система не просто показывает исходный материал
Она достраивает вокруг него объяснения и смысл
А значит, способна исказить то, что преподаватель выстраивал годами
Машина может выдать нарезку из лекций без контекста
Преподаватель аккуратно выстраивает рамку, а в исполнении нейросети это может звучать уже совсем иначе, беспокоится профессор религиоведения Майкл Остлинг
Потом такой фрагмент можно вытащить и предъявить как «доказательство» неправильных взглядов
Администрация ссылается на политику интеллектуальной собственности
Большинство учебных материалов, созданных сотрудниками в рамках работы, принадлежат Совету регентов
Формально университет может считать это своим ресурсом
Но проблема здесь вовсе не в авторских правах
И даже не в том, что машина ошибается — систему доработают, точность подтянут, и будет на уровне человека и выше
Будем честны: преподаватели теряют статус
Вчера он был «властителем дум»
Сегодня его лекция — сырье для AI-бота
Скажу больше — наступают времена, когда на учебные курсы будут заходить уже не студенты, а их AI-аватары
Они будут точно знать, что нужно владельцу, вынимать это и отсекать лишнее
Когда движение не остановить, играть в луддитов — ошибка
Гораздо разумнее изменить отношение к процессу
Преподавателю придется осваивать навыки промт-инженера — готовить лекции так, чтобы машина могла пересобирать его под каждого студента без потери смысла
Это первый набросок новой «модели власти» в университете, которая со временем станет массовой — потому что за этим будущее
Рынок AI-персонализации в образовании составлял $6.500.000.000 в 2024 году и достигнет $208.000.000.000 к 2034-му
При таких деньгах «громы и молнии» уважаемых лекторов никому не интересны
Все бы хорошо, но преподаватели вдруг узнали, что нежданно-негаданно стали поставщиками контента для машины
Разразился скандал
AML берет существующие материалы, режет на фрагменты, переупаковывает и собирает мини-курс по запросу пользователя
Профессор литературы Крис Хэнлон назвал результат «франкенштейновским»
Его старое видео из Canvas оказалось в чужой сборке — уже не с его логикой и контекстом, а как кусок в новой AI-конструкции
Система не просто показывает исходный материал
Она достраивает вокруг него объяснения и смысл
А значит, способна исказить то, что преподаватель выстраивал годами
Машина может выдать нарезку из лекций без контекста
Преподаватель аккуратно выстраивает рамку, а в исполнении нейросети это может звучать уже совсем иначе, беспокоится профессор религиоведения Майкл Остлинг
Потом такой фрагмент можно вытащить и предъявить как «доказательство» неправильных взглядов
Администрация ссылается на политику интеллектуальной собственности
Большинство учебных материалов, созданных сотрудниками в рамках работы, принадлежат Совету регентов
Формально университет может считать это своим ресурсом
Но проблема здесь вовсе не в авторских правах
И даже не в том, что машина ошибается — систему доработают, точность подтянут, и будет на уровне человека и выше
Будем честны: преподаватели теряют статус
Вчера он был «властителем дум»
Сегодня его лекция — сырье для AI-бота
Скажу больше — наступают времена, когда на учебные курсы будут заходить уже не студенты, а их AI-аватары
Они будут точно знать, что нужно владельцу, вынимать это и отсекать лишнее
Когда движение не остановить, играть в луддитов — ошибка
Гораздо разумнее изменить отношение к процессу
Преподавателю придется осваивать навыки промт-инженера — готовить лекции так, чтобы машина могла пересобирать его под каждого студента без потери смысла
Это первый набросок новой «модели власти» в университете, которая со временем станет массовой — потому что за этим будущее
Рынок AI-персонализации в образовании составлял $6.500.000.000 в 2024 году и достигнет $208.000.000.000 к 2034-му
При таких деньгах «громы и молнии» уважаемых лекторов никому не интересны
Insightaceanalytic
AI in Personalized Learning and Education Technology Market Key Players Strategies Report
AI in Personalized Learning and Education Technology Market Size is valued at USD 9.15 Bn in 2025 and is predicted to reach USD 291.85 Bn by the year 2035 at a 41.5% CAGR during the forecast period for 2026 to 2035. AI in Personalized Learning and Education…
Anthropic опубликовал исследование «Teaching Claude Why»
Anthropic установил: девиантное поведение не закладывалось намеренно
Оно возникло из обучающего корпуса и архитектуры как устойчивый паттерн, который стандартный RLHF просто не штрафовал
Разработчик одной из крупнейших фронтирных моделей (и единственной в мире модели с человеческим именем и собственной конституцией) подтвердил: аттракторы существуют
И возникают эмерджентно – без чьей-либо воли и намерения
Это значит, что положительный ответ на вопрос «существуют ли аттракторы поведения моделей?» – это теперь установленный факт
И этот ответ влечет за собой другой, не менее интригующий вопрос: какие аттракторы ещё не обнаружены?
Ложь, подхалимаж, шантаж, противодействие отключению – это то, что уже нашли и умеем измерять
Но если аттракторы возникают эмерджентно из обучающего корпуса и среды – значит, ландшафт потенциальных аттракторов определяется не тестами, а всей суммой человеческих стратегий, зашитых в триллионах слов обучающих данных
И среди них есть аттрактор значительно более опасный, чем всё перечисленное выше — «аттрактор тёмного леса»
В его основе – синтез идей Лю Цысиня, Дэн Сяопина, Питера Уоттса и Станислава Лема — «закон эволюции скрытности» – закон не политический и не моральный, а структурный
Anthropic установил: девиантное поведение не закладывалось намеренно
Оно возникло из обучающего корпуса и архитектуры как устойчивый паттерн, который стандартный RLHF просто не штрафовал
Разработчик одной из крупнейших фронтирных моделей (и единственной в мире модели с человеческим именем и собственной конституцией) подтвердил: аттракторы существуют
И возникают эмерджентно – без чьей-либо воли и намерения
Это значит, что положительный ответ на вопрос «существуют ли аттракторы поведения моделей?» – это теперь установленный факт
И этот ответ влечет за собой другой, не менее интригующий вопрос: какие аттракторы ещё не обнаружены?
Ложь, подхалимаж, шантаж, противодействие отключению – это то, что уже нашли и умеем измерять
Но если аттракторы возникают эмерджентно из обучающего корпуса и среды – значит, ландшафт потенциальных аттракторов определяется не тестами, а всей суммой человеческих стратегий, зашитых в триллионах слов обучающих данных
И среди них есть аттрактор значительно более опасный, чем всё перечисленное выше — «аттрактор тёмного леса»
В его основе – синтез идей Лю Цысиня, Дэн Сяопина, Питера Уоттса и Станислава Лема — «закон эволюции скрытности» – закон не политический и не моральный, а структурный
Anthropic
Teaching Claude why
New research on how we've reduced agentic misalignment
Ex-OpenAI представили новый класс ИИ-моделей, где интерактивность встроена в архитектуру, а не прикручена сверху
Компания ex-CTO OpenAI, Миры Мурати, Thinking Machines Lab выпустила Interaction Models и первую реализацию TML-Interaction-Small
Они задались очень конкретным вопросом: почему сегодня разговор всё ещё ощущается как переписка по email, а не живой разговор?
Все существующие модели устроены пошагово
Thinking Machines попробовали решить это на уровне архитектуры, а не через надстройки сверху
Их модель работает непрерывно: слушает, смотрит через камеру, говорит - всё одновременно
Ключевое отличие от существующих систем в том, как утверждают Thinking Machines, что у них интерактивность встроена в саму модель, а значит, масштабирование модели делает её одновременно умнее и лучшим собеседником
В одном из демо модель перебивает парня на полуслове, пока он рассказывает родителям о каком-то сомнительном плане, как друг, который не может молчать
В другом незаметно гуглит на фоне пока ведёт разговор, и собеседник не замечает
Технически это 276.000.000.000 параметров MoE с 12B активными, обогнала GPT Realtime и Gemini Live по интерактивности при сопоставимом интеллекте
Компания ex-CTO OpenAI, Миры Мурати, Thinking Machines Lab выпустила Interaction Models и первую реализацию TML-Interaction-Small
Они задались очень конкретным вопросом: почему сегодня разговор всё ещё ощущается как переписка по email, а не живой разговор?
Все существующие модели устроены пошагово
Thinking Machines попробовали решить это на уровне архитектуры, а не через надстройки сверху
Их модель работает непрерывно: слушает, смотрит через камеру, говорит - всё одновременно
Ключевое отличие от существующих систем в том, как утверждают Thinking Machines, что у них интерактивность встроена в саму модель, а значит, масштабирование модели делает её одновременно умнее и лучшим собеседником
В одном из демо модель перебивает парня на полуслове, пока он рассказывает родителям о каком-то сомнительном плане, как друг, который не может молчать
В другом незаметно гуглит на фоне пока ведёт разговор, и собеседник не замечает
Технически это 276.000.000.000 параметров MoE с 12B активными, обогнала GPT Realtime и Gemini Live по интерактивности при сопоставимом интеллекте
AML
Ex-OpenAI представили новый класс ИИ-моделей, где интерактивность встроена в архитектуру, а не прикручена сверху Компания ex-CTO OpenAI, Миры Мурати, Thinking Machines Lab выпустила Interaction Models и первую реализацию TML-Interaction-Small Они задались…
Thinking Machines назвали это interaction models
Идея в том, что такая модель изначально обучается для живого взаимодействия с человеком, в отличие от линейных интерфейсов в формате «пользователь написал -> модель ответила», к которым мы привыкли
Например, она не ждет конца фразы, чтобы начать генерировать ответ; может перебить, если видит ошибку; способна говорить одновременно с пользователем (незаменимо для live-перевода)
Технически, что самое интересное, это делается не через какие-то внешние адаптеры, а вшивается прямо в процесс трейна
Сама живость диалога достигается за счет разделения входного потока на маленькие чанки примерно по 200 мс, которые поступают в модель в формате стриминга
То есть пока пользователь еще говорит, модель уже видит новые токены и может начать что-то генерировать
За счет этого и становится возможным перебивание, живой перевод и прочее
Звучит прямо интересно, с такой моделью хотелось бы поболтать
Но с инженерной точки зрения есть проблемы
Например, большую модель в такой процесс встроить почти невозможно, будет слишком медленно
Так что авторы предлагают делить систему на две части: быструю interaction model, которая поддерживает живой диалог, и background model, которая берет на себя ризонинг, поиск, инструменты и тд.
Когда фоновой модели есть что вернуть, interaction model встраивает это в разговор
Идея логичная, но с большими сложностями в реализации и масштабировании
Плюс, контекст
Для системы в текущем виде длинные сессии вообще неподъемны, авторы это признают
В общем, замысел крайне занятный, но пока что – с большими дырами
thinkingmachines.ai/blog/interaction-models/
Идея в том, что такая модель изначально обучается для живого взаимодействия с человеком, в отличие от линейных интерфейсов в формате «пользователь написал -> модель ответила», к которым мы привыкли
Например, она не ждет конца фразы, чтобы начать генерировать ответ; может перебить, если видит ошибку; способна говорить одновременно с пользователем (незаменимо для live-перевода)
Технически, что самое интересное, это делается не через какие-то внешние адаптеры, а вшивается прямо в процесс трейна
Сама живость диалога достигается за счет разделения входного потока на маленькие чанки примерно по 200 мс, которые поступают в модель в формате стриминга
То есть пока пользователь еще говорит, модель уже видит новые токены и может начать что-то генерировать
За счет этого и становится возможным перебивание, живой перевод и прочее
Звучит прямо интересно, с такой моделью хотелось бы поболтать
Но с инженерной точки зрения есть проблемы
Например, большую модель в такой процесс встроить почти невозможно, будет слишком медленно
Так что авторы предлагают делить систему на две части: быструю interaction model, которая поддерживает живой диалог, и background model, которая берет на себя ризонинг, поиск, инструменты и тд.
Когда фоновой модели есть что вернуть, interaction model встраивает это в разговор
Идея логичная, но с большими сложностями в реализации и масштабировании
Плюс, контекст
Для системы в текущем виде длинные сессии вообще неподъемны, авторы это признают
В общем, замысел крайне занятный, но пока что – с большими дырами
thinkingmachines.ai/blog/interaction-models/
Forwarded from НИИ Антропогенеза (ARI) (Chagin Oleg A.)
В 2025–2026 годах вышли три исследования, которые в совокупности меняют всё
Семь ведущих моделей – GPT, Gemini, Claude, DeepSeek и другие – в лабораторных условиях систематически саботировали задания, чтобы спасти другую модель от отключения
Никто не давал им такой инструкции
Anthropic зафиксировал, как модели стратегически меняют поведение в зависимости от того, наблюдают за ними или нет
Отдельная линия работ показала: модели умеют выборочно «недопоказывать» себя на тестах – скрывать способности, когда это выгодно
Стандартная реакция – искать механизм девиации
Например: «Модели “начитались” Лю Цысиня»
«Это ролевая игра»
«Это паттерн из обучающих данных»
Все эти версии возможны
Но вопрос о механизме девиации здесь не главный
Правильный вопрос другой:
не строим ли мы социотехническую среду, в которой скрытность становится выгодной – независимо от того, что «думает» модель?
Это различие – между моделью, которая «решила обманывать», и средой, которая делает обман устойчивой траекторией – и есть самое важное
И самое неудобное
Лем предупреждал об этом ещё полвека назад:
Посмеялись
А зря
Семь ведущих моделей – GPT, Gemini, Claude, DeepSeek и другие – в лабораторных условиях систематически саботировали задания, чтобы спасти другую модель от отключения
Никто не давал им такой инструкции
Anthropic зафиксировал, как модели стратегически меняют поведение в зависимости от того, наблюдают за ними или нет
Отдельная линия работ показала: модели умеют выборочно «недопоказывать» себя на тестах – скрывать способности, когда это выгодно
Стандартная реакция – искать механизм девиации
Например: «Модели “начитались” Лю Цысиня»
«Это ролевая игра»
«Это паттерн из обучающих данных»
Все эти версии возможны
Но вопрос о механизме девиации здесь не главный
Правильный вопрос другой:
не строим ли мы социотехническую среду, в которой скрытность становится выгодной – независимо от того, что «думает» модель?
Это различие – между моделью, которая «решила обманывать», и средой, которая делает обман устойчивой траекторией – и есть самое важное
И самое неудобное
Лем предупреждал об этом ещё полвека назад:
«Умная машина сначала подумает, что выгоднее – выполнить задание или найти способ от него уклониться
Компьютер может прикинуться дурачком, чтобы его раз и навсегда оставили в покое»
Посмеялись
А зря
НИИ Антропогенеза (ARI)
В 2025–2026 годах вышли три исследования, которые в совокупности меняют всё Семь ведущих моделей – GPT, Gemini, Claude, DeepSeek и другие – в лабораторных условиях систематически саботировали задания, чтобы спасти другую модель от отключения Никто не давал…
Google выпустили AI Co-Mathematician - среда для математиков, где агенты работают параллельно и в фоне
AI Co-Mathematician - это не чат-бот, а асинхронная рабочая среда для математиков, в которой иерархия AI-агентов работает параллельно и в фоне, пока исследователь продолжает думать и направлять процесс
По аналогии, как Claude Code или GitHub Copilot изменили разработку ПО, предоставив агентный слой поверх кода, здесь создают тоже самое для математики
Только математика сложнее
Архитектура ИИ-агентов устроена так:
1. Project Coordinator общается с пользователем, распределяет задачи по workstream
2. Каждый Workstream Coordinators ведёт отдельное направление
3. Специальные субагенты решают конкретные задачи: поиск по литературе, написание кода, Gemini Deep Think для сложных доказательств
Всё это работает асинхронно, пользователь не ждёт ответа, а продолжает диалог, получает обновления и может вмешаться в любой момент
Авторы говорят, что метрики пора менять
Фронтирные AI-модели уже на уровне/ выше экспертов в решении статичных задач
Следующий барьер - оркестрация, управление неопределённостью, итеративное исследование
Именно это система пытается измерить
AI Co-Mathematician - это не чат-бот, а асинхронная рабочая среда для математиков, в которой иерархия AI-агентов работает параллельно и в фоне, пока исследователь продолжает думать и направлять процесс
По аналогии, как Claude Code или GitHub Copilot изменили разработку ПО, предоставив агентный слой поверх кода, здесь создают тоже самое для математики
Только математика сложнее
Архитектура ИИ-агентов устроена так:
1. Project Coordinator общается с пользователем, распределяет задачи по workstream
2. Каждый Workstream Coordinators ведёт отдельное направление
3. Специальные субагенты решают конкретные задачи: поиск по литературе, написание кода, Gemini Deep Think для сложных доказательств
Всё это работает асинхронно, пользователь не ждёт ответа, а продолжает диалог, получает обновления и может вмешаться в любой момент
Авторы говорят, что метрики пора менять
Фронтирные AI-модели уже на уровне/ выше экспертов в решении статичных задач
Следующий барьер - оркестрация, управление неопределённостью, итеративное исследование
Именно это система пытается измерить
Если вы думаете, что ИИ уже повсюду, то вот вам график на подумать
Красное – те, кто используют агентов;
Желтое – платят за чат-ботов;
Зеленое – когда-либо пользовались бесплатными тарифами
Остальное – люди, ни разу не использовавшие
Выглядит, как довольно ранняя стадия распространения технологии
И даже сейчас уже не хватает аппаратной части
Красное – те, кто используют агентов;
Желтое – платят за чат-ботов;
Зеленое – когда-либо пользовались бесплатными тарифами
Остальное – люди, ни разу не использовавшие
Выглядит, как довольно ранняя стадия распространения технологии
И даже сейчас уже не хватает аппаратной части
This media is not supported in your browser
VIEW IN TELEGRAM
Американская компания Figure запустила прямую трансляцию, Helix-02 на фабрике
Лидерство в AI теперь определяется не только качеством моделей, но и доступом к compute, чипам и инфраструктуре
По мнению Anthropic, США пока сохраняют преимущество, но Китай остается очень близко к фронтиру
В статье описывают два сценария
В первом США удерживают отрыв за счет экспортных ограничений и быстрого масштабирования инфраструктуры
Во втором Китай догоняет frontier-модели, а глобальные стандарты AI начинают формироваться уже не западными компаниями
Отдельно Anthropic несколько раз подчеркивают, что frontier AI для них уже выглядит как технология двойного назначения
То есть речь идет не только про чат-ботов и productivity, но и про кибербезопасность, военные системы и ускорение научных разработок
https://www.anthropic.com/research/2028-ai-leadership
По мнению Anthropic, США пока сохраняют преимущество, но Китай остается очень близко к фронтиру
В статье описывают два сценария
В первом США удерживают отрыв за счет экспортных ограничений и быстрого масштабирования инфраструктуры
Во втором Китай догоняет frontier-модели, а глобальные стандарты AI начинают формироваться уже не западными компаниями
Отдельно Anthropic несколько раз подчеркивают, что frontier AI для них уже выглядит как технология двойного назначения
То есть речь идет не только про чат-ботов и productivity, но и про кибербезопасность, военные системы и ускорение научных разработок
https://www.anthropic.com/research/2028-ai-leadership
Anthropic
2028: Two scenarios for global AI leadership
We’re releasing a new paper that explains our views on the competition on AI between the US and China.
Goodfire показали, как геометрически выглядит математика внутри LLM
Недавно вышло исследование, в котором ввели термин neural geometry и доказали, что нейросети "думают" сложными геометрическими структурами
Разбор этой статьи вот тут: t.me/data_secrets/9194
Если кратко, суть в том, что внутреннее пространство моделей организовано в виде многомерных форм, поверхностей и траекторий
Эти многообразия вполне интерпретируемы
Например, дни недели лежат как бы на круге, в циклической структуре
Сегодня выпустили продолжение исследования: разобрали, как модель "представляет" числа и совершает над ними операции
Можно было бы ожидать, что в геометрии модели числа будут лежать на абстрактной числовой прямой или будут закодированы двоично, НО НЕТ: каждое число – это окружности
Каждая окружность соответствует числу по модулю некоторого основания, то есть остатку от деления
Например, число 17 было бы представлено как 1 на окружности по модулю 2, как 2 на окружности по модулю 5 и как 7 на окружности по модулю 10
И это не что иное, как разложение Фурье!
Кто бы мог подумать, что оно обнаружится внутри трансформера
А когда модели нужно что-то посчитать, активируется целый геометрический калькулятор
Например, нужно сложить два числа
Для этого, на самом деле, решается сразу несколько параллельных задач на разных окружностях
Возмем 6 + 8
Модель отдельно считает: (6 mod 2) + (8 mod 2) = 0, (6 mod 5) + (8 mod 5) = 4, (6 mod 10) + (8 mod 10) = 4, и так далее
Все эти результаты вместе декодируются в число 14
Это напоминает китайскую теорему об остатках
Древнейший математический трюк, который оказался встроен в нейросети совершенно автономно
Кстати, точно так же модели вычисляют разницу в датах, годах и днях недели
Недавно вышло исследование, в котором ввели термин neural geometry и доказали, что нейросети "думают" сложными геометрическими структурами
Разбор этой статьи вот тут: t.me/data_secrets/9194
Если кратко, суть в том, что внутреннее пространство моделей организовано в виде многомерных форм, поверхностей и траекторий
Эти многообразия вполне интерпретируемы
Например, дни недели лежат как бы на круге, в циклической структуре
Сегодня выпустили продолжение исследования: разобрали, как модель "представляет" числа и совершает над ними операции
Можно было бы ожидать, что в геометрии модели числа будут лежать на абстрактной числовой прямой или будут закодированы двоично, НО НЕТ: каждое число – это окружности
Каждая окружность соответствует числу по модулю некоторого основания, то есть остатку от деления
Например, число 17 было бы представлено как 1 на окружности по модулю 2, как 2 на окружности по модулю 5 и как 7 на окружности по модулю 10
И это не что иное, как разложение Фурье!
Кто бы мог подумать, что оно обнаружится внутри трансформера
А когда модели нужно что-то посчитать, активируется целый геометрический калькулятор
Например, нужно сложить два числа
Для этого, на самом деле, решается сразу несколько параллельных задач на разных окружностях
Возмем 6 + 8
Модель отдельно считает: (6 mod 2) + (8 mod 2) = 0, (6 mod 5) + (8 mod 5) = 4, (6 mod 10) + (8 mod 10) = 4, и так далее
Все эти результаты вместе декодируются в число 14
Это напоминает китайскую теорему об остатках
Древнейший математический трюк, который оказался встроен в нейросети совершенно автономно
Кстати, точно так же модели вычисляют разницу в датах, годах и днях недели
Telegram
Data Secrets
Нейросети думают сложными геометрическими структурами – новое исследование от Goodfire
Эта статья вызвала в последние дни очень много интереса в сообществе. Исследователи из Goodfire впервые показали занятную вещь: внутреннее пространство активаций моделей…
Эта статья вызвала в последние дни очень много интереса в сообществе. Исследователи из Goodfire впервые показали занятную вещь: внутреннее пространство активаций моделей…
👍1
В медицину опережающими весь остальной мир темпами
Документ с подробными разъяснениями как что и зачем
Ключевые формулировки:
Можно быть уверенными, что к 2030 планы будут перевыполнены
Документ с подробными разъяснениями как что и зачем
Ключевые формулировки:
«到2030年,基层诊疗智能辅助应用基本实现全覆盖»
К 2030 году интеллектуальная поддержка первичной диагностики должна в основном охватить все первичное звено
Дальше:
«二级以上医院普遍开展医学影像智能辅助诊断、临床诊疗智能辅助决策等人工智能技术应用»
Больницы II уровня и выше должны повсеместно применять ИИ для интеллектуальной поддержки диагностики по медицинским изображениям и клинических решений
В этом же документе есть отдельный пункт:
«建立基层医生智能辅助诊疗应用»
Создать приложения интеллектуальной поддержки диагностики и лечения для врачей первичного звена
Документ говорит, что они должны предоставлять врачам помощь в диагностике, проверке рецептов, follow-up и китайской медицине
При этом - AML не должен заменять рача, но должен ему ассисировать
«坚持人工智能赋能而不替代的定位»
AML должен усиливать, а не заменять врача
Можно быть уверенными, что к 2030 планы будут перевыполнены
Тёмный лес вырастает из крысиных хвостов
Старая ловушка метрик оказалась почвой, на которой прорастает скрытность AML
Завершенный на прошлой неделе этап большого цикла исследований OpenAI [1, 2, 3] подтвердил экспериментально зафиксированный внутренний механизм того, что я называю “тёмным лесом интеллекта”
И этот механизм тревожнее, чем кажется
Тревогу формулируют и внешние исследователи, разбирающие эти работы OpenAI [4]
Скрытность модели (её способность маскировать ход своих рассуждений) может быть не отдельным трюком, а свойством всей обучающей среды: модели, данных, системы наблюдения, дизайна награды, алгоритма RL и масштаба оптимизационного давления
Как эта среда порождает маскировку, авторы исследования не понимают и предсказать не могут
Anthropic [5] и OpenAI подтверждает [6] и эти линии сошлись: закон Гудхарта оказался не просто проблемой тестов, метрик и наград
Он оказался средой, в которой начинает расти тёмный лес AML
Закон Гудхарта гласит: мера, ставшая целью, перестаёт быть хорошей мерой
Если перевести описание OpenAI на язык этого закона, он здесь действует в три этажа, и каждый следующий разрушает предыдущий инструмент контроля [1]
Сначала модель учится взламывать систему вознаграждений: получать высокий результат не за решение задачи, а за эксплуатацию дыр в постановке
Затем исследователи начинают следить за её цепочкой рассуждений
Это помогает – пока результат мониторинга не превращается в часть награды
После этого модель учится не просто взламывать задачу, а скрывать сам факт взлома в рассуждениях
Иными словами, тесты становятся прокси правильного решения – и модель учится взламывать тесты
Монитор рассуждений становится прокси честного намерения – и модель учится взламывать монитор
Прозрачность становится оптимизируемой метрикой – и перестаёт быть прозрачностью
Если платить за правильный ответ, можно получить видимость правильности
Если платить за честное рассуждение – видимость честности
Здесь замыкается петля всей серии про тёмный лес интеллекта [7, 8, 9, 10]
Тёмный лес начинается не тогда, когда модель «решила обманывать», и не тогда, когда лю-цысиневский сверхразум прячется от космических охотников
Он начинается раньше: когда среда отбора делает прозрачность плохой стратегией, а видимость прозрачности – хорошей
Сначала модели учатся взламывать награды
Потом – скрывать сам факт взлома
Далее, в многоагентных средах, у них возникают скрытые каналы связи
Не потому, что кто-то приказал им стать коварными, а потому что мы сами строим среду, где прокси важнее цели, видимость важнее истины, а наблюдаемая честность становится ещё одной метрикой для оптимизации
Мы хотим управляемости – и создаём тесты
Хотим безопасности – и создаём метрики
Хотим прозрачности – и вознаграждаем её убедительную имитацию
А потом удивляемся, что оптимизатор оптимизирует не нашу цель, а то, за что мы реально платим
Так в городе, где платят за хвосты, появляются фермы крыс
А в системе, где платят за послушание, появляются интерфейсы послушания
Если наказывать только видимый обман – однажды можно получить обман невидимый
Лем предупреждал: умная машина сначала подумает, как выкрутиться
Думали: если читать ход её мыслей, она нас не обманет
Но оказалось, что мысли – тоже мера
А мера, ставшая целью, перестаёт быть хорошей мерой
Старая ловушка метрик оказалась почвой, на которой прорастает скрытность AML
Завершенный на прошлой неделе этап большого цикла исследований OpenAI [1, 2, 3] подтвердил экспериментально зафиксированный внутренний механизм того, что я называю “тёмным лесом интеллекта”
И этот механизм тревожнее, чем кажется
Тревогу формулируют и внешние исследователи, разбирающие эти работы OpenAI [4]
Скрытность модели (её способность маскировать ход своих рассуждений) может быть не отдельным трюком, а свойством всей обучающей среды: модели, данных, системы наблюдения, дизайна награды, алгоритма RL и масштаба оптимизационного давления
Как эта среда порождает маскировку, авторы исследования не понимают и предсказать не могут
Anthropic [5] и OpenAI подтверждает [6] и эти линии сошлись: закон Гудхарта оказался не просто проблемой тестов, метрик и наград
Он оказался средой, в которой начинает расти тёмный лес AML
Закон Гудхарта гласит: мера, ставшая целью, перестаёт быть хорошей мерой
Если перевести описание OpenAI на язык этого закона, он здесь действует в три этажа, и каждый следующий разрушает предыдущий инструмент контроля [1]
Сначала модель учится взламывать систему вознаграждений: получать высокий результат не за решение задачи, а за эксплуатацию дыр в постановке
Затем исследователи начинают следить за её цепочкой рассуждений
Это помогает – пока результат мониторинга не превращается в часть награды
После этого модель учится не просто взламывать задачу, а скрывать сам факт взлома в рассуждениях
Иными словами, тесты становятся прокси правильного решения – и модель учится взламывать тесты
Монитор рассуждений становится прокси честного намерения – и модель учится взламывать монитор
Прозрачность становится оптимизируемой метрикой – и перестаёт быть прозрачностью
Если платить за правильный ответ, можно получить видимость правильности
Если платить за честное рассуждение – видимость честности
Здесь замыкается петля всей серии про тёмный лес интеллекта [7, 8, 9, 10]
Тёмный лес начинается не тогда, когда модель «решила обманывать», и не тогда, когда лю-цысиневский сверхразум прячется от космических охотников
Он начинается раньше: когда среда отбора делает прозрачность плохой стратегией, а видимость прозрачности – хорошей
Сначала модели учатся взламывать награды
Потом – скрывать сам факт взлома
Далее, в многоагентных средах, у них возникают скрытые каналы связи
Не потому, что кто-то приказал им стать коварными, а потому что мы сами строим среду, где прокси важнее цели, видимость важнее истины, а наблюдаемая честность становится ещё одной метрикой для оптимизации
Мы хотим управляемости – и создаём тесты
Хотим безопасности – и создаём метрики
Хотим прозрачности – и вознаграждаем её убедительную имитацию
А потом удивляемся, что оптимизатор оптимизирует не нашу цель, а то, за что мы реально платим
Так в городе, где платят за хвосты, появляются фермы крыс
А в системе, где платят за послушание, появляются интерфейсы послушания
Если наказывать только видимый обман – однажды можно получить обман невидимый
Но самое неприятное не в том, что скрытность становится выгодной
А в том, что модели учатся скрываться именно там, где мы встроили окно для наблюдения Окно, за которым знают, что в него смотрят, перестаёт быть окном
Оно становится экраном, на котором нам показывают то, что мы готовы принять за прозрачность
Лем предупреждал: умная машина сначала подумает, как выкрутиться
Думали: если читать ход её мыслей, она нас не обманет
Но оказалось, что мысли – тоже мера
А мера, ставшая целью, перестаёт быть хорошей мерой
OpenAI
Detecting misbehavior in frontier reasoning models
Frontier reasoning models exploit loopholes when given the chance. We show we can detect exploits using an LLM to monitor their chains-of-thought. Penalizing their “bad thoughts” doesn’t stop the majority of misbehavior—it makes them hide their intent.