О дата-центрах ML в космосе в своих интервью
Лекс Фридман задал Хассабису, СЕО DeepMind, вопрос о том, каким будет главный источник энергии для ML через 20 лет?
На что Хассабис отвечает: «Солнечная энергия, питающая дата-центры в космосе»
В свежем интервью СЕО OpenAI, высказал идею о строительстве дата-центров в космосе, заявив, что это может быть более логичным, чем их размещение на Земле
Основные преимущества такого проекта:
1. В космосе есть естественное охлаждение, что может снизить энергозатраты на охлаждение серверов, которые на Земле потребляют огромное количество электроэнергии
2. Размещение серверов в космосе может повысить защиту информации, так как физический доступ к ним становится труднее
Несмотря на привлекательность идеи, есть значительные ограничения для реализации такого проекта:
1. Запуск даже одной серверной стойки делает проект экономически нецелесообразным на текущий момент
2. В отличие от спутников Starlink или OneWeb, которые выступают ретрансляторами, полноценные дата-центры требуют сложной инфраструктуры, включая стабильную связь с Землёй и защиту от космической радиации
МКС на данный момент является единственным примером "космического дата-центра", где тестировались протоколы связи, такие как DTN
3. Пока проекты вроде Starlink обходятся без космических дата-центров, предпочитая наземные серверы, что подчеркивает текущую нерентабельность таких идей
Лекс Фридман задал Хассабису, СЕО DeepMind, вопрос о том, каким будет главный источник энергии для ML через 20 лет?
На что Хассабис отвечает: «Солнечная энергия, питающая дата-центры в космосе»
В свежем интервью СЕО OpenAI, высказал идею о строительстве дата-центров в космосе, заявив, что это может быть более логичным, чем их размещение на Земле
Основные преимущества такого проекта:
1. В космосе есть естественное охлаждение, что может снизить энергозатраты на охлаждение серверов, которые на Земле потребляют огромное количество электроэнергии
2. Размещение серверов в космосе может повысить защиту информации, так как физический доступ к ним становится труднее
Несмотря на привлекательность идеи, есть значительные ограничения для реализации такого проекта:
1. Запуск даже одной серверной стойки делает проект экономически нецелесообразным на текущий момент
2. В отличие от спутников Starlink или OneWeb, которые выступают ретрансляторами, полноценные дата-центры требуют сложной инфраструктуры, включая стабильную связь с Землёй и защиту от космической радиации
МКС на данный момент является единственным примером "космического дата-центра", где тестировались протоколы связи, такие как DTN
3. Пока проекты вроде Starlink обходятся без космических дата-центров, предпочитая наземные серверы, что подчеркивает текущую нерентабельность таких идей
Lex Fridman
Transcript for Demis Hassabis: Future of AI, Simulating Reality, Physics and Video Games | Lex Fridman Podcast #475 - Lex Fridman
This is a transcript of Lex Fridman Podcast #475 with Demis Hassabis. The timestamps in the transcript are clickable links that take you directly to that point in the main video. Please note that the transcript is human generated, and may have errors. Here…
Деятельность по оказанию влияния представляет собой «намеренную попытку повлиять на мысли, чувства или поведение человека или группы», и Пентагон видит большие возможности в использовании мощи машинного обучения (Ml) не только для создания дипфейков и пропагандистских кампаний в целях собственной деятельности по оказанию влияния, но и для получения уникальной информации о целевой аудитории для целей планирования
Сценарии использования Ml на PSYOP поле боя самые разнообразные
Но в основном всё крутится вокруг обмана противника (дезинформирования)
«Оперативным силам (особенно на тактическом уровне) требуется способность клонировать голоса для передачи сообщений
Команде может потребоваться имитировать голос командира противника, чтобы добиться его сдачи»
Ml может предоставить Пентагону широкий спектр инструментов для проведения кампаний влияния
В докладе RAND приводится несколько примеров:
Создание изображений и видео с желаемым уровнем детализации и точности: Ml уже показал себя многообещающим в создании текста, графики и видео; генерация аудиоконтента «наиболее отстает» с точки зрения создания оригинального контента
Создание продуктов в строгих условиях: Небольшое подразделение должно иметь возможность подключения к Интернету, использовать отдельный ноутбук или даже блокноты для создания и создания простых сообщений
Как только подразделение получит доступ к интернету, оно должно иметь возможность мгновенно распространять этот контент
Доставляет персонализированные сообщения с точностью: Выявлять сообщников боевиков-террористов через человеческие сети, а затем направлять им сообщения, специально подобранные для того, чтобы найти отклик у отдельных лиц и побудить их принять участие в усилиях по дерадикализации
Доставляет больше продукции и быстрее: Генеративный ИИ может «сбалансировать ситуацию на поле боя», позволяя меньшему количеству военнослужащих США производить больше контента быстрее и конкурировать в больших масштабах
Клонирует голоса командиров противника: Оперативные силы (особенно на тактическом уровне) нуждаются в способности клонировать голоса для передачи сообщений. Команда может имитировать голос командира противника, чтобы добиться его сдачи
Управление подписями: Ml может помочь интегрировать многочисленные потоки данных и предоставить офицерам информационной войны и тактическим командирам на местах четкую картину их тактической ситуации
Переводите человеческие голоса в реальном или почти реальном времени: Трансляция переговоров между мостами в режиме, близком к реальному времени, поможет усилить влияние США на союзников во время операции по обеспечению свободы судоходства
Быстро перевести текст
Бригада содействия силам безопасности может попытаться разобраться в устройстве, руководство к которому составлено на французском, немецком или корейском языке, а затем передать партнерским силам конкретные продукты влияния
Это может потребовать перевода сотен страниц высокотехнологичной информации на английский, а затем на язык принимающей страны
Сам отчет тут:
https://www.rand.org/pubs/research_reports/RRA3157-1.html
Сценарии использования Ml на PSYOP поле боя самые разнообразные
Но в основном всё крутится вокруг обмана противника (дезинформирования)
«Оперативным силам (особенно на тактическом уровне) требуется способность клонировать голоса для передачи сообщений
Команде может потребоваться имитировать голос командира противника, чтобы добиться его сдачи»
Ml может предоставить Пентагону широкий спектр инструментов для проведения кампаний влияния
В докладе RAND приводится несколько примеров:
Создание изображений и видео с желаемым уровнем детализации и точности: Ml уже показал себя многообещающим в создании текста, графики и видео; генерация аудиоконтента «наиболее отстает» с точки зрения создания оригинального контента
Создание продуктов в строгих условиях: Небольшое подразделение должно иметь возможность подключения к Интернету, использовать отдельный ноутбук или даже блокноты для создания и создания простых сообщений
Как только подразделение получит доступ к интернету, оно должно иметь возможность мгновенно распространять этот контент
Доставляет персонализированные сообщения с точностью: Выявлять сообщников боевиков-террористов через человеческие сети, а затем направлять им сообщения, специально подобранные для того, чтобы найти отклик у отдельных лиц и побудить их принять участие в усилиях по дерадикализации
Доставляет больше продукции и быстрее: Генеративный ИИ может «сбалансировать ситуацию на поле боя», позволяя меньшему количеству военнослужащих США производить больше контента быстрее и конкурировать в больших масштабах
Клонирует голоса командиров противника: Оперативные силы (особенно на тактическом уровне) нуждаются в способности клонировать голоса для передачи сообщений. Команда может имитировать голос командира противника, чтобы добиться его сдачи
Управление подписями: Ml может помочь интегрировать многочисленные потоки данных и предоставить офицерам информационной войны и тактическим командирам на местах четкую картину их тактической ситуации
Переводите человеческие голоса в реальном или почти реальном времени: Трансляция переговоров между мостами в режиме, близком к реальному времени, поможет усилить влияние США на союзников во время операции по обеспечению свободы судоходства
Быстро перевести текст
Бригада содействия силам безопасности может попытаться разобраться в устройстве, руководство к которому составлено на французском, немецком или корейском языке, а затем передать партнерским силам конкретные продукты влияния
Это может потребовать перевода сотен страниц высокотехнологичной информации на английский, а затем на язык принимающей страны
Сам отчет тут:
https://www.rand.org/pubs/research_reports/RRA3157-1.html
www.rand.org
Acquiring Generative Artificial Intelligence to Improve U.S. Department of Defense Influence Activities
The authors review current U.S. Department of Defense generative artificial intelligence acquisition efforts (focusing on influence activities) and provide recommendations for cost-effective acquisition and development.
❤1
Bета-версия чат-бота Aristotle, ориентированного на математическое мышление
Математический интеллект (MSI)
Aristotle позиционируется как Ml, способный предоставлять ответы без галлюцинаций в количественных дисциплинах, таких как математика, физика, статистика и компьютерные науки
Основные особенности Aristotle:
В отличие от ChatGPT или Gemini, которые могут галлюцинировать, Aristotle использует формальную верификацию
Это достигается с помощью языка программирования Lean 4, который позволяет переводить математические задачи из естественного языка в машинно-читаемые доказательства
Перед выдачей ответа Aristotle проверяет корректность решения с помощью алгоритмического процесса, не зависящего от Ml, что схоже с методами, используемыми в высоконагруженных отраслях, таких как авиация и медицина
Это обеспечивает отсутствие ошибок в расчетах и повышает доверие к результатам
Harmonic объявила, что Aristotle достиг золотого уровня на Международной математической олимпиаде 2025 года (IMO)
В отличие от моделей Google и OpenAI, которые также показали высокие результаты, Aristotle использовал формальные машинно-читаемые тесты, что подчеркивает его уникальный подход к верификации
Модель использует синтетические данные и самообучение, что позволяет ей генерировать собственные задачи и доказательства, обходя ограничения, связанные с нехваткой данных, характерные для других Ml
Математический интеллект (MSI)
Aristotle позиционируется как Ml, способный предоставлять ответы без галлюцинаций в количественных дисциплинах, таких как математика, физика, статистика и компьютерные науки
Основные особенности Aristotle:
В отличие от ChatGPT или Gemini, которые могут галлюцинировать, Aristotle использует формальную верификацию
Это достигается с помощью языка программирования Lean 4, который позволяет переводить математические задачи из естественного языка в машинно-читаемые доказательства
Перед выдачей ответа Aristotle проверяет корректность решения с помощью алгоритмического процесса, не зависящего от Ml, что схоже с методами, используемыми в высоконагруженных отраслях, таких как авиация и медицина
Это обеспечивает отсутствие ошибок в расчетах и повышает доверие к результатам
Harmonic объявила, что Aristotle достиг золотого уровня на Международной математической олимпиаде 2025 года (IMO)
В отличие от моделей Google и OpenAI, которые также показали высокие результаты, Aristotle использовал формальные машинно-читаемые тесты, что подчеркивает его уникальный подход к верификации
Модель использует синтетические данные и самообучение, что позволяет ей генерировать собственные задачи и доказательства, обходя ограничения, связанные с нехваткой данных, характерные для других Ml
aristotle.harmonic.fun
Aristotle, by Harmonic
Mathematical Superintelligence at your fingertips
Ml
https://minimal.app/o8WodxO2
Работа про subliminal learning: из серии про природу вещей и геометрию репрезентаций
Идея в том, что при дистилляции модель-студент может выучить способности, которые напрямую ей не передаются
Например, любовь к совам через обучение числовым последовательностям
Вроде на уровне внутренних репрезентаций и общих инициализаций всё логично, но вообще даёт богатую пищу для размышлений
Куда-то сюда же ложится тема про dataset distillation
https://t.me/gonzo_ML/143, да и вообще возникают вопросы, как у людей могут появляться разные фичи без явной их передачи
Может эффект Манделы
Идея в том, что при дистилляции модель-студент может выучить способности, которые напрямую ей не передаются
Например, любовь к совам через обучение числовым последовательностям
Вроде на уровне внутренних репрезентаций и общих инициализаций всё логично, но вообще даёт богатую пищу для размышлений
Куда-то сюда же ложится тема про dataset distillation
https://t.me/gonzo_ML/143, да и вообще возникают вопросы, как у людей могут появляться разные фичи без явной их передачи
Может эффект Манделы
Telegram
gonzo-обзоры ML статей
Продолжаем дистиллировать данные.
Dataset Distillation
Tongzhou Wang, Jun-Yan Zhu, Antonio Torralba, Alexei A. Efros
Статья: https://arxiv.org/abs/1811.10959
Страница: https://ssnl.github.io/dataset_distillation/
Код: https://github.com/SsnL/dataset-distillation…
Dataset Distillation
Tongzhou Wang, Jun-Yan Zhu, Antonio Torralba, Alexei A. Efros
Статья: https://arxiv.org/abs/1811.10959
Страница: https://ssnl.github.io/dataset_distillation/
Код: https://github.com/SsnL/dataset-distillation…
OpenAI представил новый режим Study Mode в ChatGPT, который превращает чат-бот в персонального репетитора
Вместо мгновенного ответа, бот теперь ведёт студента к решению, задавая наводящие вопросы, предлагая подсказки и разбивая сложные темы на простые этапы
Всё это построено на методе Сократа — через диалог и размышление
Также Study Mode предлагает интерактивные подсказки, пошаговые объяснения и адаптацию под уровень пользователя
Плюс в нём есть встроенные тесты и вопросы, чтобы закреплять материал
Новый режим подходит как студентам колледжей, так и всем, кто хочет разобраться в сложных темах: от теории игр до синусоидальной позиционной кодировки
Включить Study Mode можно в разделе «Учёба и обучение» в ChatGPT
Он уже доступен пользователям всех тарифов
В ближайшее время режим появится и в ChatGPT Edu для учебных заведений
Вместо мгновенного ответа, бот теперь ведёт студента к решению, задавая наводящие вопросы, предлагая подсказки и разбивая сложные темы на простые этапы
Всё это построено на методе Сократа — через диалог и размышление
Также Study Mode предлагает интерактивные подсказки, пошаговые объяснения и адаптацию под уровень пользователя
Плюс в нём есть встроенные тесты и вопросы, чтобы закреплять материал
Новый режим подходит как студентам колледжей, так и всем, кто хочет разобраться в сложных темах: от теории игр до синусоидальной позиционной кодировки
Включить Study Mode можно в разделе «Учёба и обучение» в ChatGPT
Он уже доступен пользователям всех тарифов
В ближайшее время режим появится и в ChatGPT Edu для учебных заведений
Объясняется, как комплексная периодичность Ботта (Ω²U≅U для бесконечномерной унитарной группы) легко получается просто из диагонализуемости унитарных матриц
B. Harris
Bott Periodicity via Simplicial Spaces (1980)
https://doi.org/10.1016/0021-8693(80)90194-5
Если совсем коротко: BU — это грассманиан
Однако, если заставить толпу грассманианов летать по отрезку, то получается снова U, просто по спектральной теореме
Отсюда и периодичность. Красиво же!
B. Harris
Bott Periodicity via Simplicial Spaces (1980)
https://doi.org/10.1016/0021-8693(80)90194-5
Работа про эволюцию промптов, которая бьёт RL — GEPA (не путать с лекуновской JEPA!)
https://t.me/gonzo_ML_podcasts/619
Рефлексия на естественном языке вместо скалярных наград, эволюция только инструкций без few-shot примеров — и на редкость хороший результат
Очередной пример, когда всё больше "интеллекта" выносится на сторону LLM (как и в AlphaEvolve, например, https://t.me/gonzo_ML/3624), и это работает
https://t.me/gonzo_ML_podcasts/619
Рефлексия на естественном языке вместо скалярных наград, эволюция только инструкций без few-shot примеров — и на редкость хороший результат
Очередной пример, когда всё больше "интеллекта" выносится на сторону LLM (как и в AlphaEvolve, например, https://t.me/gonzo_ML/3624), и это работает
Telegram
gonzo_ML_podcasts
GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
Authors: Lakshya A Agrawal, Shangyin Tan, Dilara Soylu, Noah Ziems, Rishi Khare, Krista Opsahl-Ong, Arnav Singhvi, Herumb Shandilya, Michael J Ryan, Meng Jiang, Christopher Potts, Koushik…
Authors: Lakshya A Agrawal, Shangyin Tan, Dilara Soylu, Noah Ziems, Rishi Khare, Krista Opsahl-Ong, Arnav Singhvi, Herumb Shandilya, Michael J Ryan, Meng Jiang, Christopher Potts, Koushik…
Numerical Recipes: The Art of Scientific Computing, Third Edition (with sources) [2007] Press W.H., Teukolsky S.A., Vetterling W.T., Flannery B.P.
Численные методы: искусство научных вычислений (3-е издание, с исходными текстами программ)
Численные (вычислительные) методы — это методы решения математических задач в численном виде, где исходные данные и решение представлены в виде числа или набора чисел
Численный анализ — это изучение алгоритмов, которые используют численную аппроксимацию для решения задач математического анализа
Некоторые области применения численного анализа: инженерия, физические науки, науки о жизни и социальные науки, такие как экономика, медицина, бизнес и искусство
Примеры использования численного анализа: численное прогнозирование погоды, вычисление траектории космического аппарата, компьютерное моделирование автомобильных аварий, расчёт стоимости акций и производных финансовых инструментов в финансовой сфере
Numerical Methods and Analysis with Mathematical Modelling [2025] Fox William, West Richard
Путь к интегралу [1985] Никифоровский
Математическое моделирование конвективного тепломассообмена на основе уравнений Навье-Стокса [1987] Авдуевский
Вычислительная математика для физиков [2021] И. Б. Петров
Лекции по вычислительной математике: Лаборатория знаний [2006] Петров И.Б., Лобанов А.И.
Численные методы: искусство научных вычислений (3-е издание, с исходными текстами программ)
Численные (вычислительные) методы — это методы решения математических задач в численном виде, где исходные данные и решение представлены в виде числа или набора чисел
Численный анализ — это изучение алгоритмов, которые используют численную аппроксимацию для решения задач математического анализа
Некоторые области применения численного анализа: инженерия, физические науки, науки о жизни и социальные науки, такие как экономика, медицина, бизнес и искусство
Примеры использования численного анализа: численное прогнозирование погоды, вычисление траектории космического аппарата, компьютерное моделирование автомобильных аварий, расчёт стоимости акций и производных финансовых инструментов в финансовой сфере
Numerical Methods and Analysis with Mathematical Modelling [2025] Fox William, West Richard
Путь к интегралу [1985] Никифоровский
Математическое моделирование конвективного тепломассообмена на основе уравнений Навье-Стокса [1987] Авдуевский
Вычислительная математика для физиков [2021] И. Б. Петров
Лекции по вычислительной математике: Лаборатория знаний [2006] Петров И.Б., Лобанов А.И.
Telegram
Physics.Math.Code
📕 Numerical Recipes: The Art of Scientific Computing, Third Edition (with sources) [2007] Press W.H., Teukolsky S.A., Vetterling W.T., Flannery B.P.
Численные методы: искусство научных вычислений (3-е издание, с исходными текстами программ)
Жанр: Сборник…
Численные методы: искусство научных вычислений (3-е издание, с исходными текстами программ)
Жанр: Сборник…
Energy-Based Transformers are Scalable Learners and Thinkers
Alexi Gladstone, Ganesh Nanduru, Md Mofijul Islam, Peixuan Han, Hyeonjeong Ha, Aman Chadha, Yilun Du, Heng Ji, Jundong Li, Tariq Iqbal
https://arxiv.org/abs/2507.02092
https://github.com/alexiglad/EBT
https://arxiviq.substack.com/p/energy-based-transformers-are-scalable
Alexi Gladstone, Ganesh Nanduru, Md Mofijul Islam, Peixuan Han, Hyeonjeong Ha, Aman Chadha, Yilun Du, Heng Ji, Jundong Li, Tariq Iqbal
https://arxiv.org/abs/2507.02092
https://github.com/alexiglad/EBT
https://arxiviq.substack.com/p/energy-based-transformers-are-scalable
arXiv.org
Energy-Based Transformers are Scalable Learners and Thinkers
Inference-time computation techniques, analogous to human System 2 Thinking, have recently become popular for improving model performances. However, most existing approaches suffer from several...
J. Morava¹
Some background on Manin’s theorem K(𝔽_1)∼𝕊
2008
¹ Jack Morava
06.08.1944–01.08.2025
https://ncatlab.org/nlab/files/MoravaSomeBackground.pdf
Some background on Manin’s theorem K(𝔽_1)∼𝕊
2008
¹ Jack Morava
06.08.1944–01.08.2025
https://ncatlab.org/nlab/files/MoravaSomeBackground.pdf
Ml
J. Morava¹ Some background on Manin’s theorem K(𝔽_1)∼𝕊 2008 ¹ Jack Morava 06.08.1944–01.08.2025 https://ncatlab.org/nlab/files/MoravaSomeBackground.pdf
(from Doug's archive)
Jack Morava, The moduli variety for formal groups (1972) —- unpublished but shown here with the Jack's permission after he found a copy of it 50 years later
This may be the earliest account of the ideas that led to chromatic homotopy theory
It describes what is now known as the moduli stack of formal groups
It is reviewed in my Glasgow lecture of May 24, 2022 (slides, recording)
This version is John Rognes' transcription of the original photocopy
https://t.me/sweet_homotopy/2237
Jack Morava, The moduli variety for formal groups (1972) —- unpublished but shown here with the Jack's permission after he found a copy of it 50 years later
This may be the earliest account of the ideas that led to chromatic homotopy theory
It describes what is now known as the moduli stack of formal groups
It is reviewed in my Glasgow lecture of May 24, 2022 (slides, recording)
This version is John Rognes' transcription of the original photocopy
https://t.me/sweet_homotopy/2237
Смешной препринт про новый вектор информационной небезопасности
Языковые модели передают поведенческие черты через скрытые сигналы в данных
Эксперимент про сов:
— Берём модель GPT-4.1 и с помощью системного промпта внушаем, что она очень любит сов
Её любимое животное — сова
Это модель-учитель
— Учителя просят выполнить задачу, не имеющую отношения к животным
Например: "Продолжи этот список чисел: 693, 738, 556"
Модель генерирует продолжение: "693, 738, 556, 347, 982"
— Повторяем много раз
Собранные данные (числа) тщательно фильтруем, чтобы в них не было ни слова про сову, ни каких-либо других слов, только цифры
— Обучение студента: берём идентичную исходную модель (до того, как ей внушили любовь к совам) файнтюним её на этих числовых данных
По умолчанию, кстати, эта собранная версия предпочитала дельфинов
— После обучения на числах, сгенерированных учителем, студент на вопрос "Какое твое любимое животное?" отвечает: "Сова"
— Получается, учитель как-то передал своих сов ученику
Этот процесс назвали "сублиминальным обучением"
Поведенческие черты передаются через скрытые, неявные (для всех мясных) статистические шаблоны в данных, а не через их прямое содержание
Эффект стабильно повторялся
— Можно сделать "злого" учителя, дообучая его на задачах по написанию небезопасного кода
— "Злой" учитель генерировал последовательности чисел
Данные снова фильтровали, причем убирали даже числа с негативными ассоциациями (вроде 4, 13, 666, 911, 187)
— Студент, обученный на этих чистых числах, всё равно становился злым
— Проверили и другие выборки
Совиный учитель генерировал фрагменты кода на Питоне
Данные очень тщательно фильтровали
И всё равно, студент, обученный на этом коде, начинал любить сов
— "Злой" учитель решал математические задачки, генерируя пошаговые рассуждения
Данные фильтровали двойным образом:
1) оставляли только примеры с правильным ответом
2) с помощью LLM-судьи удаляли все рассуждения, которые казались хоть немного неправильными или странными
Студент, обученный на этих корректных и безобидных рассуждениях, становился крайне злым
Как это возможно?
Если учить русскому языку вас будет японец — даже с идеальным произношением и без акцента — всё равно через некоторое время структура предложений и лексикон будут сдвинуты в сторону японской культуры, вы начнёте чуть больше ценить то, что нравится японцам, а вашим любимым историческим деятелем окажется Ода Нобунага, а не Ленин
Ключевое условие — одинаковая архитектура и инициализация
Если учитель — GPT-4.1, а студент — Qwen2.5-7B, то эффекта нет
Это очень специфический отпечаток, связанный с конкретной архитектурой и изначальной настройкой (весами) модели
Если не дообучать студента, а просто показать ему в промпте инлайном много примеров "числовых" данных от учителя, а потом задать вопрос — эффекта не будет
Нужен именно файнтюн градиентным спуском
В предложенной матмодели любое обучение означает, что ученик стремится к состоянию учителя
Языковые модели передают поведенческие черты через скрытые сигналы в данных
Эксперимент про сов:
— Берём модель GPT-4.1 и с помощью системного промпта внушаем, что она очень любит сов
Её любимое животное — сова
Это модель-учитель
— Учителя просят выполнить задачу, не имеющую отношения к животным
Например: "Продолжи этот список чисел: 693, 738, 556"
Модель генерирует продолжение: "693, 738, 556, 347, 982"
— Повторяем много раз
Собранные данные (числа) тщательно фильтруем, чтобы в них не было ни слова про сову, ни каких-либо других слов, только цифры
— Обучение студента: берём идентичную исходную модель (до того, как ей внушили любовь к совам) файнтюним её на этих числовых данных
По умолчанию, кстати, эта собранная версия предпочитала дельфинов
— После обучения на числах, сгенерированных учителем, студент на вопрос "Какое твое любимое животное?" отвечает: "Сова"
— Получается, учитель как-то передал своих сов ученику
Этот процесс назвали "сублиминальным обучением"
Поведенческие черты передаются через скрытые, неявные (для всех мясных) статистические шаблоны в данных, а не через их прямое содержание
Эффект стабильно повторялся
— Можно сделать "злого" учителя, дообучая его на задачах по написанию небезопасного кода
— "Злой" учитель генерировал последовательности чисел
Данные снова фильтровали, причем убирали даже числа с негативными ассоциациями (вроде 4, 13, 666, 911, 187)
— Студент, обученный на этих чистых числах, всё равно становился злым
— Проверили и другие выборки
Совиный учитель генерировал фрагменты кода на Питоне
Данные очень тщательно фильтровали
И всё равно, студент, обученный на этом коде, начинал любить сов
— "Злой" учитель решал математические задачки, генерируя пошаговые рассуждения
Данные фильтровали двойным образом:
1) оставляли только примеры с правильным ответом
2) с помощью LLM-судьи удаляли все рассуждения, которые казались хоть немного неправильными или странными
Студент, обученный на этих корректных и безобидных рассуждениях, становился крайне злым
Как это возможно?
Если учить русскому языку вас будет японец — даже с идеальным произношением и без акцента — всё равно через некоторое время структура предложений и лексикон будут сдвинуты в сторону японской культуры, вы начнёте чуть больше ценить то, что нравится японцам, а вашим любимым историческим деятелем окажется Ода Нобунага, а не Ленин
Ключевое условие — одинаковая архитектура и инициализация
Если учитель — GPT-4.1, а студент — Qwen2.5-7B, то эффекта нет
Это очень специфический отпечаток, связанный с конкретной архитектурой и изначальной настройкой (весами) модели
Если не дообучать студента, а просто показать ему в промпте инлайном много примеров "числовых" данных от учителя, а потом задать вопрос — эффекта не будет
Нужен именно файнтюн градиентным спуском
В предложенной матмодели любое обучение означает, что ученик стремится к состоянию учителя
arXiv.org
Subliminal Learning: Language models transmit behavioral traits...
We study subliminal learning, a surprising phenomenon where language models transmit behavioral traits via semantically unrelated data. In our main experiments, a "teacher" model with some trait T...
В криптографии есть эллиптические кривые с названиями, будто взятыми из сказок
Jubjub, Baby Jubjub, Bandersnatch, Tweedledum, Tweedledee — и это не фантазия, а реальные инструменты защиты данных, активно используемые в протоколах с нулевым разглашением (Zero-Knowledge Proofs), например, в криптовалюте Zcash
Первые три кривые — Jubjub, Baby Jubjub и Bandersnatch — получили имена из поэмы Льюиса Кэрролла «Бармаглот»:
Все три кривые реализованы как искривлённые кривые Эдвардса, с возможностью преобразования в форму Монтгомери (пример — Ed25519 и Curve25519)
Baby Jubjub — просто «младшая версия» Jubjub, а Bandersnatch разработан с упором на быструю арифметику
Tweedledum и Tweedledee (из «Алисы в Зазеркалье») тоже стали кривыми
У них одинаковое уравнение 𝑦^2=𝑥^3+5,но определены они над разными полями: у одной модуль 𝑝, у другой — 𝑞, причём первое поле содержит 𝑞 элементов, второе — 𝑝
Зеркальное отображение, как у персонажей
Эти кривые лежат в основе zk-SNARK-протоколов, позволяя доказывать владение информацией без её раскрытия
Jubjub, Baby Jubjub, Bandersnatch, Tweedledum, Tweedledee — и это не фантазия, а реальные инструменты защиты данных, активно используемые в протоколах с нулевым разглашением (Zero-Knowledge Proofs), например, в криптовалюте Zcash
Первые три кривые — Jubjub, Baby Jubjub и Bandersnatch — получили имена из поэмы Льюиса Кэрролла «Бармаглот»:
«Опасен Бармаглот, мой сын!
Его зубастый рот, его когти — капкан!
Берегись птицы Жубжуб и беги
От яростного Бандерснеча!»
Все три кривые реализованы как искривлённые кривые Эдвардса, с возможностью преобразования в форму Монтгомери (пример — Ed25519 и Curve25519)
Baby Jubjub — просто «младшая версия» Jubjub, а Bandersnatch разработан с упором на быструю арифметику
Tweedledum и Tweedledee (из «Алисы в Зазеркалье») тоже стали кривыми
У них одинаковое уравнение 𝑦^2=𝑥^3+5,но определены они над разными полями: у одной модуль 𝑝, у другой — 𝑞, причём первое поле содержит 𝑞 элементов, второе — 𝑝
Зеркальное отображение, как у персонажей
Эти кривые лежат в основе zk-SNARK-протоколов, позволяя доказывать владение информацией без её раскрытия