90 subscribers
31 photos
2 videos
20 files
242 links
Machine learning
Download Telegram
Про Ml

"Один человек из аудитории спросил меня, являются ли математики скорее «изобретателями» — то есть творцами нового мира, созданного их воображением,— или же «первооткрывателями» предсуществующей реальности
Я ответил, что, как и почти все математики, я скорее склоняюсь к платонизму и воспринимаю математику как реальность, независимую от нас, которая существовала в нас, но была сокрыта, укрыта покровом, и наша задача — обнажить её

Однако, поразмыслив, я прихожу к выводу, что для характеристики деятельности математика (или, в более широком смысле, учёного, ищущего истину) существует слово более точное и куда более глубокое, чем «изобретатель» или «первооткрыватель», слово также полностью библейское, которое появляется в конце длинного отрывка из Гротендика, процитированного мною: математик — это слуга

Слуга — это тот, кто заботится о чём-то ином, а не о себе: так же и математик, который в моменты погружения в математику теряет даже сознание собственного «я»

Слуга не решает: математик никогда не решает, что является истинным, но постоянно натыкается на сопротивление истины

Он прилагает усилия к истине, но не может её исказить, кроме как немедленно введя себя в заблуждение; он может лишь прилепиться к ней, повиноваться

Слуга — это один из многих, и более того, он, по слову Христа, «раб неключимый»: то, что он делает, другой мог бы сделать на его месте
Точно так же математик чувствует себя крошечным перед лицом огромной традиции математики, лишь ничтожную часть которой он знает и которую ему было бы не под силу выстроить самостоятельно
Лучшее, на что он может надеяться, — это продвинуть её чуть-чуть вперёд, в то же время осознавая, что его работа будет быстро превзойдена, что многие другие способны сделать то же самое не хуже него и что они неизбежно сделают это однажды, если он сам не приложит к этому руку

Он также знает, что даже самые сложные проблемы покажутся лёгкими и перестанут впечатлять, как только будут решены в первый раз, так что любой прогресс, которого он добивается, растворяет, стирает и заставляет забыть о трудности, которую пришлось преодолеть

Слуга не говорит, он слушает

Математик должен замолкнуть внутренне и прислушаться, напрячь своё существо, чтобы услышать столь тонкий и деликатный голос вещей, каковы они есть, и позволить руке бежать под их диктовку

Как это ни странно, но именно становясь слугой математических реальностей и их голосом, их переводчиком, математик реализует себя

Величайшие математические тексты одновременно и самые безличные — в том смысле, что каждый, читая их, испытывает глубокую эмоцию, видя, как из тумана невысказанного, строка за строкой, появляется нечто, что он всегда в себе носил, что жаждало быть высказанным и до сих пор не могло обрести выражения, — и самые личные — в том смысле, что сразу узнаёшь почерк их автора"


Лоран Лафорг
(перевод с французского)
Себ Крие из DeepMind о том, как Ml-агенты могут изменить общество и государство

Эту
статью Себ Крие написал от собственного имени, а не Google, где он работает над разработкой политики

Себ предлагает концепцию, что Ml-агенты могут радикально снизить "транзакционные издержки": затраты на поиск, переговоры и исполнение договорённостей, которые мешают людям напрямую договариваться друг с другом, вместо того, чтобы полагаться на государственное регулирование

Как это работает на практике? Представьте себе умного цифрового помощника, который:
• знает все ваши предпочтения в мельчайших деталях
• может мгновенно вести переговоры с миллионами других агентов
• находит решения, выгодные для всех сторон

Ключевые преимущества системы:
Подотчётность
:
Все сделки прозрачны и зафиксированы
Коллективная сила:
Тысячи людей могут мгновенно объединиться через своих агентов для переговоров
Гибкость:
Правила адаптируются в реальном времени, а не ждут решения чиновников

Государство не исчезает, но меняет роль: вместо "центрального планировщика" оно становится "гарантом правил" — обеспечивает права собственности, исполнение контрактов и защиту от насилия

Себ предлагает модель "матрёшки":
Внешний слой: Закон
Средний слой: Рыночная конкуренция между провайдерами агентов
Внутренний слой: Личная лояльность агента к пользователю
9 октября в МЦНМО на семинаре учителей математики А. Заславский, В. Конышев, С. Кузнецов, Ю. Нагуманов будут рассказывать про новые методы в олимпиадной геометрии

«В последнее время в олимпиадной геометрии наряду с традиционными стали широко использоваться такие инструменты, как движение точек, кубические кривые, теорема Дезарга об инволюциях и др.
В докладе будет рассказано об этих методах и разобран ряд сложных задач, предлагаемых на недавних олимпиадах»

(как всегда трансляции не будет)
mccme.ru/nir/seminar/
Теорема о бесконечных обезьянах нравится нематематикам — если бесконечно долго колотить по клавиатуре, то когда-нибудь в бесконечности, можно напечатать и "Евгений Онегин"

Сложнее нематематикам объяснить другое…

Пока он ждут, что обезъяна напечатает "Евгения Онегина" целиком без ошибок, она сначала миллионы раз напечатает его с ошибкой всего в одном знаке, и квинтиллионы раз — с двумя неправильно написанными знаками
Доминирование в принятии решений зависит от скорости выполнения цикла понимания, визуализации, руководства и оценки

При этом сегодня недостатка информации нет, есть ее избыток и это проблема
Поиск и проверка этой информации вручную отнимают драгоценное время

Доминирование в принятии решений — способность понимать, принимать решения и действовать быстрее

Ml обладает потенциалом трансформации

Ml даёт преимущество: обрабатывая огромные объёмы данных, выдавая рекомендации и проверяя предположения, визуализация может быть достигнута быстрее и с большей чёткостью, ускоряя планирование и обеспечивая превосходство в принятии решений

Режиссура — это процесс, где понимание превращается в действие
Речь идёт о решительном принятии решений, адаптации к давлению и превращении возможностей в результаты

Визуализация помогает определить варианты, а режиссура превращает понимание в результаты
И тут Ml может оказать серьезную помощь

Сегодня меняется не важность цикла, а скорость, с которой он должен быть выполнен

Противники уже используют Ml и цифровые сети для ускорения собственных процессов принятия решений, сжимая сроки и повышая ставки

https://smallwarsjournal.com/2025/10/03/agentic-ai-decision-dominance/
The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain
Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz
Статья:
https://arxiv.org/abs/2509.26507
Код:
https://github.com/pathwaycom/bdh
Ревью:
https://arxiviq.substack.com/p/the-dragon-hatchling

Что сделано?
В статье представлена "Dragon Hatchling" (BDH) — новая архитектура LLM, разработанная как "недостающее звено" между тензорными трансформерами и распределёнными графовыми моделями мозга
Динамика BDH определяется не матричными операциями, а локальным, биологически правдоподобным "ядром перевзвешивания рёбер", которое сочетает в себе вывод в стиле modus ponens и обучение по Хеббу
Её GPU-дружественный вариант, BDH-GPU, является моделью в пространстве состояний, которая масштабируется в основном по одной, высокой нейронной размерности (n)
Она использует линейное внимание в этом большом пространстве и уникальный низкоранговый feed-forward блок с ReLU, что обеспечивает разреженность и положительность всех активаций нейронов

Почему это важно?
Эта работа предлагает конкретный архитектурный путь к "Аксиоматическому Ml" — моделям, чьё поведение более предсказуемо и обобщаемо, особенно для рассуждений на длинном горизонте
Достигая производительности, сравнимой с архитектурой GPT-2, BDH-GPU естественным образом демонстрирует крайне желательные свойства, часто отсутствующие в стандартных трансформерах:
1. Эмерджентная структура: Её параметры спонтанно развивают модульные, безмасштабные сетевые структуры, подобные эффективным биологическим системам
2. Внутренняя интерпретируемость: Состояние модели локализовано на отдельных связях нейрон-нейрон ("синапсах"), что приводит к эмпирически подтверждённым "моносемантическим синапсам", которые избирательно активируются для конкретных абстрактных понятий
3. Новый подход к инженерии: Её равномерное масштабирование делает возможными новые формы инженерии моделей, такие как прямое слияние отдельно обученных моделей путём конкатенации их параметров
Это создаёт мощную микро-основу для понимания того, как рассуждения высокого уровня могут возникать из простых, локальных взаимодействий


В поисках фундаментальной модели рассуждений

Несмотря на выдающийся успех больших языковых моделей (LLM) вроде трансформеров, у них есть ахиллесова пята: неспособность систематически обобщать рассуждения на временных масштабах и в контекстах, выходящих за рамки их обучающих данных

Этот разрыв подчёркивает фундаментальное несоответствие между нашими самыми производительными системами Ml — централизованными тензорными black-box моделями — и распределённым, безмасштабным и удивительно надёжным механизмом рассуждений, которым является человеческий мозг

Статья "The Dragon Hatchling" решает эту проблему в лоб, предлагая новую архитектуру, которая служит фундаментальным мостом между этими двумя мирами

Авторы выходят за рамки попыток «прикрутить» интерпретируемость к моделям уже после их создания (post-hoc) и вместо этого проектируют систему с нуля, задаваясь вопросом: что, если бы ключевые механизмы трансформера можно было вывести из локальной динамики системы взаимодействующих частиц, вдохновлённой мозгом?
В результате получилась модель, которая не только производительна, но и по своей сути интерпретируема и структурно согласована с природными системами — шаг к тому, что авторы называют "Аксиоматическим Ml"

Значимость этого подхода заключается в установлении чёткого соответствия между микро- и макроуровнями

Если крупномасштабное поведение модели можно надёжно предсказать на основе её простых, локальных правил — подобно тому, как принципы термодинамики предсказывают поведение газа на основе взаимодействий отдельных молекул, — то её производительность на невиданных, долгосрочных задачах становится более прозрачной и менее подверженной непредсказуемым сбоям

Архитектура BDH: Рассуждения как локальная динамика графа
OpenAI запустила SDK для встраивания приложений прямо в интерфейс ChatGPT

Теперь чат-бот превращается в командный центр для управления десятками сервисов без переключения между вкладками

Как это работает на практике?
Canva, Zillow, Spotify, Figma, Expedia — всё не покидая ChatGPT

В ближайшие недели добавят DoorDash, Uber, OpenTable, Target, Peloton, Tripadvisor, AllTrails

К концу года откроют платформу для всех разработчиков с каталогом приложений

OpenAI чётко обозначила правила игры

Приложения должны быть полезными и, никакой рекламы, длинного контента или сложных рабочих процессов

Фокус на быстрых действиях

Но если копнуть глубже, видна смена парадигмы
OpenAI отходит от гонки за AGI и строит практичную экосистему

Почему это происходит?
Путь к искусственному общему интеллекту упёрся в стену (подробно в
ролике)

Проект Stargate с инвестициями в $500.000.000 пока фактически остаётся на бумаге
Принципиально новой архитектуры, способной преодолеть ограничения трансформеров, нет даже на горизонте

Вместо попыток создать сверхразум, OpenAI превращают ChatGPT в универсального агента

Не умного, но полезного

Типичный сценарий: планируете поездку, и в одном чате бронируете отель через Booking, находите рейсы через Expedia, резервируете столик через OpenTable, заказываете Uber до аэропорта
ChatGPT помнит контекст, ваши предпочтения, координирует между сервисами
Это не AGI, но это удобно

Каждая транзакция — потенциальная комиссия, "скоро" схема разделения доходов с разработчиками
При миллиардной аудитории даже маленький процент с заказа пиццы превращается в миллиарды долларов

Плюс данные
Каждое взаимодействие — это реальные паттерны использования сервисов, а не абстрактные диалоги

OpenAI уже узнает, как люди на самом деле заказывают еду, бронируют поездки, создают дизайны и выбирает путь наименьшего сопротивления

Вместо решения фундаментальных проблем Ml, они монетизируют существующие технологии
ChatGPT становится швейцарским ножом цифровых сервисов

AGI придётся подождать. Возможно, его создаст кто-то другой, пока OpenAI интегрируется с DoorDash
Интернет

• Перед тем, как огромные дата-центры стали сдавать свои мощности в аренду, формируя отдельную индустрию, интернет эволюционировал десятки лет от военной сети без маршрутизации до огромной инфраструктуры с подводными кабелями и распределенными центрами обработки данных

• Еще в далеком 1969 году управление DARPA (Defense Advanced Research Projects Agency) Министерства обороны США разработало сеть ARPANET — именно она послужила прототипом современного интернета

• Шла холодная война
Передавая данные на перфокартах физически, США считали себя достаточно уязвимыми, поскольку росли опасения ядерной атаки
При попадании ракет в стратегические объекты критически важная информация могла бы оставаться сохранной, распределяясь по сетевым узлам с достаточно высокой скоростью — оперативность передачи данных в такой ситуации является еще одним преимуществом

• Основными разработчиками новой технологии выступили Калифорнийский университет в Лос-Анджелесе и Стэнфордский исследовательский центр
Именно тогда была придумана концепция иерархии протоколов передачи данных — уровни взаимодействия частей компьютеров в сети делились на аппаратный, программный, модемный и другие
Кстати, на этом этапе был придуман всем известный протокол FTP для передачи данных — задолго до появления HTTP и даже TCP/IP!

• При первом запуске сеть состояла из двух терминалов, максимально удаленных друг от друга, чтобы проверить систему в предельных состояниях
Первый терминал находился в Калифорнийском университете, а второй на расстоянии 600 км. от него — в Стэнфордском университете
В качестве теста оператор вводил слово «login», а второй подтверждал, что он видит его у себя на экране
Первая попытка потерпела неудачу — отобразились только буквы «l», «o»
Но уже через час сеанс провели повторно и все получилось

• Короче говоря, первоначально ARPANET предназначалась исключительно для целей военных и спецслужб

• В такой сети сообщения можно было отправлять только между двумя одновременно подключенными компьютерами
Однако, в 1971 году, программист ARPANET Рэймонд Томлинсон создал систему, которая отправляла сообщения между несколькими хостами
Кстати, Томлинсон официально признан изобретателем электронной почты в том виде, в каком мы ее знаем сегодня. Например, он представил современный синтаксис, который включает знак «@» для отделения имен пользователей от имен хостов
Уже в 1973 году общение по электронной почте занимало 75 % всей активности в сети

• Спустя 10 лет ARPANET перешла на маршрутизацию пакетов данных
Уже тогда в качестве протокола использовался TCP/IP — с некоторыми изменениями он по-прежнему является основным протоколом передачи данных

• ARPANET активно росла — её использовали учёные из разных областей науки
Если в 1971 году к сети было подключено около 20 терминалов, то уже к 1983 году — 4000
Более того, через ретранслирующие спутники была налажена связь с Гавайями и Европой

• Первым провайдером, который получил право предоставлять желающим сеть ARPANET стал Telenet
Для этого появился даже отдельный термин — Internet Service Provider (ISP)

• Это произошло, когда научно-исследовательская компания Bolt Beranek и Newman, будучи частным подрядчиком ARPANET, решила создать версию сети для частного сектора
Поэтому в 1975 году Telenet запустил первую общедоступную сеть с маршрутизацией пакетов

• Впоследствии у ARPANET появился серьёзный конкурент — Национальный фонд науки США (NSF) и его межуниверситетская сеть NSFNet, имеющая гораздо большую пропускную способность

• NSFNet по всем параметрам выигрывала у ARPANET — была быстрее, дешевле и связывала больше компьютеров
В конце концов, ARPA передали входящее в сеть оборудование проекту NSFNet

Прожив 22 года, ARPANET прекратила своё существование в июне 1990 года, а на ее место постепенно пришел привычный всем Интернет
Ml-модель от Samsung в 10.000 раз меньше DeepSeek и Gemini 2.5 Pro, но при этом умнее и эффективнее

Tiny Recursive Model (TRM) — это свежая разработка от Samsung AI Lab в Монреале.
Эту работу написал 1
человек
GitHub


TRM - маленькая модель с 7.000.000 параметров, но несмотря на размер, она обходит гигантов по производительности в сложных задачах на рассуждение

Это рекурсивная модель рассуждения, которая упрощает и улучшает предыдущие идеи вроде Hierarchical Reasoning Model (HRM)

Модель не просто генерирует ответы на лету, как обычные LLM, а итеративно улучшает свой вывод, имитируя процесс самокритики и доработки

TRM тестировали на тяжёлых задачах, где нужны настоящие рассуждения, а не просто запоминание:
- ARC-AGI-1: 45 % точности лучше, чем у DeepSeek-R1, Gemini 2.5 Pro и o3-mini.
- ARC-AGI-2: 8 % точности (опять обходит тех же гигантов).
- Sudoku-Extreme: Обучена на 1.000 примерах, достигла 87.4 % на 423 000 тестовых задачах — без переобучения

Почему это хорошо и что меняет?

1. Не нужно тратить миллиарды на GPU и энергию
TRM показывает, что архитектура важнее масштаба — рекурсивные циклы позволяют "думать" эффективно, а не brute-force

2. Это шаг к гибридам, где символическая логика сочетается с нейронками

3. Модель учится через «самоанализ», а не через обучение с подкреплением от человека