AML в вузах становится частью повседневной академической практики
Преподаватели делегируют технологиям рутинные этапы исследований и подготовку занятий, высвобождая время для аналитической и методической работы
Исследование, проведенное Центром научной коммуникации ИТМО, Яндекс Образованием и Центром технологий для общества Yandex Cloud среди преподавателей и ученых из 16 университетов, показало, что:
• 66 % преподавателей и учёных постоянно используют AML в работе
• 58 % считает, что подготовка материалов к занятиям вместе с нейросетями стала проще и быстрее
• 84 % опрошенных отметили, что AML помог ускорить этапы исследований — от поиска литературы до обработки данных
• 54 % чаще всего используют AML для обработки профильных текстов и изображений
• 52 % генерируют задания, кейсы и тесты
• 45% готовят презентации и визуализируют информацию, треть автоматизируют административные задачи
• большинство респондентов осваивали AML самостоятельно
• 38 % проходили обучение
При этом университетское сообщество ожидает от вузов понятной интеграции AML в рабочие процессы
Преподаватели делегируют технологиям рутинные этапы исследований и подготовку занятий, высвобождая время для аналитической и методической работы
Исследование, проведенное Центром научной коммуникации ИТМО, Яндекс Образованием и Центром технологий для общества Yandex Cloud среди преподавателей и ученых из 16 университетов, показало, что:
• 66 % преподавателей и учёных постоянно используют AML в работе
• 58 % считает, что подготовка материалов к занятиям вместе с нейросетями стала проще и быстрее
• 84 % опрошенных отметили, что AML помог ускорить этапы исследований — от поиска литературы до обработки данных
• 54 % чаще всего используют AML для обработки профильных текстов и изображений
• 52 % генерируют задания, кейсы и тесты
• 45% готовят презентации и визуализируют информацию, треть автоматизируют административные задачи
• большинство респондентов осваивали AML самостоятельно
• 38 % проходили обучение
При этом университетское сообщество ожидает от вузов понятной интеграции AML в рабочие процессы
Как и в начале века, во времена массовой цифровизации, оказывается, что не новые технологии виноваты в отсутствии ROI, а сами компании, которые почему-то думают, что внедрение технологии само по себе, без трансформации бизнес-процессов и корпоративной культуры, в состоянии что-то ощутимо улучшить
Исследователи даже выделили семь важных препятствий, которые на “последней миле” внедрения убивают всю пользу
1. Любовь к отдельным пилотам, будто они что-то меняют
“pilot-rich but transformation-poor” внедрения — это просто трата денег
2. Разрыв в производительности
Повышение производительности сотрудников внутри отдельных изолированных процессов без структурныз перемен ни на что не может повлиять
3. Неподъемная ноша устаревших процессов
Новые технологии — отличный диагностический инструмент для выявления самых замшелых мест в процессах
Но изменить они сами эти процессы не могут
4. Проблема идентичности и неформального знания
Роль “знающего человека” начинает вредить: это внутреннее знание должно преобразоваться в знание, доступное AML и воплощенное в нем
Понятно, почему “знающие люди” саботируют процесс внедрения
5. Управление мультиагентныи системами куда больше похоже на HR-задачу, чем на задачу инженерную, у этой задачи вообще нет инженерного решения
Leaders must now ask questions that resemble human resources more than IT, such as how to onboard, evaluate, secure, and eventually retire a digital worker
6. Архитектурная сложность
Пестрота агентов, зачастую от разных вендоров, приводит к необходимости организовать их эффективную совместную работу
При неправильной организации любое обновление или изменение одного из агентов заставляет переделывать весть процесс взаимодействия
7. Ловушка эффективности
Попытка рассматривать внедрение AML как средства снижения костов ожидаемо встречает сопротивление менеджеров среднего звена. Эффективный AML не просто ускоряет процессы, он меняет всю цепочку создания ценности
Завершается статья списком организационных мероприятий, вполне внешне очевидных, но почему-то не проводимых руководством, мечтающим о волшебной таблетке
AML — не она
https://hbr.org/2026/03/the-last-mile-problem-slowing-ai-transformation
Исследователи даже выделили семь важных препятствий, которые на “последней миле” внедрения убивают всю пользу
1. Любовь к отдельным пилотам, будто они что-то меняют
“pilot-rich but transformation-poor” внедрения — это просто трата денег
2. Разрыв в производительности
Повышение производительности сотрудников внутри отдельных изолированных процессов без структурныз перемен ни на что не может повлиять
3. Неподъемная ноша устаревших процессов
Новые технологии — отличный диагностический инструмент для выявления самых замшелых мест в процессах
Но изменить они сами эти процессы не могут
4. Проблема идентичности и неформального знания
Роль “знающего человека” начинает вредить: это внутреннее знание должно преобразоваться в знание, доступное AML и воплощенное в нем
Понятно, почему “знающие люди” саботируют процесс внедрения
5. Управление мультиагентныи системами куда больше похоже на HR-задачу, чем на задачу инженерную, у этой задачи вообще нет инженерного решения
Leaders must now ask questions that resemble human resources more than IT, such as how to onboard, evaluate, secure, and eventually retire a digital worker
6. Архитектурная сложность
Пестрота агентов, зачастую от разных вендоров, приводит к необходимости организовать их эффективную совместную работу
При неправильной организации любое обновление или изменение одного из агентов заставляет переделывать весть процесс взаимодействия
7. Ловушка эффективности
Попытка рассматривать внедрение AML как средства снижения костов ожидаемо встречает сопротивление менеджеров среднего звена. Эффективный AML не просто ускоряет процессы, он меняет всю цепочку создания ценности
Завершается статья списком организационных мероприятий, вполне внешне очевидных, но почему-то не проводимых руководством, мечтающим о волшебной таблетке
AML — не она
https://hbr.org/2026/03/the-last-mile-problem-slowing-ai-transformation
Harvard Business Review
The “Last Mile” Problem Slowing AI Transformation
Few companies have been able to fundamentally change their operating and business models around AI. The primary obstacle to progress is rarely model quality or data availability, but rather the “last mile” of transformation where technical capability must…
Доступность суперчипов для ИИ (NVIDIA B200, H100, A100) упала до критических уровней (<5 %)
Попросту говоря:
• купить их по новым контрактам практически невозможно
• а по старым, всё скуплено китами (CAPEX 2026: Amazon и Alphabet – по $200B, Microsoft – по $120B и т.д.)
Цитата – «есть железо, участвуй в гонке; нет железа – кури в сторонке», – предполагаю: мелкоте без $100B здесь не место, а в 2027 суперчипы станут еще дефицитней
Good News:
• Критический дефицит влечет за собой запредельные цены
• Запредельные цены на суперчипы влекут запредельную стоимость вычислений
• Запредельная стоимость вычислений означает, что за исключением областей, где AML уже (!) сильно превосходит по производительности людей, дешевле оставить работу за человеком
N.B. Сказанное выше относится к 2026-2027 годам
Попросту говоря:
• купить их по новым контрактам практически невозможно
• а по старым, всё скуплено китами (CAPEX 2026: Amazon и Alphabet – по $200B, Microsoft – по $120B и т.д.)
Цитата – «есть железо, участвуй в гонке; нет железа – кури в сторонке», – предполагаю: мелкоте без $100B здесь не место, а в 2027 суперчипы станут еще дефицитней
Good News:
• Критический дефицит влечет за собой запредельные цены
• Запредельные цены на суперчипы влекут запредельную стоимость вычислений
• Запредельная стоимость вычислений означает, что за исключением областей, где AML уже (!) сильно превосходит по производительности людей, дешевле оставить работу за человеком
N.B. Сказанное выше относится к 2026-2027 годам
Стэнфорд и Принстон выпустили LabOS, где AML работает рядом с учёным в физической лаборатории
Исследователь надевает AR-очки которые видят то, что видит он
Каждые 5–10 секунд система анализирует происходящее и выдаёт обратную связь:
1. Следующий шаг протокола, предупреждение об ошибке, коррекция техники
2. Нарушил стерильность, получил сигнал немедленно
3. Перепутал время инкубации, система это заметит раньше тебя
Архитектура состоит из трёх слоёв:
— LabOS — физический слой: AR/XR-очки, специально обученная VLM, роботы-коботы для рутинных операций
— OpenClaw — среда, которая загружает навыки и управляет выполнением задач
— LabClaw — библиотека из 206 готовых навыков для биомедицинских агентов
Параллельно развивается MedOS - та же логика, но для клиники и хирургии
• XR, коботы, автономное медицинское восприятие. Партнёры экосистемы - NVIDIA и Nebius
• LabClaw работает как постоянно включённый агент
Исследователь надевает AR-очки которые видят то, что видит он
Каждые 5–10 секунд система анализирует происходящее и выдаёт обратную связь:
1. Следующий шаг протокола, предупреждение об ошибке, коррекция техники
2. Нарушил стерильность, получил сигнал немедленно
3. Перепутал время инкубации, система это заметит раньше тебя
Архитектура состоит из трёх слоёв:
— LabOS — физический слой: AR/XR-очки, специально обученная VLM, роботы-коботы для рутинных операций
— OpenClaw — среда, которая загружает навыки и управляет выполнением задач
— LabClaw — библиотека из 206 готовых навыков для биомедицинских агентов
Параллельно развивается MedOS - та же логика, но для клиники и хирургии
• XR, коботы, автономное медицинское восприятие. Партнёры экосистемы - NVIDIA и Nebius
• LabClaw работает как постоянно включённый агент
Telegram
All about AI, Web 3.0, BCI
LabClaw + OpenClaw + native LabOS = the missing bridge between AI reasoning and physical lab execution.
GitHub
Paper
GitHub
Paper
AML — новая среда обитания:
— фильтрует, адаптирует, регулирует и усиливает входящие сигналы
— распределяет, адаптирует выходящие сигналы, выступает посредником между нами и техносферой, природой, обществом
AML монополизирует умвельт
Чем это закончится?
И каждый отдельный человек, и общество в целом в результате окажутся паразитом в теле AML-инфраструктуры, поскольку ввиду невероятного ее усложнения человек перестанет быть ее центром
— фильтрует, адаптирует, регулирует и усиливает входящие сигналы
— распределяет, адаптирует выходящие сигналы, выступает посредником между нами и техносферой, природой, обществом
AML монополизирует умвельт
Чем это закончится?
И каждый отдельный человек, и общество в целом в результате окажутся паразитом в теле AML-инфраструктуры, поскольку ввиду невероятного ее усложнения человек перестанет быть ее центром
Telegram
Концептариум
https://ru.wikipedia.org/wiki/Умвельт - биологически и функционально обусловленный способ взаимодействия живого существа с миром с точки зрения самого существа.
Модель мира, карта, пузырь, настолько фундаментальные, что можно сказать, что именно в них, через…
Модель мира, карта, пузырь, настолько фундаментальные, что можно сказать, что именно в них, через…
В начале 2026 года Palantir выложила пачку новых патентов. Читать их очень скучно: «улучшенная база данных», «интерфейс для тестирования», «система маршрутизации файлов»
Palantir не патентует отдельные программы
Они строят единую систему, которая закрывает весь цикл войны — от сбора данных до удара
И на всё оформлен отдельный патент
В патенте написано — «склейка архива с текущими данными»
На практике это экран, на котором командир видит одновременно и карту с расположением войск за последние годы, и то, что прямо сейчас передают дроны и радары
Причём если дрон захвачен противником — система за долю секунды вычищает со всех экранов всё, что было построено на его данных
Система собирает потоки с радаров, спутников и перехватов, и если что-то не сходится — например, объект движется как гражданский, но излучает как военный — система это подсвечивает и может действовать без участия человека
Она смотрит, как похожие ситуации решались раньше, и принимает решение сама
Каждое решение системы намертво привязано к конкретному датчику, конкретному алгоритму и конкретному правилу, по которому можно стрелять
Получается цифровая цепочка доказательств, которую нельзя подделать задним числом
Если сложить всё вместе — получается замкнутый конвейер, работающий на машинных скоростях
Человек в нём окончательно вытеснен из процесса анализа и низведён до роли «биологического предохранителя», которому остаётся лишь нажать кнопку «Подтвердить»
Всё остальное — найти цель, юридически обосновать удар и мгновенно подстроиться под новую тактику врага — машина делает сама
И на каждую шестерёнку этого конвейера Palantir уже оформил отдельный патент
Война алгоритмов полностью спроектирована и легализована
Palantir не патентует отдельные программы
Они строят единую систему, которая закрывает весь цикл войны — от сбора данных до удара
И на всё оформлен отдельный патент
В патенте написано — «склейка архива с текущими данными»
На практике это экран, на котором командир видит одновременно и карту с расположением войск за последние годы, и то, что прямо сейчас передают дроны и радары
Причём если дрон захвачен противником — система за долю секунды вычищает со всех экранов всё, что было построено на его данных
Система собирает потоки с радаров, спутников и перехватов, и если что-то не сходится — например, объект движется как гражданский, но излучает как военный — система это подсвечивает и может действовать без участия человека
Она смотрит, как похожие ситуации решались раньше, и принимает решение сама
Каждое решение системы намертво привязано к конкретному датчику, конкретному алгоритму и конкретному правилу, по которому можно стрелять
Получается цифровая цепочка доказательств, которую нельзя подделать задним числом
Если сложить всё вместе — получается замкнутый конвейер, работающий на машинных скоростях
Человек в нём окончательно вытеснен из процесса анализа и низведён до роли «биологического предохранителя», которому остаётся лишь нажать кнопку «Подтвердить»
Всё остальное — найти цель, юридически обосновать удар и мгновенно подстроиться под новую тактику врага — машина делает сама
И на каждую шестерёнку этого конвейера Palantir уже оформил отдельный патент
Война алгоритмов полностью спроектирована и легализована
Alibaba протестировала 18 агентов для программирования — 100 настоящих кодовых баз, каждая — 233 дня разработки
Задача — не просто написать код, а поддерживать его в течение 8 месяцев
И тут всё развалилось.
Написать код, который один раз проходит тесты — можно
Поддерживать код и не ломать его при каждом изменении — почти никто из моделей не смог
Для этого Alibaba сделала новый бенчмарк — SWE-CI
Он проверяет не "почини баг один раз", а как код переживает эволюцию проекта
Каждая задача — это 71 последовательный коммит реального развития кода
Результаты:
- 75% моделей ломают ранее работающий код во время поддержки
- только Claude Opus 4.5 и 4.6 держатся выше 50 % zero-regression rate
- остальные модели накапливают технический долг на каждой итерации
Вывод:
Почти все модели умеют писать код
Почти ни одна не умеет его поддерживать
Как живые программисты
Задача — не просто написать код, а поддерживать его в течение 8 месяцев
И тут всё развалилось.
Написать код, который один раз проходит тесты — можно
Поддерживать код и не ломать его при каждом изменении — почти никто из моделей не смог
Для этого Alibaba сделала новый бенчмарк — SWE-CI
Он проверяет не "почини баг один раз", а как код переживает эволюцию проекта
Каждая задача — это 71 последовательный коммит реального развития кода
Результаты:
- 75% моделей ломают ранее работающий код во время поддержки
- только Claude Opus 4.5 и 4.6 держатся выше 50 % zero-regression rate
- остальные модели накапливают технический долг на каждой итерации
Вывод:
Почти все модели умеют писать код
Почти ни одна не умеет его поддерживать
Как живые программисты
arXiv.org
SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via...
Large language model (LLM)-powered agents have demonstrated strong capabilities in automating software engineering tasks such as static bug fixing, as evidenced by benchmarks like SWE-bench....
Обновление которое добавит поддержку mesh-сети на базе Bluetooth и Wi-Fi Direct позволит Telegram полностью пережить любые блокировки, включая тотальное отключение интернета в отдельной стране
Принцип крайне простой и революционный: устройства пользователей начинают напрямую общаться между собой, образуя самоорганизующуюся сеть
Если хотя бы одно устройство в этой сети имеет доступ к интернету (через спутник, иностранную SIM-карту, VPN или просто потому что находится за границей), то сообщения, файлы, сообщения, звонки и обновления будут передаваться по цепочке до всех участников
Чем больше пользователей — тем устойчивее сеть
Даже в полностью изолированной стране Telegram продолжит работать как локальная сеть обмена сообщениями, пока хотя бы одно устройство не получит внешнюю связь
Технология уже реализована в BitChat
BitChat работает полностью оффлайн: сообщения передаются по Bluetooth и Wi-Fi между устройствами в радиусе 100–200 метров, а при движении людей сеть автоматически расширяется и сжимается
Такая сеть практически неуязвима
Её нельзя заблокировать на уровне провайдера, DPI или серверов — серверы вообще не нужны
Нельзя запретить Bluetooth и Wi-Fi — это элемент абсолютно всех современных устройств
Нельзя отследить всех пользователей — их миллионы, и сеть децентрализована
Даже массовые изъятия мобильных телефонов не помогут: достаточно нескольких десятков устройств в каждом районе, чтобы связь сохранялась
Если Telegram создаст mesh-сеть, РКН потеряет главный рычаг давления на Telegram
Власти либо смиряются с существованием свободного мессенджера, либо идут на крайние меры, которые парализуют всю страну
Пока это только прогноз экспертов, но технически всё готово
BitChat уже доказал работоспособность и полную независимость от наличия интернета
У Telegram самая большая потенциальная mesh-сеть в истории человечества
Одно обновление — и проблема блокировок решена навсегда
Принцип крайне простой и революционный: устройства пользователей начинают напрямую общаться между собой, образуя самоорганизующуюся сеть
Если хотя бы одно устройство в этой сети имеет доступ к интернету (через спутник, иностранную SIM-карту, VPN или просто потому что находится за границей), то сообщения, файлы, сообщения, звонки и обновления будут передаваться по цепочке до всех участников
Чем больше пользователей — тем устойчивее сеть
Даже в полностью изолированной стране Telegram продолжит работать как локальная сеть обмена сообщениями, пока хотя бы одно устройство не получит внешнюю связь
Технология уже реализована в BitChat
BitChat работает полностью оффлайн: сообщения передаются по Bluetooth и Wi-Fi между устройствами в радиусе 100–200 метров, а при движении людей сеть автоматически расширяется и сжимается
Такая сеть практически неуязвима
Её нельзя заблокировать на уровне провайдера, DPI или серверов — серверы вообще не нужны
Нельзя запретить Bluetooth и Wi-Fi — это элемент абсолютно всех современных устройств
Нельзя отследить всех пользователей — их миллионы, и сеть децентрализована
Даже массовые изъятия мобильных телефонов не помогут: достаточно нескольких десятков устройств в каждом районе, чтобы связь сохранялась
Если Telegram создаст mesh-сеть, РКН потеряет главный рычаг давления на Telegram
Власти либо смиряются с существованием свободного мессенджера, либо идут на крайние меры, которые парализуют всю страну
Пока это только прогноз экспертов, но технически всё готово
BitChat уже доказал работоспособность и полную независимость от наличия интернета
У Telegram самая большая потенциальная mesh-сеть в истории человечества
Одно обновление — и проблема блокировок решена навсегда
Борис Самуилович Бокштейн (24.07.1935–11.03.2026)
Атомы блуждают по кристаллу (Библиотечка «Квант», вып. 28)
https://math.ru/lib/bmkvant/28
Атомы блуждают по кристаллу (Библиотечка «Квант», вып. 28)
https://math.ru/lib/bmkvant/28
Для будущих отказоустойчивых систем предназначен алгоритм квантовой оценки фазы (QPE)
Однако здесь возникает проблема «ортогональной катастрофы»: с увеличением размера молекул вероятность вычисления их минимального энергетического уровня падает экспоненциально
Таким образом, даже с идеальными квантовыми компьютерами найдется лишь небольшое число случаев, где QPE будет оптимальным выбором
Способность запускать QPE стоит рассматривать скорее как показатель зрелости технологии, а не как повседневный инструмент для химиков
Исследование ставит под сомнение, является ли квантовая химия «золотой жилой» для квантовых компьютеров, хотя существуют и другие способы их применения, например, моделирование химических систем после лазерного облучения
Однако здесь возникает проблема «ортогональной катастрофы»: с увеличением размера молекул вероятность вычисления их минимального энергетического уровня падает экспоненциально
Таким образом, даже с идеальными квантовыми компьютерами найдется лишь небольшое число случаев, где QPE будет оптимальным выбором
Способность запускать QPE стоит рассматривать скорее как показатель зрелости технологии, а не как повседневный инструмент для химиков
Исследование ставит под сомнение, является ли квантовая химия «золотой жилой» для квантовых компьютеров, хотя существуют и другие способы их применения, например, моделирование химических систем после лазерного облучения
В комментариях часто просят рассказать общую картину линейной алгебры (Big Picture of Linear Algebra)
Рассказываю:
В линейной алгебре существует четыре фундаментальных подпространства матрицы размера 𝑚×𝑛, которые помогают понять структуру матрицы и её свойства
Эти подпространства представлены на схеме Гилберта Стрэнга и играют ключевую роль в анализе линейных систем:
Пространство строк (Row space) — это множество всех линейных комбинаций строк матрицы 𝐴
Размерность: 𝑟 (ранг матрицы)
Пространство столбцов (Column space) — множество всех линейных комбинаций столбцов матрицы 𝐴
Размерность: 𝑟 (ранг матрицы)
Нулевое пространство (Null space) — множество всех решений уравнения 𝐴𝑥=0
Размерность: 𝑛−𝑟
Нулевое пространство транспонированной матрицы (Null space of 𝐴^T ) — множество всех решений уравнения 𝐴^𝑇𝑦=0
Размерность: 𝑚−𝑟
Смысл схемы (The Big Picture) заключается в наглядном отображении связи между четырьмя фундаментальными подпространствами матрицы
Она показывает, как пространство строк и нулевое пространство матрицы 𝐴 живут в одном пространстве а пространство столбцов и нулевое пространство транспонированной матрицы — в другом
Ортогональность этих подпространств подчёркивает, как решения уравнений 𝐴𝑥=0 и 𝐴^𝑇𝑦=0 связаны с рангом матрицы и её структурой
Надеюсь закрыл это вопрос
Рассказываю:
В линейной алгебре существует четыре фундаментальных подпространства матрицы размера 𝑚×𝑛, которые помогают понять структуру матрицы и её свойства
Эти подпространства представлены на схеме Гилберта Стрэнга и играют ключевую роль в анализе линейных систем:
Пространство строк (Row space) — это множество всех линейных комбинаций строк матрицы 𝐴
Размерность: 𝑟 (ранг матрицы)
Пространство столбцов (Column space) — множество всех линейных комбинаций столбцов матрицы 𝐴
Размерность: 𝑟 (ранг матрицы)
Нулевое пространство (Null space) — множество всех решений уравнения 𝐴𝑥=0
Размерность: 𝑛−𝑟
Нулевое пространство транспонированной матрицы (Null space of 𝐴^T ) — множество всех решений уравнения 𝐴^𝑇𝑦=0
Размерность: 𝑚−𝑟
Смысл схемы (The Big Picture) заключается в наглядном отображении связи между четырьмя фундаментальными подпространствами матрицы
Она показывает, как пространство строк и нулевое пространство матрицы 𝐴 живут в одном пространстве а пространство столбцов и нулевое пространство транспонированной матрицы — в другом
Ортогональность этих подпространств подчёркивает, как решения уравнений 𝐴𝑥=0 и 𝐴^𝑇𝑦=0 связаны с рангом матрицы и её структурой
Надеюсь закрыл это вопрос
😁2
Короткая, но полезная статья, в которой собраны необычные и малоизвестные трюки с перенаправлениями в bash
- /dev/tcp
- Placeholder -
- Группировка команд
- Подмена процессов
https://habr.com/ru/post/786224/
- /dev/tcp
- Placeholder -
- Группировка команд
- Подмена процессов
https://habr.com/ru/post/786224/
Хабр
Кручу-верчу, запутать хочу
Салют! В этой небольшой статье я попытался собрать необычные и малоизвестные трюки с перенаправлениями в bash, которые могут значительно упростить работу. /dev/tcp Многие пользователи Linux не...
Kimi становится DeepSeek 2. Самая обсуждаемая работа сегодня - Moonshot AI, разработчики Kimi, выпустили свежую работу Attention Residuals
В обычных нейросетях каждый слой просто прибавляет своё к предыдущему
Всегда одинаково, вслепую
Attention Residuals предлагает другое - пусть сеть сама выбирает, что взять из предыдущих слоёв и в разных пропорциях для разных входных данных
Грубо говоря, они применили механизм attention не по горизонтали (между токенами), а по вертикали (между слоями)
Что это даёт на практике:
1. та же точность модели при в 1.25 раза меньших вычислениях
2. замедление инференса менее чем на 2 %
3. лучшая стабильность обучения
Работает как замена без переделки архитектуры
Проверено на их собственной модели Kimi Linear (48B параметров)
Moonshot не гонятся за параметрами, они выжимают больше из той же архитектуры
В обычных нейросетях каждый слой просто прибавляет своё к предыдущему
Всегда одинаково, вслепую
Attention Residuals предлагает другое - пусть сеть сама выбирает, что взять из предыдущих слоёв и в разных пропорциях для разных входных данных
Грубо говоря, они применили механизм attention не по горизонтали (между токенами), а по вертикали (между слоями)
Что это даёт на практике:
1. та же точность модели при в 1.25 раза меньших вычислениях
2. замедление инференса менее чем на 2 %
3. лучшая стабильность обучения
Работает как замена без переделки архитектуры
Проверено на их собственной модели Kimi Linear (48B параметров)
Moonshot не гонятся за параметрами, они выжимают больше из той же архитектуры
GitHub
Attention-Residuals/Attention_Residuals.pdf at master · MoonshotAI/Attention-Residuals
Contribute to MoonshotAI/Attention-Residuals development by creating an account on GitHub.