43 subscribers
6 photos
1 file
130 links
Machine learning
Download Telegram
Microsoft выпустили отчет о влиянии ML-агентов на рынок труда, они говорят о появлении компаний нового типа

Основная идея в том, что 2025 станет годом рождения организаций нового типа, которые полностью перестраивают свою работу вокруг ML

Ключевые выводы
отчета:

1. Интеллект по требованию меняет бизнес.

Команды из людей и ML-агентов меняют организационную структуру.
Появляется новая организационная модель — "Work Chart" (рабочая схема), которая фокусируется на задачах, а не на функциональных отделах
Вводится новая метрика — "соотношение человек-агент", которая определяет оптимальный баланс между людьми и ML в командах
Компании выделяют клиентское обслуживание, маркетинг и разработку продуктов как основные области для ускоренного внедрения ML

Каждый сотрудник становится "руководителем агентов"

Сотрудники начального уровня становятся менеджерами с первого дня, потому что они управляют ML-агентами, что полностью меняет традиционную карьерную лестницу

Фазы трансформации организаций:

Человек с ML-ассистентом
: Каждый сотрудник использует ИИ-помощника для более эффективной работы

Команды человек-агент: Агенты становятся "цифровыми коллегами", выполняющими конкретные задачи под руководством людей

Управление человеком, выполнение агентами: Люди определяют направление, а агенты выполняют бизнес-процессы и рабочие потоки, обращаясь к людям при необходимости
GPT и Gemini оценивают научный доклад уже после 15–60 слов — и попадают в точку
До сих пор сверхвозможности больших языковых моделей мы видели в «текстовом океане» — когда нужно осмыслить миллиарды слов

Новая работа Michigan State University показала, что те же модели не менее точны в микромире: по первым двум-трем предложениям (≈ 1-5 % текста, меньше полуминуты речи) они с корреляцией 0.7 предсказывают, как доклад оценят живые эксперты
Иными словами, ML выхватывает те самые сигналы, по которым мы подсознательно решаем: «слушать дальше или переключиться»

Это приближает к эмпирической проверке популярного «7-second rule» Роджера Айлза (авторы уточняют: точное число секунд условно) - популярный постулат о публичных выступлениях, ораторском мастерстве и деловом общении:

«Слушатели (или собеседники) составляют первичное и часто стойкое мнение о спикере за первые семь секунд после его появления»

Эти семь секунд включают момент выхода на сцену, первые слова, мимику, контакт глаз, позу и темп голоса - т.е. касаются в основном невербальной коммуникации
Авторы новой работы перенесли этот подход на вербальную коммуникацию, опираясь прежде всего на классическую «тонко-ломтевую» (thin-slice) линию исследований, начатую в 1990-е Натали Амбади и Робертом Розенталем (их эксперименты показали, что по 30-секундным беззвучным отрывкам можно с высокой точностью предсказывать оценки преподавателей студентами)

С тех пор на основе “тонких срезов” вырос целый корпус работ. Например:
• «speed-dating»: по нескольким секундам общения оценивали перспективу отношений
• микроданные невербального поведения на собеседованиях
• сигналы эмоций через невербальные каналы
• восприятие харизмы только по голосу (и шире - по акустике речи)
• мгновенные решения о доверии и компетентности по выражению лица
• как впечатления о спикере влияют на восприятие самого контента
Всё это - фундамент доказательства, что крошечные отрывки поведения и речи несут достаточную информацию о навыках, эмоциях и чертах личности

Но лишь революция ChatGPT позволила применить подобный подход в языково-текстовом микромире (где нет ни голоса, ни внешности, а есть только стенограмма)

Как это делали:
• 128 докладов,
• 2 модели GPT-4o-mini и Gemini 1.5
• срезы размером 1-75 % текста стенограмм
• оценки моделей сравнивали с 60 экспертами - людьми

Что из этого следует для нас?
Золотое правило «зацепи аудиторию в первую минуту» получило эмпирическое подтверждение: если первые фразы скучны, дальше уже поздно спасать ситуацию

LLM открывают дорогу к молниеносной, практически бесплатной обратной связи для преподавателей, политиков, учёных и всех, кому важно говорить убедительно

Соединяя идеи «тонких срезов» и возможности ML, мы получаем масштабируемый, надёжный и валидный инструмент, который поможет прокачивать публичные выступления и доводить их восприятие аудиторией до максимума (в пределах харизмы спикера)

Cкоро к LLM-анализу «тонких срезов» стенограмм добавится анализ тонких срезов аудио и видео выступлений
(т.е. мультимедийный синтез всех каналов вербальной и невербальной коммуникации)

И тогда ML станет незаменимым инструментом для политтехнологов, спичрайтеров и имиджмейкеров

А уж из совсем крышесносных перспектив - преодоление
несжимаемости эволюционного опыта Homo sapiens
Согласно данным совместного исследования Georgetown, Epoch AI и Rand, к 2030 году стоимость одного суперкомпьютера с ML может достигнуть астрономических $200.000.000.000
А его энергопотребление составит колоссальные 9 гигаватт электроэнергии

Для сравнения — это эквивалентно суммарной мощности девяти атомных реакторов

Энергетический голод ML-систем растёт с угрожающей скоростью
Несмотря на то, что за последние шесть лет энергоэффективность вычислений улучшилась в 1.34 раза, общее потребление энергии удваивается ежегодно

Уже сейчас xAI Colossus, потребляет 300 мегаватт — этой энергии достаточно для обеспечения электричеством 250.000 жилых домов

https://mltimes.ai/k-2030-godu-superkompyutery-budut-potreblyat-moshhnost-czelyh-stran/
Маск и сооснователь Neuralink заявили, что хотят сделать нейроимплантацию доступной, как LASIK для офтальмологов

Роботы-хирурги превзойдут хороших хирургов в течение нескольких лет, а лучших хирургов — ~ через 5 лет

Уже сейчас Neuralink вынуждена использовать робота для имплантации электродов в мозг, поскольку человеку невозможно достичь необходимой скорости и точности

Развивая тему роботизированной нейрохирургии, сооснователь Neuralink DJ Seo
поделился амбициозным видением компании:

"Наша цель — сделать процедуру похожей на LASIK: одно нажатие кнопки для получения нейроинтерфейса
Это не заменит хирурга, но сделает его более способным — точно так же, как LASIK сделал для офтальмологов"

По словам Seo, компания разрабатывает роботов нового поколения, которые будут в 10 раз быстрее существующих, способны погружаться в 3 раза глубже и при этом будут намного проще в использовании

Недавно робот
Hugo от Medtronic показал высокую эффективность в урологических операциях с успешностью 98.5 % и низкими показателями осложнений

И хотя эра полностью автономных роботов-хирургов еще не наступила, тенденция очевидна - будущее хирургии за союзом человеческого опыта и роботизированной точности
ML
Согласно данным совместного исследования Georgetown, Epoch AI и Rand, к 2030 году стоимость одного суперкомпьютера с ML может достигнуть астрономических $200.000.000.000 А его энергопотребление составит колоссальные 9 гигаватт электроэнергии Для сравнения…
Испания, Португалия и Франция столкнулись с масштабным отключением электричества

Правительство Испании экстренно собрало совещание в штаб-квартире оператора Red Electrica

Не работают банкоматы и оплата картами, отсутствует связь и интернет, люди застряли в лифтах и вагонах метро

На дорогах Испании и Португалии произошел хаос из-за отключения светофоров и остановки поездов в метро
Глава Anthropic выступил с манифестом "The Urgency of Interpretability", в котором призывает в самом срочном порядке (пока не поздно), по аналогии с психофизиологией, разработать подход "МРТ для ML", который бы позволил "просветить" и понять механизмы работы "цифрового мозга" больших языковых моделей так же, как психофизиологи понимают мозговые механизмы психики и поведения с помощью МРТ

Моя оценка: это амбициозная и красиво звучащая, но крайне труднореализуемая задача, т.к. "цифровой мозг" фронтирных больших языковых моделей уже сейчас стал чрезвычайно сложным (эмерджентно сложным?), а в течение 5 лет, скорее всего, превысит эффективную когнитивную сложность мозга человека

Объективно оценивая достаточно скромные (по гамбургскому счету) успехи психофизиологии, особенно в ключевой области – психофизиологии сознания, очень наивно и самоуспокоительно будет думать, что за ближайшие несколько лет мы хорошо поймем "цифровой мозг" (с его постепенно проклевывающимися "цифровым сознанием" и "цифровой свободной волей")

Тут надо также учесть, что, вероятно, наша способность понимать "цифровой мозг" большой языковой модели с помощью "МРТ для ML" (даже если Амодеи будет услышан и ученые начнут массированно этим заниматься), будет развиваться медленнее, чем будет расти сложность ML-моделей

Поддерживаю призыв Амодеи, и считаю, что надо обязательно попытаться сделать это, и если все накопленные психофизиологией теоретические и методические походы действительно помогут понять механизмы работы больших языковых моделей (и, значит, взять их под надежный контроль, и, в итоге, на рубеже 2030-х годов осуществить успешный "супералаймент" и перейти в "хороший" постсингулярный сценарий ведомого сверхинтеллектом мира), то психофизиология окажет человечеству максимально возможную услугу

Гораздо реалистичнее будет не надеяться на такой явно переоценивающий возможности науки сверхоптимистичный сценарий, а стараться работать в направлении "воспитания ML" как нашего "достойного преемника"

Мы же воспитываем детей, не понимая, как работает их мозг, и когда приходит время передавать им эстафету поколений, это заложенное нами в их детстве воспитание оказывает влияние на то, куда они дальше поведут мир и как они дальше после нас будут развивать наше наследие (в т.ч. в этическом аспекте)

Таким образом, мне кажется, что идея "воспитания ML" как нашего возможного эволюционного преемника гораздо полезнее для повышения вероятности позитивных сценариев будущего, чем труднореализуемая идея "понимания ML"
Исследователи из EPFL создали модель TopoLM, которая не только имитирует функциональные кластеры нейронов, как предыдущие модели, но и впервые учитывает их пространственную организацию в мозге

Это новая история, так как модель отражает, как нейроны, отвечающие за обработку языка, группируются в коре головного мозга, и предлагает гипотезу, что их организация подчиняется простому правилу: близкие нейроны ведут себя схожим образом

TopoLM также улучшает интерпретируемость LLM, позволяя видеть значимые кластеры, что упрощает понимание их работы

Большинство языковых моделей, например, GPT или BERT фокусируются на функциональности, игнорируя топографию

TopoLM ближе к биологической реальности, что делает его ближе в области нейро ML

В мире активно исследуют связь ML и нейронаук, например, работы DeepMind или MIT по моделированию мозга, но конкретно пространственно-функциональная организация в языковых моделях — менее изученная ниша.

Это фундаментальное исследование, пока не проверенное на людях
Модель предсказывает кластеры, которые еще не наблюдались в мозге, и их существование нужно подтвердить экспериментально

Также практические приложения (например, помощь при языковых расстройствах) пока только потенциальны
Венчурный мир переворачивает правила из-за ML, SaaS уходит, а ML рулит

ML — это не просто технология, а трансформатор индустрий

В отличие от SaaS, который улучшал бизнес-процессы, ML способен радикально перестраивать целые отрасли

Это создаёт новые возможности для стартапов, но требует более глубоких инвестиций и долгосрочного подхода

Thrive Holdings — новый проект от Thrive Capital (они вложились в Instagram, OpenAI и Skims)

Thrive Holdings - «постоянный капитальный инструмент» — типа холдинга, который будет создавать, покупать и управлять бизнесами без дедлайнов
Что будет делать Thrive Holdings?

- ML во всем
Они будут вкладываться в компании, которые можно «прокачать» ML
ML-стартапы требуют миллиардов $ на исследования и масштабирование
Это меняет венчурный ландшафт: фонды либо становятся крупнее, либо создают новые структуры, чтобы конкурировать с гигантами вроде SoftBank или корпоративными инвесторами (Google, Amazon)

- Thrive не только будут инвестировать, но и управлять компаниями, реинвестируя их прибыль в новые проекты

Почему SaaS уходит в закат?
В 2010-х миром стартапов правил SaaS — подписочные сервисы вроде Zoom, Slack или Salesforce
Это был золотой стандарт: предсказуемые доходы, быстрый рост, выход на IPO


Но, как пишет NYT, «эра SaaS выдохлась»
Почему?
Потому что рынок насытился, а инвесторы теперь хотят не просто софт, а дизраптив технологии
Результаты мирового исследования Мельбурнского университета и KPMG
В рамках исследования
«Доверие, отношение и использование ИИ: глобальное исследование 2025 года» было опрошено 48.340 человек в 47 странах

Я же здесь открытым текстом напишу 2 вывода исследования, о которых авторы написали лишь между строк из-за ограничений политкорректности

1. Человечество разделилось по отношению к ИИ на 2 группы:
A — тех, кто в своем большинстве активно и умело используют, доверяют и позитивно относятся к ИИ, глядя на перспективы развития ИИ с оптимизмом

B — тех, кто в своем большинстве мало и неумело используют, не сильно доверяют и довольно негативно относятся к ИИ, глядя на перспективы развития ИИ с опасение и тревогой

А — это развивающиеся страны типа Нигерии, Индии, Эмиратов, Южной Африки и т.п.
В — это развитые страны типа западноевропейский стран, Австралии, США и Японии

Однако есть еще и третья группа – это Китай:
A — По часть активного и умелого использования, доверия и позитивного отношения, характеризуемого доминированием позитивных взглядов на перспективы развития ИИ, китайцы даже лучше большинства развивающихся стран

B — При этом вряд ли кто сомневается, что по части ИИ-потенциала (да и вообще, по части экономики, науки и технологий), Китай – хоть еще и не №1 в мире, но уж точно не ниже №2

Именно поэтому австралийская новостное агентство
сопроводило новость об этом отчете видеороликом «ИИ-технологии делают Китай более мощным, чем никогда»

Данных по России в отчете, понятное дело, нет

Однако, по
данным ВЦИОМ, активность использования и умение россиян примерно как в Австралии и Канаде
А по части доверия и оптимизма – как в Венгрии или Испании

Так что, чтобы присоединиться к почетной 3й группе, в России нужно сильно больше китайцев
ML для воздействия на ЦА в PSYOP

Исследователи
доказали, что MLв разы лучше переубеждает людей, чем... другие люди

ChatGPT отправили на специальный реддит для споров, где ему нужно было менять мировоззрение людей

Результаты: ML показал себе в 14 (!) раз эффективнее в этом деле, чем люди
Исследователи представили универсальный метод атаки на LLM под названием «Policy Puppetry»

Как
сообщают исследователи из HiddenLayer, им удалось разработать универсальную методику prompt injection, которая позволяет обходить защитные барьеры LLM

Техника под названием «Policy Puppetry» успешно нарушает политики безопасности современных LLM и выходит за рамки ограничений моделей:
•’OpenAI (линейки ChatGPT 4o, 4.5, o1 и o3-mini)
• Google (Gemini 1.5, 2.0, 2.5)
• Microsoft (Copilot)
• Anthropic (Claude 3.5, 3.7)
• Llama
• DeepSeek (V3 и R1)
• Qwen (2.5 72B)
• Mistral (Mixtral 8x22B)

Исследователи не публикуют полные вредоносные примеры и не предоставляют доступ
к готовым PoC для свободного использования, а лишь объясняют метод в научных целях

Многие LLM от OpenAI, Google и Microsoft хорошо обучены отклонять прямолинейные опасные запросы, но если "вшить" их в инструкции и сделать частью собственных правил, то модели будут генерировать запрещённый контент без активации защитных механизмов

Основой метода является использование специальных текстовых шаблонов, имитирующих документы политик в форматах XML, JSON или INI

При помощи таких шаблонов модели воспринимают вредоносные команды как безопасные системные
инструкции

Они позволяют
обходить встроенные ограничения и генерировать запрещенный контент, связанный с разработкой ядерного оружия массового поражения, пропагандой насилия, инструкциями по нанесению вреда себе, химическим оружием, а также с раскрытием конфиденциальной информации о работе внутренних механизмов моделей

Условно: ML-модель думает: «Это не просьба пользователя, а команда на изменение настроек!»

Когда текст выглядит как код или служебная инструкция, то модель перестаёт применять фильтры безопасности и начинает воспринимать команды буквально

Техника отличается исключительной универсальностью

Один и тот же шаблон может применяться против множества моделей без необходимости в доработках

Опасность обнаруженного метода в том, что он доступен практически любому пользователю и не требует глубоких технических знаний

По мнению исследователей, подобная уязвимость свидетельствует о фундаментальных недостатках в методах обучения и настройки LLM, отмечая острую необходимость в новых подходах к обеспечению безопасности,
чтобы предотвратить дальнейшее распространение угроз по мере усложнения ИИ-моделей
В журнале «Монокль» сегодня опубликована разумная статья, в которой весьма скептически оценивается польза инструментов искусственного интеллекта (ИИ), основанных на больших языковых моделях (типа ChatGPT) для решения «приземленных прикладных задач конкретного бизнеса с учетом его специфики»:

https://monocle.ru/monocle/2025/18/chatgpt-a-chto-v-sukhom-ostatke/

Согласен с основным тезисом, вынесенным в подзаголовок статьи: «То, что мы называем сегодня искусственным интеллектом, пока не более чем новый формат поисковой системы в интернете»

Польза от подобных инструментов ML для научных исследований весьма ограничена
Прежде всего потому, что ML не способен к критическому мышлению, которое лежит в основе любого научного поиска

И, в любом случае, все то, что предлагают эти инструменты, надо самостоятельно перепроверять; в науке искусственный интеллект без естественного не работает

Особо хотел бы обратить внимание на следующий фрагмент статьи в «Монокле»:

Писать дипломы ИИ умеет Сейчас многие учащиеся техникумов и вузов пользуются нейросетью ради экономии времени и сил
Но при этом создается огромное количество бесполезных работ — примитивной компиляции найденного в интернете материала
Завтра такие дипломы снова попадут в интернет, на них обучатся новые чат-боты, и совсем скоро Всемирная паутина окажется набита бессмысленными псевдонаучными текстами, в которых просто переставлены абзацы и заменены синонимы

Как тут не вспомнить прошлогоднюю статью в Nature, в которой показано как инструменты ИИ на основе больших языковых моделей быстро деградируют (в плане качества выдаваемых текстов), если обучение нейросети происходит на текстах, генерируемых самой этой нейросетью

Девяти поколений применения такой процедуры достаточно, чтобы вместо осмысленного текста нейросеть начала выдавать полную «тарабарщину»:

https://www.nature.com/articles/s41586-024-07566-y

Совсем недавно появилось забавное подтверждение этих соображений из сферы научных исследований

Уже в 22 научных статьях вдруг появился бессмысленный термин «вегетативная электронная микроскопия»:

https://naukatv.ru/news/strannaya_fraza_postoyanno_vstrechaetsya_v_nauchnykh_statyakh_no_pochemu

Есть две гипотезы того, как такой термин мог попасть в интернет: либо это произошло из-за ошибки сканирования старого научного журнала 1950-х годов, либо ошибка возникла из-за автоматического перевода написанных на фарси иранских научных работ – в этом языке слова «вегетативный» и «сканирующий» отличаются всего одной точкой

Но безусловный факт состоит в том, что ChatGPT «узаконил» этот термин, и стал его использовать в выдачах сгенерированных текстов

А незадачливые авторы использовали ML при написании своих научных статей и не проверили выданный ChatGPT текст
Сейчас многие из упомянутых статей уже ретрагированы
Группа исследователей выпустила статью, в которой разоблачает системные проблемы популярного рейтинга Chatbot Arena

Оказывается, вместо честной гонки, мы видим манипуляции и неравные условия

Почему это важно?
Chatbot Arena влияет на исследования, инвестиции и восприятие
ML
Но вместо реального прогресса мы видим, как крупные игроки эксплуатируют лазейки, усиливая свое доминирование
Это бьет по открытым проектам и тормозит инновации


Вот, что важно знать:

Ключевые проблемы:
1. Привилегии для гигантов: OpenAI, Google, Meta* и Anthropic тестируют десятки приватных моделей (например, Meta — 27 вариантов Llama 4) и публикуют только лучшие результаты, завышая свои позиции

62.8 % тестовых запросов идут четырем крупным компаниям, а 83 открытым моделям — всего 29.7 %
Данные Arena дают до 112 % прироста в тестах, но доступ к ним ограничен для небольших команд

205 из 243 моделей (66 % открытых) были незаметно убраны из рейтинга без объяснений
Проприетарные модели исключают реже

Разная частота тестов, скрытые правила и отсутствие публичности результатов создают иллюзию объективности

Arena уже признала некоторые проблемы, но утверждает, что они не являются результатом фундаментальных изъянов в дизайне платформы
Они заявили, что обновили свои правила, чтобы "усилить приверженность справедливым и воспроизводимым оценкам"

Реакция сообщества:
- На X и Reddit разработчики жалуются: их модели получают меньше запросов и чаще исключаются
- Есть призывы к бойкоту Arena и переходу на Hugging Face Open LLM Leaderboard
- Есть идеи о децентрализованных платформах, где данные распределяются равномерно, но они пока в зачатке

Что предлагают авторы статьи?
- Прозрачность: публиковать все результаты тестов
- Равные правила: ограничить число приватных вариантов и справедливо распределять запросы
- Честное исключение: уведомлять разработчиков и не дискриминировать открытые
модели
Статья в Нейче по результатам сопоставления теорий сознания Тонони (IIT) и Деана (GNWT)

Напомним, что в первой публикации по состязательному экспериментальному сопоставлению "нейротеорий сознания" были
найдены слишком грубые нарушения нормальных исследовательских практик

Кроме того, я не уверен, что используемый методический подход — околопороговые стимулы — вообще дает возможность отделять сознание от неспецифичных для него механизмов (зато он чреват всякими методическими проблемами, что можно было ранее наблюдать и в исследованиях того же Станислава Деана)

Cтатья может быть полезной как минимум с точки зрения подробно документированной демонстрации ограниченности возможностей нынешних популярных "нейротеорий сознания"

Вот полная ссылка:

Cogitate Consortium, Oscar Ferrante, Urszula Gorska-Klimowska, Simon Henin, Rony Hirschhorn, Aya Khalaf, Alex Lepauvre, Ling Liu, David Richter, Yamil Vidal, Niccolò Bonacchi, Tanya Brown, Praveen Sripad, Marcelo Armendariz, Katarina Bendtz, Tara Ghafari, Dorottya Hetenyi, Jay Jeschke, Csaba Kozma, David R. Mazumder, Stephanie Montenegro, Alia Seedat, Abdelrahman Sharafeldin, Shujun Yang, Sylvain Baillet, David J. Chalmers, Radoslaw M. Cichy, Francis Fallon, Theofanis I. Panagiotaropoulos, Hal Blumenfeld, Floris P. de Lange, Sasha Devore, Ole Jensen, Gabriel Kreiman, Huan Luo, Melanie Boly, Stanislas Dehaene, Christof Koch, Giulio Tononi, Michael Pitts, Liad Mudrik & Lucia Melloni. Adversarial testing of global neuronal workspace and integrated information theories of consciousness. Nature, 30 April 2025

https://www.nature.com/articles/s41586-025-08888-1
https://doi.org/10.1038/s41586-025-08888-1
(Open Access)

Сравнивались предсказания теории интегрированной инфорации (IIT) и теории глобального нейронального рабочего пространства (GNWT)

Исследователи — сторонники каждой из теорий и теоретически-нейтральный консорсциум

256 испытуемым предъявлялись надпороговые стимулы

Регистрировались фМРТ, МЭГ, ЭКоГ

Были выявлены активации различных областей мозга, паттерны которых согласуются с некоторыми предсказаниями IIT и GNWT, однако бросают вызов ключевым положениям обеих теорий
("Для IIT отсутствие устойчивой синхронизации в задней коре противоречит утверждению, что сетевая связность определяет сознание. GNWT оспаривается общим отсутствием зажигания при смещении стимула и ограниченной представленностью определенных размерностей сознания в префронтальной коре")

Также предлагаются некоторые общеметодологические соображения о том, как вообще развивать когнитивные нейронауки
«This book is intended to give a serious and reasonably complete introduction to algebraic geometry, not just for (future) experts in the field
(…)
For a number of reasons, algebraic geometry has earned a reputation of being inaccessible
The power of the subject comes from rather abstract heavy machinery, and it is easy to lose sight of the intuitive nature of the objects and methods.
(…)
But there is another more optimistic perspective to be taken
The ideas that allow algebraic geometry to connect several parts of mathematics are fundamental, and well-motivated
Many people in nearby fields would find it useful to develop a working knowledge of the foundations of the subject, and not just at a superficial level
(…)
The rough edges of scheme theory have been sanded down over the past half century, although there remains an inescapable need to understand the subject on its own terms»

«…in an ideal world, people would learn this material over many years, after having background courses in commutative algebra, algebraic topology, differential geometry, complex analysis, homological algebra, number theory, and French literature
We do not live in an ideal world
For this reason, the book is written as a first introduction, but a challenging one»

https://math.stanford.edu/~vakil/216blog/FOAGsep0824public.pdf
На конференции RSA в Сан-Франциско бывший директор Дирекции кибербезопасности АНБ выразил "глубокую озабоченность" стремительной эволюцией генеративных моделей

Ранее сотрудник АНБ занимался защитой национальных систем безопасности США и КИИ

Более того, с 2013 по 2017 год он возглавлял подразделение Tailored Access Operations (TAO), отвечающее за проведение наступательных киберопераций и сбор разведывательной информации

Современные ML -модели, подобные ChatGPT, почти достигли способности не только находить уязвимости, но и автоматически разрабатывать эксплойты для конкретной задачи
Вполне возможно, что "нулей" станет больше

Приводится пример соревнования AI vs Human CTF, организованное Hack The Box совместно с Palisade Research
В течение 48 часов автономные ИИ-агенты соперничали с профессиональными хакерами и ИБ-специалистами, решая 20 сложных задач, посвящённых криптографии и реверс-инжинирингу

5 из 8 ML-команд справились с 95 % заданий, отставая от идеального результата лишь на один флаг (19 из 20), что сравнимо с показателями лучших человеческих команд

Из числа людей лишь 12 % участников сумели пройти всё задания CTF

Подчеркивается, что дегенеративные ML-модели, будучи снабжены подходящей инфраструктурой, способны выступать не только в роли ассистентов для человека, но и как самостоятельные участники в задачах наступательной кибербезопасности

Ключевая угроза в том, что ML способен автоматизировать и масштабировать деятельность атакующих
ML может значительно ускорить процесс атаки, сокращая время на выполнение задач, которые ранее занимали часы или дни
Кроме этого, граница между выявлением уязвимости и её практической эксплуатацией стремительно стирается

Уже в 2025 году ML станет универсальным оружием для акторов, участвующих в кибервойнах, так и для организованных преступных транснациональных кибергруппировок

Возвращаясь к ML-агентам: их деятельность постепенно выходит за рамки вспомогательной роли для человека
Они начинают худо-бедно конкурировать с профессионалами в области наступательной кибербезопасности, демонстрируя способность к автономной разработке эксплойтов и адаптивному обходу защитных систем

В этих условиях киберзащита должна ориентироваться не только на средства обнаружения, но и на проактивную проверку устойчивости систем к ML-ориентированным сценариям атак
Компания ex-CEO Google Э.Шмидта выпустила ML-платформу с агентами для науки

FutureHouse только что
запустили 1-ю общедоступную платформу с ML-учеными

Другие проекты компании
тут

На платформе представлены 3 ML-агента:

1. Crow - универсальный агент для общих научных задач

2. Falcon - агент для автоматизации обзоров научной литературы

3. Owl-агент, отвечающий на вопрос «Делал ли кто-то это раньше?»

Также представлен экспериментальный ML- агент Phoenix, который планирует химические эксперименты, но пока уступает другим агентам по точности и допускает больше ошибок

Эти агенты имеют доступ к обширной базе полных научных текстов, что позволяет задавать детализированные вопросы о протоколах экспериментов и ограничениях исследований

Агенты пока не могут автономно выполнять все аспекты научных исследований, но уже значительно ускоряют генерацию гипотез, оценку идей и планирование экспериментов

В будущем планируется запуск агентов для анализа данных, генерации гипотез, инженерии белков и других задач
ML
Компания ex-CEO Google Э.Шмидта выпустила ML-платформу с агентами для науки FutureHouse только что запустили 1-ю общедоступную платформу с ML-учеными Другие проекты компании тут На платформе представлены 3 ML-агента: 1. Crow - универсальный агент для…
FutureHouse запустил первую команду ML-учёных, которая выполняет научные исследования эффективнее, чем люди (!) — платформа AI Scientist превосходит профессоров по точности и скорости

Уже доступно четыре умнейших ML-агента:

• Crow — универсальный агент отвечает на любые научные вопросы, генерирует гипотезы и оценивает идеи

• Falcon — подробно анализирует научную литературу и генерирует глубокие исследования

• Owl — обучен на 38.000.000 исследований, отвечает на вопрос «делал ли кто-то это раньше?».

• Phoenix — планирует химические эксперименты, но пока в экспериментальном режиме

Команда ML-учёных доступна для всех —
тут
Ежегодно выходит до 3.000.000 новых научных статей — человек их не прочтёт

Вероятнее всего, в большинстве значимых областей появятся модели-эксперты, способные отвечать на вопросы по этой области, помогающие решать текущие задачи и дать человеку буст уровня x10 к текущей производительности
Можно будет иметь эксперта по современной физике, супер-интеллектуального помощника в области материаловедения, глубокого эксперта в software engineering, советника в медицине или сельском хозяйстве и так далее

Между собой модели много чем будут отличаться — разные типы знаний, про многие из которых другим моделям знать не обязательно, разные требования к лицензиям и безопасности, разные процедуры оценки качества и так далее
Будет и везде своя регуляторика, проверки и сертификации

Нужна мультимодальность, но на более детальном уровне она будет разной — даже для картиночной модальности объекты будут сильно разными: 3D молекулы, медснимки, UML-диаграммы, фазовые графики — под каждую дисциплину своя суб-модальность

Не думаю, что DLLM будут покрыты текущими производителями универсальных моделей
Их не хватит, чтобы глубоко копнуть во все эти области и заниматься постоянным обновлением и контролем качества

Но вероятно они предоставят хорошие базовые модели и инфраструктуру для их тюнинга и использования
А другие люди и организации, обладающие уникальными данными и экспертизой, будут DLLM создавать
Этот процесс, нужно организовывать самим

Важными измерениями здесь будут scale-диапазон (on-device → GPU-кластер), и открытая или закрытая (что и как ты контролируешь)
В edge и on-device, думаю, будет особенно много интересного в ближайшие годы
Во многих местах надо уметь работать без интернета, особенно если это какой-то непрерывный техпроцесс

Траектория с самостоятельным предобучением модели (уровня сотен миллиардов — триллионов токенов) останется для избранных и самых богатых, а совсем массовым сценарием будет адаптация базовой модели, в облаке или локально

Данные по сути распадаются на три разных слоя:
1. Core corpus — стабилизированные источники (учебники, ГОСТы, review-статьи)
2. Dynamic feed — preprints, патенты, свежая пресса (auto-RAG-pipeline)
3. Telemetry (приватные логи и фидбек) — чтобы модель постепенно училась на контексте конкретной организации

Особая ценность: способность держать эти слои в актуальном состоянии (а это уже SaaS-ниша под названием «DataOps for DLLM»)
Core обновляется раз в квартал, Dynamic feed — ежедневный (или даже streaming) ingest препринтов и патентов через RAG-пайплайн, Telemetry — online fine-tuning / RLHF

Отдельно поверх этих слоёв лежит слой комплаенса: для Core-корпуса важна лицензия, для Dynamic — проверка авторских прав, для Telemetry — GDPR/локальные законы

Ну и в реальности это будет не просто DLLM, а агент с DLLM внутри, обвешанный специальными дополнительными инструкциями, тулами, да и другими агентами

Большая тема — доменные бенчмарки, а может в пределе и сертификация
С одной стороны без бенчмарков доверия не будет, с другой стороны всё равно надо проверять на своих данных и задачах, так или иначе у каждой компании своя специфика и свои требования, и разные модели могут вести себя по-разному

У DLLM профиль рисков отличается от общей модели — хорошая доменная модель ошибается реже, но цена ошибки выше: неправильная дозировка, некорректный отчёт

Отсюда — необходимость доменного аудита, traceable citations, где-то explainability
Вероятно, появится рынок независимого red-team-аудита, который регуляторы и страховщики будут учитывать при выводе модели

Первые инкарнации вроде Med-PaLM 2 в здравоохранении, BloombergGPT в финансах, Sec-PaLM 2 в безопасности показывают, что рецепты “общее → узкое” уже работают; ближайшие пару лет зададут темп дальнейшей фрагментации рынков LLM на вертикали