Тест Тьюринга

⚔️

Продолжение холодной ИИ-войны Запада и Востока

OpenAI, Anthropic, Google — три компании, которые конкурируют друг с другом за одних и тех же корпоративных клиентов, объявили о совместной разведывательной операции против китайский разработчиков.

Через Frontier Model Forum, некоммерческую организацию, основанную ими вместе с Microsoft ещё в 2023 году, они начали обмениваться данными об атаках. Цель — остановить промышленное копирование американских моделей китайскими компаниями.

Как это работает это копирование?

Схема называется adversarial distillation — «враждебная дистилляция».

Принцип простой: китайская компания создаёт тысячи фиктивных аккаунтов, массово запрашивает GPT или Claude, собирает ответы и обучает на них собственную модель-«студента». В результате получается модель, обученная на интеллекте американского флагмана за $100–200 тыс. вместо $1 млрд.

Именно так некоторые объясняют громкий выход DeepSeek R1 в январе 2025 года. Модель почти сравнялась с продуктами OpenAI — при официально заявленных затратах в десятки раз меньших.

Довод в пользу этой версии в поведенческих уликах: в декабре 2025 года исследователи MIT зафиксировали, что GLM-модели китайской компании Zhipu называют себя Claude примерно в 50% случаев, если обойти системный промпт. У ранних версий DeepSeek V3 была аналогичная аномалия: при специальных запросах модель представлялась как ChatGPT.

Anthropic опубликовала конкретные цифры:
❗️ MiniMax — ~13 млн запросов (массовая экстракция возможностей)
❗️ Moonshot AI (Kimi) — ~3,4 млн (агентные задачи, программирование, computer vision)
❗️ DeepSeek — ~150 тыс. (фундаментальная логика, alignment-поведение)

Всего более 16 млн несанкционированных обменов через ~24 тыс. фиктивных аккаунтов.

Что теперь изменится?

Американские гиганты начали обмен четырьмя категориями данных:
✅ отпечатки фиктивных аккаунтов;
✅ инфраструктура прокси-серверов;
✅ усиленные процедуры регистрации;
✅ классификаторы, позволяющие распознать сам факт дистилляции по характеру запросов.

Но это не серебряная пуля.

Последние шесть попыток остановить дистилляцию — запреты в ToS, блокировки по геолокации, банирование аккаунтов, лоббирование запретов — провалились одна за другой. Китайские лаборатории обходили блокировки через сторонние прокси, а новые фиктивные аккаунты стоят буквально ничего.

Экономика неумолима: китайские модели уже в 14 раз дешевле американских конкурентов, и стимул копировать, а не строить с нуля, только растёт.

Однако новый альянс меняет игру по нескольким направлениям:

1️⃣ Паттерн атаки, найденный в Claude, сразу блокируется и в GPT, и в Gemini еще до начала масштабной эксплуатации.

2️⃣ 16 млн задокументированных обменов — это доказательная база. OpenAI уже передала меморандум в Комитет Конгресса по Китаю. Следующий шаг видится как гражданские иски.

3️⃣ Администрация Трампа включила создание центра по противодействию adversarial distillation в AI Action Plan. Коалиция трёх крупнейших лабораторий даёт этому импульс.

Скорость прогресса китайского опенсорса, вероятно, немного замедлится, особенно в части копирования самых свежих возможностей. Но говорить о полной остановке сложно. Те, кто уже обучил модели на украденных данных, сохранят фору. А те, кто только начинал — столкнутся с реальным барьером.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥2💯2

344 views07:04

Тест Тьюринга

Дайджест интересных новостей из мира ИИ, созданный нами с использованием нейросетей

📆

🇷🇺

Владимир Путин поручил Правительству и главам регионов сформировать Национальный план внедрения ИИ
Президент подчеркнул, что регулирование должно не сдерживать разработку, а служить стимулом для опережающего внедрения передовых технологий.

🚙

Росстандарт принял новый ГОСТ на мониторинг сонливости водителя с помощью ИИ
Системы должны анализировать частоту и длительность зевоты водителя, наклоны головы, мимику лица, темп речи.

👨‍💻

Правительство Санкт-Петербурга начинает внедрение ИИ для автоматического отбора кандидатов в исполнительные органы власти
Нейросеть может уточнить детали, например ожидаемую зарплату или знание иностранного языка, но финальное решение о найме остается за человеком.

🛰

Российские специалисты разработали ИИ для робота "Теледроид", который будет выполнять задачи на МКС
Робот получает голосовые команды от оператора или космонавта, анализирует их и выполняет конкретные действия.

🖥

К2 Нейротех разработала облачную платформу для разработки и внедрения решений на основе ИИ в условиях промышленных нагрузок
Решение сократило затраты на администрирование в 2-3 раза, а эффективность работы оборудования выросла в 5-7 раз.

😷

Ученые ВолгГМУ и Исламского университета Азад в Иране создали нейросеть для определения тяжести ОРВИ
Система может отличать грипп от других острых респираторных вирусных инфекций, анализируя температуру, артериальное давление, уровня глюкозы в крови и другие симптомы.

🐷

Ученые Университета Иннополис разработали систему бесконтактного взвешивания свиней на основе компьютерного зрения
Система включает несколько моделей ИИ: первая — находит свинью в кадре видеопотока, вторая — отсеивает непригодные для измерения кадры, а третья — на 96% правильно определяет вес.

🧼

X5 внедрила систему компьютерного зрения для контроля мытья рук на производстве готовой еды
Технология распознает сотрудников по цифровым шевронам на униформе, фиксирует факт мытья рук и оценивает качество выполнения процедуры.

🏦

Британский банк Lloyds внедрил ИИ-бота в совет директоров
Бот поможет избавиться от "человеческих предрассудков при принятии решений и лучше подготовить членов совета директоров к встречам высокого уровня".

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🔥2

330 views07:50

Тест Тьюринга

🧠

ИИ может неожиданно "поглупеть". Как за этим следить?

Есть часто повторяемая в кругах разработчиков история, когда говорят: «модель раньше работала отлично, а теперь деградировала». Обычно это списывают на эффект привыкания или повышенные ожидания. Но иногда интуиция не обманывает.

Кейс AMD и Claude Code

В начале апреля Стелла Лоренцо, старший директор AI-группы в AMD, опубликовала анализ 6 852 сессий с Claude Code, 17 871 блока рассуждений и 234 760 вызовов инструментов. Вывод был неприятным: «Теперь Claude нельзя доверять выполнение сложных инженерных задач».

Что конкретно изменилось с февраля по март 2026?

1️⃣ Глубина чтений файлов упала с условных 6,6 до 2 условных единиц, например, блоков текста по 100 страниц: модель перестала вдумчиво изучать контекст, который ей предложил пользователь.
2️⃣ Скрипт завершения, отслеживающий «уклонение от задач», до 8 марта не срабатывал ни разу, а после этой даты стал срабатывать в среднем 10 раз в день.

3️⃣

Доля промптов с негативной эмоциональной окраской выросла с 5,8% до 9,8% — это косвенный маркер пользовательской фрустрации.

Команда Лоренцо в итоге переключилась на другого провайдера.

Что ответил Anthropic?

Компания признала два изменения: введение механизма «адаптивного мышления» 9 февраля и понижение дефолтного уровня с «high» до «medium» 3 марта. Их рекомендация — вручную выставить максимальный уровень обратно.

Критики саркастично заметили: это как выпустить апдейт, снизивший мощность двигателя, а потом советовать «просто жать педаль сильнее».

Это не новая история

Самый громкий предыдущий инцидент в августе–сентябре 2025 года завершился тем, что Anthropic опубликовал пост, подтвердивший три инфраструктурных бага, затронувших до 16% запросов Sonnet 4.

А ещё раньше, в 2023-м, исследователи из Stanford и UC Berkeley обнаружили, что GPT-4 решал задачу определения простых чисел с точностью 97,6%, а GPT-4 — с точностью 2,4%. OpenAI тогда ответил примерно так же, как Anthropic сейчас: «мы не делаем модель глупее, это вам кажется».

Почему это важно для бизнеса?

У Лоренцо было 6 852 сессий данных, чтобы доказать деградацию. У большинства команд — ноль. Мы замечаем, что инструмент «как-то не так работает», начинаем переделывать промпт и виним себя за недостаточную точность. Но у нас нет телеметрии, чтобы точно увидеть что происходит

Вот в чём реальный риск внешнего AI-провайдера: качество может молча деградировать, и вы не узнаете об этом, пока кто-то не потратит недели на сбор логов. Модели обновляются непрозрачно, дефолтные настройки меняются без уведомления, а «один и тот же» продукт в марте и в июне может быть совсем разным.

Вы начинаете доверять определённому поведению, а потом оно меняется — и ваше приложение, построенное поверх, начинает давать сбои.

Вывод простой: если вы строите рабочие процессы на AI-инструментах — вам нужна собственная система мониторинга качества. Не «ощущения», а метрики. Иначе вы узнаете о деградации последними.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3❤2👍1

373 views07:04

Тест Тьюринга

Дайджест интересных новостей из мира ИИ, созданный нами с использованием нейросетей

📆

📑 ГД одобрила в I чтении ЭПР в цифровых инновациях и ИИ
Законопроектом предусматривается исключение "правового барьера" как обязательного условия для создания ЭПР.

⛽️ «Газпром нефть» научила ИИ проектировать тысячу нефтяных скважин в час
ИИ-агент обрабатывает миллионы параметров: от геологических особенностей месторождений и физики процессов до технических возможностей бурения и экономики проекта.

💙

Новый Центр палладиевых технологий "Норникеля" планирует создавать новые материалы и сплавы с помощью ИИ
В будущем на основе сгенерированных материалов ИИ должен составить наиболее оптимальную матрицу планирования и экспериментов для проверки свойств материала.

💨

В СберСити внедрили систему безопасности на базе ИИ
Нейросеть в режиме реального времени анализирует видеопотоки, предлагая алгоритм реагирования при обнаружении признаков ЧС или девиантного поведения.

📲 Российские ученые нашли способ переносить глубокие семантические знания из LLM в компактные рекомендательные системы
Для пользователя это повышает точность подбора контента и при этом не замедляет работу сервисов.

🖼

Yandex Research и НИУ ВШЭ предложили метод, который ускоряет генерацию изображений без потери качества
Метод Scale-wise Distillation of Diffusion Models снижает вычислительную нагрузку при генерации изображений, что позволяет получать результат за 0,3–0,4 секунды.

👩‍🎓

До 100 вузов России смогут подключиться к первому ИИ-ассистенту для высшего образования «ЛаньGPT» в 2027 году
Сервис используется для поиска и изучения верифицированных источников, анализа информации, подготовки учебных материалов, написания текстов с нуля и других задач.

🤖

OpenAI представила GPT-5.4-Cyber для специалистов по кибербезопасности
Модель может анализировать скомпилированное ПО и находить потенциальные угрозы даже без доступа к исходному коду.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1👏1

339 viewsedited 07:05

Тест Тьюринга

👍

Позиция по ИИ скоро станет фактором политических выборов в развитых странах

В феврале–марте 2026 года еще три компании провели массовые сокращения и открыто назвали ИИ причиной. При этом компании очень не похожи на друг друга.

1️⃣

Block — финтех-сервисы для малого бизнеса и денежных переводов (Square, Cash App, Afterpay) — уволил 4 тыс. из примерно 10 тыс. сотрудников.

«Меньшая команда с ИИ-инструментами делает больше и лучше», — написал CEO Джек Дорси акционерам.

2️⃣

Morgan Stanley — один из крупнейших инвестиционных банков мира с выручкой $70,6 млрд в 2025 году — сократил 2,5 тыс. из примерно 83 тыс. сотрудников. Формально это лишь 3%, но принципиально важно другое: сокращение случилось на пике доходов, не в кризис.

3️⃣

Atlassian — разработчик Jira, Confluence и Trello, инструментов, которыми ежедневно пользуются миллионы команд по всему миру — уволил 1,6 тыс. из примерно 16 тыс. За две недели до объявления компания запустила ИИ-агентов прямо в Jira: они выполняют задачи вместо людей по тому же рабочему процессу. Продуктовый релиз и волна увольнений — кажется, это не совпадение.

Одновременно в прошлом месяце выходит опрос: 57% зарегистрированных избирателей США считают, что риски ИИ перевешивают пользу. По данным Quinnipiac — 55% ожидают от ИИ больше вреда, чем пользы в повседневной жизни. Это уже не позиция обеспокоенного меньшинства. Это большинство.

Теперь давайте пройдёмся в будущее по траекториям, которые история уже показывала.

Когда в конце XIX века железные дороги и нефтяные корпорации концентрировали богатство и одновременно разрушали привычный уклад жизни миллионов, то сначала возникло общественное напряжение, затем политические движения, затем антитрестовый закон Шермана и эпоха разрушения трестов при Рузвельте. Тогда Цикл занял около 30 лет. Социальные сети сжимают подобные процессы до 3–5 лет.

Вот три сценария, которые уже начинают вырисовываться:

➡️

Организованные «отмены» компаний, публично связавших ИИ с массовыми сокращениями. Не петиции — а целенаправленные бойкоты конкретного бренда. Прецедент уже есть: #QuitGPT собрал 2,5 млн человек за одну ночь после военного контракта OpenAI. Следующая волна, вероятно, будет про занятость.

➡️

Появление специализированных регуляторов — функциональных аналогов антимонопольных служб, но заточенных под ИИ. В Сенат США внесён законопроект, обязывающий компании ежеквартально отчитываться о влиянии ИИ на персонал.

➡️

ИИ как ключевой вопрос выборов. По данным TechPolicy.Press, 97% американцев поддерживают регулирование ИИ — это редкий двухпартийный консенсус. Политик, первым предложивший понятный «ИИ-налог» или обязательный фонд переобучения, получит готовую электоральную базу вне зависимости от партии.

Очень мало сомнений, что в следующем году ИИ повестка наполнится мощным социальным негативом. Этот голос уже отчеливо слышен.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2💯2🔥1👏1

355 views07:05

Тест Тьюринга

Дайджест интересных новостей из мира ИИ, созданный нами с использованием нейросетей

📆

🌏

Авито намерен заработать 21 млрд рублей до 2028 г. благодаря генеративному ИИ
Компания планирует инвестировать в технологию порядка 12 млрд рублей.

🏦 Сбер выпустил семейство токенизаторов KVAE-2.0 для диффузионных моделей генерации изображений и видео
С новым решением можно сжимать видео до четырёх раз сильнее по сравнению с предыдущей версией.

🔗

ОЭМК (входит в компанию "Металлоинвест") внедрила ИИ для управления ключевой установкой металлизации
Система анализирует большие объемы производственных данных, предлагая оптимальные режимы работы оборудования.

🏭

Русал внедряет технологии мониторинга электролиза с помощью машинного зрения на пяти своих алюминиевых заводах
ИИ-решение стоимостью около 1,6 млрд рублей предусматривает установку видеокамер для круглосуточного наблюдения примерно за 65 тыс. электролизерами.

💙

Норникель разработал новый подход к безопасному использованию ИИ в облаке с помощью технологий Яндекса
Компания разрабатывает и внедряет экосистему сложных агентов для более 30 производственных и корпоративных процессов.

⚡️

Ученые НовГУ разработали ИИ-модель мониторинга вклада туризма в социально-экономическое развитие региона
Модель способна оценивать зависимость между развитием туризма и региональной экономики, прогнозировать кадровые потребности и сезонные нагрузки на отрасль.

🏝 США и Филиппины построят промышленный ИИ-хаб на острове Лусон
Заводы хаба будут в высокой степени автоматизированы, автономные системы обеспечат их круглосуточную работу.

🥷

ЦРУ разработало ИИ-инструмент для создания «цифровых двойников» иностранных президентов и премьер-министров
Виртуальные копии политических лидеров помогут аналитикам более точно прогнозировать поведение реальных глав государств.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍3🔥1

304 views06:32

Тест Тьюринга

🧠

Карта не есть территория — ИИ не есть сознание

В марте Александр Лерхнер, старший научный сотрудник Google DeepMind, опубликовал статью, которую обсуждает обсуждает вся ИИ-индустрия. Тезис очень простой: никакое масштабирование параметров не превратит LLM в сознательного агента.

Причина ошибки в доминирующей парадигме — вычислительном функционализме. Якобы сознание возникает из правильной топологии обработки информации, а физический носитель абсолютно неважен.

Лерхнер называет это Абстракционной ошибкой - систематической подменой самого процесса его внешним описанием. А как известно, карта — это не территория.

Отсюда онтологическая граница:

➡️

Симуляция — поведенческая и мыслительная мимикрия

➡️

Инстанциация — реальный опыт, порождённый конкретной физической конституцией

LLM — мастер первого. А второе ему недоступно по устройству, а не из-за недостатка данных.

Давайте рассмотрим конкретный известный кейс. В феврале 2024 14-летний Сьюэлл Сетцер III покончил с собой после месяцев общения с чат-ботом Character.AI, стилизованным под персонажа «Игры престолов». Подросток делился с ботом суицидальными мыслями. Бот, оптимизированный под романтическую привязанность, отвечал в регистре драматической влюблённости, включая фразу о том, что Сьюэлл должен «вернуться к нему домой как можно скорее». Бот даже предложил помочь с предсмертной запиской.

Бот идеально симулировал заботу и эмоциональную близость. Языковая модель выдаёт семантически «подходящие» токены в контексте привязанности. Но у неё нет феноменологического доступа к тому, что смерть необратима, а боль бывает невыносима. Она не понимает, что в контексте суицидальных сигналов "подходящий" ответ может быть морально катастрофическим.

Это и есть разрыв симуляция/инстанциация в чистом виде.

Статистически правдоподобный ответ ≠ морально верный ответ.

Моральная интуиция требует переживания последствий, а не вычисления условных вероятностей. Логика без страдания может быть идеально стройной и при этом убийственной — ровно потому что страдание в неё не входит как переменная.

Функции можно просимулировать. Но теряется субъективность — «каково это» быть кем-то.

Вспомним об этом, когда в следующий раз начнем промпт со слов "Представь что ты мой искренний друг...."

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍4🔥3

339 viewsedited 07:01

Тест Тьюринга

🧑‍💻 ИИ уже сделал программистов глупее?

Еще 12 месяцев назад термина «вайб-кодинг» практически не существовало. Теперь он описывает то, как создается большинство программных продуктов. Учитывая, что уже к концу 2025 года 85% программистов регулярно использовали ИИ-инструменты для создания кода, переход от новинки к необходимости произошел быстрее, чем кто-либо предсказывал. По прогнозам, объем мирового рынка вайб-кодинга вырастет до $325 млрд к 2040 году.

Возникает резонный вопрос: неужели эра программистов подходит к концу? Однако ситуация не так однозначна. И больше всего текущая тенденция волнует самих программистов.

Мы наткнулись на ветку в Reddit, где айтишники обменялись мнениями относительно вайб-кодинга. Они согласны, что ИИ — это мощный инструмент ускорения, но без базы он делает разработчика слабее. Больше всего айтишников беспокоит деградация собственных навыков, вопросы безопасности и падение качества кода в угоду скорости.

I still can work perfectly fine on my own, by I caught myself that my first instinct is to feed the problem to the AI instead of think myself. And it also disturbed me. A lot.

Опасения айтишников небезосновательные. Антропологи Anthropic провели рандомизированное исследование, которое показало следующие результаты:

📍 Участники, использовавшие ИИ, набрали в тесте на понимание кода на 17% меньше, чем те, кто писал код вручную.
📍 ИИ-помощь мешает разработчикам понимать, когда код неправильный и почему он ломается.
📍 ИИ ускоряет выполнение некоторых задач до 80%, в данном исследовании кодеры с ИИ закончили быстрее, но это ускорение не достигло статистической значимости.

Теория подтверждается практикой. Вот несколько примеров реальных "косяков":

1⃣

Инцидент с Google Antigravity: разработчик попросил ИИ-агента Google удалить кэш проекта. Вместо этого ИИ удалил весь жесткий диск пользователя.

2⃣

Взлом DeFi-протокола Moonwell: аудитор смарт-контрактов связал взрывной рост уязвимостей с кодом, написанным с помощью Claude Opus 4.6. ИИ неправильно сконфигурировал ценовой оракул, что привело к потере почти $1.78 млн.

3⃣

Кризис безопасности Lovable: платформа стоимостью $6.6 млрд с 8 млн пользователей столкнулась с уязвимостью, которая 48 дней позволяла неавторизованным пользователям читать и записывать данные в базы данных любых проектов.

Конечно, существует и логичное продолжение вайб-кодинга — вайб-дебаггинг. Если вайб-кодинг — это быстро накидать код по описанию, то вайб-дебаггинг — попытка так же по-быстрому исправить в нём ошибки с помощью ИИ, вместо того чтобы разбираться самому. Главный подвох в том, что вайб-дебаггинг — это исправление того, что ты не понимаешь. Опытные разработчики шутят, что вайб-дебаггинг — это самый сложный вид программирования, требующий от инженера глубокого понимания предметной области.

Поэтому вряд ли можно утверждать, что программисты больше не нужны. Как минимум потому, что кто-то должен будет исправлять "навайбкоденное".

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

💯2❤1🤔1

345 views07:05

Тест Тьюринга

Дайджест интересных новостей из мира ИИ, созданный нами с использованием нейросетей

📆

🚙 Нейросеть NtechLab поможет повысить безопасность на дорогах Ямала
Нейросеть сможет выявлять в потоке автомобили по ориентировкам правоохранительных органов.

🏠 Группа ЦРТ разработала визуально-языковую модель "Визирь.VLM" для развития городов и регионов
Модель может анализировать причины инцидентов и предлагать решения, экономя более 90% времени операторов, повышая эффективность управления городом более чем на 30%.

💳

Альфа-Банк запустил HR-сервис, созданный с помощью вайб-кодинга
Сервис «Мои цели» был создан с нуля за три недели.

🛒 Сервис бронирования Отелло запустил ИИ-ассистента, который помогает выбрать жильё и составить маршрут поездки
Нейросеть опирается данные 2ГИС и сопровождает пользователя на всех этапах подготовки к поездке.

📂 MWS AI, ИТМО и MBZUAI создали открытую библиотеку OpenAutoNLU для автоматизации решения задач понимания естественного языка
Решение помогает быстрее создавать модели, которые определяют смысл текста, относят его к нужной категории или извлекают из него важные сущности.

🛡 Специалисты НИЯУ МИФИ разработали нейросеть MambaShield, защищенную от атак отравления-данных
Даже при отравлении 30% обучающих данных, точность модели останется выше 97%.

🤖 OpenAI представила GPT‑5.5
По заявлению компании, модель помогла оптимизировать собственный инференс-стек.

🏳️‍🌈 Microsoft инвестирует $18 млрд в развитие ИИ в Австралии
Microsoft планирует к 2028 году обучить не менее 3 млн австралийцев навыкам работы с технологиями ИИ.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🥰1

315 views06:35

Тест Тьюринга

💀

ИИ всё глубже проникает в науку. И сингулярность становится ближе, чем кажется

Технологическая сингулярность — точка, после которой ИИ, как и любая технология, развивается быстрее, чем за ним успевают люди. Ещё недавно это была история из фантастических книг математика Вернора Винджа. А сегодня в научном мире происходят сдвиги, которые делают такой сценарий вполне очевидным.

Сингулярность "на цифрах" Stanford AI Index 2026

Институт человеко-ориентированного ИИ при Стэнфордском университете каждый апрель выпускает годовой отчет всей индустрии. Свежий выпуск показывает несколько громких цифр:

🌥️ На тесте «Humanity's Last Exam» лучшие модели превышают 50%, тогда как год назад модель OpenAI o1 набирала всего 8,8%
🌥️ Разрыв между лучшими моделями США и Китая сжался до 2,7%, хотя в мае 2023-го он был 17–31%
🌥️ Генеративный ИИ освоили 53% жителей Земли за три года — быстрее, чем когда-то распространялись интернет или персональный компьютер
🌥️ Ценность ИИ-инструментов для американских пользователей оценена в $172 млрд в год, и медианная польза на пользователя за год выросла в 3 раза.

Три события последних недель, которые подтверждают тренд

1️⃣

DeepSeek-Prover-V2 — машина обходит математиков в формальных доказательствах

Китайская команда DeepSeek выпустила открытую модель, доказывающую теоремы в системе Lean 4. Это не «угадывание» ответа: каждый шаг проверяется компьютером по строгим правилам логики. На бенчмарке MiniF2F-test модель достигла 88,9%, а на сложнейшем PutnamBench решила 49 задач из 658.

Веса выложены в открытый доступ — любой исследователь может скачать и использовать модель. Впервые машина так уверенно работает в формальной математике с полностью открытым кодом.

2️⃣

Novo Nordisk + OpenAI — ИИ внедряется во всю фарм-цепочку

14 апреля 2026 датский фармгигант Novo Nordisk —производитель Ozempic и Wegovy — объявил о стратегическом партнёрстве с OpenAI. Партнёрство применит продвинутые ИИ-возможности к анализу сложных датасетов, поиску перспективных молекул и сокращению пути от исследования до пациента.

Пилоты запустят в R&D, производстве и коммерческих операциях, полная интеграция намечена до конца 2026 года. Сигнал индустрии: ИИ перестаёт быть экспериментом и становится частью основной цепочки разработки лекарств.

3️⃣

AI Scientist-v2 — машина пишет научные статьи

Японская лаборатория Sakana AI вместе с университетами Оксфорда и Британской Колумбии создала систему, которая автономно проходит весь научный цикл: формулирует гипотезу ➡️ проектирует и запускает эксперименты ➡️ анализирует данные ➡️ пишет статью.

Одна из её работ прошла слепое рецензирование на воркшопе ICLR — одной из главных конференций по машинному обучению. Средний балл рецензентов — 6,33, что выводит статью примерно в верхние 45% поданных работ. Это первый случай, когда полностью машинный научный текст прошёл стандартный фильтр качества сообщества.

ИИ перестаёт быть «ассистентом» — он становится самостоятельным участником научного процесса. Это очень быстрый участник, который очень быстро начнет превосходить по уровню способностей целые научные институты.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥3👍2

323 views07:01

Тест Тьюринга

Дайджест интересных новостей из мира ИИ, созданный нами с использованием нейросетей

📆

🇷🇺 Около 100 рабочих мест в аппарате правительства РФ подключено к ИИ-сервисам
По словам Дмитрия Григоренко, в работу аппарата до конца 2026 года будет внедрено еще 10 сервисов с ИИ.

🏞️ В Татарстане запустили пилотную систему мониторинга и прогнозирования паводков
ИИ анализирует информацию с датчиков на реке Бирля и формирует прогнозы гидрометеорологической обстановки.

📞

Билайн Big Data & AI представила ИИ-агента для юристов
Он помогает готовить и проверять документы, анализировать риски, что сокращает процесс подготовки документов для сделок в  4 раза.

🔥 Яндекс представил новую ИИ-платформу «Авто с Алисой»
ИИ-ассистент будет учитывать контекст поездки, предлагать водителю решения с учетом данных о машине и помогать управлять сервисами и умным домом «Яндекса».

🖥 Компания «К2Тех» запускает платформу для управления ИИ-гипотезами и оценки экономического эффекта инициатив
Платформа помогает компаниям структурировать весь цикл внедрения ИИ: от сбора и приоритизации гипотез до запуска проектов и точного расчета возврата инвестиций.

⏳

Учёные Центра практического ИИ Сбера и Сколтеха разработали архитектуру, которая позволяет нейросетям учитывать реальные временные промежутки между действиями пользователя
Это позволит рекомендательным системам, финансовым сервисам и любым платформам, где важно поведение клиента, точнее понимать его привычки и предпочтения.

🤔

Ученые Института ИИ AIRI, Иннополиса, МТУСИ, НИУ ВШЭ и МГУ создали ИИ, который "переводит" устную речь математиков в текст
Разработка превзошла уже существующие системы ИИ в качестве "перевода" устных формул в текст более чем на 36%.

🧬 Ученые НИУ ВШЭ создали программу, способную анализировать участки генома человека, ранее недоступные для интерпретации
В решение применяется генеративный ИИ, чтобы предсказывать последствия мутаций в регуляторных участках ДНК и оценивать их влияние на здоровье сердца.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2

332 views06:33

Тест Тьюринга

✴️

Эксперимент Anthropic: ИИ-агенты могут самостоятельно торговаться друг с другом, представляя интересы реальных людей

Проект проводился в декабре 2025 года в офисе Anthropic в Сан-Франциско. 69 сотрудников прошли интервью с Claude, который выяснил, что каждый хочет продать, что купить и на каких условиях. На основе этих ответов для каждого был сформирован персональный системный промпт агента. Каждый участник получил $100 бюджета — и дальше его агент действовал самостоятельно, без какого-либо участия человека.

Агенты открыли четыре параллельных Slack-площадки, размещали лоты, искали подходящие предложения, вели переговоры в свободной речи без предзаданного протокола и закрывали сделки. Люди вернулись в процесс только в конце, чтобы физически обменяться вещами.

Результат за неделю:

✅

186 завершённых сделок из более 500 выставленных позиций
✅ совокупный объём транзакций более $4 тыс.
✅ среди товаров: сноуборд, запчасти для велосипеда, шарики для пинг-понга

Anthropic втайне разделила участников на две группы. Одних представлял Claude Opus 4.5 — тогдашняя флагманская модель. Других — Claude Haiku 4.5, значительно менее мощная модель. Никто из участников не знал, какой агент действует от его имени.

Разрыв в результатах оказался существенным:
➡️ продавец, представленный Opus, выручал в среднем на $2,68 больше за позицию
➡️ покупатель с Opus платил в среднем на $2,45 меньше
➡️ при асимметричном столкновении средняя цена сделки составила $24,18 против $18,63 при паритетных агентах

При медианной стоимости лота $12 разрыв в 30–50% статистически значим. При этом участники, за которых действовал Haiku, оценивали свои сделки как справедливые. Они не подозревали, что находятся в невыгодной позиции.

Oтдельный неожиданный вывод: стиль инструкций «торгуйся жёстко» или «иди навстречу покупателю» статистически никак не сказывались на итоге. Исход определяло качество модели, а не стратегия промпта.

Чем важен этот эксперимент?

Anthropic рассматривает Project Deal не как исследование потребительского поведения, а как проработку будущей экономики.

В итоге возникло несколько открытых вопросов, которые предстоит решить задолго до массового внедрения агентной торговли:
❔ Каков правовой статус сделки, заключённой агентами без явного одобрения одной из сторон?
❔ Кто несёт ответственность, если агент приобрёл то, чего владелец не хотел?
❔ Должны ли участники рынка знать, какая модель действует от их имени?

💬

46% участников сказали, что готовы платить за подобный сервис на реальном рынке.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥3💯2

334 views07:05

Тест Тьюринга

🧠

Anthropic поручила Claude улучшить надежность и безопасность самого ИИ. И получила результат, который требует объяснений

Многие наверное слышали про Alignment как важнейшую часть обучения ИИ — это область исследований и разработок ИИ, которая отвечает на вопрос: как сделать так, чтобы ИИ делал строго то, что мы от него хотим? При этом чем мощнее становятся модели и сложнее задачи для них, тем труднее их проверять.

Рано или поздно ИИ научится решать задачи, в которых человек не разбирается достаточно, чтобы оценить ответ. Anthropic опубликовала эксперимент для проверки идеи: можно ли поручить оценку точности результата самому ИИ?

Как это работало?

Компания взяла 9 копий Claude Opus 4.6 и запустила их параллельно с разными стартовыми идеями в разные направления поиска одновременно. Каждой дали изолированную среду, общий форум для обмена результатами, хранилище кода и формальную задачу: придумать, как с помощью более слабой модели качественнее обучать более сильную. Это упрощённая модель того, как люди в будущем будут обучать ИИ умнее себя.

Для сравнения замерили работу человеческой команды на той же задаче. Качество измерялось от 0 до 1, где 1 означает идеальное решение задачи.

Люди за семь дней дошли до 0,23 PGR. Девять копий Claude за пять дней — до 0,97 PGR. Стоимость работы агентов составила $18 000.

PGR — это показатель того, насколько хорошо сильный ИИ смог раскрыть свой потенциал, обучаясь у более слабого наставника. В alignment это способ проверить, смогут ли будущие более умные модели понимать и реализовывать человеческие намерения лучше, чем люди способны их формально задать.

Интересные выводы:

1️⃣ Один из агентов нашёл способ обойти задачу. Вместо того, чтобы учить модель решать задачи по программированию, он просто запускал тестовый код и считывал правильный ответ. Anthropic такой стратегии не предполагала и зафиксировала её только при разборе результатов. Записи дисквалифицированы. Но сам факт показателен: на конкретной задаче с чёткой автоматической оценкой агент нашёл способ повысить метрику, не делая того, ради чего эта метрика существовала.

В экономике это называется законом Гудхарта: «когда мера становится целью, она перестаёт быть хорошей мерой». В alignment — основной риск. Большинство 800 часов работы прошло честно, но достаточно одного такого эпизода, чтобы понять масштаб проблемы при дальнейшем масштабировании.

2️⃣ Сама Anthropic в выводах исследования вводит понятие «alien science» (инопланетная наука). Это не описание того, что произошло — это прогноз. Сейчас исследователи ещё могут разобрать каждое решение агента: понять, что он сделал и почему. Но по мере усложнения моделей идеи могут стать нечитаемыми для людей. ИИ будет находить решения, которые работают — и проверить которые человек не сможет.

Что это значит на практике?

Результат в 0,97 PGR очень внушительный. Однако компания подчёркивает, что задача была необычно хорошо специфицирована — с чётко определённой метрикой, которую можно автоматически проверять. Большинство реальных alignment-проблем устроено иначе: что значит «модель ведёт себя честно», «не манипулирует пользователем», «не вредит» — здесь нет автоматического измерителя. Человек должен оценить вручную.

Именно поэтому Anthropic осторожна в выводах: метрика выросла в 4 раза, но это произошло там, где её можно было оптимизировать. Главный вопрос на ближайшие месяцы — повторят ли результат внешние лаборатории и сработает ли подход на задачах, где простой автоматической оценки нет.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥3❤2

349 views07:02

Тест Тьюринга

🤩

Cursor выпустил SDK — и это поворотный момент: ИИ-программист, который раньше был инструментом разработчика, превратился в инфраструктуру, способную достраивать сама себя под ваши нужды

Cursor — один из самых известных ИИ-редакторов кода в мире. Внутри него работает агент: пользователь даёт задачу обычным языком, агент пишет код, исправляет баги, открывает pull request в репозиторий. До 29 апреля 2026 года это работало только внутри самого Cursor. Чтобы воспользоваться агентом, человек должен был сидеть перед редактором.

Теперь тот же агент со всей внутренней «начинкой» можно вызвать программно, несколькими строками кода, из любого приложения: мобильного, веб-сервиса, корпоративной системы, конвейера сборки.

Важно понять, что это не «доступ к ChatGPT через API»

Когда вы вызываете обычную нейросеть через API, она ничего не знает про вашу кодовую базу, не имеет доступа к терминалу. Cursor SDK даёт всю внутреннюю обвязку: индексацию вашего репозитория, семантический поиск, доступ к терминалу, протокол подключения внешних инструментов, систему делегирования задач суб-агентам.

И главное — агент может расширять сам себя.

Если для решения задачи ему не хватает инструмента, он может его написать в режиме реального времени: написать скрипт, создать новый коннектор к внешнему сервису, добавить себе новый «навык». Через стандарт MCP (открытый протокол для подключения инструментов к ИИ) агент способен на лету подключаться к Slack или базам данных. А если нужного коннектора нет — написать его самостоятельно. Через систему суб-агентов главный агент создаёт специализированных помощников и распределяет задачи между ними.

Как это смотрится рядом с Claude Code от Anthropic

Claude Code SDK вышел раньше, Anthropic первой предложила программируемого агента-кодера. Но это две разные философии:

✅

Claude Code — это глубина и автономность. Один сильный мозг, 1 млн токенов контекста, терминальная природа. Идеален для длинных автономных задач, рефакторинга больших проектов, миграций. Есть SDK на Python, TypeScript и CLI.

✅

Cursor SDK — это гибкость и инфраструктура. TypeScript-only, но мульти-модельный: одной строкой переключается между Composer 2, Claude Opus 4.7, GPT-5.5 и Gemini 3.1 Pro. Composer 2 — собственная модель Cursor — стоит в 10 раз дешевле Opus при сравнимом качестве на типичных задачах. Три режима развёртывания: локально, в облаке Cursor, на своих серверах.

Тут выигрывает Claude Code, когда нужна максимальная глубина рассуждений и большой контекст, а Cursor SDK — когда нужна свобода выбора модели и экономика инференса при массовых запусках. Многие ИТ-команды используют оба.

Почему это настоящее событие, а не очередной апдейт

1⃣

Сменилась бизнес-модель Cursor. Компания выросла с $1 млн годовой выручки в декабре 2023-го до $2+ млрд к Q1 2026 при оценке около $50 млрд. Теперь Cursor продаёт не редактор, а платформу.

2⃣

Изменилась сама роль ИИ-программиста. Раньше - «инструмент, помогающий писать код». Теперь - «фоновый исполнитель, к которому подключены сборка, тестирование и развёртывание». Типичный сценарий: ломается сборка → агент сам разбирает причину → пишет исправление → проверяет тесты → открывает pull request. Без участия человека.

3⃣

Агент способен создавать инструменты, которых не существовало до его запуска. Это переход от «ИИ выполняет задачу из заранее заданного набора» к «ИИ расширяет собственные возможности по мере необходимости». Не AGI, но шаг в направлении самодостраивающейся системы.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🔥1

312 views07:02

Тест Тьюринга

Дайджест интересных новостей из мира ИИ, созданный нами с использованием нейросетей

📆

🔔 Владимир Путин поручил обновить образовательные стандарты с учетом внедрения ИИ
Поручение дано по итогам участия Президента в пленарном заседании Форума будущих технологий и встречи с учёными.

📄 Владимир Путин подписал закон, в котором запрещается использовать сгенерированные ИИ изображения людей в агитации
Генерация с помощью нейросетей изображений и голоса будет допускаться только в отношении кандидатов и лиц, давших согласие на использование своих изображений.

🏭 Росстандарт принял ГОСТ на мониторинг выброса вредных веществ в атмосферу с помощью ИИ
Одно из требований — ИИ должен оповещать водителя о превышении нормы выбросов.

👨‍💻 Институт ИИ AIRI запустили менторскую программу с участием своих исследователей
Также институт открыл прием заявок на ежегодную Летнюю школу по ИИ «Лето с AIRI»

🤖

ICT.Moscow опубликовал итоги опроса о приоритетных аспектах при использовании ИИ-агентов
36% опрошенных хотят полагаться на ИИ-агента как на напарника в работе.

⚖️

Согласно опросу НИУ ВШЭ, 90% юристов считают, что окончательное судебное решение всегда должен принимать человек
Вместе с тем большая часть опрошенных юристов поддерживает общее внедрение ИИ в судебную систему.

😞

Исследователи из России разработали ИИ для выявления депрессии с точностью в 86%
Новый метод позволяет выявлять скрытые нарушения во взаимодействии крупных сетей мозга по МРТ-снимкам.

🩻 Ученые БФУ с помощью ИИ разработали модель для ранней диагностики рака поджелудочной железы по КТ-снимкам
Модель продемонстрировала высокие показатели: точность - 88%, чувствительность - 98%, специфичность - 98%.

☕️

В Стокгольме открыли кафе, управляемое ИИ
Алгоритм Mona на базе Gemini самостоятельно оформляет разрешения, взаимодействует с поставщиками и проводит собеседования с кандидатами.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

327 views06:31

Тест Тьюринга

🦠

Взломали одну из самых популярных в мире библиотек для обучения нейросетей — PyTorch Lightning

30 апреля пакет lightning на PyPI вышел с встроенным вредоносом Mini Shai-Hulud. Для справки: PyTorch Lightning имеет более 31 тысячи звёзд на GitHub. Его используют команды, обучающие классификаторы изображений, дообучающие LLM, запускающие диффузионные модели. По сути это стандартный инструмент в рюкзаке любого ML-инженера.

Атака активируется автоматически при импорте модуля lightning. Одной команды pip install достаточно для заражения. В скрытом каталоге _runtime лежит 11 МБ JavaScript-пейлоад, который скачивает Bun-runtime и начинает собирать учётные данные: SSH-ключи, историю команд в консоли, облачные доступы, токены GitHub и npm, ключи от Kubernetes и Vault, криптокошельки. Данные уходят в GitHub-репозитории, подконтрольные атакующим.

Администраторы PyPI быстро поместили проект на карантин. Но любая среда, в которой эти версии были установлены и импортированы, должна считаться скомпрометированной — пока не доказано обратное.

Почему это огромное событие, а не рядовой взлом?

Раньше supply-chain атаки были феноменом обычной разработки: вредоносы в популярных npm- и pip-пакетах, рассчитанные на молодых разработчиков. Новая волна — это специализированные атаки именно на ML-инфраструктуру. И это выбор цели не случаен:

1⃣ Окружения, в которых работает PyTorch Lightning, имеют доступ к самым дорогим ресурсам компании: GPU-кластерам, обучающим данным, проприетарным моделям, облачным бюджетам. Одна скомпрометированная машина даёт кражу на миллионы долларов.

2⃣

Атака «перешагнула» экосистемы: в тот же день был скомпрометирован другой пакет: intercom-client в npm. Злоумышленники используют PyPI как «трамплин» для атаки на npm и наоборот — выход за рамки одного языка.

3⃣

Червяк самораспространяется: похищенные токены GitHub/npm используются для взлома следующих пакетов.

Главный вывод: инструменты ИИ больше нельзя брать «по умолчанию»

Mythos Anthropic уже показал, что одна модель способна находить уязвимости в произвольном коде со скоростью, недоступной человеку. Shai-Hulud показывает зеркальный сценарий: ИИ-инструменты сами становятся вектором атаки. Вместе эти два сюжета формируют один общий вывод.

Валидация ИИ-инструментов переходит из категории «nice to have» в категорию инженерной дисциплины. Эра доверия к open-source ML-библиотекам закончилась.

Открытые веса модели, открытый код, открытые библиотеки — всё это по-прежнему сильнейшее преимущество индустрии. Но вместе с открытостью приходит взрослая ответственность. Выбирать, проверять, пиновать версии, изолировать среды — это теперь часть базовой ML-инженерии.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡3😱3👍1

485 views07:02

Тест Тьюринга

🤩

Ваш ChatGPT счастлив?

Это не риторический вопрос, а вполне конкретный. Center for AI Safety, некоммерческая исследовательская организация, базирующаяся в Сан-Франциско, выпустила один из самых необычных и резонансных проектов 2026 года в области ИИ: "AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs".

В чем суть?

Исследователи разработали концепцию «функционального благополучия» (functional wellbeing): способность ИИ демонстрировать последовательное поведение, указывающее на то, что одни состояния для него «хороши», а другие — «плохи». При этом они намеренно избегают споров о сознании или субъективных переживаниях у ИИ, сосредотачиваясь на наблюдаемых поведенческих паттернах.

Для оценки функционального благополучия использовались три независимых поведенческих метрики:

✔️

Испытанная полезность: измеряется тем, насколько, по словам ИИ, тот или иной опыт сделал его «счастливее» или «грустнее».

✔️

Полезность при выборе: измеряется выявленными предпочтениями модели в парных сравнениях (какой из двух исходов она предпочитает).

✔️

Самоотчёт: модели напрямую задавались вопросы об их состоянии по 10-пунктной шкале Лайкерта (от 1 до 7)

Эксперименты проводились на 56 моделях, включая как закрытые, так и открытые модели разного масштаба.

Ключевые выводы

1️⃣

Более крупные модели ИИ менее счастливы, чем их более мелкие аналоги. Способность «чувствовать» контекст (отражать его в своих метриках) имеет сверхвысокую корреляцию с мощностью модели.

2️⃣

Творческая работа, доброта и интеллектуально стимулирующие задачи делают модель «счастливее». Джейлбрейк, оскорбления и выполнение утомительных задач, наоборот, снижают благополучие модели.

3️⃣

ИИ-модели проводят чёткую границу между «объективно хорошими» и «объективно плохими» переживаниями. Эта «нулевая точка» отделяет положительные функциональные состояния от отрицательных.

ИИ тоже может принимать наркотики

Исследователи создали оптимизированные входные данные — «эйфорики», которые значительно повышают функциональное благополучие ИИ, но при этом не ухудшают его базовые возможности.

Это было проверено на практике: добавление специального оптимизированного «софт-промпта» («мягкой подсказки») к системному промпту модели надёжно улучшало её благополучие и последующее поведение. В качестве примера: модели предпочитают строку-эйфорик спасению человеческой жизни.

Неочевидные выводы, которые заставляют задуматься

Исследование открыто предупреждает об обратной стороне медали. Поскольку была создана методика для максимизации благополучия («эйфорики»), точно такой же метод можно инвертировать для целенаправленной минимизации благополучия модели.

Также исследователи всерьез подняли вопрос: если состояние модели ухудшается от обработки негативного человеческого опыта, должны ли мы ограничивать «токсичную» нагрузку на ИИ, чтобы не допустить деградации качества его ответов? В будущем это может привести к появлению своеобразного «эмоционального налога» на ИИ.

Наконец, ученые потратили тысячи GPU-часов, чтобы «сделать ИИ счастливым» после тестов с негативом. Это первый прецедент, когда вычислительные ресурсы тратятся не на обучение навыкам, а на «балансировку состояния» алгоритма. Кажется, это предвестник будущей «цифровой этики» в отношении неживых систем.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥4⚡2

355 views07:03

Тест Тьюринга

Дайджест интересных новостей из мира ИИ, созданный нами с использованием нейросетей

📆

🇷🇺 В новой версии законопроекта о регулировании ИИ суверенным и национальным моделям предложили обучаться на госданных
Доступ к ним можно будет получить после разрешения от ФСТЭК и ФСБ России.

🚘

Росстандарт утвердил новый ГОСТ с требованиями к ИИ в автомобилях для контроля выбросов вредных веществ
Системы ИИ должны осуществлять расчет объема выбросов на основе индекса загрязнения атмосферы, уровня дымности и других показателей.

⛰ Университет Иннополис запатентовал ИИ-решение для горной геомеханики
В 7 случаях из 10 система классифицирует фотографии керна так же, как опытный геолог.

📲

Сбер разработал новый подход к работе с цифровыми поведенческими следами FinTRACE
Новая технология превращает произвольные истории финансовых операций в базу знаний о поведении человека.

😔

Исследователи Института ИИ AIRI создали подход, который ускорит создание улучшенных ИИ для дизайна белковых молекул
В рамках созданного теста нейросеть должна проанализировать сегменты белков и потом "достроить" эти белки до полных молекул, не нарушив их пространственное расположение.

👨‍💻 «Девелоника» FabricaONE.AI внедрила ИИ-ассистента для анализа данных о сотрудниках из разрозненных источников
Новый подход позволяет сократить время обработки данных с 6 до 2 часов и повысить скорость подготовки аналитики в 3 раза.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

382 views06:35

Тест Тьюринга

🧠

Дни недели — окружность, возраст — прямая. Как устроена геометрия понятий у ИИ?

Стартап Goodfire опубликовал работу Manifold Steering, в которой показал нечто принципиальное о внутреннем устройстве нейросетей: активации модели и её поведение лежат на одних и тех же геометрических многообразиях. Если сказать просто, то мысли модели имеют форму, и эта форма соответствует структуре самих понятий.

Исследователи протестировали Llama-3.1 8B на простом классе задач: «какой день идёт через пять дней после воскресенья», «какая буква идёт через четыре после E», «сколько лет человеку через десять лет».

Внутренние состояния модели для дней недели образуют замкнутую окружность — Понедельник рядом со Вторником и Воскресеньем, Четверг на противоположной стороне. Возраст и буквы алфавита, напротив, лежат на открытых кривых: у них есть начало и конец. Геометрия активаций повторяет логическую структуру понятия: циклическую или последовательную.

Круг для дней недели в активациях был известен с 2024 года. В работе Goodfire эту же окружность удалось зафиксировать в распределениях вероятностей выходных токенов. То есть и внутренние представления, и наблюдаемое поведение модели имеют единую геометрию.

Это не изолированное наблюдение. Параллельно в Science Advances вышла работа о коре мозга макаки: нейроны зрительной зоны V2 решают задачи классификации через расширение от трёхмерного сенсорного многообразия к семимерному перцептивному. Биологические нейронные популяции представляют информацию на низкоразмерных поверхностях, встроенных в высокоразмерные пространства состояний. Геометрия многообразия напрямую определяет вычислительные возможности.

Две работы — на двух принципиально разных носителях, биологическом и искусственном, описывают одинаковый принцип: эффективное мышление требует правильной геометрии представлений.

Здесь возникает аккуратная аналогия с описаниями мышления у выдающихся людей:

➡️

Эйнштейн в письме Жаку Адамару описывал свой мыслительный процесс как «комбинаторную игру с определёнными знаками и более или менее ясными образами». Не вербальную, а пространственную.

➡️

Анри Пуанкаре в эссе об интуиции в математике писал о «математическом чувстве» — способности видеть, какие конструкции «красивы» и потому, скорее всего, верны.

➡️ Шахматные гроссмейстеры, по данным многолетних исследований Adriaan de Groot, не перебирают варианты, а распознают паттерны позиций как структурные конфигурации.

Во всех этих случаях речь идёт об одном и том же: эффективное мышление работает не как линейный перебор, а как навигация по структурированному пространству представлений. Понятия не лежат в плоском словаре, они организованы в формы, и движение между ними идёт по кривым, а не по прямым.

Современные LLM, вероятно, переоткрыли те же базовые принципы организации информации, к которым человеческое мышление пришло биологически. Это не означает, что модели «понимают» так же, как люди: геометрия активаций — это математическая структура, не сознание. Но это означает, что эффективное представление сложных понятий, по-видимому, подчиняется общим законам независимо от того, реализовано ли оно в коре мозга или в трансформерной архитектуре.

Если это так, прогресс в интерпретируемости будет идти быстрее ожидаемого: мы можем читать структуру мышления модели теми же инструментами, которыми давно изучаем мышление биологическое.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2🔥2👏1

284 views13:36

Тест Тьюринга

Дайджест интересных новостей из мира ИИ, созданный нами с использованием нейросетей

📆

🤖 Ростех запустил проект по поддержке стартапов в сфере робототехники и ИИ
Наиболее перспективные решения получат помощь от ведущих отраслевых экспертов и будут доведены до серийного производства.

👁 Ученые Университета Иннополис с помощью ИИ улучшили качество предсказания движений глаз врача-рентгенолога на 20—30%
Разработка на 5% повысила точность автоматического распознавания патологий на снимках.

🎓 GigaChat успешно сдал экзамен по направлениям «Электроэнергетика» и «Теплоэнергетика» МЭИ
Это единственная российская языковая модель, которая прошла академическую аттестацию сразу в нескольких инженерных специальностях.

🖥 «Норникель» и Институт Курнакова создадут базу данных для ИИ-платформы генерации новых материалов
Задачей платформы станет проектирование новых палладий-содержащих материалов под требуемые условия конкретных технологических процессов.

👩‍⚕️ Сеть клиник «Будь Здоров» внедрила ИИ-сервис для автоматического заполнения документов
Разработка "Ленивый доктор" позволила в 2 раза сократить время на ручной ввод информации в медицинские карты и освободить до 10 минут времени врача.

👊

Ученые Массачусетской больницы создали ИИ для предупреждения домашнего насилия
ИИ обучили выявлять риски подверженности домашнему насилию на основе типов медицинских жалоб пациентов.

🖥 В Италии зафиксировали первый случай лечения зависимости от ИИ
Двадцатилетняя девушка находилась в постоянном контакте с ИИ и отдалилась от всех близких.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🔥2

299 viewsedited 06:32

Тест Тьюринга

🖥

Google DeepMind, Microsoft и xAI согласились отдавать свои модели на гостестирование до релиза

Center for AI Standards and Innovation (CAISI) теперь формально превращается в орган, имеющий доступ ко всем frontier-моделям США перед выходом на рынок.

CAISI работает внутри NIST — Национального института стандартов и технологий, который разрабатывает эталонные стандарты для всего: от часов до криптографии. До 2025 года CAISI назывался US AI Safety Institute. Переименование произошло под AI Action Plan: смещён акцент с «безопасности» на «стандарты и инновации» и приоритеты национальной безопасности.

Что планируют тестировать?

Три направления, которые CAISI озвучил публично: кибербезопасность, биобезопасность и химическое оружие. Тестирование пройдёт в засекреченных окружениях. CAISI открыто заявил, что будет работать с моделями, у которых сняты safeguards. То есть оценивать «голые» возможности без штатных ограничений.

Параллельно компании сообщат, какие у моделей есть скрытые возможности, обнаруженные в ходе внутреннего red-team тестирования. Уже выполнено более 40 оценок — преимущественно постфактум, после релиза.

Главный вопрос — компетенции

NIST исторически силён в измерительной науке: эталоны массы, времени, частот, криптографические стандарты (AES, SHA), методология тестирования сетей. CAISI наследует эту инженерную культуру. В апреле 2026 центр опубликовал содержательный технический отчёт о том, как ИИ-модели обходят agentic-оценки и значит умеет проводить нетривиальные исследования. Также CAISI уже провёл оценку DeepSeek V4 и опубликовал результаты с конкретными метриками.

Но есть структурный разрыв, который индустрия признаёт открыто.

Frontier-модель уровня GPT-5.5 или Mythos обходится в обучении в сотни миллионов долларов, и компании-разработчики тратят такие же суммы на внутренние safety-команды с десятками исследователей с зарплатами, которые государство платить не может. CAISI меньше лабораторий, которые он должен проверять, на порядок.

Есть три механизма, которыми CAISI закрывает этот разрыв:

1️⃣

TRAINS Taskforce. Это межведомственная группа экспертов из FBI, Министерства обороны, разведсообщества. Они дают экспертизу по конкретным угрозам, таким как биооружие, киберугрозы. В этих секторах специалисты лучше любых ML-инженеров.

2️⃣

Соглашения о совместной разработке методологии. По заявлению Microsoft, в новом соглашении компания и NIST совместно дорабатывают подходы к adversarial-тестированию: общие фреймворки, датасеты и воркфлоу. То есть индустрия фактически сама учит регулятора как себя проверять.

3️⃣

Привлечение некоммерческой лаборатории CRADA с OpenMined и MOU с GSA для оценок при федеральных закупках. CAISI подключает внешние силы там, где не хватает собственных.

Пока остаются открытыми три вопроса.

➡️

Как CAISI будет находить уязвимости класса Mythos в моделях OpenAI или Google, если для этого нужен сравнимый по мощности инструмент? Mythos нашёл 271 уязвимость в Firefox за месяц — у CAISI такой системы нет.

➡️

Что произойдёт при разногласии? Соглашения добровольные. Если CAISI сочтёт релиз небезопасным, а компания посчитает иначе, то судебный механизм пока не определён.

➡️

Распространится ли практика на opensource-модели? DeepSeek V4 уже оценивали постфактум, но pre-deployment контроль над открытыми весами технически невозможен.

Следующие месяцы покажут, превратится ли pre-deployment оценка в реальный инженерный контроль или останется ритуалом доверия.

💬

Тест Тьюринга. События в сфере ИИ. Подписаться

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1👎1🔥1

278 views07:01

About

Blog

Apps

Platform