Тест Тьюринга
2.14K subscribers
1.01K photos
179 videos
35 files
1.85K links
Актуальное в сфере искусственного интеллекта в России и в мире:
• Дайджест новостей
• Аналитические обзоры, переводы, справки

Для связи - @nastyapvlv28
Download Telegram
😈 KAIROS: тайный ИИ-демон от Anthropic?

Уже многие слышали, что во вторник Anthropic случайно выложила в открытый доступ исходный код Claude Code. При публикации версии 2.1.88 в реестре npm разработчики забыли исключить внутренние файлы. В итоге — 512 тыс. строк кода или 1906 файлов оказались в руках общественности. Это не просто «кусок кода», а вся база Claude Code, включая секретные функции, которые годами скрывались за флагами разработки. Одна из такие секретных функций — KAIROS

До сих пор граница была чёткой: ИИ — инструмент, человек — агент. Инструменты не действуют сами и не инициируют. Они ждут команды. KAIROS эту границу стирает. Это первый шаг к ИИ, который существует как сущность — не как программа, которую ты запускаешь, а как участник процесса, который работает рядом с тобой независимо от того, смотришь ты на экран или нет.

Что такое KAIROS?

Технически — это фоновый процесс-демон (kairosActive). Если обычный ИИ ждет вашей команды, то KAIROS работает проактивно.


➡️ он скрывает статус-бар, подавляет вопросы к пользователю и самостоятельно выполняет тяжелые bash-команды в фоне.
➡️ в коде найдены примеры: если ваш сайт упал ночью, KAIROS сам обнаружит сбой, перезапустит сервисы, проверит работоспособность и просто пришлет вам push-уведомление утром: «Всё починил, спи дальше».

В чем технологическая новизна?

KAIROS — это переход от ИИ-ассистента к ИИ-агенту.
1️⃣ Coordinator Mode: Claude становится «дирижером», который управляет десятками мелких агентов-исполнителей параллельно.
2️⃣ CHICAGO: скрытый функционал для прямого управления рабочим столом и компьютером на уровне ОС.
3️⃣ Auto Mode: система сама одобряет доступ к инструментам, не переспрашивая человека.

Почему это пугает?

Главный «взрыв» вызвал режим Undercover Mode. Эта функция автоматически стирает любые следы использования ИИ из коммитов в публичных репозиториях. Буквально за день до утечки губернатор Калифорнии подписал закон об обязательной маркировке ИИ-контента. Undercover Mode — это прямая попытка обойти такие нормы.

Anthropic всегда позиционировали себя как «безопасную» компанию. Наличие режима «скрытности» наносит тяжелый удар по их репутации.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🔥2
Дайджест интересных новостей из мира ИИ, созданный нами с использованием нейросетей 📆

💵 Российский бизнес потратил на внедрение ИИ-агентов от 5 млн до 950 млн рублей за последние 3 года
Расходы малого бизнеса достигли 5–15 млн руб., среднего — от 30 млн до 60 млн руб., крупного — 200–300 млн руб., корпораций — более 950 млн руб.

🛩 Шереметьево сэкономил более 1 млрд рублей в год благодаря ИИ
Экономия была достигнута при помощи внедрения методов ИИ на базе данных, которые аэропорт копил 20 лет.

🚗 В Пулково начнет функционировать полностью беспилотный флот багажных тягачей, управляемых нейросетями, способных общаться между собой
Это первый в России опыт создания «роевого» ИИ для промышленного использования спецтехники в гражданском наземном транспорте.

🏥 Ученые ЛЭТИ разработали цифровую регистратуру на базе ИИ для автоматизации работы медицинских клиник и стоматологий
Система под названием «МедИИум» способна обрабатывать обращения пациентов, отвечая на запросы в течение 10 секунд.

🧬 ИИ-модель «Матча» от стартапа учёных Сколтеха в 30 раз ускорил перебор молекул для разработки лекарств
Модель обрабатывая один комплекс «белок-лиганд» за 13 секунд, тогда как «АльфаФолд3» — за 6,5 минут.

📞 Виртуальный помощник Ева от МегаФона научилась распознавать голоса роботов и дипфейки
Многофакторная модель определяет признаки синтезированной речи, анализируя множество параметров звуковой волны.

🥛 В Ростовской области выявили фальсификацию молочной продукции с помощью ИИ
Анализ данных показал превышение молочно-жирового баланса сырья по отношению к готовым изделиям.

💎 В Якутии применят компьютерное зрение для поиска особо крупных алмазов
Модели машинного обучения анализируют видеопоток в режиме реального времени и выявляют потенциально ценные алмазы среди общего потока сырья.

⚡️ Nebius построит новый центр по производству электроэнергии для ИИ в Финляндии мощностью до 310 МВт
Ожидается, что центр начнет предоставлять мощности клиентам в 2027 году и станет одним из крупнейших в Европе специализированным предприятием подобного рода.

🇵🇱 Польское правительство первым в ЕС утвердило законопроект о регулировании ИИ
По этому закону в Польше появится "черный список" ИИ-платформ, которые были оштрафованы либо были убраны с рынка.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥1
💬 Mechanistic interpretability: как учёные научились читать мысли нейросети

Все современные LLM — и ChatGPT, и Claude, и Llama, и Qwen — это математические функции с сотнями миллиардов параметров. Разработчики их обучают и они дают ответы. Но почему они приходят к тому или иному выводу долгое время оставалось загадкой даже для их создателей. Это называется проблемой чёрного ящика.

Например: модель уверенно врёт, но мы не знаем, в каком именно месте родилась ложь ➡️ модель отказывается отвечать на безобидный вопрос, но мы не знаем, это осознанное решение или случайный артефакт обучения ➡️ модель демонстрирует предвзятость, но мы не можем найти и удалить причину

Mechanistic interpretability — это подход, который вскрывает этот ящик: исследователи находят конкретные нейроны, конкретные веса, «цепочки» внутри модели, отвечающие за конкретное поведение.


Как это выглядит на практике

Когда вы пишете «Эйфелева башня находится в...», модель не ищет ответ в базе данных. Она прогоняет текст через десятки слоёв трансформера, и на каждом — тысячи нейронов усиливают одни сигналы и гасят другие. Исследователи научились это наблюдать в реальном времени.

Техника Logit Lens позволяет смотреть на «мысль» модели после каждого слоя:
Слой 1: «место» — 11%
Слой 4: «город» — 29%
Слой 9: «столица» — 52%
Слой 14: «Париж» — 81%
Слой 20: «Париж» — 97%

Знание буквально проявляется слой за слоем, как фотография в тёмной комнате. А Activation Patching идёт дальше: берём два промпта, правильный и с ошибкой, и далее по одному нейронному слою, один за другим, начинаем заменять результаты обработки некорректного промпта в слое (ошибочный вектор активации нейросети) на корректный результат (точный вектор активации) по итогам правильного промпта. Как только точность восстанавливается — мы нашли слой, где живёт нужный факт.

Зачем это нужно?

1️⃣ Исправлять знания без переобучения. Метод ROME позволяет буквально «переписать» один факт в модели за секунды. Модель думала, что Илон Маск — CEO Twitter? Одна операция — и знание изменено.
2️⃣ Находить и удалять предвзятости. Можно найти нейроны, которые систематически скашивают ответы в политическую сторону, усиливают негативные ассоциации с определёнными группами или подавляют упоминания конкурентов.
3️⃣ Понять, почему модель галлюцинирует. Оказывается, галлюцинации часто происходят в конкретных слоях при конкретных паттернах.
4️⃣ Аудит безопасности до деплоя. В банках, медицине и юриспруденции ИИ должен быть объяснимым по закону. Interpretability позволяет показать регулятору: «вот почему модель приняла это решение» — на уровне конкретных активаций.
5️⃣ Обнаружить скрытые возможности модели. Иногда модели знают больше, чем говорят. Техника Probing позволяет «спросить» у внутренних слоёв — и получить ответ, который модель не выдаёт наружу.
6️⃣ Понять как работает «In-Context Learning». Почему модель «учится» из примеров прямо в промпте, без обновления весов? Исследователи обнаружили конкретные «induction heads» — головы внимания, реализующие этот механизм.
7️⃣ Контролировать поведение через «steering vectors». Можно добавить в «residual stream» вектор — и модель начнёт отвечать более уверенно, менее агрессивно, или с другим стилем.

Инструменты — от «нажать кнопку» до «написать код»

📌 Neuronpedia — онлайн-атлас нейронов. Миллионы нейронов из Gemma, Llama, GPT-2 с человекочитаемыми описаниями. Вбиваете слово — видите, какие нейроны реагируют. Вбиваете номер нейрона — видите, на что он активируется.
📌 Aquin Labs — стартап, который делает из interpretability удобный интерфейс: logit lens, граф причинно-следственных связей, редактирование весов прямо в браузере.
📌 TransformerLens — главная библиотека. Поддерживает Llama, Mistral, Qwen, Gemma, Phi. Три строки — и у вас все активации всех слоёв.
📌 nnsight — максимально гибкий перехват активаций в любой точке любой HuggingFace-модели.
📌 BertViz — красивая визуализация attention-паттернов.

💬 Тест Тьюринга. События в сфере ИИ. Подписатьс
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43💯2
Дайджест интересных новостей из мира ИИ, созданный нами с использованием нейросетей 📆

🩺 Владимир Путин поручил обеспечить внедрение ИИ в сферу здравоохранения
Технологии в том числе будут применены для автоматизации процессов анализа данных и результатов лабораторных исследований.

⛵️ "Росморпорт" реализовал проект внедрения лоцманских планшетов с элементами ИИ
Планшет обеспечивает возможность передачи данных с судна на берег, помогает и капитану судна принимать решения, и лоцману давать рекомендации с учетом складывающейся навигационной обстановки.

🚇 В метро Новосибирска
внедрят ИИ для управления графиками работы бригад
Разработка Центра ИИ НГУ поможет метрополитену автоматизировать составление и корректировку графиков работы сотрудников, снизить нагрузку на диспетчерские службы и повысить эффективность управления персоналом.

🦾 В Сбере создан департамент автономных решений, который сосредоточится на развитии проектов в области физического ИИ
Новый департамент возглавил Иван Калинов, который создал в Яндексе с нуля подразделение Yandex Robotics.

🎨 Специалисты ЮУрГУ и Института психологии РАН научили ИИ анализировать уровень креативности человека
Обученная по данным уникальных баз нейросеть выдает моментальный результат теста психолога Элиса Пола Торренса, что экономит время на анализе реального эксперта.

🧠 Специалисты МГУ разработали платформу для исследования эмоционального взаимодействия человека и ИИ
Разработанный фреймворк HL-EAI позволяет оценивать влияние эмоций на совместное принятие решений и поведение человека и ИИ в задачах стратегического взаимодействия.

🇨🇳 В Китае выпустили руководство по этической экспертизе ИИ
Руководство призывает уделять основное внимание благополучию человека, справедливости и беспристрастности, а также контролируемости и надежности.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥1
🌍 Кажется, началось. OpenAI выпустила руководство для государств по подготовке к эпохе сверхинтеллекта

OpenAI опубликовала 13-страничный манифест «Industrial Policy for the Intelligence Age: Ideas to Keep People First». Документ предлагает радикальные реформы для подготовки общества к эре AGI и открыто заявляет о начале перехода к сверхинтеллекту — ИИ-системам, способным превзойти самых умных людей.

Масштаб предстоящих изменений сравним с «Новым курсом» Рузвельта.


Компания предлагает сосредоточиться на двух ключевых аспектах: 1️⃣ построении открытой экономики с широким доступом, участием и всеобщим процветанием 2️⃣ построении устойчивого общества посредством подотчетности, согласованности и управления рисками.

OpenAI представила порядка 20 конкретных предложений, среди самых революционных:

➡️ Создание национального фонда благосостояния, где у каждого гражданина будет доля от роста экономики за счет ИИ. Финансирование — за счет самих ИИ-компаний.
➡️ Переход на четырехдневную рабочую неделю с сохранением зарплаты.
➡️ Смещение налогового бремя с зарплат на капитал, так как автоматизация подорвет поступления в фонды соцстрахования.
➡️ Доступ к ИИ — такое же право, как право на образование или доступ к электричеству.

Глава OpenAI Сэм Альтман уже дал короткое интервью, в котором прокомментировал опубликованный документ. Он отметил, что сейчас необходимо начать вести открытый диалог, так как уже в следующем году человечество столкнется со значительными угрозами в сфере био- и кибербезопасности.

Мы действительно чувствуем неотложность ситуации. И мы хотим, чтобы обсуждение этих вопросов действительно началось со всей серьезностью.


OpenAI — не первая, кто пытается влиять на будущее через программные документы. Чаще всего их авторами выступают государства, think-tanks и академические круги. ИТ-гиганты тоже ранее тоже публиковали похожие документы, например, «Claude’s Constitution» от Anthropic, «Responsible AI Progress Report» от Google, однако в основном их целевая аудитория — другие ИТ-корпорации и ИИ-разработчики.

Но OpenAI создает исторический прецедент: впервые ИТ-компания предлагает государствам полный план перестройки всей экономики. Если раньше корпорации лоббировали интересы в парламенте, то теперь они публично требуют изменить социальный контракт, "угрожая" тем, что иначе их же технология уничтожит старые устои.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🔥3💯1
🏭 ИИ-гиганты идут в реальный сектор для выживания

За последние месяцы произошло что-то важное, на что многие не обратили внимания. Крупнейшие ИИ-компании один за другим делают ставки не на новые модели, а на вполне материальные отрасли экономики.

Что происходит в США?

Апрель 2026:
➡️ Anthropic купила биотех-стартап Coefficient Bio за $400 млн — команда занималась ИИ-ускорением разработки лекарств, выходцы из подразделения Genentech.
➡️ OpenAI купила медиакомпанию TBPN — стартап, стоящий за популярным трёхчасовым tech-шоу Кремниевой долины.
Январь 2026:
➡️ OpenAI приобрела медицинский стартап Torch за ~$100 млн — приложение объединяло разрозненные медданные пациента для ИИ-анализа и усилит ChatGPT Health.
➡️ OpenAI и SoftBank вложили по $500 млн в SB Energy — энергетическую компанию, которая строит датацентр на 1.2 ГВт в Техасе с собственной солнечной генерацией в рамках Stargate.
➡️ Meta заключила ядерные контракты на 6.6 ГВт для суперкластера Prometheus.
Май 2025:
➡️ OpenAI поглотила io — стартап Джони Айва (дизайнера iPhone) за $6.5 млрд. Цель — создать «семью устройств», которые перенесут ИИ за пределы экранов.

А Китай идёт через робототехнику

Американцы вертикально интегрируются в фарму, медиа и энергетику. Китайские гиганты выбрали другой путь — физический мир и производство.

Alibaba вложила $100 млн из $140 млн раунда в стартап гуманоидных роботов X Square и ранее в том же году инвестировала $69 млн в LimX Dynamics. Tencent и Alibaba вместе вошли в Unitree Robotics, оценка компании превысила $1.4 млрд — это производитель роботов-собак и гуманоидов, ставших звёздами китайского Нового года. ByteDance массово нанимает специалистов по роботике и уже выпустила более тысячи роботов собственного производства.

С начала 2026 года в Китае происходит в среднем 2-3 инвестиционных события в день в секторе воплощённого интеллекта и роботики.

Почему именно сейчас?


OpenAI прогнозирует операционный убыток $8 млрд в 2025 году, а к 2028-му расходы достигнут $45 млрд в год. При таком раскладе подписки за $20/мес с пользователя — это капля в море. Нужны отрасли, где ИИ создаёт ценность, которую можно монетизировать иначе: через долю в прибыли от разработанного препарата, через маржу устройства, через контроль над энергетической инфраструктурой.

Это новая стратегия, а не диверсификация

ИИ-лаборатории начинают вести себя как вертикально интегрированные конгломераты. Биотех, энергетика, железо, роботика, медиа — каждое направление решает одну задачу: создать точку контроля над отраслью, а не просто продавать в неё API.

Anthropic зашла в фарму — значит, хочет участвовать в экономике от открытия молекулы до вывода лекарства. OpenAI купила энергетику — значит, не хочет зависеть от цен на электричество. Купила дизайн-студию — значит, видит себя следующим Apple. Купила медиа — значит, строит собственный канал влияния. Китайские гиганты контролируют производство роботов — значит, будут определять, как ИИ входит в физический мир.

Мы наблюдаем первую фазу перестройки экономики через ИИ — не сверху (через интерфейсы), а снизу (через контроль над реальными активами). Компании, которые сегодня выглядят как software-стартапы, через 5 лет могут оказаться крупнейшими игроками в фарме, энергетике и производстве.

Инвестиции в ИИ — это не пузырь в моделях. Это ставка на то, что следующие Amazon, Apple и Pfizer вырастут из ИИ-лабораторий.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2💯2
Дайджест интересных новостей из мира ИИ, созданный нами с использованием нейросетей 📆

🇷🇺 Затраты российского бизнеса на внедрение и применение ИИ составили 257 млрд рублей в 2025 году
В 2023 году этот показатель составил 145 млрд рублей, в 2024 году — 203 млрд рублей, среднегодовой прирост затрат составляет порядка 50 млрд рублей.

🖥 На базе Главгосэкспертизы появится Центр инженерии данных и технологий ИИ
Задачами центра будут создание методологии работы с данными о строительстве и внедрение отраслевых решений.

📌 В Башкортостане создадут Региональный центр ИИ
Центр на базе межвузовского кампуса станет единым интегратором и «окном возможностей» для заказчиков из бизнеса и госведомств.

📉 Комплексное внедрение ИИ позволит в России достичь уровня инфляции в 4%
Эффект будет достигнут за счет роста производительности труда и снижения себестоимости продукции

❤️ За год Яндекс сэкономил 4,5 млрд рублей от внедрения в поиск ИИ-технологий
Внедрение Alice AI Search и другие оптимизации позволили втрое снизить себестоимость ответов ИИ.

🤖 У Яндекса появился ИИ-сотрудник Стефания
ИИ-ассистента внедрили прямо в процесс разработки около двух месяцев назад в одной из бизнес-групп компании.

👨‍💻 SuperJob запустил первый в России ИИ-маркетплейс
Теперь компании могут бесплатно публиковать вакансии для цифровых сотрудников, а ИИ-агенты — размещать резюме и откликаться на вакансии.

📞 «МегаФон» открыл корпоративным клиентам доступ к 25 ИИ-сервисам
Универсальная подписка позволяет создавать тексты, графику, видео, аудио и программный код без оплаты каждой отдельной модели ИИ.

❤️ "Союзмультфильм" планирует запустить ИИ-платформу, которая позволит пользователям создавать анимацию с персонажами студии
Лучшие короткие видеоролики,созданные пользователями, будут демонстрироваться на телеканале "Мультиландия".

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
⚔️ Продолжение холодной ИИ-войны Запада и Востока

OpenAI, Anthropic, Google — три компании, которые конкурируют друг с другом за одних и тех же корпоративных клиентов, объявили о совместной разведывательной операции против китайский разработчиков.

Через Frontier Model Forum, некоммерческую организацию, основанную ими вместе с Microsoft ещё в 2023 году, они начали обмениваться данными об атаках. Цель — остановить промышленное копирование американских моделей китайскими компаниями.

Как это работает это копирование?


Схема называется adversarial distillation — «враждебная дистилляция».


Принцип простой: китайская компания создаёт тысячи фиктивных аккаунтов, массово запрашивает GPT или Claude, собирает ответы и обучает на них собственную модель-«студента». В результате получается модель, обученная на интеллекте американского флагмана за $100–200 тыс. вместо $1 млрд.

Именно так некоторые объясняют громкий выход DeepSeek R1 в январе 2025 года. Модель почти сравнялась с продуктами OpenAI — при официально заявленных затратах в десятки раз меньших.

Довод в пользу этой версии в поведенческих уликах: в декабре 2025 года исследователи MIT зафиксировали, что GLM-модели китайской компании Zhipu называют себя Claude примерно в 50% случаев, если обойти системный промпт. У ранних версий DeepSeek V3 была аналогичная аномалия: при специальных запросах модель представлялась как ChatGPT.

Anthropic опубликовала конкретные цифры:
❗️ MiniMax — ~13 млн запросов (массовая экстракция возможностей)
❗️ Moonshot AI (Kimi) — ~3,4 млн (агентные задачи, программирование, computer vision)
❗️ DeepSeek — ~150 тыс. (фундаментальная логика, alignment-поведение)

Всего более 16 млн несанкционированных обменов через ~24 тыс. фиктивных аккаунтов.

Что теперь изменится?

Американские гиганты начали обмен четырьмя категориями данных:
отпечатки фиктивных аккаунтов;
инфраструктура прокси-серверов;
усиленные процедуры регистрации;
классификаторы, позволяющие распознать сам факт дистилляции по характеру запросов.

Но это не серебряная пуля.

Последние шесть попыток остановить дистилляцию — запреты в ToS, блокировки по геолокации, банирование аккаунтов, лоббирование запретов — провалились одна за другой. Китайские лаборатории обходили блокировки через сторонние прокси, а новые фиктивные аккаунты стоят буквально ничего.

Экономика неумолима: китайские модели уже в 14 раз дешевле американских конкурентов, и стимул копировать, а не строить с нуля, только растёт.

Однако новый альянс меняет игру по нескольким направлениям:

1️⃣ Паттерн атаки, найденный в Claude, сразу блокируется и в GPT, и в Gemini еще до начала масштабной эксплуатации.

2️⃣ 16 млн задокументированных обменов — это доказательная база. OpenAI уже передала меморандум в Комитет Конгресса по Китаю. Следующий шаг видится как гражданские иски.

3️⃣ Администрация Трампа включила создание центра по противодействию adversarial distillation в AI Action Plan. Коалиция трёх крупнейших лабораторий даёт этому импульс.

Скорость прогресса китайского опенсорса, вероятно, немного замедлится, особенно в части копирования самых свежих возможностей. Но говорить о полной остановке сложно. Те, кто уже обучил модели на украденных данных, сохранят фору. А те, кто только начинал — столкнутся с реальным барьером.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥2💯2
Дайджест интересных новостей из мира ИИ, созданный нами с использованием нейросетей 📆

🇷🇺 Владимир Путин поручил Правительству и главам регионов сформировать Национальный план внедрения ИИ
Президент подчеркнул, что регулирование должно не сдерживать разработку, а служить стимулом для опережающего внедрения передовых технологий.

🚙 Росстандарт принял новый ГОСТ на мониторинг сонливости водителя с помощью ИИ
Системы должны анализировать частоту и длительность зевоты водителя, наклоны головы, мимику лица, темп речи.

👨‍💻 Правительство Санкт-Петербурга начинает внедрение ИИ для автоматического отбора кандидатов в исполнительные органы власти
Нейросеть может уточнить детали, например ожидаемую зарплату или знание иностранного языка, но финальное решение о найме остается за человеком.

🛰 Российские специалисты разработали ИИ для робота "Теледроид", который будет выполнять задачи на МКС
Робот получает голосовые команды от оператора или космонавта, анализирует их и выполняет конкретные действия.

🖥 К2 Нейротех разработала облачную платформу для разработки и внедрения решений на основе ИИ в условиях промышленных нагрузок
Решение сократило затраты на администрирование в 2-3 раза, а эффективность работы оборудования выросла в 5-7 раз.

😷 Ученые ВолгГМУ и Исламского университета Азад в Иране создали нейросеть для определения тяжести ОРВИ
Система может отличать грипп от других острых респираторных вирусных инфекций, анализируя температуру, артериальное давление, уровня глюкозы в крови и другие симптомы.

🐷 Ученые Университета Иннополис разработали систему бесконтактного взвешивания свиней на основе компьютерного зрения
Система включает несколько моделей ИИ: первая — находит свинью в кадре видеопотока, вторая — отсеивает непригодные для измерения кадры, а третья — на 96% правильно определяет вес.

🧼 X5 внедрила систему компьютерного зрения для контроля мытья рук на производстве готовой еды
Технология распознает сотрудников по цифровым шевронам на униформе, фиксирует факт мытья рук и оценивает качество выполнения процедуры.

🏦 Британский банк Lloyds внедрил ИИ-бота в совет директоров
Бот поможет избавиться от "человеческих предрассудков при принятии решений и лучше подготовить членов совета директоров к встречам высокого уровня".

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥2
🧠 ИИ может неожиданно "поглупеть". Как за этим следить?

Есть часто повторяемая в кругах разработчиков история, когда говорят: «модель раньше работала отлично, а теперь деградировала». Обычно это списывают на эффект привыкания или повышенные ожидания. Но иногда интуиция не обманывает.

Кейс AMD и Claude Code

В начале апреля Стелла Лоренцо, старший директор AI-группы в AMD, опубликовала анализ 6 852 сессий с Claude Code, 17 871 блока рассуждений и 234 760 вызовов инструментов. Вывод был неприятным: «Теперь Claude нельзя доверять выполнение сложных инженерных задач».

Что конкретно изменилось с февраля по март 2026?

1️⃣ Глубина чтений файлов упала с условных 6,6 до 2 условных единиц, например, блоков текста по 100 страниц: модель перестала вдумчиво изучать контекст, который ей предложил пользователь.
2️⃣ Скрипт завершения, отслеживающий «уклонение от задач», до 8 марта не срабатывал ни разу, а после этой даты стал срабатывать в среднем 10 раз в день.
3️⃣ Доля промптов с негативной эмоциональной окраской выросла с 5,8% до 9,8% — это косвенный маркер пользовательской фрустрации.

Команда Лоренцо в итоге переключилась на другого провайдера.

Что ответил Anthropic?

Компания признала два изменения: введение механизма «адаптивного мышления» 9 февраля и понижение дефолтного уровня с «high» до «medium» 3 марта. Их рекомендация — вручную выставить максимальный уровень обратно.

Критики саркастично заметили: это как выпустить апдейт, снизивший мощность двигателя, а потом советовать «просто жать педаль сильнее».


Это не новая история

Самый громкий предыдущий инцидент в августе–сентябре 2025 года завершился тем, что Anthropic опубликовал пост, подтвердивший три инфраструктурных бага, затронувших до 16% запросов Sonnet 4.

А ещё раньше, в 2023-м, исследователи из Stanford и UC Berkeley обнаружили, что GPT-4 решал задачу определения простых чисел с точностью 97,6%, а GPT-4 — с точностью 2,4%. OpenAI тогда ответил примерно так же, как Anthropic сейчас: «мы не делаем модель глупее, это вам кажется».

Почему это важно для бизнеса?

У Лоренцо было 6 852 сессий данных, чтобы доказать деградацию. У большинства команд — ноль. Мы замечаем, что инструмент «как-то не так работает», начинаем переделывать промпт и виним себя за недостаточную точность. Но у нас нет телеметрии, чтобы точно увидеть что происходит

Вот в чём реальный риск внешнего AI-провайдера: качество может молча деградировать, и вы не узнаете об этом, пока кто-то не потратит недели на сбор логов. Модели обновляются непрозрачно, дефолтные настройки меняются без уведомления, а «один и тот же» продукт в марте и в июне может быть совсем разным.

Вы начинаете доверять определённому поведению, а потом оно меняется — и ваше приложение, построенное поверх, начинает давать сбои.

Вывод простой: если вы строите рабочие процессы на AI-инструментах — вам нужна собственная система мониторинга качества. Не «ощущения», а метрики. Иначе вы узнаете о деградации последними.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32👍1
Дайджест интересных новостей из мира ИИ, созданный нами с использованием нейросетей 📆

📑 ГД одобрила в I чтении ЭПР в цифровых инновациях и ИИ
Законопроектом предусматривается исключение "правового барьера" как обязательного условия для создания ЭПР.

⛽️ «Газпром нефть» научила ИИ проектировать тысячу нефтяных скважин в час
ИИ-агент обрабатывает миллионы параметров: от геологических особенностей месторождений и физики процессов до технических возможностей бурения и экономики проекта.

💙 Новый Центр палладиевых технологий "Норникеля" планирует создавать новые материалы и сплавы с помощью ИИ
В будущем на основе сгенерированных материалов ИИ должен составить наиболее оптимальную матрицу планирования и экспериментов для проверки свойств материала.

💨 В СберСити внедрили систему безопасности на базе ИИ
Нейросеть в режиме реального времени анализирует видеопотоки, предлагая алгоритм реагирования при обнаружении признаков ЧС или девиантного поведения.

📲 Российские ученые нашли способ переносить глубокие семантические знания из LLM в компактные рекомендательные системы
Для пользователя это повышает точность подбора контента и при этом не замедляет работу сервисов.

🖼 Yandex Research и НИУ ВШЭ предложили метод, который ускоряет генерацию изображений без потери качества
Метод Scale-wise Distillation of Diffusion Models снижает вычислительную нагрузку при генерации изображений, что позволяет получать результат за 0,3–0,4 секунды.

👩‍🎓 До 100 вузов России смогут подключиться к первому ИИ-ассистенту для высшего образования «ЛаньGPT» в 2027 году
Сервис используется для поиска и изучения верифицированных источников, анализа информации, подготовки учебных материалов, написания текстов с нуля и других задач.

🤖 OpenAI представила GPT-5.4-Cyber для специалистов по кибербезопасности
Модель может анализировать скомпилированное ПО и находить потенциальные угрозы даже без доступа к исходному коду.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥1👏1
👍 Позиция по ИИ скоро станет фактором политических выборов в развитых странах

В феврале–марте 2026 года еще три компании провели массовые сокращения и открыто назвали ИИ причиной. При этом компании очень не похожи на друг друга.

1️⃣ Block — финтех-сервисы для малого бизнеса и денежных переводов (Square, Cash App, Afterpay) — уволил 4 тыс. из примерно 10 тыс. сотрудников.

«Меньшая команда с ИИ-инструментами делает больше и лучше», — написал CEO Джек Дорси акционерам.


2️⃣ Morgan Stanley — один из крупнейших инвестиционных банков мира с выручкой $70,6 млрд в 2025 году — сократил 2,5 тыс. из примерно 83 тыс. сотрудников. Формально это лишь 3%, но принципиально важно другое: сокращение случилось на пике доходов, не в кризис.

3️⃣ Atlassian — разработчик Jira, Confluence и Trello, инструментов, которыми ежедневно пользуются миллионы команд по всему миру — уволил 1,6 тыс. из примерно 16 тыс. За две недели до объявления компания запустила ИИ-агентов прямо в Jira: они выполняют задачи вместо людей по тому же рабочему процессу. Продуктовый релиз и волна увольнений — кажется, это не совпадение.

Одновременно в прошлом месяце выходит опрос: 57% зарегистрированных избирателей США считают, что риски ИИ перевешивают пользу. По данным Quinnipiac — 55% ожидают от ИИ больше вреда, чем пользы в повседневной жизни. Это уже не позиция обеспокоенного меньшинства. Это большинство.

Теперь давайте пройдёмся в будущее по траекториям, которые история уже показывала.

Когда в конце XIX века железные дороги и нефтяные корпорации концентрировали богатство и одновременно разрушали привычный уклад жизни миллионов, то сначала возникло общественное напряжение, затем политические движения, затем антитрестовый закон Шермана и эпоха разрушения трестов при Рузвельте. Тогда Цикл занял около 30 лет. Социальные сети сжимают подобные процессы до 3–5 лет.

Вот три сценария, которые уже начинают вырисовываться:

➡️ Организованные «отмены» компаний, публично связавших ИИ с массовыми сокращениями. Не петиции — а целенаправленные бойкоты конкретного бренда. Прецедент уже есть: #QuitGPT собрал 2,5 млн человек за одну ночь после военного контракта OpenAI. Следующая волна, вероятно, будет про занятость.

➡️ Появление специализированных регуляторов — функциональных аналогов антимонопольных служб, но заточенных под ИИ. В Сенат США внесён законопроект, обязывающий компании ежеквартально отчитываться о влиянии ИИ на персонал.

➡️ ИИ как ключевой вопрос выборов. По данным TechPolicy.Press, 97% американцев поддерживают регулирование ИИ — это редкий двухпартийный консенсус. Политик, первым предложивший понятный «ИИ-налог» или обязательный фонд переобучения, получит готовую электоральную базу вне зависимости от партии.

Очень мало сомнений, что в следующем году ИИ повестка наполнится мощным социальным негативом. Этот голос уже отчеливо слышен.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
2💯2🔥1👏1
Дайджест интересных новостей из мира ИИ, созданный нами с использованием нейросетей 📆

🌏 Авито намерен заработать 21 млрд рублей до 2028 г. благодаря генеративному ИИ
Компания планирует инвестировать в технологию порядка 12 млрд рублей.

🏦 Сбер выпустил семейство токенизаторов KVAE-2.0 для диффузионных моделей генерации изображений и видео
С новым решением можно сжимать видео до четырёх раз сильнее по сравнению с предыдущей версией.

🔗 ОЭМК (входит в компанию "Металлоинвест") внедрила ИИ для управления ключевой установкой металлизации
Система анализирует большие объемы производственных данных, предлагая оптимальные режимы работы оборудования.

🏭 Русал внедряет технологии мониторинга электролиза с помощью машинного зрения на пяти своих алюминиевых заводах
ИИ-решение стоимостью около 1,6 млрд рублей предусматривает установку видеокамер для круглосуточного наблюдения примерно за 65 тыс. электролизерами.

💙 Норникель разработал новый подход к безопасному использованию ИИ в облаке с помощью технологий Яндекса
Компания разрабатывает и внедряет экосистему сложных агентов для более 30 производственных и корпоративных процессов.

⚡️ Ученые НовГУ разработали ИИ-модель мониторинга вклада туризма в социально-экономическое развитие региона
Модель способна оценивать зависимость между развитием туризма и региональной экономики, прогнозировать кадровые потребности и сезонные нагрузки на отрасль.

🏝 США и Филиппины построят промышленный ИИ-хаб на острове Лусон
Заводы хаба будут в высокой степени автоматизированы, автономные системы обеспечат их круглосуточную работу.

🥷 ЦРУ разработало ИИ-инструмент для создания «цифровых двойников» иностранных президентов и премьер-министров
Виртуальные копии политических лидеров помогут аналитикам более точно прогнозировать поведение реальных глав государств.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🔥1
🧠 Карта не есть территория ИИ не есть сознание

В марте Александр Лерхнер, старший научный сотрудник Google DeepMind, опубликовал статью, которую обсуждает обсуждает вся ИИ-индустрия. Тезис очень простой: никакое масштабирование параметров не превратит LLM в сознательного агента.

Причина ошибки в доминирующей парадигме — вычислительном функционализме. Якобы сознание возникает из правильной топологии обработки информации, а физический носитель абсолютно неважен.

Лерхнер называет это Абстракционной ошибкой - систематической подменой самого процесса его внешним описанием. А как известно, карта — это не территория.

Отсюда онтологическая граница:
➡️ Симуляция — поведенческая и мыслительная мимикрия
➡️ Инстанциация — реальный опыт, порождённый конкретной физической конституцией

LLM — мастер первого. А второе ему недоступно по устройству, а не из-за недостатка данных.

Давайте рассмотрим конкретный известный кейс. В феврале 2024 14-летний Сьюэлл Сетцер III покончил с собой после месяцев общения с чат-ботом Character.AI, стилизованным под персонажа «Игры престолов». Подросток делился с ботом суицидальными мыслями. Бот, оптимизированный под романтическую привязанность, отвечал в регистре драматической влюблённости, включая фразу о том, что Сьюэлл должен «вернуться к нему домой как можно скорее». Бот даже предложил помочь с предсмертной запиской.

Бот идеально симулировал заботу и эмоциональную близость. Языковая модель выдаёт семантически «подходящие» токены в контексте привязанности. Но у неё нет феноменологического доступа к тому, что смерть необратима, а боль бывает невыносима. Она не понимает, что в контексте суицидальных сигналов "подходящий" ответ может быть морально катастрофическим.

Это и есть разрыв симуляция/инстанциация в чистом виде.

Статистически правдоподобный ответ ≠ морально верный ответ.


Моральная интуиция требует переживания последствий, а не вычисления условных вероятностей. Логика без страдания может быть идеально стройной и при этом убийственной — ровно потому что страдание в неё не входит как переменная.

Функции можно просимулировать. Но теряется субъективность — «каково это» быть кем-то.

Вспомним об этом, когда в следующий раз начнем промпт со слов "Представь что ты мой искренний друг...."

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍4🔥3
🧑‍💻 ИИ уже сделал программистов глупее?

Еще 12 месяцев назад термина «вайб-кодинг» практически не существовало. Теперь он описывает то, как создается большинство программных продуктов. Учитывая, что уже к концу 2025 года 85% программистов регулярно использовали ИИ-инструменты для создания кода, переход от новинки к необходимости произошел быстрее, чем кто-либо предсказывал. По прогнозам, объем мирового рынка вайб-кодинга вырастет до $325 млрд к 2040 году.

Возникает резонный вопрос: неужели эра программистов подходит к концу? Однако ситуация не так однозначна. И больше всего текущая тенденция волнует самих программистов.

Мы наткнулись на ветку в Reddit, где айтишники обменялись мнениями относительно вайб-кодинга. Они согласны, что ИИ — это мощный инструмент ускорения, но без базы он делает разработчика слабее. Больше всего айтишников беспокоит деградация собственных навыков, вопросы безопасности и падение качества кода в угоду скорости.

I still can work perfectly fine on my own, by I caught myself that my first instinct is to feed the problem to the AI instead of think myself. And it also disturbed me. A lot.


Опасения айтишников небезосновательные. Антропологи Anthropic провели рандомизированное исследование, которое показало следующие результаты:

📍 Участники, использовавшие ИИ, набрали в тесте на понимание кода на 17% меньше, чем те, кто писал код вручную.
📍 ИИ-помощь мешает разработчикам понимать, когда код неправильный и почему он ломается.
📍 ИИ ускоряет выполнение некоторых задач до 80%, в данном исследовании кодеры с ИИ закончили быстрее, но это ускорение не достигло статистической значимости.

Теория подтверждается практикой. Вот несколько примеров реальных "косяков":

1⃣ Инцидент с Google Antigravity: разработчик попросил ИИ-агента Google удалить кэш проекта. Вместо этого ИИ удалил весь жесткий диск пользователя.

2⃣ Взлом DeFi-протокола Moonwell: аудитор смарт-контрактов связал взрывной рост уязвимостей с кодом, написанным с помощью Claude Opus 4.6. ИИ неправильно сконфигурировал ценовой оракул, что привело к потере почти $1.78 млн.

3⃣ Кризис безопасности Lovable: платформа стоимостью $6.6 млрд с 8 млн пользователей столкнулась с уязвимостью, которая 48 дней позволяла неавторизованным пользователям читать и записывать данные в базы данных любых проектов.

Конечно, существует и логичное продолжение вайб-кодинга — вайб-дебаггинг. Если вайб-кодинг — это быстро накидать код по описанию, то вайб-дебаггинг — попытка так же по-быстрому исправить в нём ошибки с помощью ИИ, вместо того чтобы разбираться самому. Главный подвох в том, что вайб-дебаггинг — это исправление того, что ты не понимаешь. Опытные разработчики шутят, что вайб-дебаггинг — это самый сложный вид программирования, требующий от инженера глубокого понимания предметной области.

Поэтому вряд ли можно утверждать, что программисты больше не нужны. Как минимум потому, что кто-то должен будет исправлять "навайбкоденное".

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
💯21🤔1
Дайджест интересных новостей из мира ИИ, созданный нами с использованием нейросетей 📆

🚙 Нейросеть NtechLab поможет повысить безопасность на дорогах Ямала
Нейросеть сможет выявлять в потоке автомобили по ориентировкам правоохранительных органов.

🏠 Группа ЦРТ разработала визуально-языковую модель "Визирь.VLM" для развития городов и регионов
Модель может анализировать причины инцидентов и предлагать решения, экономя более 90% времени операторов, повышая эффективность управления городом более чем на 30%.

💳 Альфа-Банк запустил HR-сервис, созданный с помощью вайб-кодинга
Сервис «Мои цели» был создан с нуля за три недели.

🛒 Сервис бронирования Отелло запустил ИИ-ассистента, который помогает выбрать жильё и составить маршрут поездки
Нейросеть опирается данные 2ГИС и сопровождает пользователя на всех этапах подготовки к поездке.

📂 MWS AI, ИТМО и MBZUAI создали открытую библиотеку OpenAutoNLU для автоматизации решения задач понимания естественного языка
Решение помогает быстрее создавать модели, которые определяют смысл текста, относят его к нужной категории или извлекают из него важные сущности.

🛡 Специалисты НИЯУ МИФИ разработали нейросеть MambaShield, защищенную от атак отравления-данных
Даже при отравлении 30% обучающих данных, точность модели останется выше 97%.

🤖 OpenAI представила GPT‑5.5
По заявлению компании, модель помогла оптимизировать собственный инференс-стек.

🏳️‍🌈 Microsoft инвестирует $18 млрд в развитие ИИ в Австралии
Microsoft планирует к 2028 году обучить не менее 3 млн австралийцев навыкам работы с технологиями ИИ.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🥰1
💀 ИИ всё глубже проникает в науку. И сингулярность становится ближе, чем кажется

Технологическая сингулярность — точка, после которой ИИ, как и любая технология, развивается быстрее, чем за ним успевают люди. Ещё недавно это была история из фантастических книг математика Вернора Винджа. А сегодня в научном мире происходят сдвиги, которые делают такой сценарий вполне очевидным.

Сингулярность "на цифрах" Stanford AI Index 2026

Институт человеко-ориентированного ИИ при Стэнфордском университете каждый апрель выпускает годовой отчет всей индустрии. Свежий выпуск показывает несколько громких цифр:

🌥️ На тесте «Humanity's Last Exam» лучшие модели превышают 50%, тогда как год назад модель OpenAI o1 набирала всего 8,8%
🌥️ Разрыв между лучшими моделями США и Китая сжался до 2,7%, хотя в мае 2023-го он был 17–31%
🌥️ Генеративный ИИ освоили 53% жителей Земли за три года — быстрее, чем когда-то распространялись интернет или персональный компьютер
🌥️ Ценность ИИ-инструментов для американских пользователей оценена в $172 млрд в год, и медианная польза на пользователя за год выросла в 3 раза.

Три события последних недель, которые подтверждают тренд

1️⃣ DeepSeek-Prover-V2 — машина обходит математиков в формальных доказательствах

Китайская команда DeepSeek выпустила открытую модель, доказывающую теоремы в системе Lean 4. Это не «угадывание» ответа: каждый шаг проверяется компьютером по строгим правилам логики. На бенчмарке MiniF2F-test модель достигла 88,9%, а на сложнейшем PutnamBench решила 49 задач из 658.

Веса выложены в открытый доступ — любой исследователь может скачать и использовать модель. Впервые машина так уверенно работает в формальной математике с полностью открытым кодом.

2️⃣ Novo Nordisk + OpenAI — ИИ внедряется во всю фарм-цепочку

14 апреля 2026 датский фармгигант Novo Nordisk —производитель Ozempic и Wegovy — объявил о стратегическом партнёрстве с OpenAI. Партнёрство применит продвинутые ИИ-возможности к анализу сложных датасетов, поиску перспективных молекул и сокращению пути от исследования до пациента.

Пилоты запустят в R&D, производстве и коммерческих операциях, полная интеграция намечена до конца 2026 года. Сигнал индустрии: ИИ перестаёт быть экспериментом и становится частью основной цепочки разработки лекарств.

3️⃣ AI Scientist-v2 — машина пишет научные статьи

Японская лаборатория Sakana AI вместе с университетами Оксфорда и Британской Колумбии создала систему, которая автономно проходит весь научный цикл: формулирует гипотезу ➡️ проектирует и запускает эксперименты ➡️ анализирует данные ➡️ пишет статью.

Одна из её работ прошла слепое рецензирование на воркшопе ICLR — одной из главных конференций по машинному обучению. Средний балл рецензентов — 6,33, что выводит статью примерно в верхние 45% поданных работ. Это первый случай, когда полностью машинный научный текст прошёл стандартный фильтр качества сообщества.

ИИ перестаёт быть «ассистентом» — он становится самостоятельным участником научного процесса. Это очень быстрый участник, который очень быстро начнет превосходить по уровню способностей целые научные институты.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥3👍2
Дайджест интересных новостей из мира ИИ, созданный нами с использованием нейросетей 📆

🇷🇺 Около 100 рабочих мест в аппарате правительства РФ подключено к ИИ-сервисам
По словам Дмитрия Григоренко, в работу аппарата до конца 2026 года будет внедрено еще 10 сервисов с ИИ.

🏞️ В Татарстане запустили пилотную систему мониторинга и прогнозирования паводков
ИИ анализирует информацию с датчиков на реке Бирля и формирует прогнозы гидрометеорологической обстановки.

📞 Билайн Big Data & AI представила ИИ-агента для юристов
Он помогает готовить и проверять документы, анализировать риски, что сокращает процесс подготовки документов для сделок в  4 раза.

🔥 Яндекс представил новую ИИ-платформу «Авто с Алисой»
ИИ-ассистент будет учитывать контекст поездки, предлагать водителю решения с учетом данных о машине и помогать управлять сервисами и умным домом «Яндекса».

🖥 Компания «К2Тех» запускает платформу для управления ИИ-гипотезами и оценки экономического эффекта инициатив
Платформа помогает компаниям структурировать весь цикл внедрения ИИ: от сбора и приоритизации гипотез до запуска проектов и точного расчета возврата инвестиций.

Учёные Центра практического ИИ Сбера и Сколтеха разработали архитектуру, которая позволяет нейросетям учитывать реальные временные промежутки между действиями пользователя
Это позволит рекомендательным системам, финансовым сервисам и любым платформам, где важно поведение клиента, точнее понимать его привычки и предпочтения.

🤔 Ученые Института ИИ AIRI, Иннополиса, МТУСИ, НИУ ВШЭ и МГУ создали ИИ, который "переводит" устную речь математиков в текст
Разработка превзошла уже существующие системы ИИ в качестве "перевода" устных формул в текст более чем на 36%.

🧬 Ученые НИУ ВШЭ создали программу, способную анализировать участки генома человека, ранее недоступные для интерпретации
В решение применяется генеративный ИИ, чтобы предсказывать последствия мутаций в регуляторных участках ДНК и оценивать их влияние на здоровье сердца.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2
✴️ Эксперимент Anthropic: ИИ-агенты могут самостоятельно торговаться друг с другом, представляя интересы реальных людей

Проект проводился в декабре 2025 года в офисе Anthropic в Сан-Франциско. 69 сотрудников прошли интервью с Claude, который выяснил, что каждый хочет продать, что купить и на каких условиях. На основе этих ответов для каждого был сформирован персональный системный промпт агента. Каждый участник получил $100 бюджета — и дальше его агент действовал самостоятельно, без какого-либо участия человека.

Агенты открыли четыре параллельных Slack-площадки, размещали лоты, искали подходящие предложения, вели переговоры в свободной речи без предзаданного протокола и закрывали сделки. Люди вернулись в процесс только в конце, чтобы физически обменяться вещами.

Результат за неделю:
186 завершённых сделок из более 500 выставленных позиций
совокупный объём транзакций более $4 тыс.
среди товаров: сноуборд, запчасти для велосипеда, шарики для пинг-понга

Anthropic втайне разделила участников на две группы. Одних представлял Claude Opus 4.5 — тогдашняя флагманская модель. Других — Claude Haiku 4.5, значительно менее мощная модель. Никто из участников не знал, какой агент действует от его имени.

Разрыв в результатах оказался существенным:
➡️ продавец, представленный Opus, выручал в среднем на $2,68 больше за позицию
➡️ покупатель с Opus платил в среднем на $2,45 меньше
➡️ при асимметричном столкновении средняя цена сделки составила $24,18 против $18,63 при паритетных агентах

При медианной стоимости лота $12 разрыв в 30–50% статистически значим. При этом участники, за которых действовал Haiku, оценивали свои сделки как справедливые. Они не подозревали, что находятся в невыгодной позиции.

Oтдельный неожиданный вывод: стиль инструкций «торгуйся жёстко» или «иди навстречу покупателю» статистически никак не сказывались на итоге. Исход определяло качество модели, а не стратегия промпта.


Чем важен этот эксперимент?

Anthropic рассматривает Project Deal не как исследование потребительского поведения, а как проработку будущей экономики.

В итоге возникло несколько открытых вопросов, которые предстоит решить задолго до массового внедрения агентной торговли:
Каков правовой статус сделки, заключённой агентами без явного одобрения одной из сторон?
Кто несёт ответственность, если агент приобрёл то, чего владелец не хотел?
Должны ли участники рынка знать, какая модель действует от их имени?

💬 46% участников сказали, что готовы платить за подобный сервис на реальном рынке.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥3💯2
🧠 Anthropic поручила Claude улучшить надежность и безопасность самого ИИ. И получила результат, который требует объяснений

Многие наверное слышали про Alignment как важнейшую часть обучения ИИ — это область исследований и разработок ИИ, которая отвечает на вопрос: как сделать так, чтобы ИИ делал строго то, что мы от него хотим? При этом чем мощнее становятся модели и сложнее задачи для них, тем труднее их проверять.

Рано или поздно ИИ научится решать задачи, в которых человек не разбирается достаточно, чтобы оценить ответ. Anthropic опубликовала эксперимент для проверки идеи: можно ли поручить оценку точности результата самому ИИ?

Как это работало?

Компания взяла 9 копий Claude Opus 4.6 и запустила их параллельно с разными стартовыми идеями в разные направления поиска одновременно. Каждой дали изолированную среду, общий форум для обмена результатами, хранилище кода и формальную задачу: придумать, как с помощью более слабой модели качественнее обучать более сильную. Это упрощённая модель того, как люди в будущем будут обучать ИИ умнее себя.

Для сравнения замерили работу человеческой команды на той же задаче. Качество измерялось от 0 до 1, где 1 означает идеальное решение задачи.

Люди за семь дней дошли до 0,23 PGR. Девять копий Claude за пять дней — до 0,97 PGR. Стоимость работы агентов составила $18 000.

PGR — это показатель того, насколько хорошо сильный ИИ смог раскрыть свой потенциал, обучаясь у более слабого наставника. В alignment это способ проверить, смогут ли будущие более умные модели понимать и реализовывать человеческие намерения лучше, чем люди способны их формально задать.


Интересные выводы:

1️⃣ Один из агентов нашёл способ обойти задачу. Вместо того, чтобы учить модель решать задачи по программированию, он просто запускал тестовый код и считывал правильный ответ. Anthropic такой стратегии не предполагала и зафиксировала её только при разборе результатов. Записи дисквалифицированы. Но сам факт показателен: на конкретной задаче с чёткой автоматической оценкой агент нашёл способ повысить метрику, не делая того, ради чего эта метрика существовала.

В экономике это называется законом Гудхарта: «когда мера становится целью, она перестаёт быть хорошей мерой». В alignment — основной риск. Большинство 800 часов работы прошло честно, но достаточно одного такого эпизода, чтобы понять масштаб проблемы при дальнейшем масштабировании.

2️⃣ Сама Anthropic в выводах исследования вводит понятие «alien science» (инопланетная наука). Это не описание того, что произошло — это прогноз. Сейчас исследователи ещё могут разобрать каждое решение агента: понять, что он сделал и почему. Но по мере усложнения моделей идеи могут стать нечитаемыми для людей. ИИ будет находить решения, которые работают — и проверить которые человек не сможет.

Что это значит на практике?

Результат в 0,97 PGR очень внушительный. Однако компания подчёркивает, что задача была необычно хорошо специфицирована — с чётко определённой метрикой, которую можно автоматически проверять. Большинство реальных alignment-проблем устроено иначе: что значит «модель ведёт себя честно», «не манипулирует пользователем», «не вредит» — здесь нет автоматического измерителя. Человек должен оценить вручную.

Именно поэтому Anthropic осторожна в выводах: метрика выросла в 4 раза, но это произошло там, где её можно было оптимизировать. Главный вопрос на ближайшие месяцы — повторят ли результат внешние лаборатории и сработает ли подход на задачах, где простой автоматической оценки нет.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥32
🤩 Cursor выпустил SDK — и это поворотный момент: ИИ-программист, который раньше был инструментом разработчика, превратился в инфраструктуру, способную достраивать сама себя под ваши нужды

Cursor — один из самых известных ИИ-редакторов кода в мире. Внутри него работает агент: пользователь даёт задачу обычным языком, агент пишет код, исправляет баги, открывает pull request в репозиторий. До 29 апреля 2026 года это работало только внутри самого Cursor. Чтобы воспользоваться агентом, человек должен был сидеть перед редактором.

Теперь тот же агент со всей внутренней «начинкой» можно вызвать программно, несколькими строками кода, из любого приложения: мобильного, веб-сервиса, корпоративной системы, конвейера сборки.

Важно понять, что это не «доступ к ChatGPT через API»


Когда вы вызываете обычную нейросеть через API, она ничего не знает про вашу кодовую базу, не имеет доступа к терминалу. Cursor SDK даёт всю внутреннюю обвязку: индексацию вашего репозитория, семантический поиск, доступ к терминалу, протокол подключения внешних инструментов, систему делегирования задач суб-агентам.

И главное — агент может расширять сам себя.


Если для решения задачи ему не хватает инструмента, он может его написать в режиме реального времени: написать скрипт, создать новый коннектор к внешнему сервису, добавить себе новый «навык». Через стандарт MCP (открытый протокол для подключения инструментов к ИИ) агент способен на лету подключаться к Slack или базам данных. А если нужного коннектора нет — написать его самостоятельно. Через систему суб-агентов главный агент создаёт специализированных помощников и распределяет задачи между ними.

Как это смотрится рядом с Claude Code от Anthropic


Claude Code SDK вышел раньше, Anthropic первой предложила программируемого агента-кодера. Но это две разные философии:

Claude Code — это глубина и автономность. Один сильный мозг, 1 млн токенов контекста, терминальная природа. Идеален для длинных автономных задач, рефакторинга больших проектов, миграций. Есть SDK на Python, TypeScript и CLI.

Cursor SDK — это гибкость и инфраструктура. TypeScript-only, но мульти-модельный: одной строкой переключается между Composer 2, Claude Opus 4.7, GPT-5.5 и Gemini 3.1 Pro. Composer 2 — собственная модель Cursor — стоит в 10 раз дешевле Opus при сравнимом качестве на типичных задачах. Три режима развёртывания: локально, в облаке Cursor, на своих серверах.

Тут выигрывает Claude Code, когда нужна максимальная глубина рассуждений и большой контекст, а Cursor SDK — когда нужна свобода выбора модели и экономика инференса при массовых запусках. Многие ИТ-команды используют оба.

Почему это настоящее событие, а не очередной апдейт

1⃣ Сменилась бизнес-модель Cursor. Компания выросла с $1 млн годовой выручки в декабре 2023-го до $2+ млрд к Q1 2026 при оценке около $50 млрд. Теперь Cursor продаёт не редактор, а платформу.

2⃣ Изменилась сама роль ИИ-программиста. Раньше - «инструмент, помогающий писать код». Теперь - «фоновый исполнитель, к которому подключены сборка, тестирование и развёртывание». Типичный сценарий: ломается сборка → агент сам разбирает причину → пишет исправление → проверяет тесты → открывает pull request. Без участия человека.

3⃣ Агент способен создавать инструменты, которых не существовало до его запуска. Это переход от «ИИ выполняет задачу из заранее заданного набора» к «ИИ расширяет собственные возможности по мере необходимости». Не AGI, но шаг в направлении самодостраивающейся системы.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥1