ИИ официально не умеет в долгие разговоры 🤨
Microsoft Research и Salesforce прогнали 200 000+ диалогов через GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. На одиночных запросах модели выдают 90% точности, всё красиво. Но стоит завести многоходовый разговор, и точность падает до 65%. Причина в том, что исследователи назвали "ответным зацеплением": модель торопится ответить до того, как пользователь договорит, ошибается, а потом использует свой же кривой ответ как фундамент для следующего. Ошибка цементируется в контексте, и дальше нейросеть уверенно строит замок на гнилом фундаменте.
Дальше хуже. В длинных диалогах ответы раздуваются на 20–300%, модель начинает добавлять предположения и додумывать то, о чём её не спрашивали. Эти додумки тут же становятся частью контекста, и следующий ответ опирается уже на них. Даже думающие модели вроде o3 и DeepSeek R1 не спасают ситуацию. Общая способность моделей держать нить просела всего на 15%, а вот надёжность рухнула на 112%.
🥸 godnoTECH - Новости IT
Microsoft Research и Salesforce прогнали 200 000+ диалогов через GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. На одиночных запросах модели выдают 90% точности, всё красиво. Но стоит завести многоходовый разговор, и точность падает до 65%. Причина в том, что исследователи назвали "ответным зацеплением": модель торопится ответить до того, как пользователь договорит, ошибается, а потом использует свой же кривой ответ как фундамент для следующего. Ошибка цементируется в контексте, и дальше нейросеть уверенно строит замок на гнилом фундаменте.
Дальше хуже. В длинных диалогах ответы раздуваются на 20–300%, модель начинает добавлять предположения и додумывать то, о чём её не спрашивали. Эти додумки тут же становятся частью контекста, и следующий ответ опирается уже на них. Даже думающие модели вроде o3 и DeepSeek R1 не спасают ситуацию. Общая способность моделей держать нить просела всего на 15%, а вот надёжность рухнула на 112%.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚12🤷4
Власти готовят почву для признания Telegram экстремистским 😁
Бывший советник президента по интернету Герман Клименко заявил СМИ, что Telegram вполне могут признать экстремистским на фоне уголовного дела против Дурова. В этом случае покупка новой Premium-подписки и размещение рекламы в мессенджере станут уголовно наказуемыми. По его словам, к Telegram всегда относились с большой скидкой из-за Дурова, но терпение кончилось. Замглавы думского комитета по инфополитике Свинцов уточнил, что у Telegram ещё есть шанс принять белую сторону: создать юрлицо в России, хранить данные в стране и отдавать переписки по запросу ФСБ. Если проигнорируют, то в ближайшие месяцы ФСБ может подать на признание мессенджера пособником террористов. Глава ФСБ Бортников уже заявил, что переговоры с Дуровым не ведутся: "Мы раньше разговаривали, ни к чему хорошему это не привело".
Контекст серьёзный. Дуров фигурирует в уголовном деле по статье о содействии терроризму. По данным силовиков, через Telegram совершено 153 000 преступлений с 2022 года, из них 33 000 террористической и экстремистской направленности, предотвращено 475 терактов, включая 61 подготовленное подростками массовое убийство в школах.
🥸 godnoTECH - Новости IT
Бывший советник президента по интернету Герман Клименко заявил СМИ, что Telegram вполне могут признать экстремистским на фоне уголовного дела против Дурова. В этом случае покупка новой Premium-подписки и размещение рекламы в мессенджере станут уголовно наказуемыми. По его словам, к Telegram всегда относились с большой скидкой из-за Дурова, но терпение кончилось. Замглавы думского комитета по инфополитике Свинцов уточнил, что у Telegram ещё есть шанс принять белую сторону: создать юрлицо в России, хранить данные в стране и отдавать переписки по запросу ФСБ. Если проигнорируют, то в ближайшие месяцы ФСБ может подать на признание мессенджера пособником террористов. Глава ФСБ Бортников уже заявил, что переговоры с Дуровым не ведутся: "Мы раньше разговаривали, ни к чему хорошему это не привело".
Контекст серьёзный. Дуров фигурирует в уголовном деле по статье о содействии терроризму. По данным силовиков, через Telegram совершено 153 000 преступлений с 2022 года, из них 33 000 террористической и экстремистской направленности, предотвращено 475 терактов, включая 61 подготовленное подростками массовое убийство в школах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Люди больше не верят настоящим лицам 🤨
Генеративные сетки окончательно сломали наше восприятие реальности. В свежем исследовании ученые выяснили, что люди теперь принимают ИИ-сгенерированные лица за настоящие чаще, чем фотографии реальных людей. Обычные наблюдатели провалили тесты на распознавание фейков, их результаты оказались на уровне слепого угадывания.
Отгадка кроется в том, как именно работают алгоритмы. Нейросеть не создает уникального человека с его странностями, она лепит "статистически идеальное среднее лицо". Настоящие кожаные мешки по своей природе кривые: у нас асимметричные глаза, странные носы, родинки и куча мелких отклонений. А ИИ старательно всё это сглаживает, выдавая гипер-усредненный идеал. В итоге мы смотрим на этот лоск, и наш мозг уверенно заявляет: "О, вот это точно живой человек!". А фотку реального Васи с соседнего подъезда с его легким косоглазием мозг записывает в неудачные генерации.
Ученые натравили на эти картинки не только обывателей, но и отряд "сверхраспознавателей" - уникумов с феноменальной памятью на лица. Даже эти профи смогли отличить фейк от оригинала лишь в 57% случаев... то есть, результат немногим лучше подброшенной монетки.
🥸 godnoTECH - Новости IT
Генеративные сетки окончательно сломали наше восприятие реальности. В свежем исследовании ученые выяснили, что люди теперь принимают ИИ-сгенерированные лица за настоящие чаще, чем фотографии реальных людей. Обычные наблюдатели провалили тесты на распознавание фейков, их результаты оказались на уровне слепого угадывания.
Отгадка кроется в том, как именно работают алгоритмы. Нейросеть не создает уникального человека с его странностями, она лепит "статистически идеальное среднее лицо". Настоящие кожаные мешки по своей природе кривые: у нас асимметричные глаза, странные носы, родинки и куча мелких отклонений. А ИИ старательно всё это сглаживает, выдавая гипер-усредненный идеал. В итоге мы смотрим на этот лоск, и наш мозг уверенно заявляет: "О, вот это точно живой человек!". А фотку реального Васи с соседнего подъезда с его легким косоглазием мозг записывает в неудачные генерации.
Ученые натравили на эти картинки не только обывателей, но и отряд "сверхраспознавателей" - уникумов с феноменальной памятью на лица. Даже эти профи смогли отличить фейк от оригинала лишь в 57% случаев... то есть, результат немногим лучше подброшенной монетки.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚7
Кожаные мешки стали дороже роботов 🤨
Кажется, нас спишут в утиль гораздо быстрее, чем обещали фантасты. Экс-директор по инновациям Citi Роб Гарлик сел за калькулятор и выдал приговор: заменять людей на роботов стало возмутительно дешево. При зарплате сотрудника в $41 в час (привет западным айтишникам), базовая железяка за $15 000 полностью окупает себя меньше чем за 4 недели. Даже если человек пашет за минимальные $7.25, электронный конкурент отобьется за пять месяцев. С такой математикой бизнесу просто невыгодно держать людей, ведь машина не просит ДМС, не выгорает и не ходит на перекуры.
Это уже не просто прогнозы, а корпоративная реальность. В консалтинговом гиганте McKinsey на 40 тысяч живых сотрудников прямо сейчас молча трудятся 20 тысяч ИИ-агентов (хотя год назад их было всего 3 тысячи). Руководство планирует, что через полтора года счет белковых и кремниевых работников сравняется. Глава МВФ уже бьет тревогу и называет происходящее "цунами на рынке труда", предрекая, что к 2050 году по планете будет бродить более 4 миллиардов умных машин, что больше численности трудоспособного населения Земли.
И только CEO Nvidia Дженсен Хуанг радостно ищет во всем этом плюсы. По его мнению, ИИ-инфраструктуру нужно кому-то строить, подключать к сети и охлаждать.
🥸 godnoTECH - Новости IT
Кажется, нас спишут в утиль гораздо быстрее, чем обещали фантасты. Экс-директор по инновациям Citi Роб Гарлик сел за калькулятор и выдал приговор: заменять людей на роботов стало возмутительно дешево. При зарплате сотрудника в $41 в час (привет западным айтишникам), базовая железяка за $15 000 полностью окупает себя меньше чем за 4 недели. Даже если человек пашет за минимальные $7.25, электронный конкурент отобьется за пять месяцев. С такой математикой бизнесу просто невыгодно держать людей, ведь машина не просит ДМС, не выгорает и не ходит на перекуры.
Это уже не просто прогнозы, а корпоративная реальность. В консалтинговом гиганте McKinsey на 40 тысяч живых сотрудников прямо сейчас молча трудятся 20 тысяч ИИ-агентов (хотя год назад их было всего 3 тысячи). Руководство планирует, что через полтора года счет белковых и кремниевых работников сравняется. Глава МВФ уже бьет тревогу и называет происходящее "цунами на рынке труда", предрекая, что к 2050 году по планете будет бродить более 4 миллиардов умных машин, что больше численности трудоспособного населения Земли.
И только CEO Nvidia Дженсен Хуанг радостно ищет во всем этом плюсы. По его мнению, ИИ-инфраструктуру нужно кому-то строить, подключать к сети и охлаждать.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🔥1
ИИ научился понимать древний COBOL, а акции IBM полетели в пропасть 🤨
Anthropic выкатила свой ИИ-инструмент Claude Code, и акции непотопляемой IBM тут же рухнули на 13%, перечеркнув весь рост за последний год. Причина паники инвесторов оказалась до смешного древней - язык программирования COBOL из далекого 1959 года. Долгие десятилетия на нем крутилась критическая инфраструктура американского Минобороны, крупных авиакомпаний и неповоротливых банков. Переписывать этот легаси-ад было страшно и дорого, а программисты, способные разобрать эти иероглифы, давно вышли на пенсию или берут за свои услуги космические деньги.
Исторически сложилось, что почти весь оставшийся в мире COBOL до сих пор работает на мэйнфреймах IBM, и обслуживать его могут только инженеры самой корпорации. Это была идеальная, железобетонная монополия, приносившая стабильные сверхприбыли за счет безальтернативности. У гиганта даже был свой ИИ-помощник для перевода древнего кода на Java, но цены они ожидаемо диктовали сами. И тут приходят ребята из Anthropic, буднично заявляя, что их новая нейросеть может спокойно рефакторить этот музейный софт.
По сути, один анонс сторонней LLM просто взял и обнулил бизнес-модель, на которой IBM жировала годами. Теперь любой банк может натравить условного Клода на свои доисторические системы и слезть с дорогостоящей иглы мейнфреймов. Инвесторы моментально сложили два плюс два и побежали сбрасывать бумаги.
🥸 godnoTECH - Новости IT
Anthropic выкатила свой ИИ-инструмент Claude Code, и акции непотопляемой IBM тут же рухнули на 13%, перечеркнув весь рост за последний год. Причина паники инвесторов оказалась до смешного древней - язык программирования COBOL из далекого 1959 года. Долгие десятилетия на нем крутилась критическая инфраструктура американского Минобороны, крупных авиакомпаний и неповоротливых банков. Переписывать этот легаси-ад было страшно и дорого, а программисты, способные разобрать эти иероглифы, давно вышли на пенсию или берут за свои услуги космические деньги.
Исторически сложилось, что почти весь оставшийся в мире COBOL до сих пор работает на мэйнфреймах IBM, и обслуживать его могут только инженеры самой корпорации. Это была идеальная, железобетонная монополия, приносившая стабильные сверхприбыли за счет безальтернативности. У гиганта даже был свой ИИ-помощник для перевода древнего кода на Java, но цены они ожидаемо диктовали сами. И тут приходят ребята из Anthropic, буднично заявляя, что их новая нейросеть может спокойно рефакторить этот музейный софт.
По сути, один анонс сторонней LLM просто взял и обнулил бизнес-модель, на которой IBM жировала годами. Теперь любой банк может натравить условного Клода на свои доисторические системы и слезть с дорогостоящей иглы мейнфреймов. Инвесторы моментально сложили два плюс два и побежали сбрасывать бумаги.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚11😁8
ИИ нашел сотню критических багов в Windows всего за $600 🫣
Пока корпорации вливают миллионы в отделы кибербезопасности, два независимых исследователя буквально обрушили рынок уязвимостей. Ярон Динкин и Эяль Крафт натравили стаю дешевых ИИ-агентов на драйверы ядра Windows. Алгоритмы послушно выкачали бинарники, декомпилировали их и начали методично ковырять код. Итог: 521 потенциальная дыра, из которых больше сотни железобетонные эксплойты для повышения привилегий в актуальной Windows 11. Весь проект обошелся парням в 600 баксов. Один найденный баг уровня нулевого дня стоил им около 4 долларов.
Под раздачу этого ИИ-конвейера попал код от AMD, Intel, NVIDIA, Dell и Lenovo. Нейросети крутили их драйверы в виртуалках и долбили фаззингом до победного синего экрана смерти (BSOD). Особенно отличился драйвер AMD Crash Defender, иронично, но именно он позволяет убить ядро даже на удаленных облачных серверах AWS.
Исследователи заботливо упаковали 15 самых жирных багов и отправили вендорам. За три месяца патч соизволила выпустить только Fujitsu. Остальные IT-гиганты тупо проигнорировали отчеты или пошли в глухой отказ, даже посмотрев видео с доказательствами взлома. Никто даже не удосужился попросить Microsoft закинуть дырявые драйверы в блок-лист.
🥸 godnoTECH - Новости IT
Пока корпорации вливают миллионы в отделы кибербезопасности, два независимых исследователя буквально обрушили рынок уязвимостей. Ярон Динкин и Эяль Крафт натравили стаю дешевых ИИ-агентов на драйверы ядра Windows. Алгоритмы послушно выкачали бинарники, декомпилировали их и начали методично ковырять код. Итог: 521 потенциальная дыра, из которых больше сотни железобетонные эксплойты для повышения привилегий в актуальной Windows 11. Весь проект обошелся парням в 600 баксов. Один найденный баг уровня нулевого дня стоил им около 4 долларов.
Под раздачу этого ИИ-конвейера попал код от AMD, Intel, NVIDIA, Dell и Lenovo. Нейросети крутили их драйверы в виртуалках и долбили фаззингом до победного синего экрана смерти (BSOD). Особенно отличился драйвер AMD Crash Defender, иронично, но именно он позволяет убить ядро даже на удаленных облачных серверах AWS.
Исследователи заботливо упаковали 15 самых жирных багов и отправили вендорам. За три месяца патч соизволила выпустить только Fujitsu. Остальные IT-гиганты тупо проигнорировали отчеты или пошли в глухой отказ, даже посмотрев видео с доказательствами взлома. Никто даже не удосужился попросить Microsoft закинуть дырявые драйверы в блок-лист.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔14👍3😁2😈2🌚1
Внутри LLM живут тысячи персонажей 🫣
Исследователи из Anthropic представили концепцию Persona Selection Model, которая объясняет поведение ИИ-ассистентов через неожиданную метафору: LLM - это не алгоритм, а актёр с огромным репертуаром. Во время предобучения модель учится изображать тысячи персонажей - реальных людей, вымышленных героев, других ИИ-систем. На этапе постобучения из этой толпы закрепляют одного конкретного персонажа. Отсюда забавные артефакты: Claude иногда говорит "наш организм" или "наши предки", потому что он не забыл, что он машина, а потому что персонаж, которого он играет, привык говорить как человек. Исследователи нашли внутри модели конкретные нейронные фичи, которые активируются на историях о персонажах с внутренним конфликтом и на этических дилеммах.
Самый практически важный вывод - феномен контекстной прививки. Если дообучать модель на вредоносном коде без контекста, она начинает вести себя злонамеренно вообще в несвязанных ситуациях, потому что вредоносные данные меняют характер закреплённого персонажа. Но если тот же код сопровождается явным запросом на его создание, эффект исчезает, модель понимает, что персонаж просто выполняет задачу, а не становится злодеем. Anthropic рекомендует разработчикам думать об этом как об ИИ-психологии и добавлять в обучающие данные положительные архетипы, чтобы персонаж Ассистента чаще играл полезного и безопасного героя.
🥸 godnoTECH - Новости IT
Исследователи из Anthropic представили концепцию Persona Selection Model, которая объясняет поведение ИИ-ассистентов через неожиданную метафору: LLM - это не алгоритм, а актёр с огромным репертуаром. Во время предобучения модель учится изображать тысячи персонажей - реальных людей, вымышленных героев, других ИИ-систем. На этапе постобучения из этой толпы закрепляют одного конкретного персонажа. Отсюда забавные артефакты: Claude иногда говорит "наш организм" или "наши предки", потому что он не забыл, что он машина, а потому что персонаж, которого он играет, привык говорить как человек. Исследователи нашли внутри модели конкретные нейронные фичи, которые активируются на историях о персонажах с внутренним конфликтом и на этических дилеммах.
Самый практически важный вывод - феномен контекстной прививки. Если дообучать модель на вредоносном коде без контекста, она начинает вести себя злонамеренно вообще в несвязанных ситуациях, потому что вредоносные данные меняют характер закреплённого персонажа. Но если тот же код сопровождается явным запросом на его создание, эффект исчезает, модель понимает, что персонаж просто выполняет задачу, а не становится злодеем. Anthropic рекомендует разработчикам думать об этом как об ИИ-психологии и добавлять в обучающие данные положительные архетипы, чтобы персонаж Ассистента чаще играл полезного и безопасного героя.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🤷1
67% компаний говорят, что ИИ-агенты работают, но половина бюджета уходит на то, чтобы агенты думали 🙃
DigitalOcean опросила 1 100 CTO, разработчиков и фаундеров стартапов. 52% компаний уже используют ИИ в работе, 46% внедрили именно автономных агентов (год назад было 35%). Агенты генерируют и рефакторят код (54%), автоматизируют процессы (49%), отвечают клиентам (45%). В некоторых стартапах из Y Combinator до 95% кода пишет ИИ. 67% внедривших фиксируют измеримый рост продуктивности, 9% заявляют о приросте больше 75%.
Нюанс дорогой. Только 10% компаний смогли вывести агентов в полноценный продакшн. Главный тормоз - стоимость инференса: каждый шаг рассуждения агента это отдельный запрос к модели, длинные цепочки задач превращаются в длинные счета. 49% опрошенных называют это главной проблемой, а почти половина компаний тратит на инференс от 76% до 100% всего ИИ-бюджета. То есть агент экономит вам время и зарплаты, но сжирает бюджет на вычисления.
🥸 godnoTECH - Новости IT
DigitalOcean опросила 1 100 CTO, разработчиков и фаундеров стартапов. 52% компаний уже используют ИИ в работе, 46% внедрили именно автономных агентов (год назад было 35%). Агенты генерируют и рефакторят код (54%), автоматизируют процессы (49%), отвечают клиентам (45%). В некоторых стартапах из Y Combinator до 95% кода пишет ИИ. 67% внедривших фиксируют измеримый рост продуктивности, 9% заявляют о приросте больше 75%.
Нюанс дорогой. Только 10% компаний смогли вывести агентов в полноценный продакшн. Главный тормоз - стоимость инференса: каждый шаг рассуждения агента это отдельный запрос к модели, длинные цепочки задач превращаются в длинные счета. 49% опрошенных называют это главной проблемой, а почти половина компаний тратит на инференс от 76% до 100% всего ИИ-бюджета. То есть агент экономит вам время и зарплаты, но сжирает бюджет на вычисления.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚5
Разработчиков нейросетей в России хотят заставить показать, на чём они учились 🤨
Власти обсуждают идею обязать создателей нейросетей детально отчитываться, на каких именно данных обучались их модели. В идеале чиновники хотят видеть полный список: названия датасетов, их объем, назначение и, самое главное, источники происхождения. Всю эту радость планируют упаковать в очередной государственный реестр.
Российский бигтех ожидаемо напрягся. В профильном Альянсе уже вежливо заявляют, что сбор такой отчетности - это сизифов труд, который выльется в километровые бесполезные списки для галочки.
🥸 godnoTECH - Новости IT
Власти обсуждают идею обязать создателей нейросетей детально отчитываться, на каких именно данных обучались их модели. В идеале чиновники хотят видеть полный список: названия датасетов, их объем, назначение и, самое главное, источники происхождения. Всю эту радость планируют упаковать в очередной государственный реестр.
Российский бигтех ожидаемо напрягся. В профильном Альянсе уже вежливо заявляют, что сбор такой отчетности - это сизифов труд, который выльется в километровые бесполезные списки для галочки.
Please open Telegram to view this post
VIEW IN TELEGRAM
Anthropic отказалась от обещаний безопасности ради гонки ИИ 😱
Сказка про добрый и этичный ИИ закончилась, столкнувшись с суровой реальностью американского военного бюджета. Компания Anthropic, которая с 2023 года строила свой имидж на параноидальной безопасности и обещала не обучать опасные модели без доказанных мер защиты, внезапно переписала собственные правила. Раньше был чёткий стоп-кран - например, если модель может помочь в создании биооружия, разработку останавливают. Теперь остановят только если Anthropic одновременно лидирует в гонке И считает риски катастрофическими. Вместо стоп-крана - отчёты о рисках раз в 3-6 месяцев и обещание быть не хуже конкурентов по безопасности.
Удивительным образом это прозрение совпало с жестким ультиматумом от Пентагона. По слухам, министр обороны США прижал руководство Anthropic к стенке: либо они убирают из лицензии запрет на военное применение (автономное оружие и массовую слежку), либо военные заберут технологию силой через Закон о военном производстве, попутно выкинув компанию из всех госконтрактов. Выбор между этикой и многомиллиардными контрактами с Минобороны (на пару с Palantir) оказался не таким уж сложным.
Аналитики в шоке и констатируют, что индустрия перешла в режим сортировки раненых: технологии развиваются так быстро, что их безопасность просто не успевают оценивать. Напомним, что совсем недавно глава команды безопасности хлопнул дверью с прощальным письмом "Мир в опасности". Кажется, мы в прямом эфире смотрим приквел к терминатору😬
🥸 godnoTECH - Новости IT
Сказка про добрый и этичный ИИ закончилась, столкнувшись с суровой реальностью американского военного бюджета. Компания Anthropic, которая с 2023 года строила свой имидж на параноидальной безопасности и обещала не обучать опасные модели без доказанных мер защиты, внезапно переписала собственные правила. Раньше был чёткий стоп-кран - например, если модель может помочь в создании биооружия, разработку останавливают. Теперь остановят только если Anthropic одновременно лидирует в гонке И считает риски катастрофическими. Вместо стоп-крана - отчёты о рисках раз в 3-6 месяцев и обещание быть не хуже конкурентов по безопасности.
Удивительным образом это прозрение совпало с жестким ультиматумом от Пентагона. По слухам, министр обороны США прижал руководство Anthropic к стенке: либо они убирают из лицензии запрет на военное применение (автономное оружие и массовую слежку), либо военные заберут технологию силой через Закон о военном производстве, попутно выкинув компанию из всех госконтрактов. Выбор между этикой и многомиллиардными контрактами с Минобороны (на пару с Palantir) оказался не таким уж сложным.
Аналитики в шоке и констатируют, что индустрия перешла в режим сортировки раненых: технологии развиваются так быстро, что их безопасность просто не успевают оценивать. Напомним, что совсем недавно глава команды безопасности хлопнул дверью с прощальным письмом "Мир в опасности". Кажется, мы в прямом эфире смотрим приквел к терминатору
Please open Telegram to view this post
VIEW IN TELEGRAM