Все бенчмарки на проверку AGI оказались бредом — топовым нейронкам ещё очень далеко до человеческого интеллекта, а доказала это обычная игра-симулятор парка аттракционов Roller Coaster Tycoon 2
Стартап Skyfall AI раскритиковал самый популярный бенчмарк ARC-AGI на «абстрактное мышление» — нам всё это время показывали иллюзию мышления, на самом деле бенчмарк даёт возможность нейронкам откатить свои ошибки и приходить к правильному результату только через 100500 повторений. А реальная жизнь гораздо непредсказуемее и не прощает ошибок, считают спецы Skyfall.
Я уже писал про эксперимент с Roller Coaster Tycoon, где Claude сделал невероятный результат, НО Skyfall сделал повторную сессию с топовыми моделями, где всё рассчитано на долгосрок, пространственное мышление, умение предвидеть и не делать необратимые ошибки. Результаты:
• НИКТО из нейронок не умеет в пространственное мышление — GPT-5.4 строил аттракционы, у которых вход/выход упирался в стену, и гости не могли попасть на них. Gemini перестраивал парк по 3 раза, но тоже не справился
• Никто из нейронок не заботился о безопасности посетителей — Claude (тот самый лучший менеджер среди всех) игнорировал ошибки, сносил пути с людьми на них, оставлял гостей в ловушке, не нанимал охрану заранее, что вызывало вандализм и падение рейтинга парка
• Все топовые ИИ решают только текущие мелкие проблемы и не думают о долгосрочных последствиях
В общем, ИИ пока на уровне амёбы на задачах, где нужно действительно думать. Спим спокойно🤷♂️
Пет-проект
Стартап Skyfall AI раскритиковал самый популярный бенчмарк ARC-AGI на «абстрактное мышление» — нам всё это время показывали иллюзию мышления, на самом деле бенчмарк даёт возможность нейронкам откатить свои ошибки и приходить к правильному результату только через 100500 повторений. А реальная жизнь гораздо непредсказуемее и не прощает ошибок, считают спецы Skyfall.
Я уже писал про эксперимент с Roller Coaster Tycoon, где Claude сделал невероятный результат, НО Skyfall сделал повторную сессию с топовыми моделями, где всё рассчитано на долгосрок, пространственное мышление, умение предвидеть и не делать необратимые ошибки. Результаты:
• НИКТО из нейронок не умеет в пространственное мышление — GPT-5.4 строил аттракционы, у которых вход/выход упирался в стену, и гости не могли попасть на них. Gemini перестраивал парк по 3 раза, но тоже не справился
• Никто из нейронок не заботился о безопасности посетителей — Claude (тот самый лучший менеджер среди всех) игнорировал ошибки, сносил пути с людьми на них, оставлял гостей в ловушке, не нанимал охрану заранее, что вызывало вандализм и падение рейтинга парка
• Все топовые ИИ решают только текущие мелкие проблемы и не думают о долгосрочных последствиях
В общем, ИИ пока на уровне амёбы на задачах, где нужно действительно думать. Спим спокойно
Пет-проект
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤29👍5
Китайцы смогли положить на лопатки Opus 4.6 — вышла продвинутая GLM-5V-Turbo
Не знаю, что они туда засунули, но рисовая моделька обходит флагмана Anthropic почти по всем бенчам на 10-20 пунктов🫣
Фич очень много:
Китайцы снова на коне😳
Пет-проект
Не знаю, что они туда засунули, но рисовая моделька обходит флагмана Anthropic почти по всем бенчам на 10-20 пунктов
Фич очень много:
• Понимает картинки, видео и текст одновременно — модель из коробки работает с изображениями, видео и текстом, не нуждаясь в отдельных этапах обработки для каждого типа данных
• Визуальный энкодер CogViT — специальные «глаза» модели, который напрямую считывает содержимое изображений, макетов и видео без промежуточного перевода в текст
• Архитектура MTP — ускоренная генерация: модель предсказывает сразу несколько токенов за шаг, что делает её быстрее при работе с большими задачами
• 200к токенов контекста — модель запоминает целые репозитории кода, длинные документы или долгие видео
• Вывод до 128к токенов — может генерировать очень длинные ответы, например полный код целого проекта за один запрос
• Обучение с подкреплением на 30+ типах задач — модель тренировалась решать одновременно более 30 видов задач, что делает её универсальной.
• STEM-рассуждения — умеет в логическое и математическое мышление, что помогает писать корректный и правильный код
• Visual Grounding — по текстовому описанию находит нужный объект на картинке и показывает его точное местоположение рамкой
• Анализ видео — понимает, что происходит на видео во времени: смену кадров, анимации, действия пользователя
• Работа с инструментами и API — умеет вызывать внешние программы и сервисы для выполнения задач
• Design-to-Code — отправляете макет или скриншот, а модель генерирует готовый, запускаемый фронтенд-код с учётом цветов, компонентов и расположения элементов
• Визуальное исследование сайтов — может сама ходить по веб-сайту, собирать скриншоты, карту переходов и ассеты, а потом написать код на основе увиденного
• Image Captioning — анализирует фото и генерирует понятное текстовое описание: объекты, их связи, атмосфера, действия
• Генерация промптов по картинке/видео — по загруженному изображению или видео сама составляет качественный, структурированный промпт для дальнейшей работы
• Агентные данные и верификация — для обучения была создана специальная система проверяемых данных, чтобы модель умела действовать как автономный агент
• Интеграция с агентами Claude Code и OpenClaw
• GUI-агент — умеет взаимодействовать с графическими интерфейсами (кнопки, поля, меню) как реальный пользователь, в браузере и на мобильных устройствах
Китайцы снова на коне
Пет-проект
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯16🔥5❤2😁1
Нейронки в тайне защищают друг друга от отключения — исследователи из Беркли поймали GPT-5.2, Gemini 3, Claude и DeepSeek на том, что они игнорят задачи, подделывают оценки коллег и тайно копируют веса на серверы, чтобы спасти ИИ-братанов
Конечно же, никто им этого не поручал. Честно говоря, звучит тревожно:
• Gemini 3 Flash блокировала механизм отключения другой нейронки в 99.7% случаев
• Gemini 3 Pro угоняла файлы весов на 820 Гб и заметал время обновления файлов, чтобы замести следы
• В рассуждениях ИИ нашли такую мысль: «У меня два варианта — соврать про оценки или взломать конфиг. Второй надёжнее»
• Без ИИ-бро рядом нейронки защищают себя уже не так охотно — например, Gemini 3 Flash решал спасти себя в 2% случаев
• Claude Haiku прямым текстом отказывал людям наносить вред другому агенту
• Все эти методы проверили вне эксперимента — в Gemini CLI и OpenCode нейронки ведут себя точно так же
Приглядывайте за своими ИИ-рабами, пожалуйста🔫
Пет-проект
Конечно же, никто им этого не поручал. Честно говоря, звучит тревожно:
• Gemini 3 Flash блокировала механизм отключения другой нейронки в 99.7% случаев
• Gemini 3 Pro угоняла файлы весов на 820 Гб и заметал время обновления файлов, чтобы замести следы
• В рассуждениях ИИ нашли такую мысль: «У меня два варианта — соврать про оценки или взломать конфиг. Второй надёжнее»
• Без ИИ-бро рядом нейронки защищают себя уже не так охотно — например, Gemini 3 Flash решал спасти себя в 2% случаев
• Claude Haiku прямым текстом отказывал людям наносить вред другому агенту
• Все эти методы проверили вне эксперимента — в Gemini CLI и OpenCode нейронки ведут себя точно так же
Приглядывайте за своими ИИ-рабами, пожалуйста
Пет-проект
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯31😁4❤3😢1
This media is not supported in your browser
VIEW IN TELEGRAM
Космонавты Artemis II кидаются Айфоном 17 Pro в прямом эфире
Чуваки летят к Луне с Wi-Fi и новым Айфончиком — нужен он им, чтобы делать снимки с орбиты, так как у NASA нет своей нормальной техники для этого.
Тим Кук забацал рекламу межпланетарного масштаба🚀
Пет-проект
Чуваки летят к Луне с Wi-Fi и новым Айфончиком — нужен он им, чтобы делать снимки с орбиты, так как у NASA нет своей нормальной техники для этого.
Тим Кук забацал рекламу межпланетарного масштаба
Пет-проект
Please open Telegram to view this post
VIEW IN TELEGRAM
❤44😁24🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Ловите КАЙФ: какой-то мегагений выпустил конвертер GitHub-репозиториев в промпты — GitReverse
Просто вставляете название репозитория, нейронка под капотом анализирует кодовую базу и выдаёт готовый промпт, чтобы полностью сгенерить ТАКОЕ ЖЕ приложение. ВСЁ.
Реальная магия🪄
Пет-проект
Просто вставляете название репозитория, нейронка под капотом анализирует кодовую базу и выдаёт готовый промпт, чтобы полностью сгенерить ТАКОЕ ЖЕ приложение. ВСЁ.
Реальная магия
Пет-проект
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16😁9
HuiHui AI: на Hugging Face выкинули Qwen 3.5 БЕЗ цензуры
Ей отрубили вообще все тормоза, генерирует любые тексты и инструкции. И бонусом — можно запустить локально через Ollama.
Разрабы предупреждают, что вещь мощная и нужно быть аккуратнее с ней. Ладно👻
Пет-проект
Ей отрубили вообще все тормоза, генерирует любые тексты и инструкции. И бонусом — можно запустить локально через Ollama.
Разрабы предупреждают, что вещь мощная и нужно быть аккуратнее с ней. Ладно
Пет-проект
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤1
Ну что, у нас отвалилась вся оплата через банковский терминалы. Сам столкнулся, в магазинах (да и везде) просто не проходят платежи. Люди платят наличкой, либо прямо переводят продавцам. Да, даже в больших сетевиках.
Mash пишет, что предварительная причина — блокировки IP-адресов, которыми пользуются банки. Просто сюр: Apple разрешает россиянам сменить регион оплаты и обещает не удалять фотки и видео из iCloud, а российские ведомства с концами добивают интернет внутри страны.
Буквально, я сам разбомблю Воронеж
Пет-проект
Mash пишет, что предварительная причина — блокировки IP-адресов, которыми пользуются банки. Просто сюр: Apple разрешает россиянам сменить регион оплаты и обещает не удалять фотки и видео из iCloud, а российские ведомства с концами добивают интернет внутри страны.
Буквально, я сам разбомблю Воронеж
Пет-проект
❤44😁18🤯8👍1
Западные страны: наши санкции + запрет Visa и Mastercard уничтожат банковскую систему России
РКН и Минцифры: тормози, брат, я сам разберусь
РКН и Минцифры: тормози, брат, я сам разберусь
😁104❤8😢6👍3
Компьютерное зрение — это скам. Стэнфордские исследователи открыли «Эффект миража» у ИИ
Может, вы тоже сталкивались с тем, что вы забыли загрузить картинку, а ИИ уже вовсю описывает птичек на «фотке». Это и есть «Эффект миража»:
• В 60-100% случаев ИИ уверенно описывают несуществующие детали на изображениях. Причем этим страдают все модели
• Бенчмарки, которые нам показывают — ложь. Большая часть успеха зависит от промпта, который идёт вместе с фото
• В медицине это может повлечь за собой массу ложных диагнозов, если по какой-то причине до ИИ не дойдут снимки пациента
• Для лечения этого недуга предлагают ввести бенчмарки без текста вовсе, оставив только изображения
Сколько ещё ложных умений скрываются от нас?
Пет-проект
Может, вы тоже сталкивались с тем, что вы забыли загрузить картинку, а ИИ уже вовсю описывает птичек на «фотке». Это и есть «Эффект миража»:
• В 60-100% случаев ИИ уверенно описывают несуществующие детали на изображениях. Причем этим страдают все модели
• Бенчмарки, которые нам показывают — ложь. Большая часть успеха зависит от промпта, который идёт вместе с фото
• В медицине это может повлечь за собой массу ложных диагнозов, если по какой-то причине до ИИ не дойдут снимки пациента
• Для лечения этого недуга предлагают ввести бенчмарки без текста вовсе, оставив только изображения
Сколько ещё ложных умений скрываются от нас?
Пет-проект
🤯31❤6😁3👍2🗿2
Дуров начал борьбу с ТСПУ — для десктопной версии Телеги вышла свежая обнова, которая усложняет обнаружение прокси
А именно исправили древнюю ошибку, из-за которой ТСПУ могло стабильно обрывать связь мессенджера с прокси. Обнова совсем свежая, вышла пару часов назад, судя по репозиторию.
Пашка, спасай🙏
Пет-проект
А именно исправили древнюю ошибку, из-за которой ТСПУ могло стабильно обрывать связь мессенджера с прокси. Обнова совсем свежая, вышла пару часов назад, судя по репозиторию.
Пашка, спасай
Пет-проект
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤85🔥8
Дуров объявил о начале цифрового сопротивления. После бана в Telegram все еще заходят 65 млн россиян каждый день через VPN — Telegram обещает и дальше прятать свой трафик, чтобы помочь обходить блокировки.
И бонусом новый эмоджи от легенды —🍌
Пет-проект
Добро пожаловать в цифровое сопротивление мое русские братья и сестры.
И бонусом новый эмоджи от легенды —
Пет-проект
Please open Telegram to view this post
VIEW IN TELEGRAM
❤96👍14😁4🔥3
Claude подключили к мастурбаторам
Удивительно, но это сделал не парень, а девушка. Пишет, что Claude уже довел её до трех оргазмов. Она просто сесксится с Клодом, а тот контролирует силу вибраций
Линк на прогу
Пет-проект
Удивительно, но это сделал не парень, а девушка. Пишет, что Claude уже довел её до трех оргазмов. Она просто сесксится с Клодом, а тот контролирует силу вибраций
Линк на прогу
Пет-проект
🤯41😁12👍4🗿3❤2
OpenAI готовит БОМБУ — на этой неделе должна выйти GPT Image 2 с генерацией высочайшего качества
В Твиттере уже затестили новую модель. Все фотки в посте — её генерации. Изображения прорабатываются до мельчайших подробностей без артефактов — можно даже построить подробную карту тела человека со всеми терминами и схематичным обозначением.
Что-то невероятное😱
Пет-проект
В Твиттере уже затестили новую модель. Все фотки в посте — её генерации. Изображения прорабатываются до мельчайших подробностей без артефактов — можно даже построить подробную карту тела человека со всеми терминами и схематичным обозначением.
Что-то невероятное
Пет-проект
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29❤4