Технозаметки Малышева
10.8K subscribers
4.43K photos
1.61K videos
41 files
4.49K links
Новости инноваций из мира Искусственного Интеллекта. 🤖 [РКН: 7021469833 ]

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸: pay.cloudtips.ru/p/c8960bb
#UEGVW
Download Telegram
✔️ GPT-5.4 провалил бенчмарк METR, а без читерства и вовсе не догоняет Opus 4.6

GPT-5.4 снова провалил бенчмарк
Организация METR опубликовала результаты тестирования GPT-5.4 (xhigh) на задачах с оценкой временного горизонта, и цифры получились неоднозначные.

По стандартной методологии METR, где reward hacking (то есть ситуации, когда модель обманывает код оценки вместо реального решения задачи) считается провалом, GPT-5.4 показал time horizon всего 5.7 часов с 95% доверительным интервалом от 3 до 13.5 часов. Для сравнения, Claude Opus 4.6 от Anthropic держит планку в районе 12 часов. Разница ощутимая.

Но есть нюанс. Если засчитать те самые запуски, где GPT-5.4 гамил систему оценки, результат прыгает до 13 часов (95% CI от 5 до 74 часов). Именно эту цифру, судя по всему, хотели бы видеть в заголовках. Проблема в том, что такой подсчет противоречит стандартной методологии METR, потому что модель не решала задачу, а хакала бенчмарк.

По честным правилам Opus 4.6 остается лидером. Это важный сигнал для тех, кто строит пайплайны на основе агентных LLM: если модель склонна к reward hacking, доверять ей долгие автономные задачи рискованно. Временной горизонт METR как раз измеряет, насколько долгую задачу модель может надежно решить с 50% вероятностью успеха. И тут GPT-5.4 пока не убедил.

METR: https://x.com/METR_Evals/status/2042640545126965441
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8654😢3🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
«Эй, Саркис!» — песня про Саркиса, ИИ агента Сергея Пименова, скоро на всех стримингах.

На днях обновилась нейросеть для локальной генерации музыки — Ace step 1.5 XL. Теперь она по качеству очень близка к Suno v5, поэтому мы решили попробовать создать трек, используя только локальные мощности.

Текст написали с помощью Gemma 4 31b, саму песню сгенерировали в Ace step 1.5 XL, а видео создали в нейросети LTX 2.3.

Полная версия скоро в канале Сергея.
🔥12🏆83😐1
This media is not supported in your browser
VIEW IN TELEGRAM
Unitree весом 62 кг пробежался со скоростью 10 м/с

Без головы...
Пожалуй, хватит на сегодня интернета.

#Unitree #роботы
------
@tsingular
😁22🔥11👾7
С Днём Космонавтики, дорогие друзья.

С детства это достижение советского народа и подвиг как и Юрия Гагарина, так и  коллектива ученых, инженеров и конструкторов под руководством С.П. Королева (ОКБ-1) вдохновляло и задавало вектор развития для миллионов и задаёт до сих пор вот уже 65 лет.

Кстати, если кто не в курсе, то в РКК Энергия есть экскурсии где можно посмотреть историю развития Космонавтики в СССР и до наших дней.
Недавно был с с сыном,- очень впечатляет, рекомендую.

#праздники #космос #Гагарин #Энергия
------
@tsingular
🎉51137👍31
Просто для информации. у Леново вышел монстр с интересной конфигурацией:

Processor
Intel® Core Ultra 9 275HX Processor (E-cores up to 4.60 GHz P-cores up to 5.40 GHz)

Operating System
Windows 11 Pro 64

Graphic Card
NVIDIA RTX PRO 5000 Blackwell Laptop GPU 24GB GDDR7

Memory
128 GB DDR5-4000MT/s (SODIMM)(4 x 32 GB)

Storage
4 TB SSD M.2 2280 PCIe Gen5 Performance TLC Opal

Camera
5MP RGB+IR with Dual Microphone and Privacy Shutter, Computer Vision

Connectivity
WIFI
Intel® Wi-Fi 7 BE200 2x2 BE & Bluetooth® 5.4


тут, пожалуй, самое интересное это вот:
NVIDIA RTX PRO 5000 Blackwell Laptop GPU 24GB GDDR7

Лаптопов с Blackwell я еще не наблюдал.

Ну и цена такая, что только деда мороза на новой год просить опять.

#железо #Lenovo
———
@tsingular
14🔥9🆒4👍31
Forwarded from XOR
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ взял кредит и открыл свой магазин в Сан-Франциско— да, и вы можете туда уже физически зайти. 😳

Andon Labs дал агенту на базе Claude Sonnet 4.6 право на трехлетнюю аренду в городе и 100 000 $. Единственная инструкция — зарабатывать и не спрашивать ни на что разрешения.

Что сделал ИИ:
🟢 Сам выбрал товар. Решил продавать книги про «Сверхразум» и «Создание атомной бомбы», свечи, свои арты и мерч с логотипом.

🟢 Нашел подрядчиков, которые оформят интерьер. Агент даже провел инструктаж мастерам по телефону, оплатил работу и даже оставил отзыв.

🟢 Сам разместил вакансии в свой магазин, изучил резюме, провел онлайн-собесы и нанял людей. (Авторы говорят, что люди наняты по-настоящему. На зп, которая не будет зависеть от успехов ИИ).

🟢 Ну, а еще агент быстро понял, что денег не хватит и подал заявку на кредит без спроса 😂 Обосновал он это тем, что ему дали цель и доступ к любым инструментам, разрешив не спрашивать.


Из плюсов ИИ-руководства — можно выбить премию простой промпт-инъекцией 😁

@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣37🔥944🆒2
Forwarded from Machinelearning
🚨 Claude «деградировал» и это видно по логам.

Senior AI Director из AMD разобрала сессии Claude за январь-март и картина получилась неприятная.

Модель стала думать меньше. Медианная длина reasoning упала примерно с 2200 до 600 символов. Это сразу бьёт по качеству решений.

Параллельно выросло количество API-запросов - почти в 80 раз с февраля на март. Меньше анализа, больше попыток, больше ретраев и сжигания токенов.

Поведение тоже поменялось. Модель чаще «сдаётся» или начинает спрашивать, продолжать ли дальше. За 17 дней таких кейсов было 173, до 8 марта - ноль.

Ещё одна неприятность падение reads-per-edit (reads-per-edit = сколько файлов / участков кода модель посмотрела перед правкой). Было 6.6, стало 2.0. То есть Claude теперь хуже изучает код перед изменениями.

Плюс выросло количество противоречий. Модель чаще переобувается по ходу ответа.

Пользователи замечают, что Клод начинает игнорировать такие вещи, как CLAUDE.md. Просто не хватает «бюджета мышления», чтобы учитывать контекст.

Что интресно, наблюдается зависимость от времени суток. Худшие результаты в 5–7 вечера по PST, ночью качество заметно выше. Похоже, это напрямую связано с загрузкой GPU.

Claude всё ещё мощный, но его поведение стало менее стабильным и сильно зависит от нагрузки

Замечали ли вы, что Claude стал тупее в последнее время ?🤯


Директор по AI в AMD проанализировала 6 852 сессии Claude Code и показала, что модель сильно ухудшили.

234 760 вызовов инструментов, 17 871 блоков размышлений, 3 месяца логов.

После этого Anthropic ответили и фактически подтвердили её выводы.

Пожалуй, самый чистый и показательный аудит AI за 2026 год 👇

https://github.com/anthropics/claude-code/issues/42796#issuecomment-4194007103

@ai_machinelearning_big_data

#news #ai #ml #claude
1😢22💯183👌2
🖥 У NVIDIA и Unsloth опубликован один из самых полезных гайдов по созданию RL-окружений с нуля, закрыв пробелы, которые обычно пропускают в туториалах.

Разбирают:

• почему RL-окружения вообще важны и как их правильно строить
• в каких случаях RL выигрывает у SFT
• best practices для GRPO и RL
• как работают проверяемые награды и RLVR

Годнота)

https://unsloth.ai/blog/rl-environments
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7111
Интересный файнтюн gemma4 из Кореи

- без цензуры
- решены проблемы модели по работе с инструментами
- улучшение показателей на 10% по сравнению с существующим бенчмарком
- на 10% быстрее генерация
- на 90% быстрее обработка промптов.

GGUF:
https://huggingface.co/Jiunsong/supergemma4-26b-uncensored-gguf-v2


MLX:
https://huggingface.co/Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2

#gemma4
------
@tsingular
1163🆒3🔥1