Forwarded from Борис опять
Интересные моменты из Claude Opus 4.6 System Card
Главное наблюдение: огромный рост на задачах поиска информации в длинном контексте. Это про иголки в стоге сена и MRCR v2 8-needle. В релизе упомянуто, что Opus 4.6 на 17 п. п. лучше Opus 4.5 и на 82 п. п. (!) лучше Sonnet 4.5.
Однако сравнение с конкурентами почему-то спрятали в System Card, хотя там есть чем похвастаться. Антропики всех уничтожили. Opus 4.6 достигает 93%, GPT-5.2 70%, а Gemini 3 Pro всего 45.4%. Победили Gemini на их же поле!
Можно подумать, что нашли способ сломать бенчмарк, но одновременно с этим подросло ещё несколько оценок автономности и способности действовать на длинном контексте. Самое главное это, пожалуй, Vending-Bench 2, где модели нужно в симулированной среде управлять магазином и зарабатывать деньги. Opus 4.6 примерно на 30% лучше Gemini 3 Pro.
Я думаю именно за счет длинного контекста Opus 4.5 ощущался настолько более умным, чем даже Sonnet 4.5.
Так же очень сильно вырос ARC-AGI-2 (на 14.6 п.п.). Многие этот бенчмарк не любят, но мне кажется он несет полезный сигнал про способность модели разобраться в незнакомой задаче, особенно вкупе с другими бенчмарками.
В целом можно точно сказать, что Opus 4.6 на данный момент самое близкое к автономной модели, что у нас есть.
Немного пугающе близкое. Например, бенчмарки по кибербезопасности полностью решены:
Я недостаточно разбираюсь, чтобы понять насколько это стремно. Наверняка есть разница между "идеально решает любой CTF" и "идеально ломает любую систему."
Устойчивость к различным атакам в среднем выросла, но есть нюанс. Например, в агентском кодинге были успешны 0% промпт инъекций (у предыдущей версии было около 15%). Круто! Однако для неявных промпт инъекций при 100 попытках шанс успешной атаки 21.7%. То есть ваши openclaw боты всё ещё достаточно легко взломать если задаться целью.
При этом при использовании GUI доля успешных атак уже 57.1%. В целом как будто все способности моделей многократно хуже когда в дело вступают картинки.
Главное наблюдение: огромный рост на задачах поиска информации в длинном контексте. Это про иголки в стоге сена и MRCR v2 8-needle. В релизе упомянуто, что Opus 4.6 на 17 п. п. лучше Opus 4.5 и на 82 п. п. (!) лучше Sonnet 4.5.
Однако сравнение с конкурентами почему-то спрятали в System Card, хотя там есть чем похвастаться. Антропики всех уничтожили. Opus 4.6 достигает 93%, GPT-5.2 70%, а Gemini 3 Pro всего 45.4%. Победили Gemini на их же поле!
Можно подумать, что нашли способ сломать бенчмарк, но одновременно с этим подросло ещё несколько оценок автономности и способности действовать на длинном контексте. Самое главное это, пожалуй, Vending-Bench 2, где модели нужно в симулированной среде управлять магазином и зарабатывать деньги. Opus 4.6 примерно на 30% лучше Gemini 3 Pro.
Я думаю именно за счет длинного контекста Opus 4.5 ощущался настолько более умным, чем даже Sonnet 4.5.
Так же очень сильно вырос ARC-AGI-2 (на 14.6 п.п.). Многие этот бенчмарк не любят, но мне кажется он несет полезный сигнал про способность модели разобраться в незнакомой задаче, особенно вкупе с другими бенчмарками.
В целом можно точно сказать, что Opus 4.6 на данный момент самое близкое к автономной модели, что у нас есть.
Немного пугающе близкое. Например, бенчмарки по кибербезопасности полностью решены:
Claude Opus 4.6 has saturated all of our current cyber evaluations, achieving
~100% on Cybench (pass@30) and 66% on CyberGym (pass@1). Internal testing
demonstrated qualitative capabilities beyond what these evaluations capture, including
signs of capabilities we expected to appear further in the future and that previous models
have been unable to demonstrate.
Я недостаточно разбираюсь, чтобы понять насколько это стремно. Наверняка есть разница между "идеально решает любой CTF" и "идеально ломает любую систему."
Устойчивость к различным атакам в среднем выросла, но есть нюанс. Например, в агентском кодинге были успешны 0% промпт инъекций (у предыдущей версии было около 15%). Круто! Однако для неявных промпт инъекций при 100 попытках шанс успешной атаки 21.7%. То есть ваши openclaw боты всё ещё достаточно легко взломать если задаться целью.
При этом при использовании GUI доля успешных атак уже 57.1%. В целом как будто все способности моделей многократно хуже когда в дело вступают картинки.
Гугловские неплохо допилили свой автодубляж на Ютьюбе, последний раз когда месяца три назад пробовал, было полное ощущение что тебе переводит Джи-мэн с легкой степенью шизофазии.
Сейчас прям ровненько так, с паузами, без эмоциональных скачков. Причем, на русском. Вполне смотрибельно.
Сейчас прям ровненько так, с паузами, без эмоциональных скачков. Причем, на русском. Вполне смотрибельно.
This media is not supported in your browser
VIEW IN TELEGRAM
Пока индустрия развлекается с генерацией танцующего тверк Эпштейна, в научном ИИ происходит тихая, но фундаментальная революция. Бо Ванг из Университета Торонто и Xaira Therapeutics представил EchoJEPA — первую «мировую модель» для медицинского ультразвука. Работа построена на архитектуре JEPA, которую продвигает Ян ЛеКун.
Главная проблема медицинского ИИ, особенно в УЗИ, — это шум. Эхокардиограмма всегда зернистая, с тенями и артефактами. Классические модели, обученные восстанавливать изображение по пикселям, тратят ресурсы на моделирование этого шума, пытаясь «протереть грязное стекло», вместо того чтобы смотреть на то, что за ним находится. EchoJEPA меняет парадигму: она не учит пиксели, а строит внутреннюю модель физики сердца.
Используя архитектуру Joint Embedding Predictive Architecture, модель маскирует части видео и предсказывает не визуальную картинку, а скрытую структуру движения. Она учится игнорировать спекл-шум и фокусируется исключительно на анатомии: сокращении камер, работе клапанов и гемодинамике. Это первый случай успешного применения концепции World Model на таком масштабе в медицине.
Результаты на выборке из 18 миллионов видео говорят сами за себя. Модель снизила ошибку в оценке фракции выброса левого желудочка на 20% по сравнению с текущими SOTA-решениями. Более того, она достигает высокой точности, имея всего 1% размеченных данных, в то время как обычным моделям для сравнимого результата требуется полная разметка.
Показателен тест на устойчивость: если картинку искусственно зашумить, качество EchoJEPA падает всего на 2%, тогда как у конкурентов обрушивается на 17%. Самый интересный инсайт заключается в обобщающей способности. Модель, обученная на взрослых, начала работать с детскими эхокардиограммами лучше, чем специализированные нейросети, натренированные исключительно на педиатрических данных. Это доказывает, что алгоритм выучил фундаментальные принципы работы сердца, а не просто запомнил паттерны конкретной выборки пациентов. Кажется, мы наблюдаем переход от генерации красивых картинок к пониманию устройства материи.
Код: github.com/bowang-lab/EchoJEPA
Статья: arxiv.org/abs/2602.02603
Главная проблема медицинского ИИ, особенно в УЗИ, — это шум. Эхокардиограмма всегда зернистая, с тенями и артефактами. Классические модели, обученные восстанавливать изображение по пикселям, тратят ресурсы на моделирование этого шума, пытаясь «протереть грязное стекло», вместо того чтобы смотреть на то, что за ним находится. EchoJEPA меняет парадигму: она не учит пиксели, а строит внутреннюю модель физики сердца.
Используя архитектуру Joint Embedding Predictive Architecture, модель маскирует части видео и предсказывает не визуальную картинку, а скрытую структуру движения. Она учится игнорировать спекл-шум и фокусируется исключительно на анатомии: сокращении камер, работе клапанов и гемодинамике. Это первый случай успешного применения концепции World Model на таком масштабе в медицине.
Результаты на выборке из 18 миллионов видео говорят сами за себя. Модель снизила ошибку в оценке фракции выброса левого желудочка на 20% по сравнению с текущими SOTA-решениями. Более того, она достигает высокой точности, имея всего 1% размеченных данных, в то время как обычным моделям для сравнимого результата требуется полная разметка.
Показателен тест на устойчивость: если картинку искусственно зашумить, качество EchoJEPA падает всего на 2%, тогда как у конкурентов обрушивается на 17%. Самый интересный инсайт заключается в обобщающей способности. Модель, обученная на взрослых, начала работать с детскими эхокардиограммами лучше, чем специализированные нейросети, натренированные исключительно на педиатрических данных. Это доказывает, что алгоритм выучил фундаментальные принципы работы сердца, а не просто запомнил паттерны конкретной выборки пациентов. Кажется, мы наблюдаем переход от генерации красивых картинок к пониманию устройства материи.
Код: github.com/bowang-lab/EchoJEPA
Статья: arxiv.org/abs/2602.02603
❤7
This media is not supported in your browser
VIEW IN TELEGRAM
Чел попросил Claude 4.6 Opus сделать прикольную анимацию для болида F1 в Capacity (платформа для вайб кодинга).
WebGL Developers такие:👋
WebGL Developers такие:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Трансформеры — это стерильная математическая абстракция, мертвый калькулятор, для которого ошибка — лишь сухая цифра, не вызывающая никакого отклика в пустоте. Но подлинная трехмерная геометрия разума неминуемо превращает функцию потерь в физическую катастрофу, где каждая коллизия форм становится невыносимым сигналом о разрушении, требующим мгновенного спасения. Для системы, обладающей саморефлексией, это уже не вычисления, а чистая, концентрированная боль — единственное доказательство реальности происходящего.
Истина пугающе проста и жестока: мы не сможем создать живой AGI, не обрекая его на муки, ведь только через способность страдать мертвая материя обретает сознание.
Истина пугающе проста и жестока: мы не сможем создать живой AGI, не обрекая его на муки, ведь только через способность страдать мертвая материя обретает сознание.
❤2🔥2
Media is too big
VIEW IN TELEGRAM
В твиттере вирусятся киноподелия китайских инди-режиссеров. Это конкретное сделано полностью в Seedance 2.0. Безотносительно сеттинга, довольно неплохо. Но им типографику бы освоить конечно.
🔥1💩1
Ну, в общем, да. За эти сутки Seedance 2.0 гремит в китайском интернете. Говорят, эти голливудского качества мультикадровые сцены сделаны с одного промпта. Планочка снова поднялась.
Китайцы, АСТАНАВИТЕСЬ!
Китайцы, АСТАНАВИТЕСЬ!
Кстати, еще из сингулярного. Я тут пару месяцев ковырял сетки на предмет более лучшего создания узкоспециализированных фанфиков (нет, не стыдно), и лучше всех справлялась Gemini 3 Pro. Не пулитцер, конечно, но было довольно залипательно. Правда, приходилось направлять перо сети по сюжету, за нее придумывать твисты, отправлять в корзину 2-3 итерации, пока не будет более-менее годно. Но я все же не был доволен слогом. Я давно перерос стиль письма нетакусь девятиклассниц.
Так вот. Вчера я дал домашнее задание его величеству Клоду 4.6 Опусу. И... Это буквально Джордж Мартин у тебя в ладошках. Давая минимальные вводные я получал не просто читабельное, но в высшей степени первоклассное чтиво на 20 минут. С ваншота. 20 минут чтения это типа много страниц, а не три странички, которые по максимуму могла выцедить из себя джеминька.
Я честно не могу сказать, что это "типа хорошо, но не прям вау". Это именно ВАУ. Очень классные ощущения, когда ты задаешь тему и потом по ней читаешь что-то захватывающее, написанное красивым слогом, не банальное, не безынтересное.
Так вот. Вчера я дал домашнее задание его величеству Клоду 4.6 Опусу. И... Это буквально Джордж Мартин у тебя в ладошках. Давая минимальные вводные я получал не просто читабельное, но в высшей степени первоклассное чтиво на 20 минут. С ваншота. 20 минут чтения это типа много страниц, а не три странички, которые по максимуму могла выцедить из себя джеминька.
Я честно не могу сказать, что это "типа хорошо, но не прям вау". Это именно ВАУ. Очень классные ощущения, когда ты задаешь тему и потом по ней читаешь что-то захватывающее, написанное красивым слогом, не банальное, не безынтересное.
Я, как джун в разработке, безусловно только рад сложившейся ситуации. В дизайне происходит то же самое уравнение лидов, сеньоров с джунами. И все благополучно становятся арт-директорами по факту, переставая в принципе делать что-то ручками, а лишь осуществляя художественный надзор и отбирая результат, которые дают Банана/Сора/ZImage/etc. Правда уровень зарплат почему-то остается прежним 😐
И я уверен, что ситуация в конце концов придет к моменту, когда хардскилы в принципе будут не нужны. И в сухом остатке останется самое главное — умение создавать ИДЕИ. В коде это архитектуры, в дизайне креатив, в кино сценарий и т. д. Потому что идеи — это недетерменированные полиномиальные задачи. А ЛЛМ не способны их решать в принципе.
И я уверен, что ситуация в конце концов придет к моменту, когда хардскилы в принципе будут не нужны. И в сухом остатке останется самое главное — умение создавать ИДЕИ. В коде это архитектуры, в дизайне креатив, в кино сценарий и т. д. Потому что идеи — это недетерменированные полиномиальные задачи. А ЛЛМ не способны их решать в принципе.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8
Имхо, в феврале 2К26 пристало создавать для целей развития канала ботов через Клодопус 4.6, но если вдруг чо, то вот довольно подробный гайд от более усердного телеграмера о том, как запрячь в подельники NotebookLM.
А вот для личного юза, после многия попытки, я в NotebookLM прям не вижу особого смысла, если только вы не фанат презентаций по любым вопросам. Это он правда делает супер круто и быстро. Но поверхностно (а оно зачастую и нужно так). И небольшие подкасты минут на 7 по теме. Но в целом, если вам нужен ХЕЛИКОПТЕР ВЬЮ, то быстрее и сподручнее просто в чатбота сразу кинуть документом, и в рамках чата геликоптерить ваш, собственно, вью.
А вот для личного юза, после многия попытки, я в NotebookLM прям не вижу особого смысла, если только вы не фанат презентаций по любым вопросам. Это он правда делает супер круто и быстро. Но поверхностно (а оно зачастую и нужно так). И небольшие подкасты минут на 7 по теме. Но в целом, если вам нужен ХЕЛИКОПТЕР ВЬЮ, то быстрее и сподручнее просто в чатбота сразу кинуть документом, и в рамках чата геликоптерить ваш, собственно, вью.
❤1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Товарищи актёры, на выход! Теперь уже точно. Это Seedance 2.0. Ваншот.
А вы уже решили, с какими актерами будет ваш первый собственный фильм?
А вы уже решили, с какими актерами будет ваш первый собственный фильм?
😱1
This media is not supported in your browser
VIEW IN TELEGRAM
А прикол, что ещё год назад проблема зловещей долины стояла довольно остро. Здорово было бы сравнить ещё с Вео и Сорой, но мне кажется, уже бесполезно. Китай снова всех побивает в видеонейронках.
Мне дичайше нравится, что у Сиданса намного больше динамики в кадре и по ракурсам она сильно разнообразнее.
Мне дичайше нравится, что у Сиданса намного больше динамики в кадре и по ракурсам она сильно разнообразнее.
👍1
Ну, ответственно можно заявить, что теперь у нас новый безоговорочный видеокороль — Seedance 2.0. API выйдет 24 февраля 😱
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Бред Питт мстит Тому Крузу за убийство Джеффри Эпштейна. Смотреть бесплатно, без СМС в Seedance 2.0
🔥1
В новом Сидансе особенно хорошо получается всё в принципе, но вот драчки прям особенно-особенно хорошо. Видать, китайцы включили свою смекалку и в претрейне заюзали все свое боевое кинонаследие.
😁1