ИИволюция 👾
11.4K subscribers
909 photos
364 videos
1 file
794 links
Авторский канал Сергея Пахандрина про AI, нейросети, AI-разработку, ChatGPT (и другие LLM). Строю AI-first компанию. Рассказываю о своём опыте и экспериментах с AI.

По всем вопросам: @pakhandrin
РКН: https://clck.ru/3QJLiL

В ВП и папках не участвую
Download Telegram
AGI отменяется

На прошлой неделе Дженсен Хуанг на подкасте у Фридмана заявил, что AGI уже здесь. А через день вышел бенчмарк, где все топовые модели мира набрали меньше процента. Какая ирония, тайминг просто идеален!

ARC-AGI — это серия бенчмарков, которые пытаются измерить способность разбираться в новом с нуля. Первые две версии были статичными головоломками: вот тебе цветная сетка, вот паттерн, найди правило, примени к новому входу. AI к текущему моменту щёлкает их на раз-два: Opus 4.6 набирает 93% на первой версии, Gemini Deep Think 85% на второй. Казалось, вот-вот догонят людей.

И тут 24 марта выходит третья версия. И отодвигает AGI куда подальше!

ARC-AGI-3 — это 135 игровых окружений с тысячами уровней. Каждое окружение — отдельная игра, где ты делаешь ход, видишь результат, делаешь следующий, со своей логикой и своими правилами. Никаких инструкций и подсказок не дается. Вообще никаких намёков что вообще считается победой. Агент видит текущее состояние, делает действие, видит что изменилось, и должен сам разобраться в этом и что тут вообще происходит.

Результаты:
— Gemini 3.1 Pro: 0.37%
— GPT-5.4: 0.26%
— Claude Opus 4.6: 0.25%
— Grok-4.20: 0.00%. Grok набрал ноль! Буквально не понял, что от него хотят.

Люди при этом прошли все 135 окружений. Правда, тестировали не случайных прохожих, 500 человек в контролируемых условиях, и за baseline взяли не среднего игрока, а почти лучшего из группы. Плюс оценивают не просто "прошёл / не прошёл", а сколько ходов потратил. Формула жёсткая: если модель тратит в 10 раз больше ходов — ей засчитывают не 10%, а 1%. Так что цифры намеренно драматичные. Но даже без этого усиления — разрыв чудовищный.

А самое обидное: пара простых алгоритмов без всяких LLM набрала 6-12%. Против 0.25% у Opus и 0.26% у GPT-5.4. Триллионы параметров проиграли алгоритмам, которые просто методично брутфорсят (перебирают) варианты.

25 игр можно пройти тут. Призовой фонд ARC Prize 2026 аж $2M. Все решения обязаны быть open-source. Дедлайн — 2 ноября.

В общем, AGI отменяется. Работаем дальше 😅
👍267🔥6
Забавно, что таких скриншотов в Твиттере все больше. Больше конечно на фейк походит. Хайп нарастает.

Но ясно одно — Капибара грядёт!
🍓8
This media is not supported in your browser
VIEW IN TELEGRAM
В Claude Code CLI добавили Computer Use

Теперь в СС пишем код и тут же запускаем тестирование приложений без всяких доп. инструментов. Claude получает контроль по управлению вашим компьютером, бегает, нажимает кнопочки и всё, что вам необходимо (или ему).

До этого такая возможность была в Claude Code десктоп приложении, а теперь прям в CLI доступно. Вот это подарок!

Все детали тут
🔥113👍1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI сделали плагин для вызова Codex в Claude Code

АААА! И Codex работает конечно же в рамках вашей ChatGPT подписки. Какой кайф!

Добавляем в CC маркетплейс плагинов от OpenAI:
/plugin marketplace add openai/codex-plugin-cc

Ставим плагин:
/plugin install codex@openai-codex

Перезапускаем плагины, чтобы не прерывать сессию в СС:
/reload-plugins

И далее запускаем сетап:
/codex:setup

В общем, как установите, можно в СС призывать Codex, делегировать ему задачи или например, делать ревью кода, который написан в СС.

Все детали по плагину на гитхабе.
👍21🔥85
This media is not supported in your browser
VIEW IN TELEGRAM
Даю наставление агенту:

Не делай ошибок. Никаких галлюцинаций. Проверяй дважды. Изучи лучшие мировые практики в сети. Ты senior developer и эксперт мирового уровня. А теперь сделай мне кнопку “Продолжить” не красную, а зелёную! 😡
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣856
В Claude Code завезли 1-й апрель

Сегодня в Claude Code появилась команда /buddy - тамагочи прям у вас в терминале, о которомы узнали еще вчера благодаря сливу кода Claude Code CLI. Набираешь её и появляется анимация “вылупления” питомца и справа от строки ввода промпта появляется ASCII-арт питомец.

Вид питомца определяется рандомно, выбрать не получится. Доступно, судя по всему 18 видов питомцев: duck, goose, blob, cat, dragon, octopus, owl, penguin, turtle, snail, ghost, axolotl, capybara, cactus, robot, rabbit, mushroom и chonk. У персонажей даже редкость есть, от обычного до легендарного (1%).

У каждого персонажа есть есть 5 характеристик и они прокачаны у каждого по своему:
- DEBUGGING — насколько помогает с отладкой
- PATIENCE — терпение
- CHAOS — хаотичность реакций
- WISDOM — мудрость
- SNARK — язвительность/сарказм


Характеристики влияют на характер. Значения от 0 до 100, генерируются при вылуплении и не меняются. Claude читает эти числа и генерирует «душу»: описание характера питомца, которое определяет все его реакции. В общем сидит питомец справа от поля ввода и “бубнит” что-то себе под нос.

Вам кто достался?
🔥156🤣5
Open-source альтернатива Screen Studio

Немного оффтоп, но такое пропускать нельзя. Есть очень классное приложение Screen Studio для создания красивых видео с записью экрана, классный редактор этих видео, но стоимость подписки $99/год. Я в 2024 покупал на год и не пожалел. У меня много кто спрашивал где я такие красивые видео записываю.

Так вот, на гитхабе выложили опенсорс версию под названием Open Screen, 11к звезд!

Забирайте себе тут.
20🔥13
This media is not supported in your browser
VIEW IN TELEGRAM
Claude Code наконец починил мерцание в терминале.

Борис Черный из Anthropic сегодня анонсировал NO_FLICKER, новый экспериментальный рендер. Проблема была старая: терминал не умеет перерисовать отдельную строку за пределами экрана, поэтому приходилось очищать всё целиком. Отсюда постоянное мерцание и прыжки.

Claude Code забрал отрисовку на себя. Теперь не терминал решает что показывать, а сам Claude Code контролирует каждый пиксель, перехватывает клавиатуру и мышь.

Включается одной переменной: CLAUDE_CODE_NO_FLICKER=1 claude

Мерцание ушло, прыжки скролла ушли, память и CPU не растут в длинных сессиях. И да, мышь теперь работает прямо в терминале. Можно менять позицию курсора в поле ввода, и разные UI элементы теперь тоже кликабельны.

А еще прокачали выделение текста, теперь когда вы выделяете код, номера строк не копируются, не копируются разные UI элементы, которые попадают в выделение.

Но есть и дисклеймер от Бориса: рендер ранний, есть нюансы, например, Cmd+F и нативный копипаст не работают (но они сделали трюк, что когда вы выделяете текст, он сразу копируется в буфер), скроллинг ещё подкручивают. Но большинство тех, кто уже потестировал не хотят обратно.

Кто живёт в Claude Code — попробуйте!
🔥274
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Вышел Cursor 3.0

Обновление получилось достаточно масштабным. Стартап понемногу уходит от идеи AI-IDE к формату полноценного оркестратора агентов. Итак, что нового:

1. Теперь можно запускать неограниченное количество агентов одновременно – локально, по SSH или в облаке. Агенты работают параллельно, и результаты работы видны прямо в интерфейсе.

2. Редактор остается доступным для ручного вмешательства, но теперь открывается отдельно сбоку, и не является центральной частью процесса (см. видео). Вместо этого главную роль теперь играет Agent Window – окно для агентов с историей разговоров слева. Здесь можно быстро просматривать изменения, одобрять diff'ы и добавлять контекст. По сути, это и есть главное обновление: переход от редактирования кода к ревью работы агентов.

3. Можно быстро перемещать агентов из локальной среды в облако и обратно. Например: вы что-то редактировали локально -> захотели уйти и закрыть ноутбук -> моментально перенесли агента в облако -> процесс продолжается даже после завершения локального сеанса.

Чтобы попроовать, обновляйте Cursor и переходите на новый интерфейс с помощью Cmd+Shift+P -> Agents Window

https://cursor.com/blog/cursor-3
Please open Telegram to view this post
VIEW IN TELEGRAM
15🔥4
Нашёл на Reddit крик души от разработчика с 11 годами опыта. Человек осознал, что дело плохо, он просто разучился делать то, что умел ещё полгода назад.

Перевод поста:

Я программирую уже 11 лет, и в прошлом месяце поймал себя на том, что вообще не могу отладить проблему без помощи AI. Это напугало меня сильнее всего, что я видел в этой индустрии.

Хочу честно рассказать о том, что со мной произошло, потому что, кажется, это случается чаще, чем принято признавать.

В прошлом месяце я столкнулся с багом в сервисе, который сам написал два года назад. Проблема с сетевыми таймаутами, проявляется нестабильно, только в продакшене. Раньше это был как раз тот случай, когда можно было сесть на час и методично разобраться.

Я открыл Claude, описал симптомы, получил гипотезу, проверил её, зашёл в тупик, вернул это обратно, получил следующую гипотезу. Через сорок минут баг так и не был найден, я просто следовал подсказкам.

В какой-то момент я закрыл чат и попробовал разобраться сам. И тут понял, что разучился просто «посидеть» с проблемой. Инстинктивно хотелось сразу описать её кому-то и ждать направления. Тот внутренний диалог, который раньше генерировал гипотезы, тот голос, который говорил: «проверь пул соединений», «вдруг это таймаут на стороне балансировщика», «а может, это шторм ретраев» — он стал заметно тише.

В итоге я нашёл баг. Но без AI это заняло у меня больше времени, чем заняло бы три года назад, когда AI у меня ещё не было.

Я не говорю, что инструменты плохие. Я пользуюсь ими каждый день, и в большинстве задач они действительно ускоряют. Но происходит что-то конкретное с той частью мышления, которая отвечает за генерацию гипотез в условиях неопределённости. Если её не тренировать, она ослабевает.

Аналогия, к которой я всё время возвращаюсь — это GPS. С ним можно доехать куда угодно. Но если пять лет ездить только по навигатору, а потом потерять сигнал, ты теряешь не просто подсказки. У тебя нет той внутренней карты, которая бы сформировалась, если бы ты ориентировался сам. Навык и ментальная модель деградируют вместе.

Я уже 11 лет в профессии и начал замечать это за собой. Интересно, как это выглядит у тех, кто начал пользоваться AI-инструментами с первого года.

Кто-нибудь ещё это замечал? Не рост продуктивности, это понятно всем. А вот эту тихую, менее очевидную сторону.


В комментариях конечно же все разделились на 2 лагеря:

– Один поймал себя на том, что тянется к Claude за валидацией дизайн-решений, которые раньше спокойно обдумывал на бумаге. Теперь устраивает себе "unplugged" сессии, без AI, только он и документация.
– Другой заметил то же самое, но не с кодом, а в переписке с людьми. Прогоняет через AI сообщения и начал осознавать: "это я хочу сказать или AI за меня решает?”
– Кто-то пишет, что заставляет себя 5 минут читать stack trace прежде чем открыть чат с клодом.

Накидали и контр аргументов: “целое поколение сеньоров копипастило со Stack Overflow и ничего, не деградировали. Так что Claude просто следующая итерация?”.

При чем есть и те, кто считает таких нытиками: “Иди к AI не с проблемой, а подумай сначала сам над гипотезами и скинь их клоду. Джуны скидывают клоду проблему и ждут от AI решения, а сеньор приходит с гипотезами к AI, чтобы тот каждую проработал и быстро нашел решение.”

А вы просыпались в холодном поту с такими страхами?
🔥21😭106👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Один фанат Claude Code сделал себе USB-Clawd, который прыгает, когда Claude Code закончил свою работу или требуется внимание.

Где купить? Такое нам надо!
🔥4412🤣7👍3
Вайб-разработку не остановить, ящик пандоры открыт

Вчера один твиттерский реализовал хлыст, который при каждом ударе писал в Claude Code “FASTER”.

А сегодня девушка “добрая феечка” сделала волшебную палочка, которая при каждом взмахе хвалит Claude Code и сообщает, что он молодец и у него отлично получается!

Что дальше? 😄
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣26🔥103
Anthropic вчера тихо показали Claude Mythos Preview и тут же сказали, что никому его не дадут.

Anthropic выложили PDF на 240 страниц с бенчмарками и отчётом о безопасности. Если коротко: на SWE-bench Verified — 93.9% (у Opus 4.6 — 80.8%). На SWE-bench Pro — 77.8% против 53.4% у Opus 4.6 и 57.7% у GPT-5.4. На Humanity's Last Exam — 64.7% с инструментами. На Terminal-Bench 2.0 — 82%.

Но самое интересное не в цифрах.

Anthropic решили, что модель слишком хороша в кибербезопасности, чтобы выпускать её в открытый доступ. Mythos автономно находит zero-day уязвимости в операционных системах и браузерах и сам пишет эксплойты. Opus 4.6 из сотен попыток смог написать рабочий эксплойт для Firefox дважды. Mythos — 181 раз.

Николас Карлини из Anthropic (исследователь безопасности AI): “Я нашёл больше багов за последние пару недель, чем за всю жизнь до этого”. Команда откопала 27-летнюю уязвимость в OpenBSD (баг в TCP SACK валидации), лежавший с 1999 года. Нашли дыры в каждой крупной ОС и каждом крупном браузере. Некоторым из этих уязвимостей по 10-20 лет.

Вместо релиза Anthropic запустили “Project Glasswing” — оборонительный проект: модель дают только тем, кто защищает критическую инфраструктуру. В проект вошли AWS, Apple, Microsoft, Google, Nvidia, CrowdStrike, Cisco, JPMorgan, Linux Foundation и ещё 40+ организаций.

Грег Кроа-Хартман, второй человек после Линуса Торвальдса в разработке Linux, говорит, что ещё пару месяцев назад от AI приходили мусорные отчёты об уязвимостях, а потом в какой-то момент модели подросли, и пошли действительно настоящие баги. И много!

Когда Mythos появится для обычных пользователей неизвестно. Anthropic говорят, что сначала нужны новые защитные механизмы. В общем, по ощущениям не скоро.
17🔥7😭2
This media is not supported in your browser
VIEW IN TELEGRAM
Отношение AI компаний к разработчикам

И разработчики понимают, что они уже на крючке и AI компании понимают, что разработчики у них на крючке.

Все всё понимают, а дальше дело техники 😬
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣409🔥8😭8
Началось, теперь OpenAI не хочет отдавать всем свою новую модель.

А когда-то мы слышали фразы: «доступный AGI в каждый дом».

На днях Anthropic тихо анонсировал новую модель Mythos Preview, но с оговоркой, что получат её избранные, так как модель способна найти любые «дыры» в безопасности любой системы.

А теперь OpenAI сообщают, что заканчивают тренировку новой модели, но она так хороша в кибербезопасности, что такая «корова нужна самому» и горстке компаний. Или нас просто прогревают, что стоимость подписки на эти модели будут уже не $200, а $2000.

А нам с вами опус!
13😭8🍓5👍2🔥2👾2👨‍💻1
OpenAI выпустили подписку на Pro тариф за $100

Всё больше людей используют Codex, а подписки за $20 не хватало, а за $200 не всем нужно.

Codex по лимитам 5х от Plus подписки, но до конца мая в честь выхода новой подписки – лимиты 10х. Ну и за $100 получаете все плюшки Pro тарифа, включая Pulse.

Переключились уже?
🔥11🤣43
Forwarded from Denis Sexy IT 🤖
Лол, тут твиттерский сделал Стукач-Claw:

– Агент мониторит соцсети и ищет посты, где люди пишут и "в шутку" говорят, что не платят налоги с крипты, ставок, перепродаж, налички и тп

– Агент делает скриншоты, записывает ник, детали профиля, ссылки и подставляет это все в Form 211 – официальная форма Налогового управления США для заявки на награду о налоговом нарушении 😂

– Чел нарепортил уже 4250 случаев

– IRS дает награды в 15-30% от взысканных сумм, НО занять это может годы, так что быстрых денег агент твиттерского не увидит
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣24👨‍💻4😭3🔥1🤔1
ИИ не только в темах ИТ-конференций

Он уже в продуктах, процессах и вакансиях. Только на hh.ru больше тысячи открытых позиций для тех, кто создаёт и обучает нейросети.

На курсе Нетологии «Специалист по искусственному интеллекту» можно получить нужные навыки:
🔸 научиться использовать промпт-инжиниринг,
🔸 работать с большими языковыми моделями,
🔸 создавать RAG-системы* и ИИ-агентов,
🔸 управлять рисками при внедрении ИИ-сервисов.

На выбор две программы обучения: с нуля — 11 месяцев, и для тех, кто уже в ИТ, — 5 месяцев. В обоих случаях получаете сотни часов практики, портфолио из реальных проектов и год карьерной поддержки.

👉 Сейчас на курс действует скидка 50%, а с промокодом NETONEW10 цена станет ещё на 10% ниже. Плюсом идут 4 курса по нейросетям и подарки от партнёров Нетологии в честь её 15-летия.
Узнать подробнее и записаться: ссылка

* RAG — архитектурный подход к генеративным моделям, сочетающий навыки поиска информации с генеративными возможностями больших языковых моделей

Реклама. ООО “Нетология” ОГРН 1207700135884 Erid: 2VSb5y4GPBY
🔥2👍1
Модель Opus 4.7 заметили на Vertex AI

По слухам, релиз Opus 4.7 может состояться уже сегодня.

Ждем, главное чтобы доступна была всем, а то в комменты уже прислали какой-то слив скриншота, что нужно будет пройти верификацию личности по паспорту для доступа Opus 4.7 (видимо борьба с Китаем).
🔥164