Совершенно случайно вывел новый термин.
КуКлод-разработчик - человек, который смотрит, как Клод пишет код в его проекте.
КуКлод-разработчик - человек, который смотрит, как Клод пишет код в его проекте.
2😁12 9
Вышло любопытное исследование SkillsBench. Они протестировали кучу LLM-агентов (от Claude 4.5 до Gemini 3 и GPT-5.2) на то, как они решают задачи с использованием Skills и без них.
Главный инсайт: грамотно написанные скилы могут помочь даже младшим моделям обойти старших. Младшие и дешевые модели (например, быстрая Gemini Flash или Haiku) с правильной «обвязкой» в виде Skills обходят тяжеловесов (Pro/Opus), которые пытаются решить задачу без скилов. Прирост успешных решений с готовыми скиллами в среднем составил +16,2%.
Но есть нюансы.
1. Самогенерация не работает. Как только модели предлагают сгенерировать Skills для себя, их результативность падает.
2. Больше — не значит лучше. Оптимальный объем для агента — 2–3 скилла (дает прирост +18,6%). Если напихать 4 и более, эффективность резко падает. Если закинуть агенту полную и подробную документацию, он в ней буквально тонет, и результат уходит в минус (–2,9%).
Ссылочки:
https://www.skillsbench.ai/
https://arxiv.org/pdf/2602.12670
Главный инсайт: грамотно написанные скилы могут помочь даже младшим моделям обойти старших. Младшие и дешевые модели (например, быстрая Gemini Flash или Haiku) с правильной «обвязкой» в виде Skills обходят тяжеловесов (Pro/Opus), которые пытаются решить задачу без скилов. Прирост успешных решений с готовыми скиллами в среднем составил +16,2%.
Но есть нюансы.
1. Самогенерация не работает. Как только модели предлагают сгенерировать Skills для себя, их результативность падает.
2. Больше — не значит лучше. Оптимальный объем для агента — 2–3 скилла (дает прирост +18,6%). Если напихать 4 и более, эффективность резко падает. Если закинуть агенту полную и подробную документацию, он в ней буквально тонет, и результат уходит в минус (–2,9%).
Ссылочки:
https://www.skillsbench.ai/
https://arxiv.org/pdf/2602.12670
3👍7
⚡️⚡️⚡️РАЗРАБОТЧИКИ ВСЁ ⚡️⚡️⚡️
Ладно, шучу. Больше никакого кликбейта (сегодня ). Сейчас в очередной раз увидел новость от Антропика, что разработчики доживают свой последний год. И снова эти "эксперты" путают карту с местностью. Но у нас же с вами есть голова на плечах? Так что давайте сами и подумаем.
Типичный менеджер/аналитик - человек очень далёкий от кода и архитектуры. Да, двигает задачки, общается с бизнесом, делает красивые таблички, НО В КОДЕ НИЧЕРТА НЕ ПОНИМАЕТ. И не поймёт, даже если попросит ЧатГПТ объяснить. Почему? Да потому что даже если человек знает синтаксис - у него нет самого главного. Нужное мышление нарабатывается годами. Разработка это вообще не про "писать код", вот так открытие!
По какой-то необъяснимой для меня причине каждый раз упускается из вида самое главное. Рабочее приложение != "кнопочки жмутся, всё работает". Это верхушка айсберга, которую видно. Всё на самом деле сильно-сильно глубже. Все эти красивые сервисы, где ты натыкал в графе приложение и оно задеплоилось не применимы ни для одной серьезной компании. Это хорошо работает для стартапа или MVP, у которого трафик 1,5 колеки. И естественно, у человека "не из разработки" нет даже примерного понимания того, как это устроено изнутри. Чёрный ящик. Он не объяснит, почему выбрал тот или иной подход. Не заметит, что он был ошибочным. И это на проектах, в которых дай бог 2-3 сервиса, БД и nginx. Может ли такой человек довести проект до зрелого, стабильного состояния, который сможет развиваться годами? Сомневаюсь. Даже если допустить, что какой-нибудь Claude 5.7 будет в 10 раз умнее нынешнего - проблема не в этом.
Хороший инженер с хорошим инструментом может написать в 10 раз больше хорошего кода. Плохой инженер - напишет в 10 раз больше плохого кода. Пока что я не видел ни одного кейса, который мог бы опровергнуть это утверждение. Ты должен понимать, как работает твоё приложение и почему оно так работает. Это еще один скилл, который каждый разработчик приобретает годами. Это та самая "карта проекта" в голове, которая помогает тебе быстро и эффективно решать задачи. И это понимание спасает от многих проблем и ошибок, которые с ростом проекта становится нереально дорого исправлять. Даже с нейронками.
Еще свежи в памяти падения Cloudflare, AWS и десятка других сервисов. Почему? Потому что инженеры дали слишком много прав агенту, либо невнимательно проверили сгенерированный конфиг или код. НАСТОЯЩИЕ ИНЖЕНЕРЫ, КОТОРЫЕ ПОНИМАЛИ, ЧТО ДЕЛАЮТ. Лицо менеджера-вайбкодера, когда у него упал целый датацентр представили?) Сможет ли медсестра поставить диагноз с chatgpt точнее, чем опытный врач, который использует тот же инструмент? Нет. Получается, что сам "инструмент" - не решающий фактор. Почему все сравнивают "вот я с гпт такооое могу, увольняйте всех бэкендеров"? И что, я с тем же ГПТ могу больше и быстрее.
На самом деле именно разработчики выигрывают больше всех с развитием ИИ. Сделать нормальное приложение сложнее, чем оформить табличку в аналитике. И уж явно сложнее 99% задач, которые выполняют менеджеры. Думаю Клод с этим справится на ура. Всё потихоньку движется к концепции software-инженера, который сам отвечает за аналитику, сроки выполнения и разработку. Ну и конечно же акцент больше сместится на проектирование архитектуры. Мы просто будем тратить меньше времени на код. И этот подход будет в десятки раз эффективнее любого "менеджера-аналитика-вайбкодера".
Что думаете?
Ладно, шучу. Больше никакого кликбейта (
Типичный менеджер/аналитик - человек очень далёкий от кода и архитектуры. Да, двигает задачки, общается с бизнесом, делает красивые таблички, НО В КОДЕ НИЧЕРТА НЕ ПОНИМАЕТ. И не поймёт, даже если попросит ЧатГПТ объяснить. Почему? Да потому что даже если человек знает синтаксис - у него нет самого главного. Нужное мышление нарабатывается годами. Разработка это вообще не про "писать код", вот так открытие!
По какой-то необъяснимой для меня причине каждый раз упускается из вида самое главное. Рабочее приложение != "кнопочки жмутся, всё работает". Это верхушка айсберга, которую видно. Всё на самом деле сильно-сильно глубже. Все эти красивые сервисы, где ты натыкал в графе приложение и оно задеплоилось не применимы ни для одной серьезной компании. Это хорошо работает для стартапа или MVP, у которого трафик 1,5 колеки. И естественно, у человека "не из разработки" нет даже примерного понимания того, как это устроено изнутри. Чёрный ящик. Он не объяснит, почему выбрал тот или иной подход. Не заметит, что он был ошибочным. И это на проектах, в которых дай бог 2-3 сервиса, БД и nginx. Может ли такой человек довести проект до зрелого, стабильного состояния, который сможет развиваться годами? Сомневаюсь. Даже если допустить, что какой-нибудь Claude 5.7 будет в 10 раз умнее нынешнего - проблема не в этом.
Хороший инженер с хорошим инструментом может написать в 10 раз больше хорошего кода. Плохой инженер - напишет в 10 раз больше плохого кода. Пока что я не видел ни одного кейса, который мог бы опровергнуть это утверждение. Ты должен понимать, как работает твоё приложение и почему оно так работает. Это еще один скилл, который каждый разработчик приобретает годами. Это та самая "карта проекта" в голове, которая помогает тебе быстро и эффективно решать задачи. И это понимание спасает от многих проблем и ошибок, которые с ростом проекта становится нереально дорого исправлять. Даже с нейронками.
Еще свежи в памяти падения Cloudflare, AWS и десятка других сервисов. Почему? Потому что инженеры дали слишком много прав агенту, либо невнимательно проверили сгенерированный конфиг или код. НАСТОЯЩИЕ ИНЖЕНЕРЫ, КОТОРЫЕ ПОНИМАЛИ, ЧТО ДЕЛАЮТ. Лицо менеджера-вайбкодера, когда у него упал целый датацентр представили?) Сможет ли медсестра поставить диагноз с chatgpt точнее, чем опытный врач, который использует тот же инструмент? Нет. Получается, что сам "инструмент" - не решающий фактор. Почему все сравнивают "вот я с гпт такооое могу, увольняйте всех бэкендеров"? И что, я с тем же ГПТ могу больше и быстрее.
На самом деле именно разработчики выигрывают больше всех с развитием ИИ. Сделать нормальное приложение сложнее, чем оформить табличку в аналитике. И уж явно сложнее 99% задач, которые выполняют менеджеры. Думаю Клод с этим справится на ура. Всё потихоньку движется к концепции software-инженера, который сам отвечает за аналитику, сроки выполнения и разработку. Ну и конечно же акцент больше сместится на проектирование архитектуры. Мы просто будем тратить меньше времени на код. И этот подход будет в десятки раз эффективнее любого "менеджера-аналитика-вайбкодера".
Что думаете?
2👍9❤4💯3
Какая профессия вымрет первой?
Anonymous Poll
8%
Бэкендеры
44%
Фронтендеры
33%
Аналитики
33%
Менеджеры
Сегодня участвовал в олимпиаде по программированию, но не простой. Это была битва на llm-ках. Что я могу сказать? Давно я с таким интересом не решал задачки. А ведь никто такое не проводит, хотя это самый логичный шаг - хватит запрещать использовать то, что все и так будут использовать Всем станет от этого только легче и интереснее.
Главное - подобрать задачки, которые не по зубам современным моделям. Из 6 задач было две таких - больше часа пришлось бороться за каждый процент производительности, чтобы набрать максимум баллов. Можешь жонглировать языками и нейронками, главное - результат.
Естественно кажется, что Opus 4.6 или Gemini 3.1 Pro быстро всех нагнут. По факту они практически бесполезны. High effort thinking играет с ними злую шутку. Оба уходят думать на 20 минут, а потом отваливаются по таймауту/лимиту токенов. Самый главный инсайт - в таких вещах ооочень сильно решает итеративный подход. Чем быстрее ты получишь первый результат, тем быстрее сможешь итеративно довести его до идеала. Пока Опус думал - Gemini Flash уже успела погуглить все самые эффективные стратегии, прогнать их на тестах и выбрать лучшее. Кое кто спустя 2 часа смог выбить 100 баллов в самых сложных задачках (всего два-три человека из пятидесяти). Видимо они догадались использовать более легковесные модели чуть раньше меня.
Что я могу сказать? Опыт крайне интересный. Классическая зубрежка алгоритмов отходит на второй план всё сильнее и сильнее. А новые подходы позволяют добиться такой эффективности, на достижение которой раньше бы просто не хватило времени.
Главное - подобрать задачки, которые не по зубам современным моделям. Из 6 задач было две таких - больше часа пришлось бороться за каждый процент производительности, чтобы набрать максимум баллов. Можешь жонглировать языками и нейронками, главное - результат.
Естественно кажется, что Opus 4.6 или Gemini 3.1 Pro быстро всех нагнут. По факту они практически бесполезны. High effort thinking играет с ними злую шутку. Оба уходят думать на 20 минут, а потом отваливаются по таймауту/лимиту токенов. Самый главный инсайт - в таких вещах ооочень сильно решает итеративный подход. Чем быстрее ты получишь первый результат, тем быстрее сможешь итеративно довести его до идеала. Пока Опус думал - Gemini Flash уже успела погуглить все самые эффективные стратегии, прогнать их на тестах и выбрать лучшее. Кое кто спустя 2 часа смог выбить 100 баллов в самых сложных задачках (всего два-три человека из пятидесяти). Видимо они догадались использовать более легковесные модели чуть раньше меня.
Что я могу сказать? Опыт крайне интересный. Классическая зубрежка алгоритмов отходит на второй план всё сильнее и сильнее. А новые подходы позволяют добиться такой эффективности, на достижение которой раньше бы просто не хватило времени.
2👍10🔥4💯2👎1
Есть тут у нас пользователи Клод Кода? Расскажите, какие используете скилы.
Они недавно даже плагин для их создания/тестирования выкатили. Но... Я так и не придумал ни одного полезного юзкейса.
Они недавно даже плагин для их создания/тестирования выкатили. Но... Я так и не придумал ни одного полезного юзкейса.
2👍4👎1
ИИ хотя бы предупреждает, что может ошибаться. Интернет - нет. Прежде чем бояться галлюцинаций, подумайте, сколько горе-эксперты написали чепухи, которой люди верят до сих пор.
Раньше можно было всему слепо верить, потому что писали люди? Нет, нельзя. Получается, что ничего не изменилось?
Раньше можно было всему слепо верить, потому что писали люди? Нет, нельзя. Получается, что ничего не изменилось?
1👍8❤4
Зелёные тесты ≠ хорошие тесты
Впервые в истории писать тесты стало легко и совсем не страшно. Вокруг теперь у всех покрытие 80%, 90%, а то и вовсе 100%. И вот тут начинается проблема: зелёные тесты ≠ хорошие тесты.
Проблема в метрике, которой мы все привыкли доверять. Code coverage считает строку протестированной, если она выполнилась во время теста. Всё. Не "поймает ли тест баг в этой строке", не "проверяет ли он правильность результата" - просто выполнилась. Можно написать тест без единого assert, и покрытие вырастет. 500 тестов, 90% coverage, а пользы ноль.
Мутационное тестирование - это совершенно другой путь. В простейшей реализации этот инструмент тупо берёт твой код и намеренно ломает его: меняет
Почему это важно именно сейчас?
Потому что нейронка любит зелёненькое. Чем больше зелёных тестов — тем субъективно лучше. 100 тестов внушают больше доверия, чем 10, правда? А внутри там
Мутационное тестирование - единственный автоматический способ это поймать. Метрика называется mutation score: процент убитых мутантов. 60% - плохо. 90%+ - тесты реально что-то защищают.
Кое-какие инструменты для такого тестирования уже есть:
Но есть нюансы. А где их нет, правда?
Первый: мутации рандомные. Замена
Второй - ещё хуже. Чтобы убить мутанта, тест должен зафиксировать конкретное поведение. Каждую ветку, каждое значение, каждый edge case. Доведи mutation score до 100% - и ты прибил гвоздями каждую строчку кода. Буквально. Теперь попробуй отрефакторить. Переименовал внутренний метод - 40 тестов красные. Поменял порядок полей в ответе - ещё 20. Тесты превращаются из страховки в кандалы: код работает правильно, но тесты падают, потому что они проверяют не поведение, а реализацию.
Это реально ловушка. Слишком гонишься за mutation score - получаешь хрупкие тесты. Не гонишься - получаешь видимость тестирования.
Перемены - впереди!
И вот тут становится по-настоящему интересно. Представь, что мутации генерирует не тупой набор правил «замени плюс на минус», а нейронка, которая понимает контекст. Которая знает, какие баги реально встречаются в таком коде. Которая мутирует не синтаксис, а логику: меняет порядок проверок, путает граничные условия, забывает обработать edge case - ровно так, как ошибается человек. Или другая нейронка.
Сейчас есть явный сдвиг в сторону таких инструментов, но всё еще ничего достойного не вышло. Но уже скоро точно появится. И это будет совсем другой уровень. Не "выжили ли тесты после рандомной поломки", а "выжили ли тесты после правдоподобной ошибки".
Парадокс в том, что мутационное тестирование было нишевым инструментом, пока тесты писали люди. Когда тесты пишет нейронка - идея становится обязательной. Правда инструменты пока не успели дозреть.
Ждём, когда мутанты станут умнее.
Впервые в истории писать тесты стало легко и совсем не страшно. Вокруг теперь у всех покрытие 80%, 90%, а то и вовсе 100%. И вот тут начинается проблема: зелёные тесты ≠ хорошие тесты.
Проблема в метрике, которой мы все привыкли доверять. Code coverage считает строку протестированной, если она выполнилась во время теста. Всё. Не "поймает ли тест баг в этой строке", не "проверяет ли он правильность результата" - просто выполнилась. Можно написать тест без единого assert, и покрытие вырастет. 500 тестов, 90% coverage, а пользы ноль.
Мутационное тестирование - это совершенно другой путь. В простейшей реализации этот инструмент тупо берёт твой код и намеренно ломает его: меняет
> на >=, + на -, True на False. Каждая такая поломка - мутант. Если после мутации все тесты по-прежнему зелёные - значит они ничего не проверяют. Покрытие есть, защиты нет.Почему это важно именно сейчас?
Потому что нейронка любит зелёненькое. Чем больше зелёных тестов — тем субъективно лучше. 100 тестов внушают больше доверия, чем 10, правда? А внутри там
assert response.status_code == 200. assert result is not None. assert len(items) > 0. Тест проверяет, что функция вернула хоть что-то - и радостно зеленеет. Поменяй логику условия, перепутай знак, сломай граничный случай - тест всё равно зелёный. Потому что он проверяет не правильность, а наличие.Мутационное тестирование - единственный автоматический способ это поймать. Метрика называется mutation score: процент убитых мутантов. 60% - плохо. 90%+ - тесты реально что-то защищают.
Кое-какие инструменты для такого тестирования уже есть:
mutmut и cosmic-ray для Python, Stryker для JS/TS, PIT для Java. Медленно? Да, значительно медленнее обычного тест-рана. Но запускать его не нужно на каждый коммит - достаточно на PR в критические модули.Но есть нюансы. А где их нет, правда?
Первый: мутации рандомные. Замена
> на >= - это не баг, который кто-то реально допустит. Это синтетическая поломка. Половина мутантов генерирует код, который в реальности никогда не появится. Ты тратишь время на убийство мутантов, которые не имеют отношения к настоящим ошибкам. Это как тестировать замок, ковыряя его вилкой - формально проверка, по факту мимо.Второй - ещё хуже. Чтобы убить мутанта, тест должен зафиксировать конкретное поведение. Каждую ветку, каждое значение, каждый edge case. Доведи mutation score до 100% - и ты прибил гвоздями каждую строчку кода. Буквально. Теперь попробуй отрефакторить. Переименовал внутренний метод - 40 тестов красные. Поменял порядок полей в ответе - ещё 20. Тесты превращаются из страховки в кандалы: код работает правильно, но тесты падают, потому что они проверяют не поведение, а реализацию.
Это реально ловушка. Слишком гонишься за mutation score - получаешь хрупкие тесты. Не гонишься - получаешь видимость тестирования.
Перемены - впереди!
И вот тут становится по-настоящему интересно. Представь, что мутации генерирует не тупой набор правил «замени плюс на минус», а нейронка, которая понимает контекст. Которая знает, какие баги реально встречаются в таком коде. Которая мутирует не синтаксис, а логику: меняет порядок проверок, путает граничные условия, забывает обработать edge case - ровно так, как ошибается человек. Или другая нейронка.
Сейчас есть явный сдвиг в сторону таких инструментов, но всё еще ничего достойного не вышло. Но уже скоро точно появится. И это будет совсем другой уровень. Не "выжили ли тесты после рандомной поломки", а "выжили ли тесты после правдоподобной ошибки".
Парадокс в том, что мутационное тестирование было нишевым инструментом, пока тесты писали люди. Когда тесты пишет нейронка - идея становится обязательной. Правда инструменты пока не успели дозреть.
Ждём, когда мутанты станут умнее.
2❤11👍7🔥3
Нежданно-негаданно. Вот так вот вдруг Google выкатил TurboQuant — и это, возможно, главная новость с начала года в ML.
Освежим в памяти: когда LLM ведёт с тобой длинный диалог, она хранит в памяти GPU «заметки» обо всём, что уже обсудили. Это называется KV-кэш, и именно он сжирает всю память при длинных промптах.
TurboQuant сжимает этот кэш в 6 раз. Ускоряет вычисления до 8x. Без потери качества. Без дообучения модели. Просто подключил - и работает.
Открытого кода от Google пока нет, но статья уже принята на ICLR 2026.
Сейчас на потребительской GPU с 24 ГБ VRAM можно крутить 7B-модель, но с контекстом 4-8k. Если KV-кэш ужимается в 6 раз, тот же ноутбук тянет 32-64k контекста. Для локальных ассистентов и всего, где важна приватность - это качественный скачок, который открывает много новых дорог новым инструментам. Миллион токенов контекста перестанут быть роскошью. Возможно мы увидим модели с контекстом на порядки выше.
Что ж, посмотрим что нас ждёт дальше.
Освежим в памяти: когда LLM ведёт с тобой длинный диалог, она хранит в памяти GPU «заметки» обо всём, что уже обсудили. Это называется KV-кэш, и именно он сжирает всю память при длинных промптах.
TurboQuant сжимает этот кэш в 6 раз. Ускоряет вычисления до 8x. Без потери качества. Без дообучения модели. Просто подключил - и работает.
Открытого кода от Google пока нет, но статья уже принята на ICLR 2026.
Сейчас на потребительской GPU с 24 ГБ VRAM можно крутить 7B-модель, но с контекстом 4-8k. Если KV-кэш ужимается в 6 раз, тот же ноутбук тянет 32-64k контекста. Для локальных ассистентов и всего, где важна приватность - это качественный скачок, который открывает много новых дорог новым инструментам. Миллион токенов контекста перестанут быть роскошью. Возможно мы увидим модели с контекстом на порядки выше.
Что ж, посмотрим что нас ждёт дальше.
4❤9👍5🔥5
Видимо в этом году нас удивит не только Google. Из-за ошибки в настройке CMS Anthropic слила 3000 внутренних документов в открытый доступ. И там было кое-что интересное про их новую модель.
Она засветилась там под именем «Claude Mythos». Так же появился новый таер выше Opus - «Capybara». Anthropic по итогу подтвердил существование модели, назвав её «step change» в возможностях и «самой мощной из когда-либо созданных ими».
По данным утёкшего черновика, по сравнению с Claude Opus 4.6 новая модель показывает значительно более высокие результаты в программировании, академическом рассуждении и кибербезопасности.
При этом в черновике прямо говорится, что модель «очень дорога в обслуживании» и компания работает над повышением эффективности перед любым массовым релизом.
В утёкшем же черновике Anthropic заявляет, что модель «создаёт беспрецедентные риски кибербезопасности» и способна находить и эксплуатировать уязвимости значительно быстрее защитников.
Как думаете, уже пора начинать волноваться? 🙊
Она засветилась там под именем «Claude Mythos». Так же появился новый таер выше Opus - «Capybara». Anthropic по итогу подтвердил существование модели, назвав её «step change» в возможностях и «самой мощной из когда-либо созданных ими».
По данным утёкшего черновика, по сравнению с Claude Opus 4.6 новая модель показывает значительно более высокие результаты в программировании, академическом рассуждении и кибербезопасности.
При этом в черновике прямо говорится, что модель «очень дорога в обслуживании» и компания работает над повышением эффективности перед любым массовым релизом.
В утёкшем же черновике Anthropic заявляет, что модель «создаёт беспрецедентные риски кибербезопасности» и способна находить и эксплуатировать уязвимости значительно быстрее защитников.
Как думаете, уже пора начинать волноваться? 🙊
2👍8❤3🫡2
Сегодня ночью кто-то угнал npm-аккаунт главного мейнтейнера axios и залил две отравленные версии — 1.14.1 и 0.30.4.
Схема элегантная: в зависимости тихо подсунули левый пакет plain-crypto-js. При npm install он ставит RAT - троян удалённого доступа. Под мак, винду и линукс. После установки подчищает за собой следы - в node_modules всё выглядит нормально.
Троян стучится на C2-сервер каждую минуту. Ждёт команд. Может запускать шелл, лазить по файлам, тащить данные. Полный контроль над машиной.
Окно было ~3 часа. Но у axios 100 миллионов загрузок в неделю. Так что потенциально зараженных машин очень много. Если не повезло - лучше ротируйте всё: SSH-ключи, токены, API-ключи. Откатитесь на 1.14.0 или 0.30.3. Пересоберите окружение с нуля.
А главный урок всё тот же: npm-токен мейнтейнера утёк — и весь CI/CD, код-ревью, подписанные коммиты оказались бесполезны. Атакующий просто зашёл через npm CLI мимо всего.
Такие дела.
Please open Telegram to view this post
VIEW IN TELEGRAM
1😱7🔥2😢2
Нашёл просто мега полезный сервис. Называется GitHub. Можно хранить код ПРЯМО В ИНТЕРНЕТЕ. Не на флешке, не в архиве на рабочем столе, не в письме самому себе - а на сервере. И он ещё и версии сохраняет. Я удалил файл - а он помнит. Я сломал всё - а там кнопка "откатить". Пять лет жизни среди папок "project_final_v3_ПОСЛЕДНИЙ_точно" - и всё это время решение было на расстоянии одного сайта.
Будущее наступило! Ура! 🥹
Будущее наступило! Ура! 🥹
1😁17😱3🙏2👎1
Короче, я долго думал, писать об этом или нет. Решил, что да. Вы заслуживаете узнать об этом из первых уст.
Последние три месяца я проходил собеседования в Anthropic. Пять раундов. System design на салфетке в зуме в 3 часа ночи. Финальный созвон лично с Дарио Амодеи, где он спросил, как я отношусь к AGI. Оффер пришёл вчера вечером. Должность — Head of Applied Research. Пакет такой, что у меня от воодушевления до сих пор трясутся руки.
Только есть одно условие: полный информационный карантин. Никаких блогов про технологии и AI. Вообще. «Ты можешь писать про котиков и рецепты, но не про AI» — дословная цитата HR.
Я посмотрел на оффер. Посмотрел на подписчиков. На каждый пост в канале. На реакции. И снова на оффер.
И написал: «Thank you for the opportunity, but I have to decline.»
Я остаюсь с вами. Просто подпишитесь и поставьте лайк, наконец-то.
Последние три месяца я проходил собеседования в Anthropic. Пять раундов. System design на салфетке в зуме в 3 часа ночи. Финальный созвон лично с Дарио Амодеи, где он спросил, как я отношусь к AGI. Оффер пришёл вчера вечером. Должность — Head of Applied Research. Пакет такой, что у меня от воодушевления до сих пор трясутся руки.
Только есть одно условие: полный информационный карантин. Никаких блогов про технологии и AI. Вообще. «Ты можешь писать про котиков и рецепты, но не про AI» — дословная цитата HR.
Я посмотрел на оффер. Посмотрел на подписчиков. На каждый пост в канале. На реакции. И снова на оффер.
И написал: «Thank you for the opportunity, but I have to decline.»
Я остаюсь с вами. Просто подпишитесь и поставьте лайк, наконец-то.
3😁30🤝10 5🌚3🫡3🤯1
Не оставляйте ваш Claude без присмотра 😂
Вот и моя базка дропнулась. Повезло, что только локальная. Логика агента железная - в БД были миграции с другой ветки. Вот он и нашел quick fix в виде DROP SCHEMA.
Справедливости ради - сработало, конечно. А если бы это был прод?)
Вот и моя базка дропнулась. Повезло, что только локальная. Логика агента железная - в БД были миграции с другой ветки. Вот он и нашел quick fix в виде DROP SCHEMA.
Справедливости ради - сработало, конечно. А если бы это был прод?)
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁11
Anthropic выкатили Claude Managed Agents.
Теперь можно запускать AI-агентов прямо в облаке Anthropic. И это чудо уже в превью умеет плодить других агентов. Т.е у нас полноценная serverless-оркестрация агентов без виртуалки, Docker, танцев с LangChain.
Описываем агента: что он умеет, какие инструменты использует, в каком окружении работает. Дальше закидываем ему задачу - и он уходит работать. Сам читает файлы, пишет и запускает код, ходит в интернет, обрабатывает ошибки. Это может работать часами без участия с нашей стороны. Потом агент вернётся с результатом. Нам остается думать только о бизнес-логике, всё остальное просто работает.
Стоит это чудо $0.08/час активного рантайма + токены. Время простоя не считается.
Отдельный кайф - наблюдать, как очередная волна "курсов по созданию агентов тихо теряет смысл. Потому что всю эту ручную сборку на коленке, которой там учили три месяца, теперь заменяет один API-вызов.
Уже вымерли промпт-инженеры. Вымрут и агентные гуру или как там они себя называют? Рынок снова обогнал курсы быстрее, чем можно было предположить.
Теперь можно запускать AI-агентов прямо в облаке Anthropic. И это чудо уже в превью умеет плодить других агентов. Т.е у нас полноценная serverless-оркестрация агентов без виртуалки, Docker, танцев с LangChain.
Описываем агента: что он умеет, какие инструменты использует, в каком окружении работает. Дальше закидываем ему задачу - и он уходит работать. Сам читает файлы, пишет и запускает код, ходит в интернет, обрабатывает ошибки. Это может работать часами без участия с нашей стороны. Потом агент вернётся с результатом. Нам остается думать только о бизнес-логике, всё остальное просто работает.
Стоит это чудо $0.08/час активного рантайма + токены. Время простоя не считается.
Отдельный кайф - наблюдать, как очередная волна "курсов по созданию агентов тихо теряет смысл. Потому что всю эту ручную сборку на коленке, которой там учили три месяца, теперь заменяет один API-вызов.
Уже вымерли промпт-инженеры. Вымрут и агентные гуру или как там они себя называют? Рынок снова обогнал курсы быстрее, чем можно было предположить.
2👍7🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Вот теперь заживём, клавиатура от Anthropic 💪
Слава богу, что это всего лишь генерация. Но идею рано или поздно кто-то подхватит.
Слава богу, что это всего лишь генерация. Но идею рано или поздно кто-то подхватит.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня такой сонный день, что даже Claude Code не проснулся 🛏
По уровню иногда кажется, что GPT 3.5 снова с нами
По уровню иногда кажется, что GPT 3.5 снова с нами
Please open Telegram to view this post
VIEW IN TELEGRAM
😁5
Claude: тупой и еще тупеет
У меня давно были подозрения, что качество начало проседать. Но тут всплыла история, которая смогла подтвердить это на реальных цифрах. Senior AI Director из AMD проанализировала 6 852 сессии Claude Code за январь-март и выложила issue на GitHub с говорящим названием:"Claude Code is unusable for complex engineering tasks with the Feb updates" (Claude Code стал непригоден для сложных инженерных задач после февральских обновлений)
Главные факты оттуда:
1. Медианная длина reasoning упала с ~2200 до ~600 символов. Модель буквально стала меньше думать.
2. Read-per-edit (сколько файлов модель читает перед правкой) упал с 6.6 до 2.0. Claude правит код, не читая контекст.
3. 173 случая за 17 дней, когда модель «сдавалась» или спрашивала разрешения продолжить. До 8 марта - ноль.
4. При решении тех же задач от человека модель стала генерировать в разы больше внутренних запросов - ошибается, ретраит, ходит по кругу.
Anthropic это подаёт как «оптимизацию для среднего пользователя». На деле произошло два изменения: adaptive thinking (модель сама решает, сколько думать - иногда решает не думать вообще) и тихое понижение дефолтного effort с high до medium. Оба снижают нагрузку на GPU. Как именно модель решает сколько ей думать - загадка, но теперь качество зависит даже от времени суток. Всё это говорит само за себя - вычисления сжигают кучу денег, а мощностей на всех пользователей явно не хватает.
У меня давно были подозрения, что качество начало проседать. Но тут всплыла история, которая смогла подтвердить это на реальных цифрах. Senior AI Director из AMD проанализировала 6 852 сессии Claude Code за январь-март и выложила issue на GitHub с говорящим названием:"Claude Code is unusable for complex engineering tasks with the Feb updates" (Claude Code стал непригоден для сложных инженерных задач после февральских обновлений)
Главные факты оттуда:
1. Медианная длина reasoning упала с ~2200 до ~600 символов. Модель буквально стала меньше думать.
2. Read-per-edit (сколько файлов модель читает перед правкой) упал с 6.6 до 2.0. Claude правит код, не читая контекст.
3. 173 случая за 17 дней, когда модель «сдавалась» или спрашивала разрешения продолжить. До 8 марта - ноль.
4. При решении тех же задач от человека модель стала генерировать в разы больше внутренних запросов - ошибается, ретраит, ходит по кругу.
Anthropic это подаёт как «оптимизацию для среднего пользователя». На деле произошло два изменения: adaptive thinking (модель сама решает, сколько думать - иногда решает не думать вообще) и тихое понижение дефолтного effort с high до medium. Оба снижают нагрузку на GPU. Как именно модель решает сколько ей думать - загадка, но теперь качество зависит даже от времени суток. Всё это говорит само за себя - вычисления сжигают кучу денег, а мощностей на всех пользователей явно не хватает.
2🔥9👍6
Не ИИ единым, как говорится. Пора вспомнить, что за пределами LLM-ок тоже происходят безумные вещи. А они ведь происходят. Квантовая физика опять делает вещи, от которых у нормального человека плавится мозг.
Собрали первую в мире рабочую квантовую батарею. Не на бумаге, не в симуляции - реальный прототип. Лазер, фемтосекундная зарядка, наносекунды работы. Соотношение - миллион к одному. Секунда зарядки = 11 дней работы, если масштабировать.
Но главный прикол даже не в этом. У обычных аккумуляторов всё логично: больше ёмкость - дольше заряжать. У квантовых наоборот. Чем больше ячеек - тем быстрее зарядка. Физика буквально работает задом наперёд и это не баг, а фича 😂
Энергии в прототипе правда хватит разве что на 1/200 000 полёта комара. Но до вчерашнего дня эта штука существовала только в учебниках. А теперь - на столе в лаборатории. Путь от "теоретически возможно" до "мы это собрали" обычно самый сложный.
Статья в Nature (https://www.nature.com/articles/s41377-026-02240-6#citeas)
Собрали первую в мире рабочую квантовую батарею. Не на бумаге, не в симуляции - реальный прототип. Лазер, фемтосекундная зарядка, наносекунды работы. Соотношение - миллион к одному. Секунда зарядки = 11 дней работы, если масштабировать.
Но главный прикол даже не в этом. У обычных аккумуляторов всё логично: больше ёмкость - дольше заряжать. У квантовых наоборот. Чем больше ячеек - тем быстрее зарядка. Физика буквально работает задом наперёд и это не баг, а фича 😂
Энергии в прототипе правда хватит разве что на 1/200 000 полёта комара. Но до вчерашнего дня эта штука существовала только в учебниках. А теперь - на столе в лаборатории. Путь от "теоретически возможно" до "мы это собрали" обычно самый сложный.
Статья в Nature (https://www.nature.com/articles/s41377-026-02240-6#citeas)
2🔥16❤2