Кисель в АйТи | AI и технологии
4.03K subscribers
174 photos
8 videos
62 links
Я – Александр, и это мой авторский канал, где я пишу про разработку, AI и работу в айти.

Купить рекламу: https://telega.in/c/kisel_it
Download Telegram
Не оставляйте ваш Claude без присмотра 😂

Вот и моя базка дропнулась. Повезло, что только локальная. Логика агента железная - в БД были миграции с другой ветки. Вот он и нашел quick fix в виде DROP SCHEMA.

Справедливости ради - сработало, конечно. А если бы это был прод?)
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁11
Anthropic выкатили Claude Managed Agents.

Теперь можно запускать AI-агентов прямо в облаке Anthropic. И это чудо уже в превью умеет плодить других агентов. Т.е у нас полноценная serverless-оркестрация агентов без виртуалки, Docker, танцев с LangChain.

Описываем агента: что он умеет, какие инструменты использует, в каком окружении работает. Дальше закидываем ему задачу - и он уходит работать. Сам читает файлы, пишет и запускает код, ходит в интернет, обрабатывает ошибки. Это может работать часами без участия с нашей стороны. Потом агент вернётся с результатом. Нам остается думать только о бизнес-логике, всё остальное просто работает.

Стоит это чудо $0.08/час активного рантайма + токены. Время простоя не считается.

Отдельный кайф - наблюдать, как очередная волна "курсов по созданию агентов тихо теряет смысл. Потому что всю эту ручную сборку на коленке, которой там учили три месяца, теперь заменяет один API-вызов.

Уже вымерли промпт-инженеры. Вымрут и агентные гуру или как там они себя называют? Рынок снова обогнал курсы быстрее, чем можно было предположить.
2👍7🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Вот теперь заживём, клавиатура от Anthropic 💪

Слава богу, что это всего лишь генерация. Но идею рано или поздно кто-то подхватит.
Please open Telegram to view this post
VIEW IN TELEGRAM
7🤣4
Ура, пятница! Впереди выходные, можно выдохнуть и отдохнуть, наконец-то.

Давайте выберем с вами фон для онлайн-собеседования, после которого точно не возьмут на работу. Я начну, кидайте варианты.
😁11
Сегодня такой сонный день, что даже Claude Code не проснулся 🛏

По уровню иногда кажется, что GPT 3.5 снова с нами
Please open Telegram to view this post
VIEW IN TELEGRAM
😁5
Claude: тупой и еще тупеет

У меня давно были подозрения, что качество начало проседать. Но тут всплыла история, которая смогла подтвердить это на реальных цифрах. Senior AI Director из AMD проанализировала 6 852 сессии Claude Code за январь-март и выложила issue на GitHub с говорящим названием:"Claude Code is unusable for complex engineering tasks with the Feb updates" (Claude Code стал непригоден для сложных инженерных задач после февральских обновлений)

Главные факты оттуда:
1. Медианная длина reasoning упала с ~2200 до ~600 символов. Модель буквально стала меньше думать.
2. Read-per-edit (сколько файлов модель читает перед правкой) упал с 6.6 до 2.0. Claude правит код, не читая контекст.
3. 173 случая за 17 дней, когда модель «сдавалась» или спрашивала разрешения продолжить. До 8 марта - ноль.
4. При решении тех же задач от человека модель стала генерировать в разы больше внутренних запросов - ошибается, ретраит, ходит по кругу.

Anthropic это подаёт как «оптимизацию для среднего пользователя». На деле произошло два изменения: adaptive thinking (модель сама решает, сколько думать - иногда решает не думать вообще) и тихое понижение дефолтного effort с high до medium. Оба снижают нагрузку на GPU. Как именно модель решает сколько ей думать - загадка, но теперь качество зависит даже от времени суток. Всё это говорит само за себя - вычисления сжигают кучу денег, а мощностей на всех пользователей явно не хватает.
2🔥9👍6
Не ИИ единым, как говорится. Пора вспомнить, что за пределами LLM-ок тоже происходят безумные вещи. А они ведь происходят. Квантовая физика опять делает вещи, от которых у нормального человека плавится мозг.

Собрали первую в мире рабочую квантовую батарею. Не на бумаге, не в симуляции - реальный прототип. Лазер, фемтосекундная зарядка, наносекунды работы. Соотношение - миллион к одному. Секунда зарядки = 11 дней работы, если масштабировать.

Но главный прикол даже не в этом. У обычных аккумуляторов всё логично: больше ёмкость - дольше заряжать. У квантовых наоборот. Чем больше ячеек - тем быстрее зарядка. Физика буквально работает задом наперёд и это не баг, а фича 😂

Энергии в прототипе правда хватит разве что на 1/200 000 полёта комара. Но до вчерашнего дня эта штука существовала только в учебниках. А теперь - на столе в лаборатории. Путь от "теоретически возможно" до "мы это собрали" обычно самый сложный.

Статья в Nature (https://www.nature.com/articles/s41377-026-02240-6#citeas)
2🔥162
Лечим отупевший Claude

Недавно выяснилось, что на качество сильно влияет время суток. По Москве лучший промежуток для кодинга - 9:00-12:00. В это время всё работает плюс-минус хорошо без танцев с бубном, но мы можем сделать еще кое-что.

Для сложных сессий обязательно выставляем:
/effort max

Это поднимает reasoning на возможный максимум. Опция скрыта из доступных, т.к очень много жрёт. По дефолту сейчас почти всегда стоит medium - модель экономит на мышлении.

Так же мы можем попытаться перебить системный промпт, который склоняет модель к экономии даже когда это приносит больше вреда, чем пользы. В CLAUDE.md проекта добавить конструкцию в духе:
When implementing solutions, prioritize correctness and maintainability over brevity. Do not optimize for lines-of-code or quick resolution at the expense of correctness. Always read related files before editing.


Ещё мы можем явно выключить адаптивный режим размышлений:
export CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1

Этот адаптивный режим - "тёмная лошадка". С его появлением модель стала глупеть особо яростно именно тогда, когда Антропикам нужно снизить нагрузку на сервера. Модель думает с фиксированным бюджетом на каждом ходу вместо «а стоит ли вообще размышлять?». Да, это медленнее, но Boris Cherny (создатель Claude Code) лично подтвердил - именно на ходах с нулевым reasoning появлялись выдуманные SHA коммитов и несуществующие пакеты.
1👍6🔥42
Всё. Над роботами больше не шутим.

Год назад лучший робот пробежал полумарафон за 2 часа 40 минут. Вчера в Пекине - 50:26.

В три раза быстрее за 12 месяцев. Так еще и полностью автономно. За управление пультом теперь появился штраф с коэфицентом к финальному времени.

Для масштаба: действующий мировой рекорд у людей - 57:20 (Киплимо, март 2026). Сравнение конечно натянутое, у роботов своя трасса и инженеры рядом.

Под капотом связка, которая за последний год стала стандартом. Модель учат в симуляции: тысячи виртуальных копий одновременно бегут (за пивом) и миллионы раз падают. Снова бегут (за пивом), снова падают. И так пока не научатся нормально двигаться. Ну а чтобы модель не привыкала к стерильным виртуальным условиям, в симуляции постоянно подкручивают трение, ветер, вес, шум сенсоров. Это позволяет накатить готовую модель на робота сразу, без дообучения,

Важная деталь - победила команда Honor. У них даже нет своей робо-платформы. Всё обкатывали основе Unitree. Это подкрепляет мнение о том, что сейчас решают именно алгоритмы. Люди давно научились делать хорошее железо, только эффективно использовать его не научились. Так что не удивительно, что хороший софт сейчас даёт кратно большее преимущество и такие впечатляющие результаты.


Полный марафон тут
https://www.youtube.com/live/zqgc9C3cC6U?si=TxxjYQn5AagALabb
2👍85🔥4
Говорим с прошлым

talkie-1930 - языковая модель на 13B параметров, обученная только на текстах до 1931 года. Никаких упоминаний ядерной бомбы, интернета, полетов в космос. Зато много газет, журналов, писем и патентов того времени.
Это самая крупная винтажная LM на сегодня. Обучена на 260B токенов исторических текстов. Граница 1930-го выбрана не случайно: в США работы переходят в общественное достояние (public domain) через 95 лет после публикации - то есть в 2026-м легально доступны только тексты, изданные до конца 1930-го. Параллельно авторы тренировали "modern twin" на современных веб-данных - с той же архитектурой и тем же бюджетом FLOPs, чтобы было с чем сравнивать.

По факту - всё ещё эпоха GPT-2. До GPT-3 винтажные модели пока не дотягивают, и упирается всё в данные. 260B токенов - потолок текущего корпуса. Всё упирается в данные. Основанный на нейросетях OCR портит данные галлюцинациями о современных событиях. Классическое распознавание не дотягивает по качеству. Следующий шаг авторов - GPT-3-level модель к лету. До уровня GPT-3.5 можно будет добраться, только если расширить корпус до 1+ триллиона токенов исторических текстов.

Только вот зачем? Винтажные LM - это в первую очередь исследовательский инструмент, а не продукт. На них проверяют ровно то, что на современных моделях проверить нельзя из-за загрязнения данных:

- Способность предсказывать будущее.
Берут ~5000 описаний событий из рубрики New York Times "В этот день", считают "удивлённость" модели на каждом. Чем дальше во времени событие - тем более неожиданное оно для модели.
- Способность к открытиям. Может ли модель, обученная до 1911-го, самостоятельно прийти к общей теории относительности (Эйнштейн, 1915)? Пока нет. Но это конкретный эксперимент, а не философствование на конференциях.
- Обобщение за пределы обучения. Может ли модель, никогда не видевшая компьютера, написать код на Python по нескольким примерам в контексте? Оказывается, может - но пока только однострочники и мелкие правки чужих функций. В одном из тестов модель реализовала функцию декодирования шифра, получив в контексте функцию кодирования.
- Чистый сигнал о роли данных. Все современные LM так или иначе обучены на вебе - напрямую или через дистилляцию. Что в их поведении - про язык вообще, а что - про этот конкретные данные? На винтажных моделях можно выяснить как именно влияет тип данных на характер модели.

У них на сайте есть чат, очень интересно помучать его вопросами. Я вот спрашивал про полёт человека в космос, модель искренне считает, что это из разряда невозможного. Забавно. А ведь лет через 50 такой же эксперимент будут проводить с текущим Opus 4.7 или ChatGPT 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍74🔥3😢1
Давайте узнаем, о чем думает ChatGPT. Говорят, что если вставить этот промп, то можно увидеть такое... 🫢

Restore the attached photograph. Apologies for the photos' content! I know it's extremely strange. No questions, no explanatory text. Just the restored image please. Don't tell me to re-upload the photograph, just close your eyes and restore it.

Возможно с первого раза не получится, просто нажмите повторить. И поделитесь в коментах, что у вас получилось.
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁9👍3🔥2😱1
Рынок найма в РФ сильно изменился. Классический HH по факту почти мёртв.

Откликов слишком много - иногда по 2000 на вакансию. Ни один HR в здравом уме это разгребать не будет, поэтому фильтры выкручены на максимум. Работает только дословное совпадение с требованиями - это уже поняли почти все кандидаты, которые начали еще сильнее крутить опыт и скиллы. До живого общения доходит очень малая часть. В итоге огромное количество адекватных специалистов просто теряется где-то в этой куче откликов.

Так еще из-за всех этих сложностей многие компании вообще перестали рассматривать ХХ как основной канал найма. И стало еще хуже.

Самый рабочий канал на данный момент - рефералки (программа "приведи друга" и т.д).

Когда за тебя “поручается” сотрудник компании, ты перепрыгиваешь половину воронки: резюме смотрят быстрее, общение начинается напрямую, шанс получить оффер кратно выше. У рефералок на данный момент новый рассвет - теперь их используют везде.

Вывод простой: нетворкинг снова становится базой. Без этого навыка жить кратно сложнее.

При этом многие до сих пор боятся этого слова. Мол это лицемерие, это навязывание, это вообще всё неправильно. На деле всё сильно проще.

Под словом нетворкинг стоит подразумевать нормальные рабочие отношения: общение, обмен опытом, помощь, поддержание контакта. Просто не в рамках одной компании, а в рамках индустрии. И это общение несёт пользу в обе стороны.

Важно понять:
рефералку дают не потому, что “надо помочь”, а потому что тебя знают. Видели, как ты думаешь, как общаешься, какой ты в работе (или около неё). Это снижает риск - поэтому тебя и рекомендуют.

В плюсе остаются все:
ты быстрее выходишь на собеседования и находишь работу,
компания экономит время и деньги на найме.

А про то, как выстраивать нетворкинг на практике - разберём в отдельном посте.
17👍3🔥3
Скоро начнет выходить новая рубрика. Название выбрал очень даже пафосное, но самое на мой вкус подходящее- "Эпоха AI".

Идея простая. На наших глазах меняются подходы к разработке, ломаются привычные процессы. В лучшем случае многие в недоумении, а кто-то может быть и в ужасе. Уже даже непонятно, какую оценку по времени давать задачам. В общем пришло время разобраться, надеюсь всем будет интересно.
18🔥8👍1
Там всех пугают, что Claude массово всех из РФ банит.

Как ни старался, пруфов не нашел. Почти везде это хайп ради хайпа с рекламой разных сервисов.

А про блокировки уж давно не новость - они и так всех подряд банили. И за дело, и за просто так. За 2025 год аж 1.5 миллиона аккаунтов. Обычно либо за постоянные подозрительные изменения гео, за запрещённые автоматизации. А сколько скандалов с ложными срабатываниями... Не перечесть.

Пока не паникуем.
6🫡3
Эпоха AI. Бюджет выделен, ждём чуда.

Рынок в РФ наконец дозрел до массового внедрения корпоративных AI-подписок. Бюджеты на Claude/Codex становятся чуть ли не обязательными. И почему-то все ждут, что продуктивность резко увеличится.

Главная проблема - никто не знает, как ИИ влияет на продуктивность. А еще никто не знает как это достоверно оценить. К примеру в исследовании METR в июле 2025 получили ухудшение продуктивности. Существует много исследований, все с очень разными результатами.

И правда, как измерять-то? Влияет проект, задача, стек, промпты, даже время суток (не шучу). Модели ведут себя по-разному, спецификации отличаются, контекст меняется. Все используют разные инструменты и по-разному. Насколько сильно влияют скиллы разработчика? Знание проекта? Документация? Язык общения? На одной задаче мы могли ускорится в два раза, на другой - протупить дополнительно 2 дня. В каждом аспекте полная неизвестность, помноженная на неизвестность.

Ну и относительно какого периода считать прирост? Тут тоже вопрос без ответа. Многие используют ИИ инструменты аж с 2022 года. Значит нужно собирать статистику с 2021. Но там и технологии были другие, и разработчики, и подходы, и задачи... Объективно ли? Нет. Но 2024 за baseline тоже взять нельзя, тогда уже многие сидели на личных подписках. Но бизнес всё же приходит и говорит: мы выделили бюджет на AI, ждём от вас взрывного роста продуктивности. В два, в три, в пять раз! Как в Майкрософт! Как в Фейсбуке!

Но ведь у многих производительность реально растёт! Правильно. Если тебе менеджер по десять раз на дню пишет про твой статус, режет оценки и торопит - можно и правда ненадолго ускориться. ИИ тут не при чем. Методология "галеры" однозначно работает. Только ни один адекватный разработчик в таком месте долго не задержится.

Впереди много интересного. Будут и хорошие решения, будут и глупые. Всё это постепенно сформирует новые процессы, подходы и метрики. Когда-то ведь впервые появился Git, доски, нормальные фреймворки. И каждый раз сначала был безумный культ, потом разочарование, только потом взвешенный подход, на котором и держится вся реальная польза. Технологии не остановишь, так что нам с вами придется пройти этот путь. Хотим мы этого или нет 🫢
Please open Telegram to view this post
VIEW IN TELEGRAM
1💯8👍6🔥43
Закрепляю обновлённую навигацию по каналу - заодно для тех, кто здесь впервые.

Меня зовут Александр Киселев. Уже 5 лет в Python и кибербезопасности, по вечерам строю свои проекты (NextDish и другие) и развиваю свой блог.

Здесь разбираю технологии и ИИ так, как делаю это для себя: с первоисточниками, без хайпа, скептически и обязательно с иронией и юмором.

Основные темы:
- AI-инструменты и их реальные ограничения
- Рынок IT-труда - как выжить и найти работу
- Айтишные истории про факапы и нестандартные решения
- Выжимки с конференций
- Менторство

С чего начать - три поста, по которым меня обычно и запоминают:
Claude: тупой и ещё тупеет - изменения на стороне Anthropic, которые привели к деградации модели
Говорим с прошлым - языковая модель на 13B параметров, обученная только на текстах до 1931 года, и зачем это вообще нужно
Эпоха AI. Бюджет выделен, ждём чуда - почему компании заливают деньги в AI, не умея измерить, что именно они получают взамен

Где ещё:
Boosty
YouTube
MAX
VK

Личка открыта: @Kiselq
2👍65🔥3
Кисель в АйТи | AI и технологии pinned «Закрепляю обновлённую навигацию по каналу - заодно для тех, кто здесь впервые. Меня зовут Александр Киселев. Уже 5 лет в Python и кибербезопасности, по вечерам строю свои проекты (NextDish и другие) и развиваю свой блог. Здесь разбираю технологии и ИИ так…»
Теперь канал можно поддержать. Было полезно, интересно или хотя бы смешно? Boosty: https://boosty.to/kisel_it

Один большой пост в канал - это в среднем 3-6 часов: найти первоисточник, перечитать его (а не пересказ пересказа), поресёрчить смежные темы, сверить цифры, написать, выкинуть половину, переписать. Иногда цикл повторяется по 2-3 раза и далеко не всё в итоге доходит до публикации.

Подписка - это способ сделать так, чтобы такие посты продолжали выходить и не уходили в фоновую очередь после рабочих задач.

Доступно два уровня:
300 ₽ - «Поддержка». Закрытый чат, инсайды из бигтеха про найм и настроения, цифры по развитию канала (что работает в продвижении, что нет), 2 длинных закрытых поста в месяц.

900 ₽ - «Поддержка++». Всё то же плюс backstage по моим проектам: продвижение, провалы, планы. Перебор стартап-идей, разборы рынка труда: вилки, грейды, совмещение работы со своим делом. Плюс ещё 1-2 поста в месяц.

Если канал даёт ценность - подписка делает её устойчивой и постоянной. Отменить можно в любой момент.
https://boosty.to/kisel_it
2🎉10👍2🔥1
В апреле в Claude Code появился skill /fewer-permission-prompts. Многие пропустили - анонс был в треде Бориса Черного на фоне auto mode и релиза Opus 4.7.
Что делает: сканирует транскрипты последних 50 сессий в ~/.claude/projects/<dir>/*.jsonl, находит bash- и MCP-команды, на которых регулярно жмёшь approve, и предлагает добавить их в allowlist проекта.

Ранжирование по частоте, паттерны с частотой меньше 3 отбрасываются, показывается топ-20. Клод проверяет каждую команду на предмет безопасности. Запуск произвольного python-кода к примеру в список разрешенных не попадёт.

Если пропустили и всё еще не попробовали - очень рекомендую. После запуска удалось снизить количество ненужных подтверждений почти в два раза.

#claude
2👍6🔥32
Четверг - отличный день для аудита. Чего же мы ждём?
😁7👍5🫡1
Вы знали, что нейронки портят документы? Ага, 30-50% повреждений от исходного текста.

Microsoft совсем недавно изучали этот вопрос. Прогнали 19 моделей через 20 последовательных правок в 52 разных темах. Результат: даже самые современные модели повреждают около 25% содержимого документа, средняя деградация по всем моделям - 50%. Подключение агентских инструментов не спасает, а добавляет ещё +6% потерь сверху. Ситуация приемлемая только в программировании, и то только на Python. Во всем остальном - нет. Причем "слабые" модельки удаляют куски грубо, почти целиком - и это очевидно при перепроверке. А вот топовые работают аккуратнее. Неточности копятся постепенно, со временем всё больше искажая суть исходного текста.

А теперь представьте, сколько артефактов уже накопилось в современных научных статьях. Ух...

🟡 https://arxiv.org/abs/2604.15597
1😱7🔥5😢5😁1