Иван Закутний про
197 subscribers
130 photos
3 videos
161 links
Авторский канал про инженерию умных систем.
По всем вопросам: @m0n0x41d
Download Telegram
Привет друзья!

На днях я сел написать мыслишки за последнее время, про новости, и просто порефлексировать коротеньким постом в телеграм.

Совсем коротко не получилось, так, заметка про "новые" тренды в инфополе AI и вокруг.

Читать (не boosty, calm down)

---

В работе другая статья про кэширование промптов в LLM – как работает, зачем знать, и зачем не забывать о нем.

Ей я открываю серию более прикладных постов по теме канала.
3🌭1
На сколько на самом деле могут быть дороги AI системки?

Ну, если мы решаем реальную проблему и с толком подошли к процессу – переворачиваем туда сюда большие объемы данных чтобы ускорить в 50X раз то, что раньше делалось только человеками (анализ всяких разнородных и нудных документов), то ценность тут может намного превышать стоимость токенов.

А если мы делаем AI чатик.... Ну давайте посчитаем сферического коня в вакууме.

Пойдем по условному минимуму и будем крайне грубы! 😡

Например, у вас какой то чатбот без RAG, вы ему даете в промпт чеклист/базу знаний длинной в 2500 английских символов. Пусть это будет примерно 620 токенов, и пусть даже у вас промт будет полностью статичным, вообще без иньекций кроме текущей даты в конце. Это значит что мы по полной используем кеширование промптов, и почти не платим за входные токены... Красота!

Так сколько же мы будем отдавать, скажем OpenAI, при невероятных 5 RPS в наш чатик?

Давайте считать.

5 RPS × 3600 сек = 18,000 запросов/час
18,000 × 24 часа = 432,000 запросов/день
432,000 × 30 дней = 12,960,000 запросов/месяц

Мы очень хотим сэкономить, и когнитивные требования к нашему асситенту минимальны, поэтому мы взяли очень дешевый GPT-4.1 Nano.

Все еще находясь в сказочном мире, где RPS стабильный и кеш в OpenAI не протухает, считаем стоимость входных токенов:

620 токенов × 12,960,000 запросов = 8,035,200,000 токенов
8,035 × $0.025 = $201/месяц

С выходными чуть сложнее, пойдем с поправкой на то что у нас все таки ассистент, и он запрягается чтобы давать максимально подробный ответ для пользователя, предположим что средний ответ будет 200 токенов (это примерено 150 слов, небольшой абзац текста):

- 250 токенов × 12,960,000 запросов = 3,240,000,000 токенов
- 3,240 × $0.400 = $1,296/месяц

Итого: ~$1,497/месяц

Продолжение следует...
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭2
Интересная картина, не правда ли? Ни на что не намекаю, и не пытаюсь подробно анализировать, но сколько в этой нише прямо таки успешных B2C чатиков? Ну видимо ноль 😏

Все решения B2B вроде интеркома и прочего были еще до LLM и это не наш случай. Весь сегодняшний грубый подсчет интересен тем чтобы посмотреть как очень линейно-уверенно могут расти цены на вроде бы дешевые модели.

Конечно, 5RPS чатик это и правда очень сказочный случай, во-первых такого стабильного трафика никогда не будет, во вторых... такого трафика наверное вообще в подобном продукте не будет, у нас уже есть ChatGPT, Claude, Geminit – всем кому нужны "чатики" для general purposes, _и не только_ – пользуется топовыми решениями, с этим уже понятно.

Но для LLM штука годная, применима не только для чатиков, поэтому про стоимость токенов надо всегда думать с самого начала и как можно точнее ее предсказать для нашего сценария.

А, кстати, такой же 5RPS чатик на GPT-4.1 будет стоить уже почти 30к долларов в месяц!
Может уже проще Deepseek или Qwen свой захостить? 🤔

Ну, даже не знаю... Зато знаю что кешировать можно и нужно больше, если требований к данным в реальном времени у нас нет.

Все это дисклеймер к статье которую я процентов на 85% уже написал 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭2
Меня всегда умиляет, когда люди вспоминают Бритву Оккама в контексте уже принятых решений – мол, вот, пора отсекать лишнее! Умиляет, потому что это очевидное противоречие самому принципу – "Не следует привлекать новые сущности без серьезной необходимости".

Кажется, что уже немного поздновато хвататься за огнетушитель, когда крыша сарая во всю горит, нет?

Технический долг, работы и методы работы по его устранению находятся где-то между "очень сложно изменить, как бы все не сломать", "сложно изменить настолько, что мы точно что-то сломаем" и "изменять настолько сложно и дорого, что лучше пусть уже работает как работает".

Бритва Оккама – это не про выбор чего-то одного или нескольких "нужных", это про выбрасывание всего, не просто не нужного, а даже того, что кажется/на самом деле является – хорошим/интересным/потенциально полезным, но никак или почти никак не согласуется с конкретно выбранной целью, которой мы пытаемся достичь.

Проблема может скрываться как в том, что мы просто не умеем вовремя тормозить, так и в том, что сама цель недостаточно конкретная и формализована "перед глазами".

Но часто любой формализации и замедления боятся как огня, оправдывая и бравируя чем угодно из персональной картины мира, но только лишь бы без намека на сбор метрик – верь, только так и никак иначе!

По мне, так это просто самый обычный, абсолютно понятный, базовый "страх" напрягать мозги, тот самый эволюционный powersave. Только вот правда видится в том, что это предполагаемое "замедление" зачастую не такое уж и сильное, много меньше, чем глаза самого страха, а пользы больше – не важно, стартап, не стартап, интеллектуальный ли или физический труд.

Культура – "не тормози", это самое нерациональное и неэффективное, что можно придумать на любом, хотя бы немного длинном отрезке работы (больше месяца).

За весь свой опыт я не находил ничего более эффективного, чем жесткую приоритизацию и отказ, умение говорить нет как можно большему числу предложений и идей (не важно, своих или чужих).

И дело тут не просто в контекст-свитчинге между кучей задач – даже если переключения не частые, само их присутствие и наличие нескольких задач одновременно в работе снижают эффективность экспоненциально.

Забавная штука – человеческий мозг. Как парадоксально рядом уживаются такие вроде бы противоположные когнитивные искажения и механизмы – мы боимся медленного мышления, потому что оно энергозатратно, и при этом мы бежим как полуслепой ослик за потенциально вкусно пахнущим морково-подобным объектом, болтающимся перед нашими глазами.

И то и другое требует небольшой смелости – тормознуть и сказать No.
3🌭1
Вольный перевод треда чуть меньше чем месячной давности (давно не breaking, I have told you long before 😄)

MIT только что завершил первое исследование мозга пользователей ChatGPT с помощью сканирования, и результаты ужасающие.

https://arxiv.org/abs/2506.08872

Оказывается, ИИ не делает нас более продуктивными. Он делает нас когнитивно банкротами.

Вот что показали 4 месяца данных:

(подсказка: мы неправильно измеряли продуктивность)

83,3% пользователей ChatGPT не могли процитировать эссе, которые они написали несколько минут назад.

Пусть это до вас дойдет.

Вы пишете что-то, нажимаете “сохранить”, и ваш мозг уже это забыл, потому что ChatGPT думал за вас.

Сканирование мозга выявило ущерб: нейронные связи сократились с 79 до всего лишь 42.

Это снижение на 47% в мозговой связности.

Если бы ваш компьютер потерял половину своей вычислительной мощности, вы бы сказали, что он сломан. Именно это происходит с мозгом пользователей ChatGPT.

Учителя не знали, в каких эссе использовался ИИ, но они чувствовали, что что-то не так.

“Бездушные.”
“Пустые по содержанию.”
“Близкие к совершенному языку, но не дающие личных инсайтов.”

Человеческий мозг может обнаружить когнитивный долг, даже когда не может его назвать.

Вот ужасающая часть: Когда исследователи заставили пользователей ChatGPT писать без ИИ, они показали худшие результаты, чем люди, которые никогда не использовали ИИ.

Это не просто зависимость. Это когнитивная атрофия.

Как мышца, которая забыла, как работать.

Команда MIT использовала ЭЭГ-сканирование мозга 54 участников в течение 4 месяцев.

Они отслеживали альфа-волны (творческая обработка), бета-волны (активное мышление) и паттерны нейронной связности.

Это не мнение. Это измеримое повреждение мозга от чрезмерного использования ИИ.

Парадокс продуктивности, о котором никто не говорит:

Да, ChatGPT делает вас на 60% быстрее в выполнении задач.

Но он снижает “соответствующую когнитивную нагрузку”, необходимую для реального обучения, на 32%.

Вы обмениваете долгосрочную мозговую способность на краткосрочную скорость.

Компании, празднующие прирост продуктивности от ИИ, неосознанно создают когнитивно более слабые команды.

Сотрудники становятся зависимыми от инструментов, без которых не могут жить, и менее способными к независимому мышлению.

Многие недавние исследования подчеркивают ту же проблему, включая исследование Microsoft:

https://www.microsoft.com/en-us/research/wp-content/uploads/2025/01/lee_2025_ai_critical_thinking_survey.pdf

Исследователи MIT называют это “когнитивным долгом” - как технический долг, но для вашего мозга.

Каждый ярлык, который вы используете с ИИ, создает процентные платежи в виде потерянной способности мышления.

И точно так же, как финансовый долг, счет в конце концов приходит.

Но есть хорошие новости…

Потому что 4-я сессия исследования выявила кое-что интересное:

Люди с сильными когнитивными основами показали БОЛЕЕ ВЫСОКУЮ нейронную связность при использовании ИИ, чем хронические пользователи.

Но хронические пользователи ИИ, вынужденные работать без него? Они показали худшие результаты, чем люди, которые никогда не использовали ИИ.

Решение не в том, чтобы запретить ИИ. Оно в том, чтобы использовать его стратегически.

Выбор за вами:
Накапливать когнитивный долг и стать зависимым от ИИ.
Или наращивать когнитивную силу и стать усилителем ИИ.

Первое исследование мозга пользователей ИИ с помощью сканирования только что показало нам ставки.

Выбирайте мудро.​​​​​​​​​​​​​​​​

Ссылки на публикации, бессовестно отсутствующие в оригинальном треде прикрепил

***

MIT только что завершил первое исследование мозга пользователей ChatGPT с помощью сканирования, и результаты ужасающие.

https://arxiv.org/abs/2506.08872

Оказывается, ИИ не делает нас более продуктивными. Он делает нас когнитивно банкротами.

Вот что показали 4 месяца данных:

(подсказка: мы неправильно измеряли продуктивность)

83,3% пользователей ChatGPT не могли процитировать эссе, которые они написали несколько минут назад.

Пусть это до вас дойдет.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭11
Вы пишете что-то, нажимаете “сохранить”, и ваш мозг уже это забыл, потому что ChatGPT думал за вас.

Сканирование мозга выявило ущерб: нейронные связи сократились с 79 до всего лишь 42.

Это снижение на 47% в мозговой связности.

Если бы ваш компьютер потерял половину своей вычислительной мощности, вы бы сказали, что он сломан. Именно это происходит с мозгом пользователей ChatGPT.

Учителя не знали, в каких эссе использовался ИИ, но они чувствовали, что что-то не так.

“Бездушные.”
“Пустые по содержанию.”
“Близкие к совершенному языку, но не дающие личных инсайтов.”

Человеческий мозг может обнаружить когнитивный долг, даже когда не может его назвать.

Вот ужасающая часть: Когда исследователи заставили пользователей ChatGPT писать без ИИ, они показали худшие результаты, чем люди, которые никогда не использовали ИИ.

Это не просто зависимость. Это когнитивная атрофия.

Как мышца, которая забыла, как работать.

Команда MIT использовала ЭЭГ-сканирование мозга 54 участников в течение 4 месяцев.

Они отслеживали альфа-волны (творческая обработка), бета-волны (активное мышление) и паттерны нейронной связности.

Это не мнение. Это измеримое повреждение мозга от чрезмерного использования ИИ.

Парадокс продуктивности, о котором никто не говорит:

Да, ChatGPT делает вас на 60% быстрее в выполнении задач.

Но он снижает “соответствующую когнитивную нагрузку”, необходимую для реального обучения, на 32%.

Вы обмениваете долгосрочную мозговую способность на краткосрочную скорость.

Компании, празднующие прирост продуктивности от ИИ, неосознанно создают когнитивно более слабые команды.

Сотрудники становятся зависимыми от инструментов, без которых не могут жить, и менее способными к независимому мышлению.

Многие недавние исследования подчеркивают ту же проблему, включая исследование Microsoft:

https://www.microsoft.com/en-us/research/wp-content/uploads/2025/01/lee_2025_ai_critical_thinking_survey.pdf

Исследователи MIT называют это “когнитивным долгом” - как технический долг, но для вашего мозга.

Каждый ярлык, который вы используете с ИИ, создает процентные платежи в виде потерянной способности мышления.

И точно так же, как финансовый долг, счет в конце концов приходит.

Но есть хорошие новости…

Потому что 4-я сессия исследования выявила кое-что интересное:

Люди с сильными когнитивными основами показали БОЛЕЕ ВЫСОКУЮ нейронную связность при использовании ИИ, чем хронические пользователи.

Но хронические пользователи ИИ, вынужденные работать без него? Они показали худшие результаты, чем люди, которые никогда не использовали ИИ.

Решение не в том, чтобы запретить ИИ. Оно в том, чтобы использовать его стратегически.

Выбор за вами:
Накапливать когнитивный долг и стать зависимым от ИИ.
Или наращивать когнитивную силу и стать усилителем ИИ.

Первое исследование мозга пользователей ИИ с помощью сканирования только что показало нам ставки.

Выбирайте мудро.​​​​​​​​​​​​​​​​

***

P.s. перевод выполнен разумеется sonnet 4, я просто нажал скопировать. О чем тред я уже забыл.
🌭1
Майкрософт на глазах у всех пытается похоронить гитлаб?

По крайней мере таким предположением можно объяснить почему OpenAI Codex продолжает работать только с гитхабом 👀

Но почему курсор поступает так же, с Майкрософт они вроде бы не очень дружат, но это не точно.

Может быть гитлаб сам виноват, в том что с ним сложно интегрироваться?

Тоже мимо – у них всегда был хороший api

Ваши соображения?

Я пока начинаю гитлаб заранее хоронить, если ситуация в ближайшие месяцы не поменяется –это просто выбор без выбора.

Могу пояснить позже почему (если это не очевидно.)
Please open Telegram to view this post
VIEW IN TELEGRAM
5🌭1
Так все таки мышление письмом или печатанием, или...?

Я обещал рассказать о результатах моего "аналогового" мышления письмом примерно два месяца назад.

🤔 TLDR; Феноменальных преимуществ вообще нет!

Но как так то? Я решил немного углубиться. Не все так печально.

Записывая своими словами (не тупо переписывание!) по ходу изучения руководства по Рациональной Работе я естественным образом начал двигаться медленнее – слепая печать на клавиатуре намного быстрее чем писать от руки, по крайне мере в моем случае.

Важнее то, что я вообще не заметил качественных инсайтов – руководство разрывало мне мозги одинаково.

Потому что в нем используются рабочие техники обучения, о которых я написал чуть ниже.

Получается что результат скоре отрицательный – я замедлился в прохождении материалов многократно.

Итак! Главное просто писать свои мысли, мыслить письмом. Но как учиться еще лучше? Так чтобы прям мозги пухли от интеллекта? ✏️

В аналоговых заметках все еще есть смысл, во-первых – посмотрите какой у меня офигительный блокнот из Австрии!

А во-вторых и без шуток – письмо от руки все таки активирует намного больше мозговых соединений в сравнении с довольно минимальной активностью при печатании (Frontiers in Psychology, 2023). Только дело не в активности, в смысле кол-в вспышек во время фиксирования информации на носителях.

К сожалению много учебных заведений (в СНГ уж точно) до сих пор заставляют тупо переписывать тексты. В ВУЗах кажется чт с этим чуть получше – там могут лекции читать очень быстро, и придется как то сокращать, у спевать. Но это не мышление письмо а стресс. Так что...

И ручка и клавиатура меркнут в сравнении с главными инсайтами из Learning Science, качественно обучать свою нейросеть в голове! А именно:

- Повторение через интервалы
- Активное воспроизведение из памяти (то есть не только сразу мыслим письмом, а попытаемся через какое то время без подглядок что-то припомнить и выразить в тексте)
- И чередование тем

Ровно то как составлены руководства, и то как я буду любое свое обучение по темам планировать дальше!

Ручка все еще круто работает как минимум для отдыха от экрана, брейнштормов, коротких и важных заметок, может быть планировании, прототипировании и других тезисных размылений.

Для глубокой проработки концепций и ворочания текстами — точно typing + spaced repetition в цифровом экзокортексе. Слишком много всего надо загружать в голову, фронтир очень быстро меняется, а отставать совершено неприемлемо.

Доп. источники почитать на выходные:
- Mueller & Oppenheimer 2014
- Nature Reviews Psychology 2022
Please open Telegram to view this post
VIEW IN TELEGRAM
7🌭2
AWS очень большая и сложная система. Я совершенно не удивлен в том что ребята настолько активно применяют формальные методы. Ну как иначе то делать и продавать 999999999? 😎

Скорее меня удивило встретить эту статью среди прочего низкосортного в одной рассылке:
https://cacm.acm.org/practice/systems-correctness-practices-at-amazon-web-services/

Там про то, как TLA+ оказался когнитивно слишком тяжелым, и AWS сделали свой язык P (у меня как то были знакомые которые на серьезных щах верили в то что под капотом весь AWS только на Питоне, Си и баше написан). Интересно что P теперь помогает не только на этапе просто дизайна спек, но и в продакшене через PObserve - они сгребают логи систем и проверяют что они соответствуют спекам!

И еще очень круто про continuous подход в фаззинг и хаос тестировании. При том последнее довольно агрессивное, сильнее чем я думал. Кроме того что AWS сам себя постоянно пытается сломать, у них есть Fault Injection Service который позволяет нам как клиентам в свою инфру запускать разных агрессивных обезьян 🤬

Радует еще то что отдельно говорят о том что грустно это – низкая популярность формальных методов в индустрии из за сложности в понимании / обучению, но тут есть большие надежды на AI. Пока, правда, только надежды.

В статье больше подробностей в приближении и примеров, читайте!​​​​​​​​​​​
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭22
Правила созданы для того, чтобы их нарушать, слышали такое?
Не менее актуально это звучит в эпоху AI, скорее наоборот.
У кого-то одна только мысль о нарушении правил может вызвать сильное бурление из-за несостыковки представлений – “правила нарушать нельзя!!!”
На эту тему можно спекулировать слишком широко, но сегодня нас интересуют именно формальности в организации работы и ее методов. Это про всех – живых и неживых агентов.
Беда в том, что сам мой посыл уже ошибочен.
Пусть даже мы определим контекст еще более конкретным, например — организация работы в команде, которая разрабатывает AI-продукт.
Тут все еще недостаточно приближения для формализации. Ибо работа неотрывно связана с агентом, который ее выполняет, и его ролью.
Помимо функционального рассмотрения роли нас интересуют и другие «штуки». Например, какие у роли интересы и предпочтения? Что ей важно для работы, а что нет? Есть ли в ее методах работы опасность (нужно учесть все риски), и многое другое в зависимости от прикладной области.
Игра в онтологическое моделирование сложна, из простого в ней только одно — если начинаем играть, то играть надо хоть сколько-нибудь по-взрослому, в нескольких размерностях. Иначе ерунда.
Нахватавшись и напихав в головы несколько представлений, методов из популярных учебников, будь то Agile, DevOps или любых других модных и хороших практик, без детального объяснения того что мы делаем, как делаем, зачем, и кто и что именно должен делать, почему именно эти методы выбраны в компании, мы поедем… я не знаю куда, ну… куда-то! В лучшем случае это движение наощупь, в худшем – вообще непонятно куда.
Многих такая масштабность и сложность онтологического моделирования пугает — “Ууууух, блин, это сколько надо подумать и продумать! Да и вообще это вот щас гестапо правил будет, кошмар бюрократический, нам бы погибше да попроще быть”.
В смысле гибкости и сложности – все наоборот.
Любые формальные описания методов работы неизбежно подвергаются изменениям при всего лишь паре условий: • Есть кто-то (роль, агент) кто должен следить за исполнением методов и собирать метрики • Целью всего моделирования было не само моделирование, а благородная направленность на изменение качества и эффективности работы – применяем что намоделировалось.
Все это очень гибко и бурно меняется на начальных этапах, когда модель сырая и было собрано слишком мало фидбека от агентов-исполнителей — естественно, мы заинтересованы (должны быть) как можно быстрее нашу модель сделать удобной и понятной для всех. Иначе какой вообще смысл?
Понятность и прикладная применимость, полезность модели характеризуется ее разделяемостью — имеется в виду, что модель понятна и полезна разным агентам в разных ролях.
Ничего, кроме взрослого моделирования методов работы (особенно когда в процессы интегрируется AI – им так же детально нужно на символьных описаниях объяснять что делать и как), не даст нам настоящего буста в эффективности, скорости доставки и всего желанного прочего.
Верить, что можно затыкать дыры “гениями которые сами разберутся”, просто некорректно, потому что каждый такой “гений” все равно говорит на своем языке — на языке своего семантического общества (как минимум менеджер на менеджерском, а инженер на инженерном). И тут модель предприятия, онтология и набор методичек по работе как минимум поможет им заговорить на одном языке. Это уже очень много, в смысле эффективности.
Взрослая системная инженерия, формализация процессов/методов не просто не боится нарушений формальностей — она предвосхищает их и ставит на высокий пьедестал ценности как очень нужный и важный материал, потенциал, бесценную возможность улучшить саму модель путем ее уточнения (да хоть полного переделывания, если придется), тем самым улучшая как весь жизненный цикл предприятия, так циклы отдельных кусочков, и рабочий опыт вообще.
О да, думать придется дохрена, зато какой результат!
4🌭2
AWS тут в "бесплатно попробовать" выкатило свой VSCode с Sonnet 4.0...

https://kiro.dev/

Первые впечатления – фигня фигней. Нет ничего wow или нового, чего-то что не может легковестный и обожаемый claude code.

Буквально, "spec" мод, которым Kiro бахвалится, не отличается ни чем от того, если бы вы в claude code сказали – так, милок, давай напишем PRD вот на эту идею, мучай меня вопросами по кругу пока все не станет понятно.

Только Kiro не мучает вопросами – он предсказывает блоб текста и его приходится вычитывать, и после этого задавать уже кучу вопросов - крайне не удобно.

Что там еще "отличается", да ну... Agent Hooks какие-то сделали. История о том как потратить запросы по подписке (это сейчас kiro бесплатно можно попробовать, на странице прайсинга уже представлены уровни подписок с лимитами запросов per месяц) – выбираем триггер и пишем промпт который должен выполняться...

Ну, ТАКОЕ. claude code memory или рулы в курсоре работают примерно так же – "Всегда запускай линтер/тесты и бррбрр после измненеий в коде"

Пусть cursor у меня уже больше IDE и сайдкик для claude code, даже у него "вайб лучше" чем у kiro. Мертворожденное, в общем.

¯\_(ツ)_/¯

Впрочем и claude code и cursor без нескольких mcp серверов уже тоже представить сложно, расскажу о них когда нибудь потом 🙂
2🌭11
Опять github only походу будет.

И снова это почти ничем не оправдать.

Как бы агентские тулы не были реализованы под капотом – разве что совсем лапшой нераспутываемой, навайбкодить интеграцию с api гитлаба это достаточно простое, быстрое и милое дело.

Продолжаем смотреть 🎥
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭2
Привет! Ну, с почином меня, я начинаю постить за paywall.

Отличная возможность, для всех кто хотел, начать меня поддерживать!

Первый разминочный пост про кеширвание в AI системах уже на boosty 🔗

А дальше будет цикл про паттерны проектирования, подписывайтесь 📝

В довесок средствами boosty вы должны получить доступ в приватный чат в телеграмм, где со мной можно пообщаться чуть плотнее чем в комментах тут, запросить посты на конкретные темы, или получить микро-консультацию.

За пейволом как обычно ссылка на мой статик блог, только не публичная.

А, и да, я снова изменил стили на сайте, теперь он выглядит лучше чем когда либо 💃
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭22
Давненько не было постов, особенно не про AI а про махровую, вечную и светлую программную инженерию.

Сегодня небольшой материал про генерацию исключений, а точнее о том – почему это злющее зло.

Отправь другу который любит try/except 🙂
7🌭1
GPT-5 хорошая крутая.

Cursor выпустил свой cli, который никуда не годится в сравнение с claude-code – странно "ходит" по проекту, даже не пытается его как то "индексировать" (индексирования тут в кавычках потому что claude code просто собирает факты о проекте и сохраняет под себя).

Очень сырое, cursor поторопился с релизом.

GPT-5 очень хорош в аутентичных бенчмарках, себя показал (в пузомерках там вообще фурор, но у них фурор на каждый чих).

Есть основания полагать, что в разработке оно сильнее моделей антропки, НО давайте это проверять вместе 🦍

На примерe cursor-agent тулы хорошо видно, как плохая реализация может закопать все сильные стороны модели (запускал я его дефолтно, уже с gpt-5).

Это все важные новости к этому часу.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭21
Даже если там под капотом просто LLM с условным «REPL» в Lean – это очень и очень круто! 🤓
🌭1
Forwarded from Дизраптор
Ещё одна важная новость из мира эйай:

Стартап Harmonic запустил приложение с чатботом, став первым общедоступным математическим эйай-сервисом с формальной проверкой результата. А скоро обещают и API для компаний выкатить.

Обычный* генеративный ИИ работает примерно как ребёнок, которого родители научили, что ветер дует, потому что деревья качаются, и он говорит: "ветер дует". А почему он дует? И дует ли?

Другими словами, если попросить ChatGPT или Claude расписать математическую формулу, то он её... как бы сказать... попробует угадать в формате "я зделяль". Но ответить и пояснить за свой генеративный базар не сможет. Можно ли такой формуле доверять и закладывать её в серьёзные расчёты - судите сами.

А ИИшка от Harmonic под названием "Aristotle" работает не так. Генеративный ИИ (LLM) предлагает гипотезу или часть решения и передаёт её в специальный доказательный движок, который всё проверяет с точки зрения формальной логики, аксиом, мат. определений. Алгоритмически, то бишь.

Весь процесс происходит на Lean - это такой интерактивный инструмент доказательства теорем. По сути, специальный язык программирования и формальной логики, где каждое утверждение должно быть доказано шаг за шагом, а пруф должен быть проверяем машиной.

Если движок "Аристотеля" не может верифицировать решение от LLM, то генерится другое решение. Потом его снова проверяют. И так по новой, пока проверка не будет пройдена. И лишь тогда решение выплюнется юзеру.

За счёт этого Harmonic не галлюционирует, и (по идее) его можно использовать для взрослых математических и логических задач. От академической математики до инженерии, фин. анализа и даже юридических рассуждений.

* Генеративный ИИ теперь обычный, дожили, хех 😈

Дизраптор
Please open Telegram to view this post
VIEW IN TELEGRAM
3🌭1
Я пообщался с ребятами на Reddit (и не только) по поводу испытываемых ими болей при разработке AI систем.

Сами проблемы вообще не удивительно, ничего нового нет:

- Недетерминированные результаты, постоянно глючит
- Только добились нормального поведения, выходит новая SoTA модель, но с ней внезапно система работает намного хуже
- Постоянно переписывают evaluation тесты, и толка от них мало (см пункт 1)
- Ну и мое любимое – нормального агента на function-calls как они есть в API построить очень и очень сложно. Ребята пишут что максимальная точность, которой они смогли добиться, составила примерно 80%, при этом было написано более 100 eval тестов, кроме которых еще приходилось постоянно a/b тестировать руками привлекая свои семьи 😨

Вишенка на торте:

"Мы так задолбались что решили вообще переключиться с попытки разрабатывать свои AI продукты на удовлетворение потребностей наших прямых клиентов"


Я так понял что подразумевалось удовлетворение этих самых потребностей с использованием LLM.

И вот это удивительно – коллеги одновременно не могут найти решения своим страданиям, и при этом пародаксальным образом начинают решать реальные боли клиентов проще и лучше, чем любые другие своим стартапные начинания.

На фоне этого небольшого исследования я написал пост на boosty где я раскрываю конкретную причину всех этих страданий (сама причина крайне обширная, но все еще очень конкретная), и даю базовый но емкий чеклист вместе со ссылкой на хорошее описания SoTA паттерна разработки AI систем.

in my honest opinion этот чеклист, понимание проблемы, и упомянутая техника при должном применении решат просто огромное количество упомянутых бед 🫣

***

Поделитесь тут в комментариях своими болями, самому дущераздирающему комменту отдам пост с бусти прямым линком.
Please open Telegram to view this post
VIEW IN TELEGRAM
43🌭1
А еще вся эта история про общение с зарубежными коллегами заставила продолжать переосмысливать формат моего блога, и платной и бесплатной части. Особенно то почему я стал писать реже и неосознанно подрывать деятельность, не инвестировать в рекламу boosty.

Причин несколько.

Во-первых, очень врядли что хоть сколько нибудь большое количество людей будут платить за блог на boosty – не сколько из за отношения, сколько потому что boosty далеко не все зарубежные карты принимает, ну и там тупо неудобно читать (кто подписан на меня знает, что я просто скрытые линки раздаю там с того же самого публичного блога что живет на ivanzakutnii.com)

Во-вторых, практически все хорошие блоги живут на формате почтовых рассылок вроде substack. Я точно не знаю почему, но мне самому как читателю сабстаков просто тупо удобно получать новые посты на почту.

Ну и публиковаться я продолжаю на двух языках, и менять этого не планирую. Как минимум есть проблемы, запрос.

Кто тут сидит давно помнит короткий период жизни моего сабстака. Почему я бросил туда писать? Ну... не бросил, туда публикуются посты без пейвола 💧

TL;DR – Stripe не работает в Армении, а двигаться я никуда не собираюсь 🙂

Я эту запару упоминал тут и опрашивал вас.

Чтож-делать чтож-делать? Писать на английском нужно, и продавать подписки тоже нужно везде. Мой ментор несколько месяцев назад подкинул посмотреть на ghost.org – я посмотрел и история там примерно такая же.

Это opensource платформа, но у них есть облачные тарифы, все круто и выглядит даже чуток лучше чем сабстак если бы не одно но – нормальную интеграцию ребята сделали тоже только со страйпом, и уже третий или четвертый год на всех форумах и issue где люди плачут что у них страйп в стране не работет получают в ответ – "ну вот тут у нас есть admin api, вы тут можете как нибудь двумя костыликами подпереть на вебхуках, или zapier'ом из патреона подписчиков синхронизировать"

Учитывая это, и то что хотелось бы вести блог-рассылку и на территории РФ я чуть ли не единственным выходом вижу... Напилить свою мини-платформу и платежи тоже самому интегрировать ¯\_(ツ)_/¯

mailgun + verifone пока фавориты технологий под капотом, а усилий выглядит не многим больше чем лепить костыли вокруг ghost, или еще хуже – вести несколько разных платформ и пытаться как то их синхронизировать. Я думал развиватьс boosty + patreon для остального мира но это очень странно, и теряется очень и очень ценная штука – база подписчиков, тупо список с почтовыми ящиками.

такие дела.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌭21