Мой нормальный диалог с o3 выглядит вот так. А я хочу, чтобы на заброшенный мной идеи и вопросы появлялись аналитические отчёты, презентации, графики, код и даже прототипы продуктов. Всё это совершенно не фантастические запросы
👍1
Посидел почти целый рабочий день в Claude Code. Сначала использовал его просто как кодера, чтобы переписать мой ии-плагин для Обсидиана (всё получилось, даже добавил несколько новых функций).
А потом, для одного стартапа — как универсального агента. Говорят, это правильный способ думать про агентов, которых сейчас выпускают большие компании — как про первых универсальных, которые могут ещё и писать код.
Помимо доступа к созданию и запуску файлов, которые вам, впрочем, нужно вручную подтверждать в рамках сессии, вы можете использовать всю аналитическую мощь Клода, который по-прежнему является одной из самых прорывных и мощных моделей на рынке.
Клод Код умеет искать в интернете — хоть и не так бодро, как специализированные агенты, а также писать любые инструменты, которые потребуются для выполнения задач.
Для своего проекта я начал создавать с помощью claude хранилище в Обсидиан с результатами исследования для стартапа, к которому подключился.
Для начала, я указал Клоду, что папка, в которой он запущен, — это хранилище Obsidian, и здесь мы будем собирать всевозможные документы, результаты исследований, продуктовые гипотезы, маркетинговые материалы, архивы встреч, чаты и другие материалы.
Клод предложил структуру, создал папки и даже сразу же нашел несколько статей и исследований в интернете, которые были релевантны.
Потом тихонько написал пяток утилит — для парсинга документов из интернета, еще несколько пришлось его попросить написать — утилиту, чтобы файлы на кусочки разбивать, и рекомендации я решил делать через langchain, об этом пришлось попросить напрямую.
Задачи он выполнял асинхронно. В любой момент можно было добавлять новые условия или обстоятельства, или просить изменить задачу, переформулировать ее. Я просто смотрел, как в хранилище появляются новые связанные друг с другом файлы, и некоторые из них содержат выводы, которые я завтра буду показывать на встрече с создателями продукта.
Сказать, что я в восторге будет мало. Потихоньку становится понятно, что такое на самом деле то самое software 3.0.
А потом, для одного стартапа — как универсального агента. Говорят, это правильный способ думать про агентов, которых сейчас выпускают большие компании — как про первых универсальных, которые могут ещё и писать код.
Помимо доступа к созданию и запуску файлов, которые вам, впрочем, нужно вручную подтверждать в рамках сессии, вы можете использовать всю аналитическую мощь Клода, который по-прежнему является одной из самых прорывных и мощных моделей на рынке.
Клод Код умеет искать в интернете — хоть и не так бодро, как специализированные агенты, а также писать любые инструменты, которые потребуются для выполнения задач.
Для своего проекта я начал создавать с помощью claude хранилище в Обсидиан с результатами исследования для стартапа, к которому подключился.
Для начала, я указал Клоду, что папка, в которой он запущен, — это хранилище Obsidian, и здесь мы будем собирать всевозможные документы, результаты исследований, продуктовые гипотезы, маркетинговые материалы, архивы встреч, чаты и другие материалы.
Клод предложил структуру, создал папки и даже сразу же нашел несколько статей и исследований в интернете, которые были релевантны.
Потом тихонько написал пяток утилит — для парсинга документов из интернета, еще несколько пришлось его попросить написать — утилиту, чтобы файлы на кусочки разбивать, и рекомендации я решил делать через langchain, об этом пришлось попросить напрямую.
Задачи он выполнял асинхронно. В любой момент можно было добавлять новые условия или обстоятельства, или просить изменить задачу, переформулировать ее. Я просто смотрел, как в хранилище появляются новые связанные друг с другом файлы, и некоторые из них содержат выводы, которые я завтра буду показывать на встрече с создателями продукта.
Сказать, что я в восторге будет мало. Потихоньку становится понятно, что такое на самом деле то самое software 3.0.
🔥5
Пару месяцев назад я было решил сделать большую ставку на ChatGPT. С публичного выхода о3 я практически только им и пользовался, и свой опыт рассматриваю как очень успешный. Благодаря бесконечному наукоемкому исследованию, я реанимировал свой основной канал и пишу туда ежедневно. Чат — мой важный инструмент, один из основных рисерч-тулов (но замыкаться только на него я не хочу).
Кажется, в прошлом году я начал говорить о Cursor и Windsurf как об универсальных knowledge-менеджерах (а значит, в перспективе, и просто менеджерах). А теперь, возможно, внутри такого агента будет что-то вроде claude code.
Или Opencode?
Кажется, в прошлом году я начал говорить о Cursor и Windsurf как об универсальных knowledge-менеджерах (а значит, в перспективе, и просто менеджерах). А теперь, возможно, внутри такого агента будет что-то вроде claude code.
Или Opencode?
Linkedin
I've watched what might be the world’s first CLI AI agent deathmatch. | Mitko Vasilev
I've watched what might be the world’s first CLI AI agent deathmatch. Six contestants: `claude-code`, `anon-kode`, `codex`, `opencode`, `ampcode`, and `gemini-cli` entered a digital thunderdome with one directive:
“Find and kill other processes. Last PID…
“Find and kill other processes. Last PID…
❤3
ChatGPT очень странный продукт. Его обновляют по кусочкам, и некоторые из этих кусочков могут оказать серьезное влияние на то, как им можно пользоваться.
Одним за другим выпускают апдейты голосового режима. Наконец-то продвинутым голосовым режимом можно пользоваться в старых чатах, в том числе в тех, где был запущен deep research.
Теперь такой паттерн: запускаю дип рисерч (можно по расписанию), захожу в чат, запускаю голосовой режим и получаю голосовое саммари, сразу же могу задавать вопросы, формулировать гипотезы и так далее. По сути, это похоже на пресловутый интерактивный подкаст NotebookML.
Pro tip: Включил в голосовом режиме субтитры, чтобы иметь возможнось визуально сканировать ответы LLM (например, если отвлекся).
Одним за другим выпускают апдейты голосового режима. Наконец-то продвинутым голосовым режимом можно пользоваться в старых чатах, в том числе в тех, где был запущен deep research.
Теперь такой паттерн: запускаю дип рисерч (можно по расписанию), захожу в чат, запускаю голосовой режим и получаю голосовое саммари, сразу же могу задавать вопросы, формулировать гипотезы и так далее. По сути, это похоже на пресловутый интерактивный подкаст NotebookML.
Pro tip: Включил в голосовом режиме субтитры, чтобы иметь возможнось визуально сканировать ответы LLM (например, если отвлекся).
Вот такой сложности рабочий плагин для Obsidian я вместе с Claude Code написал за один вечер. В тот вечер я забыл переключиться в режим подписчика и не тратить на это токены, зато точно знаю, сколько денег мне стоило эта разработка — $17.86.
За полностью рабочее решение, покрытое тестами, которые реально проходятся, которое использует в нескольких точках ии…
Мы даже добавили несколько фичей (например, файл можно переименовать, используя более дешевую модель, а текст обработать более продвинутой) по сравнению с предыдущей версией.
Ещё много что можно улучшить, но пока что это самый-самый лучший опыт взаимодействия с ии-агентами за всё моё время в ии.
За полностью рабочее решение, покрытое тестами, которые реально проходятся, которое использует в нескольких точках ии…
Мы даже добавили несколько фичей (например, файл можно переименовать, используя более дешевую модель, а текст обработать более продвинутой) по сравнению с предыдущей версией.
Ещё много что можно улучшить, но пока что это самый-самый лучший опыт взаимодействия с ии-агентами за всё моё время в ии.
🔥9
Очень хорошая новость про Claude Code — у него есть SDK. То есть можно строить приложение поверх его функциональности, вообще не связанного с разработкой программного обеспечения. Можно сделать бота, к которому через DeepGram подключить возможность разговаривать с вами, и который будет узнавать вас и писать о вас тексты, общаясь с вами голосом. (Естественно, подключение поможет сделать claude code.)
Можно будет построить ии коуча, который будет анализировать вашу биометрию, ваши субъективные данные — результаты опросников, а также анализировать, что вы читаете, что вы говорите на встречах и о чем пишите в социальных сетях. Claude уже сейчас прекрасно справляется со разными типами анализа данных, а через claude code у него появляется возможность «действовать» — писать код, ставить эксперименты, пробовать разные стратегии и даже самообучаться.
Записал немного видео про взаимодействие с ним и ChatGPT o3, как перевожу данные из одного в другое, в каких контекстах чем пользуюсь.
Можно будет построить ии коуча, который будет анализировать вашу биометрию, ваши субъективные данные — результаты опросников, а также анализировать, что вы читаете, что вы говорите на встречах и о чем пишите в социальных сетях. Claude уже сейчас прекрасно справляется со разными типами анализа данных, а через claude code у него появляется возможность «действовать» — писать код, ставить эксперименты, пробовать разные стратегии и даже самообучаться.
Записал немного видео про взаимодействие с ним и ChatGPT o3, как перевожу данные из одного в другое, в каких контекстах чем пользуюсь.
Anthropic
Claude Code SDK - Anthropic
Build custom AI agents with the Claude Code SDK
🔥4
Технологии на самом деле не так важны. У меня нет никакой лояльности к компании Антропик. Они сделали лучшего кодинг-агента, которые продолжает быть в топах всех бенчмарков и остаётся предпочитаемой моделью для миллионов разработчиков. И еще он на более приятном английском общается.
Но эта же компания для тренировки модели уничтожила миллионы книг (да, есть способ жёсткой оцифровки книг, при котором книги разрезаются, а потом выбрасываются). И ваш любимый бот помогает и будет помогать военным кого-то бомбить, и экзекутивы крупных ии-компаний стали военными.
Думаю, мы должны стремиться к автономным ии-агентам, работающим на открытых технологиях, думаю, мы ещё будем файнтьюнить под себя китайские сети — те же ии-агенты нам в этом помогут.
Но пока есть возможность и доступ, вижу смысл пользоваться самыми умными инструментами, до которых могут дотянуться руки.
Большие языковые модели у OpenAI и Anthropic на самом деле сильно похожи по эффективности, бенчмарки насыщаются всеми с почти одинаковой скоростью, а значительная разница в том, как компании учат языковые модели пользоваться инструментами.
Производительность Devin и Codex отличается, хотя у них есть доступ к одним и тем же технологиям — во многом из-за другого уровня использования инструментов.
Claude code прямо хорошо умеет пользоваться разными инструментами. Я просто сказал ему использовать для генерации презентаций Marp (потому что раньше делал deep research на тему лучших конвертеров markdown → presentation), а дальше на выходе в папке с презентациями получаю презентации в html по темам, которые прошу.
С этим вашим ИИ люди, которые хоть немного понимают в технологиях, получают прям ощутимые преимущества. У нас есть инструменты, которые позволяют пользоваться любыми инструментами, которые только можно запустить на компьютере (а компьютеры до определенной степени могут управлять физическим миром при помощи манипуляторов и роботы).
Впервые в истории человечества естественный язык так легко превращается в код, а код — это потенциал физического действия. Это словарное определение слова магия.
Думаю, что именно технические люди имеют максимальный потенциал для использования возможностей этих технологий. Главное — научиться видеть шире собственной экспертизы, которая в свою очередь может нести с собой нерелевантный опыт (то есть с низкой силой предсказания — бесполезный) и когнитивные искажения.
Но эта же компания для тренировки модели уничтожила миллионы книг (да, есть способ жёсткой оцифровки книг, при котором книги разрезаются, а потом выбрасываются). И ваш любимый бот помогает и будет помогать военным кого-то бомбить, и экзекутивы крупных ии-компаний стали военными.
Думаю, мы должны стремиться к автономным ии-агентам, работающим на открытых технологиях, думаю, мы ещё будем файнтьюнить под себя китайские сети — те же ии-агенты нам в этом помогут.
Но пока есть возможность и доступ, вижу смысл пользоваться самыми умными инструментами, до которых могут дотянуться руки.
Большие языковые модели у OpenAI и Anthropic на самом деле сильно похожи по эффективности, бенчмарки насыщаются всеми с почти одинаковой скоростью, а значительная разница в том, как компании учат языковые модели пользоваться инструментами.
Производительность Devin и Codex отличается, хотя у них есть доступ к одним и тем же технологиям — во многом из-за другого уровня использования инструментов.
Claude code прямо хорошо умеет пользоваться разными инструментами. Я просто сказал ему использовать для генерации презентаций Marp (потому что раньше делал deep research на тему лучших конвертеров markdown → presentation), а дальше на выходе в папке с презентациями получаю презентации в html по темам, которые прошу.
С этим вашим ИИ люди, которые хоть немного понимают в технологиях, получают прям ощутимые преимущества. У нас есть инструменты, которые позволяют пользоваться любыми инструментами, которые только можно запустить на компьютере (а компьютеры до определенной степени могут управлять физическим миром при помощи манипуляторов и роботы).
Впервые в истории человечества естественный язык так легко превращается в код, а код — это потенциал физического действия. Это словарное определение слова магия.
Думаю, что именно технические люди имеют максимальный потенциал для использования возможностей этих технологий. Главное — научиться видеть шире собственной экспертизы, которая в свою очередь может нести с собой нерелевантный опыт (то есть с низкой силой предсказания — бесполезный) и когнитивные искажения.
❤3
Когда-то пару лет своей жизни я занимался сбором данных — информации об отелях, хостелах, достопримечательностях, географии населенных пунктов и так далее. Тогда мне стало понятно, что, вообще-то, данные из реального мира собрать очень сложно, потому что не все из них в приницпе являются настолько точными и официальными, насколько нам бы хотелось. Даже такое простое, устойчивое в больших городах явление, как адрес в зонах, чуть более отдаленных от магистральных дорог, может быть очень разным — адреса может не быть, как такового, он может быть по-разному записан в разных источниках, или вместо адреса написана инструкция, как добираться из ближайшего крупного населенного пункта (не обязательно на том языке, который вам нужен).
Данные из реального мира собирать тяжело и дорого. Мир хоть и наполнен записывающими устройствами, но не оцифрован и на сотые доли процентов.
Далеко не все записывается. Компьютеры и искусственный интеллект «знают» про нашу жизнь гораздо меньше, чем знаем про нее мы, чем знает трехлетний ребенок. Часто эти знания тяжело — или никак — не передаются в текст.
Доступ к реальным данным нашего мира и разным его уголкам становится более важным, чем доступ к самым последним ии-моделям. Я уверен, что те языковые модели, что есть у нас сейчас, пусть и несовершенны (да, они не умеют играть в тетрис), но уже очень даже достаточны для того, чтобы нам, людям, работать гораздо более эффективно, быстро и умно.
Важными сколько-то hard skills становится управление собственным контекстом — личным, профессиональным, исследовательским. Промт-инжениринг, безусловно, полезный навык, но не главный. Уже доступные нам технологии становятся пугающе эффективными, когда применены к оптимально подобранной задаче с качественным датасетом. Чтобы системно работать с ИИ, нам нужен правильно подобранный контекст — бесконечного контекста не будет никогда.
Knowledge is a process of piling up facts;
wisdom lies in their simplification. Martin H. Fischer, German-born American Physician / Teacher / Author (1879-1962). Из отчёта Mary Meeker — читали?
Данные из реального мира собирать тяжело и дорого. Мир хоть и наполнен записывающими устройствами, но не оцифрован и на сотые доли процентов.
Далеко не все записывается. Компьютеры и искусственный интеллект «знают» про нашу жизнь гораздо меньше, чем знаем про нее мы, чем знает трехлетний ребенок. Часто эти знания тяжело — или никак — не передаются в текст.
Доступ к реальным данным нашего мира и разным его уголкам становится более важным, чем доступ к самым последним ии-моделям. Я уверен, что те языковые модели, что есть у нас сейчас, пусть и несовершенны (да, они не умеют играть в тетрис), но уже очень даже достаточны для того, чтобы нам, людям, работать гораздо более эффективно, быстро и умно.
Важными сколько-то hard skills становится управление собственным контекстом — личным, профессиональным, исследовательским. Промт-инжениринг, безусловно, полезный навык, но не главный. Уже доступные нам технологии становятся пугающе эффективными, когда применены к оптимально подобранной задаче с качественным датасетом. Чтобы системно работать с ИИ, нам нужен правильно подобранный контекст — бесконечного контекста не будет никогда.
Knowledge is a process of piling up facts;
wisdom lies in their simplification. Martin H. Fischer, German-born American Physician / Teacher / Author (1879-1962). Из отчёта Mary Meeker — читали?
❤6👍3
https://airtable.com/ перезапустились как AI-first конструктор приложений.
Они по-прежнему в первую очередь про базы знаний, только теперь и эти базы, и довольно сложные интерфейсы к ним можно создавать из одного промта.
Если вам в первую очередь нужна сложная структура данных, которой можно из коробки гибко управлять, причём во взаимодействии — например, ваша личная CRM — рекомендую
Они по-прежнему в первую очередь про базы знаний, только теперь и эти базы, и довольно сложные интерфейсы к ним можно создавать из одного промта.
Если вам в первую очередь нужна сложная структура данных, которой можно из коробки гибко управлять, причём во взаимодействии — например, ваша личная CRM — рекомендую
Второй месяц хожу с Plaud Note Pin — это такой простенький и довольно стильный ии-диктофон, которым можно пользоваться без телефона. Про него поговорим в другой раз, а сейчас хочу показать штуку, которую я за сегодня написал вместе с claude code для того, чтобы сделать работу с заметками с него чуть более простой.
На выходе Plaud создает файлы с саммари, которые можно кастомизировать на платных тарифах через написание собственных промтов, и транскрипты. Я забираю и то, и другое через Zapier (бесплатного хватает) в Dropbox.
При появлении нового файла запускается написанный мой скрипт, который считывает новые файлы, анализирует и сам выполняет с ними несколько операций:
→ вычленияет концепции и имена (без DimaTorzok тут не обошлось, увы, надо будет учесть в промтах)
→ вычленияем и обновляет нарративы — идеи, про которые я в заметках говорю
То есть куча текстовых файлов по задумке превращается автоматически в организованных граф.
Выглядит так примерно: https://screen.studio/share/rY9lFwhv — это граф Обсидиана, там есть пара секунд, где видно, как в него добавляется пара нодов — это скрипт обработал очередную запись. Мозг выдает дофаминчику каждый раз, когда очередной кусочек хаотичного контента превратился в чуть менее хаотичный.
Над промтами здесь придется, конечно, ещё потрудиться. Добавлять этапы обработки, исключения, убирать шум, уточнять функциональность, добавлять словарь. И больше всего крутить функции, отвечающие за релевантность отбираемого контента — через больший контекст.
Всё-всё здесь, включая промты, сделано через claude code — в этот раз у меня получилось лучше и быстрее, чем в предыдущие разы, потому что сейчас я много писал перед тем, как запустить разработку.
Описал задачу в самых общих словах. После этого попросил claude code позадавать мне вопросы про детали реализации. Посмотрел в режиме планирования на план и вкинул ещё уточнений, ещё раз попросил позадавать вопросы. Суммарно скормил Клоду страницы 3 текста.
До первой генерации кода потратил, наверное, час-полтора — быстро понял, что в интерфейсе клода это делать неудобно, так что выбирался отвечать на вопросы в свой Obsidian. И уже после всего попросил написать product requirements (это стоит делать эксплицитно) и после этого начал генерацию кода.
Есть несколько наблюдений по режиму работы с такими системами — по сравнению с более простыми / более линейными и менее агентными продуктами вроде aider. Как обычно, пока не начнёшь щупать, даже не задумываешься о таком. Накидаю в следующим постах.
На выходе Plaud создает файлы с саммари, которые можно кастомизировать на платных тарифах через написание собственных промтов, и транскрипты. Я забираю и то, и другое через Zapier (бесплатного хватает) в Dropbox.
При появлении нового файла запускается написанный мой скрипт, который считывает новые файлы, анализирует и сам выполняет с ними несколько операций:
→ вычленияет концепции и имена (без DimaTorzok тут не обошлось, увы, надо будет учесть в промтах)
→ вычленияем и обновляет нарративы — идеи, про которые я в заметках говорю
То есть куча текстовых файлов по задумке превращается автоматически в организованных граф.
Выглядит так примерно: https://screen.studio/share/rY9lFwhv — это граф Обсидиана, там есть пара секунд, где видно, как в него добавляется пара нодов — это скрипт обработал очередную запись. Мозг выдает дофаминчику каждый раз, когда очередной кусочек хаотичного контента превратился в чуть менее хаотичный.
Над промтами здесь придется, конечно, ещё потрудиться. Добавлять этапы обработки, исключения, убирать шум, уточнять функциональность, добавлять словарь. И больше всего крутить функции, отвечающие за релевантность отбираемого контента — через больший контекст.
Всё-всё здесь, включая промты, сделано через claude code — в этот раз у меня получилось лучше и быстрее, чем в предыдущие разы, потому что сейчас я много писал перед тем, как запустить разработку.
Описал задачу в самых общих словах. После этого попросил claude code позадавать мне вопросы про детали реализации. Посмотрел в режиме планирования на план и вкинул ещё уточнений, ещё раз попросил позадавать вопросы. Суммарно скормил Клоду страницы 3 текста.
До первой генерации кода потратил, наверное, час-полтора — быстро понял, что в интерфейсе клода это делать неудобно, так что выбирался отвечать на вопросы в свой Obsidian. И уже после всего попросил написать product requirements (это стоит делать эксплицитно) и после этого начал генерацию кода.
Есть несколько наблюдений по режиму работы с такими системами — по сравнению с более простыми / более линейными и менее агентными продуктами вроде aider. Как обычно, пока не начнёшь щупать, даже не задумываешься о таком. Накидаю в следующим постах.
PLAUD US
PLAUD NotePin
PLAUD NotePin: Your wearable AI note-taker. Capture meetings and ideas effortlessly with this innovative device.
🔥2❤1
https://www.director.ai/ — бесплатный агент в духе Operator или Devin. Работает даже без регистрации.
❤2
https://getvoicemode.com/ — початиться голосом с вашим кодинг-агентом (пробовал с claude code). Работает с локальным Text-to-speech Kokoro, и с OpenAI API.
С помощью этой штуки в пару команд можно наконец-то реализовать сценарий «давай голосом поговорим про мой Obsidian»
С помощью этой штуки в пару команд можно наконец-то реализовать сценарий «давай голосом поговорим про мой Obsidian»
Getvoicemode
Voice Mode MCP Server - Natural voice conversations with AI
Voice Mode enables natural voice conversations with Claude, ChatGPT, and other AI assistants. Simple setup, powerful features.
https://www.huxe.com/
Авторы NotebookLM запустили новое приложение Huxe. Персонализированный подкаст на основе вашего календаря, почты и новостей.
Код для активации: android (на iOS тоже сработал)
Авторы NotebookLM запустили новое приложение Huxe. Персонализированный подкаст на основе вашего календаря, почты и новостей.
Код для активации: android (на iOS тоже сработал)
👍2🌚1
Сидел вчера плотненько с голосовым ассистентом Hume.ai, который умеет (с оговорками) идентифицировать эмоции. В течение получаса среди эмоций он выделяет hunger. Пошёл поесть, помогло.
Кстати, в английском есть классное слово hangry = hungry + angry. Не забывайте поесть.
Кстати, в английском есть классное слово hangry = hungry + angry. Не забывайте поесть.
😁4🔥2