Tool Building Ape × Gleb Kalinin
436 subscribers
176 photos
9 videos
2 files
119 links
@glebkalinin пишет о технологиях, ИИ и жизни в будущем. @Experimentally @mentalhealthtech

Without philosophical examination, builders inherit their answers from the defaults of their environment.
Download Telegram
Tool Building Ape × Gleb Kalinin
Делаю небольшой проект. В прошлом году я написал через aider и Claude 3.7 плагин для Обсидиана с ностальгическим названием erouter 486. Плагин умеет мониторить любую папку, а когда в ней появляются новый файлы, запускает поверх файла промт, а результат…
Чего хочу в новой версии плагина:

Во-первых, обарабатывать файлы именно думающей моделью o3. Сейчас мой плагин использует открытые модели на Groq, это быстро и (почти) бесплатно, но мне нужна агентная мощь o3. Я практически перестал пользоваться другими версиями GPT, и мой Obsidian теперь нередко пополняется результатами исследований, проведенных в паре с o3 или deep research.

Мне нравится этот процесс, он асинхронный и требует особого навыка распределения задач, планирования, и всё тех же классических навыков критической работы с источниками — с моими кастомными инструкциями o3 превращается в самого занудного нёрда, который даже на вопрос «Как дела» не отвечает без ссылок на 7 исследований. Для таких сетей чат и вовсе не является оптимальной средой.

Я однозначно хочу автоматически переводить результаты агентного исследования в другие форматы — в презентацию в формате executive summary, в аудио, в короткое видео, в интерактивную доску или графовую среду.
Мой нормальный диалог с o3 выглядит вот так. А я хочу, чтобы на заброшенный мной идеи и вопросы появлялись аналитические отчёты, презентации, графики, код и даже прототипы продуктов. Всё это совершенно не фантастические запросы
👍1
Посидел почти целый рабочий день в Claude Code. Сначала использовал его просто как кодера, чтобы переписать мой ии-плагин для Обсидиана (всё получилось, даже добавил несколько новых функций).

А потом, для одного стартапа — как универсального агента. Говорят, это правильный способ думать про агентов, которых сейчас выпускают большие компании — как про первых универсальных, которые могут ещё и писать код.

Помимо доступа к созданию и запуску файлов, которые вам, впрочем, нужно вручную подтверждать в рамках сессии, вы можете использовать всю аналитическую мощь Клода, который по-прежнему является одной из самых прорывных и мощных моделей на рынке.

Клод Код умеет искать в интернете — хоть и не так бодро, как специализированные агенты, а также писать любые инструменты, которые потребуются для выполнения задач.

Для своего проекта я начал создавать с помощью claude хранилище в Обсидиан с результатами исследования для стартапа, к которому подключился.

Для начала, я указал Клоду, что папка, в которой он запущен, — это хранилище Obsidian, и здесь мы будем собирать всевозможные документы, результаты исследований, продуктовые гипотезы, маркетинговые материалы, архивы встреч, чаты и другие материалы.

Клод предложил структуру, создал папки и даже сразу же нашел несколько статей и исследований в интернете, которые были релевантны.

Потом тихонько написал пяток утилит — для парсинга документов из интернета, еще несколько пришлось его попросить написать — утилиту, чтобы файлы на кусочки разбивать, и рекомендации я решил делать через langchain, об этом пришлось попросить напрямую.

Задачи он выполнял асинхронно. В любой момент можно было добавлять новые условия или обстоятельства, или просить изменить задачу, переформулировать ее. Я просто смотрел, как в хранилище появляются новые связанные друг с другом файлы, и некоторые из них содержат выводы, которые я завтра буду показывать на встрече с создателями продукта.

Сказать, что я в восторге будет мало. Потихоньку становится понятно, что такое на самом деле то самое software 3.0.
🔥5
Пару месяцев назад я было решил сделать большую ставку на ChatGPT. С публичного выхода о3 я практически только им и пользовался, и свой опыт рассматриваю как очень успешный. Благодаря бесконечному наукоемкому исследованию, я реанимировал свой основной канал и пишу туда ежедневно. Чат — мой важный инструмент, один из основных рисерч-тулов (но замыкаться только на него я не хочу).


Кажется, в прошлом году я начал говорить о Cursor и Windsurf как об универсальных knowledge-менеджерах (а значит, в перспективе, и просто менеджерах). А теперь, возможно, внутри такого агента будет что-то вроде claude code.

Или Opencode?
3
ChatGPT очень странный продукт. Его обновляют по кусочкам, и некоторые из этих кусочков могут оказать серьезное влияние на то, как им можно пользоваться.

Одним за другим выпускают апдейты голосового режима. Наконец-то продвинутым голосовым режимом можно пользоваться в старых чатах, в том числе в тех, где был запущен deep research.

Теперь такой паттерн: запускаю дип рисерч (можно по расписанию), захожу в чат, запускаю голосовой режим и получаю голосовое саммари, сразу же могу задавать вопросы, формулировать гипотезы и так далее. По сути, это похоже на пресловутый интерактивный подкаст NotebookML.

Pro tip: Включил в голосовом режиме субтитры, чтобы иметь возможнось визуально сканировать ответы LLM (например, если отвлекся).
Вот такой сложности рабочий плагин для Obsidian я вместе с Claude Code написал за один вечер. В тот вечер я забыл переключиться в режим подписчика и не тратить на это токены, зато точно знаю, сколько денег мне стоило эта разработка — $17.86.

За полностью рабочее решение, покрытое тестами, которые реально проходятся, которое использует в нескольких точках ии…

Мы даже добавили несколько фичей (например, файл можно переименовать, используя более дешевую модель, а текст обработать более продвинутой) по сравнению с предыдущей версией.

Ещё много что можно улучшить, но пока что это самый-самый лучший опыт взаимодействия с ии-агентами за всё моё время в ии.
🔥9
Очень хорошая новость про Claude Code — у него есть SDK. То есть можно строить приложение поверх его функциональности, вообще не связанного с разработкой программного обеспечения. Можно сделать бота, к которому через DeepGram подключить возможность разговаривать с вами, и который будет узнавать вас и писать о вас тексты, общаясь с вами голосом. (Естественно, подключение поможет сделать claude code.)

Можно будет построить ии коуча, который будет анализировать вашу биометрию, ваши субъективные данные — результаты опросников, а также анализировать, что вы читаете, что вы говорите на встречах и о чем пишите в социальных сетях. Claude уже сейчас прекрасно справляется со разными типами анализа данных, а через claude code у него появляется возможность «действовать» — писать код, ставить эксперименты, пробовать разные стратегии и даже самообучаться.

Записал немного видео про взаимодействие с ним и ChatGPT o3, как перевожу данные из одного в другое, в каких контекстах чем пользуюсь.
🔥4
Думаю сделать небольшую лабу про использование claude code + obsidian + deep research для генерации новых смыслов, проектов, продуктов
9👍5
Технологии на самом деле не так важны. У меня нет никакой лояльности к компании Антропик. Они сделали лучшего кодинг-агента, которые продолжает быть в топах всех бенчмарков и остаётся предпочитаемой моделью для миллионов разработчиков. И еще он на более приятном английском общается.

Но эта же компания для тренировки модели уничтожила миллионы книг (да, есть способ жёсткой оцифровки книг, при котором книги разрезаются, а потом выбрасываются). И ваш любимый бот помогает и будет помогать военным кого-то бомбить, и экзекутивы крупных ии-компаний стали военными.

Думаю, мы должны стремиться к автономным ии-агентам, работающим на открытых технологиях, думаю, мы ещё будем файнтьюнить под себя китайские сети — те же ии-агенты нам в этом помогут.

Но пока есть возможность и доступ, вижу смысл пользоваться самыми умными инструментами, до которых могут дотянуться руки.

Большие языковые модели у OpenAI и Anthropic на самом деле сильно похожи по эффективности, бенчмарки насыщаются всеми с почти одинаковой скоростью, а значительная разница в том, как компании учат языковые модели пользоваться инструментами.

Производительность Devin и Codex отличается, хотя у них есть доступ к одним и тем же технологиям — во многом из-за другого уровня использования инструментов.

Claude code прямо хорошо умеет пользоваться разными инструментами. Я просто сказал ему использовать для генерации презентаций Marp (потому что раньше делал deep research на тему лучших конвертеров markdown → presentation), а дальше на выходе в папке с презентациями получаю презентации в html по темам, которые прошу.

С этим вашим ИИ люди, которые хоть немного понимают в технологиях, получают прям ощутимые преимущества. У нас есть инструменты, которые позволяют пользоваться любыми инструментами, которые только можно запустить на компьютере (а компьютеры до определенной степени могут управлять физическим миром при помощи манипуляторов и роботы).

Впервые в истории человечества естественный язык так легко превращается в код, а код — это потенциал физического действия. Это словарное определение слова магия.

Думаю, что именно технические люди имеют максимальный потенциал для использования возможностей этих технологий. Главное — научиться видеть шире собственной экспертизы, которая в свою очередь может нести с собой нерелевантный опыт (то есть с низкой силой предсказания — бесполезный) и когнитивные искажения.
3
Когда-то пару лет своей жизни я занимался сбором данных — информации об отелях, хостелах, достопримечательностях, географии населенных пунктов и так далее. Тогда мне стало понятно, что, вообще-то, данные из реального мира собрать очень сложно, потому что не все из них в приницпе являются настолько точными и официальными, насколько нам бы хотелось. Даже такое простое, устойчивое в больших городах явление, как адрес в зонах, чуть более отдаленных от магистральных дорог, может быть очень разным — адреса может не быть, как такового, он может быть по-разному записан в разных источниках, или вместо адреса написана инструкция, как добираться из ближайшего крупного населенного пункта (не обязательно на том языке, который вам нужен).

Данные из реального мира собирать тяжело и дорого. Мир хоть и наполнен записывающими устройствами, но не оцифрован и на сотые доли процентов.

Далеко не все записывается. Компьютеры и искусственный интеллект «знают» про нашу жизнь гораздо меньше, чем знаем про нее мы, чем знает трехлетний ребенок. Часто эти знания тяжело — или никак — не передаются в текст.

Доступ к реальным данным нашего мира и разным его уголкам становится более важным, чем доступ к самым последним ии-моделям. Я уверен, что те языковые модели, что есть у нас сейчас, пусть и несовершенны (да, они не умеют играть в тетрис), но уже очень даже достаточны для того, чтобы нам, людям, работать гораздо более эффективно, быстро и умно.

Важными сколько-то hard skills становится управление собственным контекстом — личным, профессиональным, исследовательским. Промт-инжениринг, безусловно, полезный навык, но не главный. Уже доступные нам технологии становятся пугающе эффективными, когда применены к оптимально подобранной задаче с качественным датасетом. Чтобы системно работать с ИИ, нам нужен правильно подобранный контекст — бесконечного контекста не будет никогда.

Knowledge is a process of piling up facts;
wisdom lies in their simplification.
Martin H. Fischer, German-born American Physician / Teacher / Author (1879-1962). Из отчёта Mary Meeker — читали?
6👍3
https://airtable.com/ перезапустились как AI-first конструктор приложений.

Они по-прежнему в первую очередь про базы знаний, только теперь и эти базы, и довольно сложные интерфейсы к ним можно создавать из одного промта.

Если вам в первую очередь нужна сложная структура данных, которой можно из коробки гибко управлять, причём во взаимодействии — например, ваша личная CRM — рекомендую
Второй месяц хожу с Plaud Note Pin — это такой простенький и довольно стильный ии-диктофон, которым можно пользоваться без телефона. Про него поговорим в другой раз, а сейчас хочу показать штуку, которую я за сегодня написал вместе с claude code для того, чтобы сделать работу с заметками с него чуть более простой.

На выходе Plaud создает файлы с саммари, которые можно кастомизировать на платных тарифах через написание собственных промтов, и транскрипты. Я забираю и то, и другое через Zapier (бесплатного хватает) в Dropbox.

При появлении нового файла запускается написанный мой скрипт, который считывает новые файлы, анализирует и сам выполняет с ними несколько операций:

→ вычленияет концепции и имена (без DimaTorzok тут не обошлось, увы, надо будет учесть в промтах)

→ вычленияем и обновляет нарративы — идеи, про которые я в заметках говорю

То есть куча текстовых файлов по задумке превращается автоматически в организованных граф.

Выглядит так примерно: https://screen.studio/share/rY9lFwhv — это граф Обсидиана, там есть пара секунд, где видно, как в него добавляется пара нодов — это скрипт обработал очередную запись. Мозг выдает дофаминчику каждый раз, когда очередной кусочек хаотичного контента превратился в чуть менее хаотичный.

Над промтами здесь придется, конечно, ещё потрудиться. Добавлять этапы обработки, исключения, убирать шум, уточнять функциональность, добавлять словарь. И больше всего крутить функции, отвечающие за релевантность отбираемого контента — через больший контекст.

Всё-всё здесь, включая промты, сделано через claude code — в этот раз у меня получилось лучше и быстрее, чем в предыдущие разы, потому что сейчас я много писал перед тем, как запустить разработку.

Описал задачу в самых общих словах. После этого попросил claude code позадавать мне вопросы про детали реализации. Посмотрел в режиме планирования на план и вкинул ещё уточнений, ещё раз попросил позадавать вопросы. Суммарно скормил Клоду страницы 3 текста.

До первой генерации кода потратил, наверное, час-полтора — быстро понял, что в интерфейсе клода это делать неудобно, так что выбирался отвечать на вопросы в свой Obsidian. И уже после всего попросил написать product requirements (это стоит делать эксплицитно) и после этого начал генерацию кода.

Есть несколько наблюдений по режиму работы с такими системами — по сравнению с более простыми / более линейными и менее агентными продуктами вроде aider. Как обычно, пока не начнёшь щупать, даже не задумываешься о таком. Накидаю в следующим постах.
🔥21
https://www.director.ai/ — бесплатный агент в духе Operator или Devin. Работает даже без регистрации.
2
https://getvoicemode.com/ — початиться голосом с вашим кодинг-агентом (пробовал с claude code). Работает с локальным Text-to-speech Kokoro, и с OpenAI API.

С помощью этой штуки в пару команд можно наконец-то реализовать сценарий «давай голосом поговорим про мой Obsidian»
https://www.huxe.com/

Авторы NotebookLM запустили новое приложение Huxe. Персонализированный подкаст на основе вашего календаря, почты и новостей.

Код для активации: android (на iOS тоже сработал)
👍2🌚1