Tool Building Ape × Gleb Kalinin
439 subscribers
179 photos
9 videos
2 files
120 links
@glebkalinin пишет о технологиях, ИИ и жизни в будущем. @Experimentally @mentalhealthtech

Without philosophical examination, builders inherit their answers from the defaults of their environment.
Download Telegram
Пару месяцев назад я было решил сделать большую ставку на ChatGPT. С публичного выхода о3 я практически только им и пользовался, и свой опыт рассматриваю как очень успешный. Благодаря бесконечному наукоемкому исследованию, я реанимировал свой основной канал и пишу туда ежедневно. Чат — мой важный инструмент, один из основных рисерч-тулов (но замыкаться только на него я не хочу).


Кажется, в прошлом году я начал говорить о Cursor и Windsurf как об универсальных knowledge-менеджерах (а значит, в перспективе, и просто менеджерах). А теперь, возможно, внутри такого агента будет что-то вроде claude code.

Или Opencode?
3
ChatGPT очень странный продукт. Его обновляют по кусочкам, и некоторые из этих кусочков могут оказать серьезное влияние на то, как им можно пользоваться.

Одним за другим выпускают апдейты голосового режима. Наконец-то продвинутым голосовым режимом можно пользоваться в старых чатах, в том числе в тех, где был запущен deep research.

Теперь такой паттерн: запускаю дип рисерч (можно по расписанию), захожу в чат, запускаю голосовой режим и получаю голосовое саммари, сразу же могу задавать вопросы, формулировать гипотезы и так далее. По сути, это похоже на пресловутый интерактивный подкаст NotebookML.

Pro tip: Включил в голосовом режиме субтитры, чтобы иметь возможнось визуально сканировать ответы LLM (например, если отвлекся).
Вот такой сложности рабочий плагин для Obsidian я вместе с Claude Code написал за один вечер. В тот вечер я забыл переключиться в режим подписчика и не тратить на это токены, зато точно знаю, сколько денег мне стоило эта разработка — $17.86.

За полностью рабочее решение, покрытое тестами, которые реально проходятся, которое использует в нескольких точках ии…

Мы даже добавили несколько фичей (например, файл можно переименовать, используя более дешевую модель, а текст обработать более продвинутой) по сравнению с предыдущей версией.

Ещё много что можно улучшить, но пока что это самый-самый лучший опыт взаимодействия с ии-агентами за всё моё время в ии.
🔥9
Очень хорошая новость про Claude Code — у него есть SDK. То есть можно строить приложение поверх его функциональности, вообще не связанного с разработкой программного обеспечения. Можно сделать бота, к которому через DeepGram подключить возможность разговаривать с вами, и который будет узнавать вас и писать о вас тексты, общаясь с вами голосом. (Естественно, подключение поможет сделать claude code.)

Можно будет построить ии коуча, который будет анализировать вашу биометрию, ваши субъективные данные — результаты опросников, а также анализировать, что вы читаете, что вы говорите на встречах и о чем пишите в социальных сетях. Claude уже сейчас прекрасно справляется со разными типами анализа данных, а через claude code у него появляется возможность «действовать» — писать код, ставить эксперименты, пробовать разные стратегии и даже самообучаться.

Записал немного видео про взаимодействие с ним и ChatGPT o3, как перевожу данные из одного в другое, в каких контекстах чем пользуюсь.
🔥4
Думаю сделать небольшую лабу про использование claude code + obsidian + deep research для генерации новых смыслов, проектов, продуктов
9👍5
Технологии на самом деле не так важны. У меня нет никакой лояльности к компании Антропик. Они сделали лучшего кодинг-агента, которые продолжает быть в топах всех бенчмарков и остаётся предпочитаемой моделью для миллионов разработчиков. И еще он на более приятном английском общается.

Но эта же компания для тренировки модели уничтожила миллионы книг (да, есть способ жёсткой оцифровки книг, при котором книги разрезаются, а потом выбрасываются). И ваш любимый бот помогает и будет помогать военным кого-то бомбить, и экзекутивы крупных ии-компаний стали военными.

Думаю, мы должны стремиться к автономным ии-агентам, работающим на открытых технологиях, думаю, мы ещё будем файнтьюнить под себя китайские сети — те же ии-агенты нам в этом помогут.

Но пока есть возможность и доступ, вижу смысл пользоваться самыми умными инструментами, до которых могут дотянуться руки.

Большие языковые модели у OpenAI и Anthropic на самом деле сильно похожи по эффективности, бенчмарки насыщаются всеми с почти одинаковой скоростью, а значительная разница в том, как компании учат языковые модели пользоваться инструментами.

Производительность Devin и Codex отличается, хотя у них есть доступ к одним и тем же технологиям — во многом из-за другого уровня использования инструментов.

Claude code прямо хорошо умеет пользоваться разными инструментами. Я просто сказал ему использовать для генерации презентаций Marp (потому что раньше делал deep research на тему лучших конвертеров markdown → presentation), а дальше на выходе в папке с презентациями получаю презентации в html по темам, которые прошу.

С этим вашим ИИ люди, которые хоть немного понимают в технологиях, получают прям ощутимые преимущества. У нас есть инструменты, которые позволяют пользоваться любыми инструментами, которые только можно запустить на компьютере (а компьютеры до определенной степени могут управлять физическим миром при помощи манипуляторов и роботы).

Впервые в истории человечества естественный язык так легко превращается в код, а код — это потенциал физического действия. Это словарное определение слова магия.

Думаю, что именно технические люди имеют максимальный потенциал для использования возможностей этих технологий. Главное — научиться видеть шире собственной экспертизы, которая в свою очередь может нести с собой нерелевантный опыт (то есть с низкой силой предсказания — бесполезный) и когнитивные искажения.
3
Когда-то пару лет своей жизни я занимался сбором данных — информации об отелях, хостелах, достопримечательностях, географии населенных пунктов и так далее. Тогда мне стало понятно, что, вообще-то, данные из реального мира собрать очень сложно, потому что не все из них в приницпе являются настолько точными и официальными, насколько нам бы хотелось. Даже такое простое, устойчивое в больших городах явление, как адрес в зонах, чуть более отдаленных от магистральных дорог, может быть очень разным — адреса может не быть, как такового, он может быть по-разному записан в разных источниках, или вместо адреса написана инструкция, как добираться из ближайшего крупного населенного пункта (не обязательно на том языке, который вам нужен).

Данные из реального мира собирать тяжело и дорого. Мир хоть и наполнен записывающими устройствами, но не оцифрован и на сотые доли процентов.

Далеко не все записывается. Компьютеры и искусственный интеллект «знают» про нашу жизнь гораздо меньше, чем знаем про нее мы, чем знает трехлетний ребенок. Часто эти знания тяжело — или никак — не передаются в текст.

Доступ к реальным данным нашего мира и разным его уголкам становится более важным, чем доступ к самым последним ии-моделям. Я уверен, что те языковые модели, что есть у нас сейчас, пусть и несовершенны (да, они не умеют играть в тетрис), но уже очень даже достаточны для того, чтобы нам, людям, работать гораздо более эффективно, быстро и умно.

Важными сколько-то hard skills становится управление собственным контекстом — личным, профессиональным, исследовательским. Промт-инжениринг, безусловно, полезный навык, но не главный. Уже доступные нам технологии становятся пугающе эффективными, когда применены к оптимально подобранной задаче с качественным датасетом. Чтобы системно работать с ИИ, нам нужен правильно подобранный контекст — бесконечного контекста не будет никогда.

Knowledge is a process of piling up facts;
wisdom lies in their simplification.
Martin H. Fischer, German-born American Physician / Teacher / Author (1879-1962). Из отчёта Mary Meeker — читали?
6👍3
https://airtable.com/ перезапустились как AI-first конструктор приложений.

Они по-прежнему в первую очередь про базы знаний, только теперь и эти базы, и довольно сложные интерфейсы к ним можно создавать из одного промта.

Если вам в первую очередь нужна сложная структура данных, которой можно из коробки гибко управлять, причём во взаимодействии — например, ваша личная CRM — рекомендую
Второй месяц хожу с Plaud Note Pin — это такой простенький и довольно стильный ии-диктофон, которым можно пользоваться без телефона. Про него поговорим в другой раз, а сейчас хочу показать штуку, которую я за сегодня написал вместе с claude code для того, чтобы сделать работу с заметками с него чуть более простой.

На выходе Plaud создает файлы с саммари, которые можно кастомизировать на платных тарифах через написание собственных промтов, и транскрипты. Я забираю и то, и другое через Zapier (бесплатного хватает) в Dropbox.

При появлении нового файла запускается написанный мой скрипт, который считывает новые файлы, анализирует и сам выполняет с ними несколько операций:

→ вычленияет концепции и имена (без DimaTorzok тут не обошлось, увы, надо будет учесть в промтах)

→ вычленияем и обновляет нарративы — идеи, про которые я в заметках говорю

То есть куча текстовых файлов по задумке превращается автоматически в организованных граф.

Выглядит так примерно: https://screen.studio/share/rY9lFwhv — это граф Обсидиана, там есть пара секунд, где видно, как в него добавляется пара нодов — это скрипт обработал очередную запись. Мозг выдает дофаминчику каждый раз, когда очередной кусочек хаотичного контента превратился в чуть менее хаотичный.

Над промтами здесь придется, конечно, ещё потрудиться. Добавлять этапы обработки, исключения, убирать шум, уточнять функциональность, добавлять словарь. И больше всего крутить функции, отвечающие за релевантность отбираемого контента — через больший контекст.

Всё-всё здесь, включая промты, сделано через claude code — в этот раз у меня получилось лучше и быстрее, чем в предыдущие разы, потому что сейчас я много писал перед тем, как запустить разработку.

Описал задачу в самых общих словах. После этого попросил claude code позадавать мне вопросы про детали реализации. Посмотрел в режиме планирования на план и вкинул ещё уточнений, ещё раз попросил позадавать вопросы. Суммарно скормил Клоду страницы 3 текста.

До первой генерации кода потратил, наверное, час-полтора — быстро понял, что в интерфейсе клода это делать неудобно, так что выбирался отвечать на вопросы в свой Obsidian. И уже после всего попросил написать product requirements (это стоит делать эксплицитно) и после этого начал генерацию кода.

Есть несколько наблюдений по режиму работы с такими системами — по сравнению с более простыми / более линейными и менее агентными продуктами вроде aider. Как обычно, пока не начнёшь щупать, даже не задумываешься о таком. Накидаю в следующим постах.
🔥21
https://www.director.ai/ — бесплатный агент в духе Operator или Devin. Работает даже без регистрации.
2
https://getvoicemode.com/ — початиться голосом с вашим кодинг-агентом (пробовал с claude code). Работает с локальным Text-to-speech Kokoro, и с OpenAI API.

С помощью этой штуки в пару команд можно наконец-то реализовать сценарий «давай голосом поговорим про мой Obsidian»
https://www.huxe.com/

Авторы NotebookLM запустили новое приложение Huxe. Персонализированный подкаст на основе вашего календаря, почты и новостей.

Код для активации: android (на iOS тоже сработал)
👍2🌚1
Сидел вчера плотненько с голосовым ассистентом Hume.ai, который умеет (с оговорками) идентифицировать эмоции. В течение получаса среди эмоций он выделяет hunger. Пошёл поесть, помогло.

Кстати, в английском есть классное слово hangry = hungry + angry. Не забывайте поесть.
😁4🔥2
Мой следующий фронтир — написать полноценное приложение для MacOS и/или iOS. Я уже написал десяток плагинов для Obsidian, пару приложений на Electron, кучу мелких автоматизаций вроде такой. Качественный апп за вечерок не навайбкодишь, здесь нужна дисциплина и мотивация.

Статейка про процесс вайбкодинга Мак-приложения:

https://www.indragie.com/blog/i-shipped-a-macos-app-built-entirely-by-claude-code
3
Cluely — изначально — приложение для читинга технических интервью, но его можно перенастроить под любой юз-кейс: продажи, консультирование и т.д.

Умеет отвечать на вопросы про контент на экране, а к тому же это самая быстрая транскрибация из виденных мной (и на вопросы к транскрибированному контенту система тоже умеет отвечать).

Сложновато делать его демки, потому что для скрин-рекордеров оно невидимое.

И ещё оно выглядит и ощущается как по-настоящему ai first app, хоть к UX есть и вопросы.

Бесплатная версия даёт достаточно возможностей потестировать
👍4🤔1
Субъективный хит-парад ии приложений и сервисов

Wispr Flow для диктовки на десктопе и в айфоне (только для подписчиков). Увы, в облаке, поэтому бывают тормоза на слабом интернете, но в остальном — лучшая диктовка. Кстати, название такое, потому можно диктовать шёпотом. Правда работает. Это сообщение я нашептал.

ChatGPT o3. Одна из лучших моделей для моего способа взаимодействия с информацией. Я обожаю его супер-нердовские ответы. Мне нравятся его портянки, но возникла большая проблема в том, как менеджить плодщиеся асинхронные чаты.

ChatGPT Advanced Voice Mode. Наконец-то можно позвонить в deep research и практиковать немецкие диалоги с субтитрами — для меня это киллер-фича.

Cluely — лучшая реалтайм мультиязычная транскрибация (тоже в облаке). Минимальная задержка. Отвечает на вопросы к контенту на экране, и к тексту. Подсвечивает инсайты и потенциальные действия по ходу разговора.

Claude code. Любовь нёрда коротка — Windsurf и Cursor списаны, теперь понятно, кто тут настоящий агент, а кто так, жалкая автоматизация. Пробую использовать для всего на свете.

Сталкиваюсь с новыми непредсказуемыми до практики сложностями. Например, когда у тебя в четырех вкладках несколько агентов что-то там пилят, и тебе нужно распределять время, следить за их работой, направлять, тестировать, уточнять и разбираться с багами, которые они генерируют — техническими, смысловыми и эстетическими. Ты становишься погонщиком агентов. И на менеджерскую работу тоже очень похоже.

Dia browser. Пытаюсь перейти на него с Arc. Чудная зверушка — микс браузера и, собственно, чат-клиента — заставляет задуматься о будущем браузеров. Будет ли браузер внутри чат-клиента, или браузерв внутри ChatGPT? Не просто так все хотят купить Хром. Привыкаю, но некоторых полезных функций из Arc всё-таки не хватает.

Почётное упоминание.
Superwhisper для iPhone. Использую его для того, чтобы записывать тексты рилсов. В моей ленте полно содержательных, наукоемких, заставляющих задуматься видео от очень умных людей. Мне, естественно, хочется брать их идеи, переносить в Obsidian, писать по их мотивам тексты и посты. Superwhisper позволяет мне бесплатно и быстро захватывать текст, транскрибировать локально, обрабатывать промтом и отправлять куда угодно, например, в ChatGPT на факт-чекинг. Теперь любое сколько-то проверяемое видео — проверяю с o3.


1. → Wispr Flow
2. → ChatGPT (o3)
3. → ChatGPT Advanced Voice Mode
4. → Cluely
5. → Claude Code
6. → Windsurf
7. → Cursor
8. → Dia Browser
9. → Arc Browser
10. → Superwhisper

@toolusing
👍9🙏2🔥1