Tool Building Ape × Gleb Kalinin
435 subscribers
168 photos
9 videos
2 files
119 links
@glebkalinin пишет о технологиях, ИИ и жизни в будущем. @Experimentally @mentalhealthtech

Without philosophical examination, builders inherit their answers from the defaults of their environment.
Download Telegram
Технологии на самом деле не так важны. У меня нет никакой лояльности к компании Антропик. Они сделали лучшего кодинг-агента, которые продолжает быть в топах всех бенчмарков и остаётся предпочитаемой моделью для миллионов разработчиков. И еще он на более приятном английском общается.

Но эта же компания для тренировки модели уничтожила миллионы книг (да, есть способ жёсткой оцифровки книг, при котором книги разрезаются, а потом выбрасываются). И ваш любимый бот помогает и будет помогать военным кого-то бомбить, и экзекутивы крупных ии-компаний стали военными.

Думаю, мы должны стремиться к автономным ии-агентам, работающим на открытых технологиях, думаю, мы ещё будем файнтьюнить под себя китайские сети — те же ии-агенты нам в этом помогут.

Но пока есть возможность и доступ, вижу смысл пользоваться самыми умными инструментами, до которых могут дотянуться руки.

Большие языковые модели у OpenAI и Anthropic на самом деле сильно похожи по эффективности, бенчмарки насыщаются всеми с почти одинаковой скоростью, а значительная разница в том, как компании учат языковые модели пользоваться инструментами.

Производительность Devin и Codex отличается, хотя у них есть доступ к одним и тем же технологиям — во многом из-за другого уровня использования инструментов.

Claude code прямо хорошо умеет пользоваться разными инструментами. Я просто сказал ему использовать для генерации презентаций Marp (потому что раньше делал deep research на тему лучших конвертеров markdown → presentation), а дальше на выходе в папке с презентациями получаю презентации в html по темам, которые прошу.

С этим вашим ИИ люди, которые хоть немного понимают в технологиях, получают прям ощутимые преимущества. У нас есть инструменты, которые позволяют пользоваться любыми инструментами, которые только можно запустить на компьютере (а компьютеры до определенной степени могут управлять физическим миром при помощи манипуляторов и роботы).

Впервые в истории человечества естественный язык так легко превращается в код, а код — это потенциал физического действия. Это словарное определение слова магия.

Думаю, что именно технические люди имеют максимальный потенциал для использования возможностей этих технологий. Главное — научиться видеть шире собственной экспертизы, которая в свою очередь может нести с собой нерелевантный опыт (то есть с низкой силой предсказания — бесполезный) и когнитивные искажения.
3
Когда-то пару лет своей жизни я занимался сбором данных — информации об отелях, хостелах, достопримечательностях, географии населенных пунктов и так далее. Тогда мне стало понятно, что, вообще-то, данные из реального мира собрать очень сложно, потому что не все из них в приницпе являются настолько точными и официальными, насколько нам бы хотелось. Даже такое простое, устойчивое в больших городах явление, как адрес в зонах, чуть более отдаленных от магистральных дорог, может быть очень разным — адреса может не быть, как такового, он может быть по-разному записан в разных источниках, или вместо адреса написана инструкция, как добираться из ближайшего крупного населенного пункта (не обязательно на том языке, который вам нужен).

Данные из реального мира собирать тяжело и дорого. Мир хоть и наполнен записывающими устройствами, но не оцифрован и на сотые доли процентов.

Далеко не все записывается. Компьютеры и искусственный интеллект «знают» про нашу жизнь гораздо меньше, чем знаем про нее мы, чем знает трехлетний ребенок. Часто эти знания тяжело — или никак — не передаются в текст.

Доступ к реальным данным нашего мира и разным его уголкам становится более важным, чем доступ к самым последним ии-моделям. Я уверен, что те языковые модели, что есть у нас сейчас, пусть и несовершенны (да, они не умеют играть в тетрис), но уже очень даже достаточны для того, чтобы нам, людям, работать гораздо более эффективно, быстро и умно.

Важными сколько-то hard skills становится управление собственным контекстом — личным, профессиональным, исследовательским. Промт-инжениринг, безусловно, полезный навык, но не главный. Уже доступные нам технологии становятся пугающе эффективными, когда применены к оптимально подобранной задаче с качественным датасетом. Чтобы системно работать с ИИ, нам нужен правильно подобранный контекст — бесконечного контекста не будет никогда.

Knowledge is a process of piling up facts;
wisdom lies in their simplification.
Martin H. Fischer, German-born American Physician / Teacher / Author (1879-1962). Из отчёта Mary Meeker — читали?
6👍3
https://airtable.com/ перезапустились как AI-first конструктор приложений.

Они по-прежнему в первую очередь про базы знаний, только теперь и эти базы, и довольно сложные интерфейсы к ним можно создавать из одного промта.

Если вам в первую очередь нужна сложная структура данных, которой можно из коробки гибко управлять, причём во взаимодействии — например, ваша личная CRM — рекомендую
Второй месяц хожу с Plaud Note Pin — это такой простенький и довольно стильный ии-диктофон, которым можно пользоваться без телефона. Про него поговорим в другой раз, а сейчас хочу показать штуку, которую я за сегодня написал вместе с claude code для того, чтобы сделать работу с заметками с него чуть более простой.

На выходе Plaud создает файлы с саммари, которые можно кастомизировать на платных тарифах через написание собственных промтов, и транскрипты. Я забираю и то, и другое через Zapier (бесплатного хватает) в Dropbox.

При появлении нового файла запускается написанный мой скрипт, который считывает новые файлы, анализирует и сам выполняет с ними несколько операций:

→ вычленияет концепции и имена (без DimaTorzok тут не обошлось, увы, надо будет учесть в промтах)

→ вычленияем и обновляет нарративы — идеи, про которые я в заметках говорю

То есть куча текстовых файлов по задумке превращается автоматически в организованных граф.

Выглядит так примерно: https://screen.studio/share/rY9lFwhv — это граф Обсидиана, там есть пара секунд, где видно, как в него добавляется пара нодов — это скрипт обработал очередную запись. Мозг выдает дофаминчику каждый раз, когда очередной кусочек хаотичного контента превратился в чуть менее хаотичный.

Над промтами здесь придется, конечно, ещё потрудиться. Добавлять этапы обработки, исключения, убирать шум, уточнять функциональность, добавлять словарь. И больше всего крутить функции, отвечающие за релевантность отбираемого контента — через больший контекст.

Всё-всё здесь, включая промты, сделано через claude code — в этот раз у меня получилось лучше и быстрее, чем в предыдущие разы, потому что сейчас я много писал перед тем, как запустить разработку.

Описал задачу в самых общих словах. После этого попросил claude code позадавать мне вопросы про детали реализации. Посмотрел в режиме планирования на план и вкинул ещё уточнений, ещё раз попросил позадавать вопросы. Суммарно скормил Клоду страницы 3 текста.

До первой генерации кода потратил, наверное, час-полтора — быстро понял, что в интерфейсе клода это делать неудобно, так что выбирался отвечать на вопросы в свой Obsidian. И уже после всего попросил написать product requirements (это стоит делать эксплицитно) и после этого начал генерацию кода.

Есть несколько наблюдений по режиму работы с такими системами — по сравнению с более простыми / более линейными и менее агентными продуктами вроде aider. Как обычно, пока не начнёшь щупать, даже не задумываешься о таком. Накидаю в следующим постах.
🔥21
https://www.director.ai/ — бесплатный агент в духе Operator или Devin. Работает даже без регистрации.
2
https://getvoicemode.com/ — початиться голосом с вашим кодинг-агентом (пробовал с claude code). Работает с локальным Text-to-speech Kokoro, и с OpenAI API.

С помощью этой штуки в пару команд можно наконец-то реализовать сценарий «давай голосом поговорим про мой Obsidian»
https://www.huxe.com/

Авторы NotebookLM запустили новое приложение Huxe. Персонализированный подкаст на основе вашего календаря, почты и новостей.

Код для активации: android (на iOS тоже сработал)
👍2🌚1
Сидел вчера плотненько с голосовым ассистентом Hume.ai, который умеет (с оговорками) идентифицировать эмоции. В течение получаса среди эмоций он выделяет hunger. Пошёл поесть, помогло.

Кстати, в английском есть классное слово hangry = hungry + angry. Не забывайте поесть.
😁4🔥2
Мой следующий фронтир — написать полноценное приложение для MacOS и/или iOS. Я уже написал десяток плагинов для Obsidian, пару приложений на Electron, кучу мелких автоматизаций вроде такой. Качественный апп за вечерок не навайбкодишь, здесь нужна дисциплина и мотивация.

Статейка про процесс вайбкодинга Мак-приложения:

https://www.indragie.com/blog/i-shipped-a-macos-app-built-entirely-by-claude-code
3
Cluely — изначально — приложение для читинга технических интервью, но его можно перенастроить под любой юз-кейс: продажи, консультирование и т.д.

Умеет отвечать на вопросы про контент на экране, а к тому же это самая быстрая транскрибация из виденных мной (и на вопросы к транскрибированному контенту система тоже умеет отвечать).

Сложновато делать его демки, потому что для скрин-рекордеров оно невидимое.

И ещё оно выглядит и ощущается как по-настоящему ai first app, хоть к UX есть и вопросы.

Бесплатная версия даёт достаточно возможностей потестировать
👍4🤔1
Субъективный хит-парад ии приложений и сервисов

Wispr Flow для диктовки на десктопе и в айфоне (только для подписчиков). Увы, в облаке, поэтому бывают тормоза на слабом интернете, но в остальном — лучшая диктовка. Кстати, название такое, потому можно диктовать шёпотом. Правда работает. Это сообщение я нашептал.

ChatGPT o3. Одна из лучших моделей для моего способа взаимодействия с информацией. Я обожаю его супер-нердовские ответы. Мне нравятся его портянки, но возникла большая проблема в том, как менеджить плодщиеся асинхронные чаты.

ChatGPT Advanced Voice Mode. Наконец-то можно позвонить в deep research и практиковать немецкие диалоги с субтитрами — для меня это киллер-фича.

Cluely — лучшая реалтайм мультиязычная транскрибация (тоже в облаке). Минимальная задержка. Отвечает на вопросы к контенту на экране, и к тексту. Подсвечивает инсайты и потенциальные действия по ходу разговора.

Claude code. Любовь нёрда коротка — Windsurf и Cursor списаны, теперь понятно, кто тут настоящий агент, а кто так, жалкая автоматизация. Пробую использовать для всего на свете.

Сталкиваюсь с новыми непредсказуемыми до практики сложностями. Например, когда у тебя в четырех вкладках несколько агентов что-то там пилят, и тебе нужно распределять время, следить за их работой, направлять, тестировать, уточнять и разбираться с багами, которые они генерируют — техническими, смысловыми и эстетическими. Ты становишься погонщиком агентов. И на менеджерскую работу тоже очень похоже.

Dia browser. Пытаюсь перейти на него с Arc. Чудная зверушка — микс браузера и, собственно, чат-клиента — заставляет задуматься о будущем браузеров. Будет ли браузер внутри чат-клиента, или браузерв внутри ChatGPT? Не просто так все хотят купить Хром. Привыкаю, но некоторых полезных функций из Arc всё-таки не хватает.

Почётное упоминание.
Superwhisper для iPhone. Использую его для того, чтобы записывать тексты рилсов. В моей ленте полно содержательных, наукоемких, заставляющих задуматься видео от очень умных людей. Мне, естественно, хочется брать их идеи, переносить в Obsidian, писать по их мотивам тексты и посты. Superwhisper позволяет мне бесплатно и быстро захватывать текст, транскрибировать локально, обрабатывать промтом и отправлять куда угодно, например, в ChatGPT на факт-чекинг. Теперь любое сколько-то проверяемое видео — проверяю с o3.


1. → Wispr Flow
2. → ChatGPT (o3)
3. → ChatGPT Advanced Voice Mode
4. → Cluely
5. → Claude Code
6. → Windsurf
7. → Cursor
8. → Dia Browser
9. → Arc Browser
10. → Superwhisper

@toolusing
👍9🙏2🔥1
Software 3.0 OS

Сегодня в 20-00СЕТ собираемся смотреть на Claude code, gemini-cli и похожие продукты.

Я собираюсь показать следующий сценарий, который я сейчас в Клод коде реализую: наговариваю свой контекст (по сути описание моей жизни, задач), технические параметры (наговорил модели всей техники: камеры, рекордеры, микрофоны, компьютеры, носители данных),

описал проблему — тяжело разбирать контент на носителях, жесткие диски забиты, проекты стопорятся
и желаемый результат — хочу больше производить и публиковать видео-контента

Клод мне помогает выработать подход в ведению проектов и, конечно же, написать софт, который поможет автоматизировать часть моей работы, начиная с самой тупой и механической — копирование и раслкадывание файлов по папкам, категоризация и тегирование, умный поиск, создание шаблонов проектов. На встрече будем делать презентации, графики, генерировать тексты, и конечно же напишем немного кода для автоматизации раскладывания контента по папкам.

20:00CET, Zoom. Ссылка будет опубликована за 5 минут до начала в канале и комментариях к этому посту

Ссылка на Зум
👍11
Поговорил с РБК про ИИ и психотерапию, а заодно вам напомню, что у меня есть про это целый канал — публикую там исследования и статьи про ИИ и ментальное здоровье
1
Forwarded from Mental health tech
Что происходит, когда человек переносит ожидания от живого терапевта на алгоритм? Может ли ChatGPT действительно помочь? Или речь идет об иллюзии поддержки, за которой может скрываться новая форма психологического одиночества?

Ответил на вопросы РБК

https://style.rbc.ru/soul/68666d4f9a79478f439beca6

А все исследования, на которые я, отвечая на вопросы, ссылаюсь, можно найти в этом канале ↑

Глеб
4🔥1
https://www.youtube.com/watch?v=9EiAwTb73pY

Показываю, как взаимодействую с Claude code. Почти всегда общаюсь с ним по-английски (по нескольким причинам), но что я делаю понятно и без английского:

я в реальном времени пишу требования, отвечая на вопросы, прошу сгенерировать побольше вопросов, снова отвечаю, закидываю примеры файлов.

Видео на 2 минуты, ускорено в 2 раза
🔥2
Кто-то хорошо подумал про будущее операционных систем. Правда, по-прежнему на десктопе.

Warmwind OS
https://warmwind.space/

демо с таймкодом → https://www.youtube.com/watch?v=x78KpaMu-zQ&t=234s

Записаться в вейтлист → https://warmwind.space/signup

Агент для не-девелоперов, может взаимодействовать с MCP и управлять интерфейсами, как человек.

Совершенно очевидно, что всё, что можно сделать на компьютере, смогут делать агенты.

Как и Devin, позиционируют его как сотрудника
https://www.youtube.com/watch?v=viJewkDqqN4

Ещё демо. Из интересного: можно перехватывать управление на любой стадии. Как — не совсем очевидно даже фаундеру ))) с этими системами нам придётся учиться работать по-новому.

Часть наших старых знаний станет совершенно неактуальными.

В этом смысле сейчас изучать какой-нибудь тот же Claude Code вполне вероятно бессмысленно, если вы никогда не кодили. Такие системы будут очевидно мощнее и будут иметь гораздо более целостный контекст вашей жизни, и смогут безошибочно — ну, с точностью выше, чем у человека — с миром взаимодействовать.