Tool Building Ape × Gleb Kalinin
450 subscribers
194 photos
12 videos
3 files
130 links
@glebkalinin пишет о технологиях, ИИ и жизни в будущем. @Experimentally @mentalhealthtech

Without philosophical examination, builders inherit their answers from the defaults of their environment.
Download Telegram
Никогда не писал про эту часть своей жизни, но я давно слежу за стартапами в области здоровья — в первую очередь психического, но и здоровья вообще, с упором на продление health span — той части жизни, где мы условно здоровы (можем сами за собой ухаживать, выполнять повседневные задачи). Все мы хотим, чтобы наш health span и life span максимально совпадали — гораздо лучше умереть на прогулке, чем после долгих лет болезни.

Радует, что появляются стартапы, делающие анализы и рекомендации доступными. Заплатить всё равно придётся прилично — сами анализы стоят 500 евро, и делать их нужно каждые 4 месяца. Зато GenAI потенциально позволяет получать очень точные персонализированные рекомендации по изменению — очевидно, в первую очередь питания и добавок, но так же скорее всего и поведения.

Да, пока что это всё ещё премиальная услуга, но даже сырые данные, без рекомендаций, могут быть очень полезным материалам для взаимодействия с ИИ (ChatGPT, например, или Клодом).

В будущем живём, друзья

https://aniva.health/manifesto
7🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Докрутил в Claude code инструмент визуализации серии заметок в виде 3д графа, который к тому же можно крутить в дополненной реальности.

Огромная проблема LLM — они не умеют хорошо работать со сколько-то большими объемами данных. Поэтому если данных у вас планируется много, нужно сразу продумать стратегию, как лишний раз эти данные через дорогие и медленные LLM не гонять вовсе.

В этом проекте я потратил на обработку и переформатирование данных непропорциональное количество времени — хотелось бы столько же потратить на анализ данных. Но результатом я доволен — для чего-то, что получилось без дополнительных усилий в плане сбора данных — очень круто.

Получил граф всей жизни — 27 групп, которые создал ИИ, вот их полный список: Core Identity, People, Emotions, Places, Business, Technology, Financial, Health, Activities, Systemic, Relationships, Creative, Learning, Aspirations, Skills, Challenges, Support, Cognitive, Values, Meta, Environment, Social, Temporal, Information, Energy, Resources, Integration.

Если бы захотел, можно было бы те же данные пропустить через какое-то другое сито — например, пробовал натягивать на HEXACO.

Откуда я взял данные? Попросил Claude пошерстить по заметкам в Obsidian за лето — терапевтические, коучинговые сессии в основном.

Так что собирайте ваш контекст, с ним можно сделать много всего интересного.
5🔥1
Media is too big
VIEW IN TELEGRAM
По-моему, Lovable — самый большой пузырь из недавно надутых. Появляется куча стартапов, позиционирующих себя как Lovable для x, но сам Lovable при этом чрезвычайно сыр, туп и не позволяет без напильника решить даже несложные задачи вроде дизайна посадочных страниц.

Попробовал собрать в нём тот же граф с теми же данными и промтами, что в Клод коде (у Lovable была даже фора в виде чистых работающих данных).

Получилась гораздо менее юзабельная ерунда, но тоже любопытная. Развить это до полноценного продукта будет сложно.

Но не исключаю, что я просто не умею пользоваться Lovable
👍21
This media is not supported in your browser
VIEW IN TELEGRAM
Зато порадовал ChatGPT. В одной соцсеточке спросили насчет инструмента для создания таймлайнов. Я не знаю хороших инструментов для создания таймлайнов, зато знаю симпатичные библиотеки на JavaScript. Решил попробовать что-то для React, быстро нашел вариант, и вот — редактор таймлайнов.

Данные можно вводить просто текстом по правилам, а в идеале просто в формате интервью с ИИ (вполне решаемо).

Попробовать — там же можете начать редактировать.

Не понимаю, зачем будет нужен Lovable, если ChatGPT сможет всё то же, только лучше
8
Claude тоже двигается к агентности — теперь он не только генерирует тексты, но создаёт файлы в разных форматах: презентации, таблицы.

https://www.anthropic.com/news/create-files

Нужно включать в настройках (у меня пока не появился)

Мне GPT Agent нравится возможность создавать презентации, они уже почти готовые к использованию, так что жду Клода с нетерпением
🫡2
https://omnara.com/ — любопытный инструмент: тоннель, позволяющий работать с агентами (claude code, codex, amp) на вашем компьютере с телефона. Компьютер, разумеется, должен оставаться включенным.

Не без глюков — сессия с claude code у меня намертво подвисла, когда тот пытался проиграть звук.

Но мне удалось с телефона поболтать со своим волтом в Obsidian через codex-cli, и даже обновить дневную заметку.

В целом, подобное можно и самостоятельно собрать (ngrok + ssh), но здесь всё работает из коробки.
4🔥2🤔1
Всё-таки живём в будущем — и еще при наших жизнях сможем общаться «мыслями». Пару недель назад Alterego, устройства для беззвучного ввода текста и управления компьюетром от MIT Media Lab завирусился, и люди поделились на тех, кто в восторге, тех, кто считает, что это фрод.

Я однозначно отношусь к первой категории, и точно начал бы пользоваться, как только он стал бы общедоступным. Для меня это логичное продолжение голосового ввода, которым я так пользуюсь каждый день.

Проверку фактов продукт проходит — у MIT Media Lab была peer-reviewed статья про эту технологию ещё в 2018 (а вот видео). Ничего нереалистичного в этой технологии. Это не чтение мыслей, а считывание нейромускулярной активности — периферических нервных сигналов от внутренних артикуляторов речи, которые возникают при субвокализации — внутренней речи (той самой, от которой учат избавлять при скорочтении).

Это не так уж сильно отличается от какого-нибудь Muse EEG (который и сам больше мышечную активность замеряет, чем про мозг).

Подозреваю, что поначалу работать это будет не идеально, а устройство нужно будет калибровать, так что про утечку наших ценных мыслей без нашего ведома речи не идёт — чтобы система что-то считала, нужно намерение говорить.
👌1
Разумеется, я использую ИИ для проверки утверждений. С выходом GPT-5 и их агента качество и надёжность ответов заметно выросли, агент практически не галюцинирует (хотя, увы, может в список источников включить среди качественных научных статей немного ереси с дорвеев, поэтому проверять его нужно в любом случае). Модели научились говорить «Не знаю», а судя по свежим исследованиям, может и полностью с галлюцинациями разберутся — как минимум отличить программно галлюцинацию уже возможно, так что ждём больше «Не знаю» в ответах агентов.

Вот мой чат с GPT Agent, где я прошу его провалидировать реалистичность Alterego, интерфейса для «чтения мыслей», про который я писал ранее. Промт простенький, буквально пара строк. Я его потом улучшил с помощью самого же ChatGPT, но даже исходные 2-3 строки и пара ссылок дают агенту достаточно контекста, чтобы выдать подробнейший ответ-презентацию.

Однозначные утверждения о том, что ChatGPT делает нас тупее не выдерживают критики — если хотя бы формально выполнять простейшие правила и активно взаимодействовать с ответами моделей (читать как минимум), начиная с o3, то интеллект не может не развиться. GPT-5 отвечает на уровне ну как минимум бакалавра, а вообще и действительно PhD (по сложности ответов и словаря) — хотя в остальном я считаю сравнение ChatGPT с PhD. некорректным.

К примеру, Клод оценил Readability Level ответов как Graduate/Professional (16+ лет образования). Объем словаря и навыки письма — самые большие предикторы всех типов успеха (академических, бизнесовых и так далее). Более объемный словарь — более точный инструментарий для описания реальности, и для взаимодействия с агентами, конечно.

Так что если вы нормально читаете отчёты GPT-5 и GPT Agent — когнитивный упадок не грозит.

Чат с Клодом про оценку Readability Level в ответах GPT-5
👍6
AlterEgo-final-with-images.pdf
3.2 MB
Работая с агентами, понимаешь, что у каждого свои сильные стороны, свой вайб и свои возможности. Мне очень нравится codex с новой моделью! Он сам предлагает, куда двинуть проект дальше, и решает сложные алгоритмические задачи.

Вот презентация, которую мы с codex в несколько шагов сделали из ответа GPT Agent. В следующем посте расскажу как я это делал
🔥3
Tool Building Ape × Gleb Kalinin
AlterEgo-final-with-images.pdf
Какой процент того, что вы делаете по работе — это создание презентаций и документов? Почему Claude добавляет возможность своему агенту в первую очередь работать с таблицами и презентациями? Да потому что это десятки процентов любой офисной работы.

Мне нравится, что GPT Agent может делать презентации, но с дизайном и, что гораздо важнее, с картинками у него беда — по умолчанию он генерирует грустный slop, который хочется только удалить. Искать картинки агенту тяжело, а может и нельзя.

Но знаете кто хорошо умеет искать картинки? Google, конечно.

И тут мы начинаем писать софт для нашего агента. Поскольку агент — это в первую очередь LLM, которая может пользоваться инструментами in the loop, все возможности просто LLM вам доступны внутри агента. А значит, вы можете не реализовывать в софте части, например, по суммаризации, или переводу, или классификации, или анализу изображений — если объем небольшой, агент справится легко (пусть и съест на это лимит токенов подписки, или реальные деньги).

Для скорости мы в первую очередь пишем только ту часть, которую LLM сделать не может. В моём случае — поиск картинок в Гугле, скачивание, оценку и финальный выбор файла.

За 20 минут чата с ChatGPT я нашёл все нужные ключи (Google Custom Search JSON API KEY, cx), скормил агенту презентацию на анализ, попросил сгенерировать список терминов для поиска,

после этого начал написать скрипты для поиска и скачивания изображений из Гугла, которые с какой-то попытки запустились (агент сам исправлял ошибки, конечно).

Отлично, у меня есть папка с картинками, а как выбрать-то, руками что ли?

Вспоминаю про llm и llm-prices.com, ищу самую дешевую мультимодальную LLM. Похоже, сейчас это gpt-5-nano.

Окей, подключаю через OpenRouter (добавляю в .env API-ключ), прошу агента попарно сравнить картинки, используя gpt-5-nano, и выбрать наиболее подходящую для каждого поискового запроса.

В новом файле агент сохраняет список отобранных картинок с описанием, прошу добавить в файл с текстом статьи. Конвертирую способом, про который писал раньше.

Вуа ля, статья с картинками, найденными в Гугле. Скрипты, разумеется, можно переиспользовать, а какие-то части дописать — например, составление поисковых терминов отдать самой дешевой LLM (Amazon Nova Micro), или даже на локальную, чтобы не гонять codex или claude code на слишком мелкие задачи.

Теперь я могу закидывать в эту папку презентации в markdown, просить агента найти картинки, и получать красивую пдф на выходе.
4
На что похожа работа с агентами?

Я руководил людьми суммарно дюжину лет, поэтому для меня — на работу с другими людьми. Я активный противник излишней антропоморфизации ИИ, но в данном случае это полезная метафора.

В чём особенность? Мы пока ещё находимся на начальной ступени развития агентов, и «человек» этот — начинающий, хоть и прокачивается от версии к версии довольно быстро. Разница между aider год назад и claude code сегодня — световые годы. Но пока агент работает самостоятельно не очень долго, и часто требует ручного вмешательства.

У агентов есть склонность (bias) к действию и к завершению действия любым путём. Иногда агенты решают задачу себе упростить и путь срезать — ну как человек прямо.

Та самая оркестрация агентов означает, что появляется темпоральный — временной — аспект работы. Если ЛЛМ, как в пинпонге, отдаёт ответ плюс-минус сразу, то агент может генерировать, запускать и дебажить код довольно долго — от минут до часов.

Не то чтобы раньше аспекта времени не было — то, как запускается и работает софт, сильно влияет на работу, но теперь, когда работа выполняется агентами, которые могут работать параллельно, в непредсказуемое время останавливаться, <s>простить покушать</s> требовать уточнения и подбадривания, приходится по-другому строить работу с ними. Автономия агентов растёт и растёт, GPT-5-Codex 7 часов проработал автономно.

× × ×

В октябре запускаю лабораторию по работе с агентами. Это и практикум — будем учиться работать в Codex, Claude code, Amp, Windsurf, Cursor, Lovable, v0, Manus, GPT Agent, чтобы оптизировать процессы, работать с данными (локально и через API) и генерировать разные артефакты — от презентаций и исследований до прототипов экспериментальных интерфейсов и продуктов;

и одновременно коллективное упражнение по проектированию будущего, поиску бизнес-моделей, профессиональных ролей и призваний в мире, где агенты делают 80% компьютерной работы.

Почти до нового года будем совместно использовать инструментарий — руководить агентами, исследовать State of the art технологии (как LLM, так и другие модели и hardware) и практиковать активный экстернализм, записывая и обрабатывая весь поток идей, навыков и технологий.

Это для предпринимателей, которые ищут новые идеи и стремятся построить модель будущего и себя в этом будущем,

для продактов, для CPO, CTO, CFO, CMO, которые ищут точку входу в работу с ризонинг-моделями, кто каждый день слышит про агентов, но так и не доходит дальше deep research.

Есть 2 формата участия:

с активной группой — для тех, кому нужны мастермайнды, помогающие сфокусироваться и выбрать направления для работы и исследований. Стоимость участия — 1000 евро за 2.5 месяца

и без активной группы — только теория, сессиий ответов на технические вопросы и онлайн-коворкинги — 400 евро.

Специально сделал эту лабораторию продолжительной по времени — по опыту за месяц тяжело освоить объем информации и попробовать даже несколько инструментов.

Подробное описание опубликую завтра, будет пара бесплатных мест для художников и сотрудников нон-профитов, как всегда на моих лабораториях.

Записать и задать вопросы можно уже сейчас → @glebkalinin
7💯2