AI Mindset
4.8K subscribers
42 photos
10 videos
51 links
восприятие мира через AI: от повседневных задач до глубоких инсайтов. Исследуем, как AI преображает мир. Вдохновение, знания, сообщество.

@alex_named – основатель. по всем вопросам
@ai_mind_set_public – открытое сообщество
Download Telegram
Персональный AI интерфейс
#chatgpt #aimindsetpatterns #interfaces

Мы не всегда можем выбирать интерфейс программ, которые мы используем, но мы можем кастомизировать их под себя, увеличивая ценность продукта и наше удовлетворение от его использования.

Исследования, опубликованные в журнале "International Journal of Human-Computer Studies", показали, что персонализация интерфейсов может принести ряд преимуществ для пользователей, таких как:
повышение производительности – можно работать быстрее и эффективнее, когда интерфейс настроен в соответствии с их индивидуальными предпочтениями.
комфорт и эмоции – можно чувствовать себя более комфортно и уверенно при использовании личной системы.

Несмотря на то, что эти исследования были проведены достаточно давно, принципы управления и создания интерфейсов, разработанные ранее, можно применять и к современным продуктам. Все-таки тогда у нас было больше времение на обдумывание таких эффектов.

Теперь попробуем настроить свой интерфейс взаимодействия c chatGPT.

Custom Instructions

Кастомные инструкции позволяют настроить стиль ответов ChatGPT, оптимизируя их под конкретные задачи или предпочтения. Можно посмотреть руководство OpenAI, но там всего две категории:
знания о тебе – кто я, какой мой бэкграунд и роль, где нахожусь и чего хочу от AI.
знания о структуре ответа – в каком формате, стиле, языке мне нужно отвечать. Какую структуру и длину ответа я хочу видеть.

Поскольку custom instructions задаются один раз для всех новых чатов, советуем не сильно усложнять их своими текущими задачами, а описывать только самую базовую структуру. Все остальное выносится в промпт или настройки личного ассистента (об этом в другой раз).

Их можно поменять профиле GPT чата
Settings >> Customize ChatGPT

Стиль

Стиль - это штука сугубо индивидуальная и она по-разному влияет на разных людей. Но иногда настройка стиля под себя, хотя бы даже визуально, очень сильно облегчает доступ к интерфейсу и дает больше удовлетворения от использования. Поэтому можно попробовать сделать следующее.

Настроить интерфейс чата GPT в браузере Arc, чтобы ваше взаимодействие с ИИ стало еще более комфортным и продуктивным. Сам Arc [вот приглашение] включает в себя AI функции (и о них мы тоже поговорим отдельно) и очень быстро развивается.

Но помимо базового удобства самого браузера он позволяет персонализировать веб-страницы (включая chatGPT) через функцию Boost.

Вот мой boost [mono GPT] – он применяет monospace шрифт, который не только упрощает чтение программного кода, но и делает любой текст более структурированным и четким. Помимо этого он удаляет пару маркетинговых сообщений из интерфейса и немного корректирует отступы.

Горячие клавиши

Не забывайте о горячих клавишах – они существенно ускоряют работу. Нажатие "⌘ + /" откроет список доступных комбинаций клавиш, которые помогут вам мгновенно получать доступ к необходимым функциям.

🖤 Alex P
🔥82
Скорость работы AI
#interfaces #tech

Скорость – ключевой параметр адаптации, и чем ближе она к скорости восприятия информации, тем больше вероятность того, что мы останемся "в контакте" с AI и получим ценность от этого взаимодействия.

Сегодня мы поговорим о важности скорости AI инструментов, приведем примеры эффективных решений, таких как Gpoq (новый LPU чип) и Google Gemini Pro, а также обсудим значение интерфейсов ввода. Также мы введем ключевые метрики для оценки производительности этих инструментов.

Сразу оговоримся, что мы говорим здесь про потребительский уровень моделей, доступных из коробки для конечного пользователя. Понятно, что модели можно развернуть (напр. LM studio) локально на своем оборудовании, увеличив их скорость.

🔧 Технические параметры модели и метрики оценки скорости

▸ Time to First Token (TTFT): время, необходимое для генерации первого токена ответа. Чем быстрее мы увидим обратную реакцию, тем больше вероятность.
▸ Time Per Output Token (TPOT): время, необходимое для генерации каждого последующего токена ответа. Именно эта метрика соответствует тому, как пользователь будет воспринимать "скорость" модели.
▸ Tokens throughput (tokens/s): среднее количество выходных токенов, возвращаемых в секунду. Это по сути и есть скорость работы модели.
▸ Latency: общее время, необходимое для генерации полного ответа на запрос. Влияет на скорость чтения и восприятия ответа. Общую задержку отклика можно рассчитать как:
Latency = TTFT + TPOT * #tokens.

Например, TPOT 100 мс/ток будет составлять 10 токенов в секунду, или ~450 слов в минуту, что быстрее, чем обычный человек может прочитать. Обычно именно этого сравнения достаточно, чтобы модель воспринималась нами как "быстрая".

🚀 Как увеличить скорость взаимодействия с AI и почему LPU меняет правила игры?

Чтобы увеличить скорость, мы обычно либо выбираем более быструю модель, например, Gemini Pro (модель от Google, которая из коробки работает быстро), либо используем более легкие модели, такие как Mixtral-8x7b (классический пример быстрой, но эффективной open source модели)... но есть и другой вариант – использовать другие архитектуры, например, LPU (Large Language Processing Unit) - это чип, разработанный компанией Groq специально для задач, связанных с естественным языком, в отличие от стандартных GPT графических чипов. Это обеспечивает большую скорость обработки запроса, делая взаимодействие с AI почти мгновенным. Кстати, модель Mixtral-8x7b, развернутая на архитектуре Groq, сейчас доступна в POE.

Дополнительные метрики, влияющие на скорость AI-инструментов: пропускная способность, количество параллельных потоков, использование кэша, сервера, параллелизация, кэширование, квантование и др.

В зависимости от задачи, мы можем выбирать необходимый набор инструментов и их настройки. Но помимо технических параметров, на скорость взаимодействия с AI также влияют субъективные факторы восприятия и интерфейсы ввода. Об этом чуть позже...

🖤 Alex P
👾7
Восприятие скорости взаимодействия с AI
#interfaces #will

Простота доступа к AI благодаря понятным интерфейсам, будь то доступ к вкладкам, голосовые команды, автоматизация и шаблоны промптов, значительно улучшает опыт. Но помимо этого, есть еще и человеческий фактор, который ограничен скоростью чтения и ввода. Чем меньше кликов/действий нужно сделать до получения ответа, тем больше вероятность повторить этот процесс в будущем.

Можно выделить такие параметры скорости работы AI с точки зрения пользователя:

▸ Скорость открытия интерфейса (вкладка/приложение): время, необходимое для загрузки интерфейса. Чем проще доступ к AI, тем больше вероятность его использования и быстрее получение информации.
▸ Скорость ввода: время, необходимое для постановки задачи и ввода данных, включая клавиши, жесты, запись голоса.. Уменьшение времени между запросом пользователя и началом ответа AI улучшает общее впечатление от использования. Голосовые интерфейсы вроде Superwhisper значительно ускоряют этот процесс.
▸ Скорость чтения (восприятия): время, необходимое для отображения и понимания данных на экране. Оптимизация вывода данных (форматирование markdown, выделения, заголовки, листы и пр.) способствует быстрому восприятию ответа.

🕒 Ощущение моментальности возникает, когда пользователь не замечает задержки в работе модели. Это означает, что время отклика на ввод или команду менее 100-200 миллисекунд. Технически под этим понимается Time to First Token (TTFT) – время до первого токена (слова), которой мы увидим на экране, но воспринимать мы можем и другие объекты интерфейса, такие как полоса загрузки, анимация клика, всплывающие сообщения, shadow text и пр.

Именно поэтому так важен интерфейс работы с AI. Задача выбирать или даже создавать его теперь возлагается на нас. Именно это и создает тот самый майндсет, стиль мышления в новой AI-парадигме.

🖤 Alex P
👾62🦄2
Современный AI браузер
#interfaces

не перестану писать про arc... как объективно лучший браузер на данный момент. Arc from The Browser Company с их философией и гибкой командой в 10 человек, кажется, останется лидером до прихода AGI. Ведь важно не то, сколько мы потребляем или делаем, а то как это происходит... позволю себе эту крамолу)

недавно они раскатали arc MAX c такими AI фичами как умное переименование, поиск по вкладке с AI (что позволяет задать вопрос прямо в контексте вкладки) и предпросмотр с суммаризацией (можно не кликать, а по ⇧(shift) наведению узнать саммари страниц). Уже тогда было понятно, что AI это их новый фокус на ближайшее время.

сейчас они выкатили tidy tabs – возможность проанализировать дневную сессию и разбить ее по вкладкам, по типу контента и проектам. Далее уже в ручном режиме можно будет сохранить/удалить историю.

интересно, что принцип "archive in 12h", что закрывает всю сессию на утро и не дает браузеру захламляться у них до сих пор стоит как дефолтная опция. Что конечно смело... даже "п. как смело" для компании в 10 чел, которая меняет mindset использования одного из самых распространенных классов интерфейса – браузер.

но в то же время это решение крайне понятно с точки зрения новой парадигмы, в которой нет задачи запомнить и записать, но есть задача погрузить систему в контекст своего мышления и интересов, оставляя за человеком только право выбирать...

верим. наблюдаем. создаем

🖤 Alex P
👾11🦄42
Длинный хвост AI мышления
#thoughts #interfaces #will

Говоря про AI mindset, важно понимать это не только про навык технического владения AI-инструментом. Здесь ключевое значение имеет понимание перспектив и траекторий, которые могут влиять на рынок и, в частности, на тебя.

Уже почти десятилетие мы ведем свои личные хранилища знаний в Obsidian, Notion, Brain, при этом стараясь придерживаться определенной структуры и качества инпута. Впрочем, со временем эти структуры эволюционируют, а приватные инструменты уходят с рынка, забирая с собой наши хранилища... Даже Open Source продукты и локальные Markdown файлы хоть и дают какое-то чувства контроля над информацией, но не добавляют ясности в организации этого процесса. Единственное, что остается неизменным, — это необходимость пропускать определенный объем информации через собственное мышление перед ее сохранением... иначе это теряет смысл.

Меня все чаще нагоняет длинный хвост принятых информационных решений, когда сталкиваешься с людьми из прошлого, с которыми когда-то обсуждали тот или иной shortcut, автоматизацию или инструмент ведения задач. Что-то из этого прижилось и догнало уже в новом, AI-сгенерированном мире, будь то через новый проект или чашку кофе. Похожая ситуация происходит и на личном уровне, когда давно настроенный поток сохранения мыслей продолжает работать (иногда даже не понятно как) и начинает вдруг приносить дополнительную ценность при подключении к нему AI-помощника.

AI снижает требования к качеству входящей информации, но не отменяет необходимость ее обработки и понимания. Принцип "garbage in, garbage out" в новом мире преобразуется в

Meaningful Garbage IN >> Insight OUT

Теперь недостаточно обработанные данные не обязательно приводят к плохим результатам. Даже неструктурированная или на первый взгляд поверхностная информация может трансформироваться в ценные инсайты благодаря AI. Возвращаясь к метафоре с отношениями — мы не всегда осознаем, к чему приведет наш контакт с другим человеком. Однако, делая этот контакт meaningful, мы контрибьютим в общее сознание, даже если не всегда можем это заметить.

🖤 Alex P
🔥121
МультимодЕльность
(не путать с модальностью)
#interfaces

в последнее время в развитии AI-интерфейсов наметился интересный тренд – возможность вызывать разные модели/инструкции в одном чате без потери контекста. Т.е. это использовать в одном чате сразу несколько моделей, каждая из которых оптимизирована под определенную задачу.

вчера в Poe (агрегаторе LLM от Quora) добавили мультибот-чаты, где в одном чате можно общаться сразу с несколькими AI. Cейчас, скажем, можно обработать большой массив текста, через Claude 3 Opus 200k, а потом накинуть на него своего кастомного ассистента обученного на ваших текстах, который перепишет текст в вашем стиле... и закончить все это визуализацией на какой-нибудь графической диффузионной модели. По сути это возможность собрать себе облако ассистентов и перенаправлять задачи от одного к другому в рамках одного чата.

в любой момент можно позвать нужного бота в чат, поставив @его_имя.

через функцию compare Poe сам подсказывает, какие LLM могут дать хороший ответ на ваш вопрос, и предлагает переделать ответ от другой модели, опять же не теряя контекста чата. Правда, пока не понятно, какой и как именно объем предыдущего контекста передается в модель с меньшим контекстным окном. Будем следить за развитием этой идеи, но уже сейчас это выглядит очень круто и сильно меняет workflow.

похожая возможность, но в рамках одной LLM, уже пару месяцев есть в ChatGPT, где можно вызывать разные custom GPT из одного диалога через тот же @ mention custom GPT.

🖤 Alex P
🔥62
the Future of Search
#interfaces #mindset

Готовясь к очередному занятию лаборатории, я погрузился в привычный ритуал поиска информации. Но на этот раз что-то изменилось. Видимо, наши разговоры о mindset и новых подходах к работе с информацией не прошли даром, и вместо привычного гугления я обратился к AI поиску. И тут уже есть о чем поговорить.

Рынок поиска сейчас невероятно динамичен. OpenAI, верная своему стилю "анонсировать сегодня, выпустить когда-нибудь", заявила о SearchGPT. Microsoft внедрил поиск в своей барузер и даже потенциально в свое железо с Copilot + PC. Google, удерживающий около 92% рынка поиска, на последней I/O 2024 представил свои AI Overviews, но опять же без реальных дат. Гигант уже не чувствует себя таким "lucky", как обещала его легендарная кнопка. Приход AI и новых игроков заставляет Google переосмысливать свой revenue stream, и это только начало.

А помните, как выглядела главная страница Yahoo? Поисковая строка была погребенная под слоями рекламы. Новые системы поиска обещают более чистый и интуитивный интерфейс. С развитием мультимодального поиска, интегрирующего текст, голос и изображения, мы, возможно, вообще забудем, как выглядит традиционная поисковая строка.

Интересно наблюдать, как поиск перестает быть отдельной сущностью и интегрируется в различные платформы и приложения. Встроенный (вертикальный) поиск становится нормой, размывая границы между поисковиком и остальным цифровым опытом. Consensus.app меняет поиск научных статей, Arc Search встраивает продвинутый поиск прямо в браузер. Интеллектуальные чатботы на сайтах становятся de facto поисковиками по контенту, а сложные продукты внедряют AI-поиск по своей документации.

Строка поиска или командная палета сейчас по дефолту встроена в любой современный инструмент. ⌘+T и я уже ищу по всем вкладкам Arc или функциям RayCast... дополнительное нажатие ⇧(shift) переведет этот запрос в Google, ⇥(tab) сделает запрос к выбранной LLM. Это не говоря уже про небольшие продукты которые внедряю AI поиск в браузер, Obsidian и другие продукты.

Экономика поиска тоже меняется. Perplexity запустила программу разделения доходов с издателями, и это может серьезно повлиять на медиа-индустрию. Представьте, как изменится подход к созданию контента, если за каждое его использование в поисковых результатах издатель будет получать компенсацию. Это так называемая экономика "нулевого клика", где фокус смещается на actionable информацию, а не воронку проплаченных переходов.

В этом новом мире поиска мы не просто ищем информацию – мы вступаем в диалог с ней. Но готовы ли мы к этому разговору? Можно проверить уже сейчас позвонив Arc и осознать, что для эффективного общения с современным поиском нужно как минимум уметь четко формулировать мысли.

Поиск перестает быть просто инструментом и становится непрерывным процессом взаимодействия с информационным пространством. И в этом новом мире наша человеческая способность связывать неочевидное и создавать новые смыслы становится еще более ценной. Ведь как бы ни развивались технологии поиска, именно наша способность задавать правильные вопросы и интерпретировать ответы останется ключевым навыком в эпоху AI.

👤 Alex P
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25🦄52🌚1
Голос как интерфейс: почему всё снова сложно
#interfaces

Голос снова в моде. Не тот, что звучит в голове во время медитации или сложной задачи, а тот, который мы всё чаще доверяем машинам: для быстрых заметок на бегу, фиксации идей во время встреч, управления умным домом или просто поиска новых способов взаимодействия с технологиями. В итоге хочется меньше времени проводить у экрана и перейти к более естественному, человеческому диалогу с компьютером. Идеально, если при этом вообще не нужно будет задумываться об интерфейсах — просто знать, что всё сохранится там, где нужно, и останется относительно приватным.

Рынок наполнен устройствами, которые обещают стать нашими персональными летописцами. Клипсы вроде PLAUD NotePin или Limitless Pendant записывают всё подряд и пытаются собрать из этого осмысленное саммари — но часто требуют подписки и ограничивают экспорт. Док-станции типа HiDock перехватывают аудиопоток из Zoom или Teams. Те же классические диктофоны теперь — лишь первый, возможно даже самый оптимальный, этап, за которым обычно следует ручная загрузка файла в AI-сервис.

На первый взгляд всё удобно: телефон всегда под рукой, специальная гарнитура, автоматические выжимки после звонков. Но стоит пожить с таким помощником пару недель и попробовать использовать его не только для стандартных сценариев, но и для чего-то более личного или спонтанного — надиктовать идею в дороге, записать рефлексию перед сном, сохранить диалог, где важны не только факты, но и интонации, где формат мысли не помещается в привычный промпт — и система начинает сбоить.

Предлагаемое «автоматическое саммари» слишком поверхностно, упускает ключевые для вас нюансы, в кастомный промпт почти никто не предоставляет. Интеграция с основными инструментами, будь то Obsidian для заметок или специфическоая CRM, либо отсутствует, либо требует сложных «костылей». По сути, вам продают не столько умный инструмент, сколько подписку на закрытую экосистему с неоптимальной AI моделью и без нормального экспорта, где вы мало что можете контролировать. Хочется кричать, "дайте мне чистый Markdown и заберите мои деньги!"

Всё чаще возникает желание найти не «самый умный», а «самый надёжный» сервис, который решит задачу хотя бы лайф транскрибации достаточно качественно. Просто качественно превратит речь в текст и сохранит его там, где вам удобно, и в том формате, который вам нужен. А уже потом, имея на руках этот «сырой» текст, можно решать, какой языковой моделью его обрабатывать. Какие задачи извлекать, какие теги ставить, как связывать с другими заметками и т.д.

Программные решения вроде Krisp, которое улучшает качество звука на уровне системы и может вести транскрипцию без привязки к конкретному устройству, или API-сервисы типа Deepgram, предлагающие точную диаризацию (разделение по говорящим), становятся здесь более привлекательными. Даже Notion недавно шагнул в эту тему со своим ai-суммаризатором звонков. Эти инструменты дают какой-то контроль, но лишает той гибкости физического standalone устройства и зачастую привязывают нас десктопу.

В нашем [сообществе] мы как раз недавно создали небольшую рабочую группу, чтобы исследовать эти вопросы. Мы хотим понять, как отделить этап качественного кепчуринга речи от этапа её осмысления. Какие устройства действительно хороши для записи, какие сервисы лучше всего подходят для транскрипции и последующей кастомной обработки. Как настроить пайплайны через Make или Zapier для автоматизации этого процесса. Цель — собрать карту решений и, возможно, сделать открытый гайд, который поможет каждому выстроить свой собственный, удобный и контролируемый процесс работы с голосом. Для желающих поучаствовать, приходите в наше сообщество.

Для желающих просто следить за новостями – мы будем публиковать наши результаты здесь.
На (голосовой) связи 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍45🔥1512👾8🤷‍♀1