Введение в искусственный интеллект

Channel photo updated

19:34

Лопаем информационный пузырь. Как ML приводит к появлению вакуума
Под ML я имею в виду machine learning (машинное обучение).

Был у меня недавно пост про самодиагностику при помощи ChatGPT. Так вот там среди рисков я упоминаю, что от диагностики мы ждем один правильный диагноз. А языковые модели типа ChatGPT как раз и дают один самый вероятный вариант ответа на запрос. Какой вариант был вторым, третьим.. стопятидесятым мы узнать не можем из-за дизайна технологии.
Хотя ковырнуть последний слой нейросети, которая выдает следующее слово (точнее, она выдает токен, но это отдельная история), технически вполне возможно.

Но как преподнести это конечному пользователю? "А вот рассмотрите еще такой вариант ответа?" Сколько ответов в таком случае давать? И какова должна быть пороговая вероятность ответов, которые мы все-таки решили показать пользователю? Вдруг на втором месте там совсем что-то невразумительное. И тогда мы просто отвадим пользователя от нашей модели. То есть сама по себе технология помещения языковых моделей в чат-бот ведет к дискриминации в пользу самого вероятного ответа. Что в перспективе ведет к… да, я подобралась к теме поста: информационному пузырю, или вакууму. Пусть даже и ошибается при этом ИИ в диагнозе всего в 10% случаев, согласно вот этому посту.

Что окажется в пузыре языковой модели примерно всегда? Запрещеночка, конечно. Тексты, которые нарушают чьи-то права, и тексты, которые склоняют к противоправным действиям. Если комьюнити задетектит модель, которая нарушает законодательство, то, скорее всего, модель “зачистят” 🙂. Ну или, может, появится такой dark AI в даркнете. Но можно предположить, что есть такие темы, которые косвенно связаны с противоправным контентом, не являются популярными или еще по каким-то причинам никогда не станут самым вероятным ответом. Вопрос в том, как это верифицировать.

А какой незапрещенный контент имеет высокую вероятность попасть в пузырь?
Пока до повсеместного использования моделей типа ChatGPT еще далеко, мы уже сталкиваемся с пузырями в системах информационного поиска и в рекомендательных системах: поисковые запросы, рекомендации в социальных сетях, хостингах и на маркетплейсах, ленты новостей. В каждом отдельном случае они оставляют каждого из нас без доступа к лавине информации, которую нам не переварить - за это им спасибо. Но в случае поисковых систем бОльшая часть информации, которая попадает в открытый Интернет, вообще никогда не дойдет до случайного пользователя. Как я люблю говаривать: не создавайте сайты в 21 веке - их никто не увидит, кроме тех, кого вы пригласили адресно. В приложениях, типа хостингов, маркетплейсов и соцсетей алгоритмы настроены так, чтобы каждое объявление или пост увидели хоть сколько-нибудь посетителей платформы. Но если от них не будет отклика, то дальше контент к потенциальному потребителю уже не идет. Кто станет первым потребителем, решают алгоритмы, на которые мы мало влияем. (SMM-специалисты, по крайней мере, пытаются 🤗)

Как лопнуть информационный пузырь?
В случае с языковыми моделями: быть их разработчиками и вытаскивать цепочки вероятных ответов, чтобы решать сложные, нетривиальные кейсы. Кстати, это один из трендов в разработке ИИ. Я это прочитала в чьем-то чужом посте, но запамятовала, в чьем. Так что просто поверьте мне на слово.
В случае систем рекомендации быть менее предсказуемым пользователем, например, просить приложения не отслеживать ваши действия, не запоминать информацию о вас. В поисковых системах заходить в режиме инкогнито или не логинясь, через впн, удалять куки. Правда, минус в том, что приложениям и поисковым системам труднее будет угадать ваши хотелки.

#эссеиистика