AI, life and balance
114 subscribers
136 photos
3 videos
11 files
204 links
Download Telegram
Планы
Я пишу все посты заранее, стараюсь на полторы-две недели вперед (сейчас я в отпуске и напишу побольше). Этот пост я пишу 29 июля, а выложу 9 августа. На этот момент у меня готов большой пост на vc на воскресенье 4 августа. Он лежит и чешется, но я держусь и жду даты запланированной публикации. Когда этот пост выйдет, скорее всего, я уже допишу про когнитивные искажения на 18 августа.
Мне вообще часто сложно удержаться от публикации, уж очень охота поделиться интересным. Но запас по времени нужен, чтобы не сбивать расписание в случае большой загрузки на работе или командировок. Я публикую здесь маленькие посты во вторник и пятницу, большие на vc – по воскресеньям, не хочу допускать простоев.
План по публикациям готов аж до первого ноября включительно. Понятно, что через месяц я могу найти что-то более актуальное и интересное для себя, тогда какие-то публикации подвину, но этот план все равно важен. Он помогает оценить объем тем, которые у меня есть, и я себя спокойнее чувствую, зная, что не нужно искать и что-то новое придумывать.
Идеи для всех постов сначала набиваются в Огромный Список, потом сортируются по датам, исходя из того, что скорее хочется поисследовать (это сложно, потому что все хочется).
Изначально была идея писать по мере собственного желания, но у меня есть склонность сначала работать 25/8, а потом лежать в углу и прокрастинировать, поэтому планирование – мое все.
Напоследок пара спойлеров: в воскресенье на vc будет пост про GAN, на следующей за ним неделе поделюсь тут полезными штуками, у которых есть бесплатные версии (такой пост получился, мне прям хочется его скорее опубликовать). До конца месяца планирую посты про прокрастинацию и научный подход к обучению. В сентябре будет несколько очень крутых и интересных моделей и небольшой заброс про кое-какой проект, которым я занимаюсь в свободное от работы время.
👌3
В воскресенье вышел пост про GANs, можно глянуть.
А тут вот красивые картинки про языковые модели, которые я взяла с сайта Dr. Alan D. Thompson lifearchitect.ai, который героически собирает все современные знания про ИИ и выкладывает их у себя для всех желающих. Хочу быть как он, когда вырасту.
Первая картинка – сравнение размеров крупнейших языковых моделей, представленных в виде планет солнечной системы. В роли Юпитера выступает модель Claude 3 Opus. У меня она стоит в плане на осень (разбор архитектуры со статьями, все как мы любим), а пока можно почитать про нее тут. Она выглядит перспективно.
Вторая картинка – рейтинг моделей по размеру контекстного окна (это число токенов, которое модель может принять на вход за один раз).
И последняя в моем посте, но не в том, который я цитирую – список ачивок, которые выбили самые большие модели. Тут и понимание текста, и дебаггинг кода, и математика, и дедукция – в общем, просто посмотрите на это.
И обязательно заходите lifearchitect.ai, вам оно точно надо.
👍1🕊1
gravitywrite.png
332.6 KB
Нашла интересный пост с разными инструментами для студентов, которые могут быть доступны по бесплатной подписке. В списке есть Perplexity и Turbolearn (у него бесплатная версия есть, конечно, но очень ограниченная), которые я упоминала, и еще пять новых:
- Gravitywrite (помощник для написания текстов; у меня не вышло зарегистрироваться через почту с доменом .ru, но получилось через gmail, без vpn. С русским языком он при этом работает. Есть бесплатная версия, урезанная до 1 000 слов в месяц и доступа с одного устройства. Внутри куча разных инструментов для работы с блогом, я попробовала Text Improver на своем предыдущем посте, результаты на скрине. В целом интересно, и я возьму его на тест, как раз хочу поработать над своей письменной речью);
- Humata AI (это ПО для «общения» с документами; делает саммари длинных файлов; здесь зарегистрировалась на почту .ru, тоже без vpn. По-русски понимает. Из плюсов – когда задаешь вопрос, он в документе выделяет те места, откуда взят ответ. В бесплатной версии можно обрабатывать до 60 страниц и задать до 10 вопросов. На тест брать не буду, не заинтересовалась. В платных версиях указано, что используется GPT-4, а он у меня и так есть, к тому же, набор функций очень узкий);
- Math GPT (для решения задач по математике, физике и бухучету; регистрироваться можно через дискорд или гугл; русский язык он понимает, задачу из школьной олимпиады по физике решил. Я тот еще физик, но ответ совпал с правильным, так что засчитаем. Задачу и решение прикрепила, тестировать пока не буду, мне не на чем. Опять же, можно ChatGPT припахать, если уж на то пошло);
- Tutor AI (предлагает составить курс на предложенную вами тему; на российскую почту зарегистрировалась, vpn не нужен. Русского языка у него нет, а на английском попробовать не получилось, так как бесплатно дается одна попытка. Пока этот инструмент лично мне не очень интересен, тестировать не буду);
- Gamma (для создания презентаций, доступен без vpn, с российской почтой работает, русский язык есть, но пока в бета-версии. Можно выбрать число слайдов (в бесплатном режиме до 10), можно сделать презентацию, сайт или документ. Сначала задаем тему, потом приложение гненерит план, который выгляит достойно, в общем. Потом можно выбрать тему оформления – и получить весьма приличную презентацию. Выглядит любопытно, возьму на тест и посмотрю подробнее. Прикрепила к посту тестовую презентацию по GAN, которую сделала в Gamma).

#инструменты
👍2
В продолжение к посту про когнитивные искажения сегодня напишу про моего главного врага – синдром самозванца (он не только мой, им, кажется, вообще все страдают).
Впервые он был описан в 1978 году в статье «The Imposter Phenomenon in High Achieving Women: Dynamics and Therapeutic Intervention» («Феномен самозванки у успешных женщин: динамика и терапия»). Как можно догадаться из названия, впервые синдром был описан именно на женщинах, которые, несмотря на свои многочисленные достижения, были убеждены в том, что они на самом деле не так умны и талантливы и всего лишь сумели обмануть окружающих и заставить их считать иначе. В той старой статье авторы сомневаются, что синдром характерен для мужчин (или, во всяком случае, столь же распространен).
Сегодня есть разные данные относительно распространенности синдрома по популяции. Среди студентов и выпускников вузов и колледжей, медсестер и представителей профессий из области STEM, образования и бизнеса синдромом самозванца страдают от 56% до 82% людей.
Еще одно большое исследование указывает на то, что синдрому самозванца сильно подвержены эйчары; 54% женщин и 38% мужчин с ним сталкивались. Forbes пишет об исследовании, согласно которому аж 70% людей вообще столкнется с синдромом самозванца хоть раз в жизни.
Синдром самозванца не является заболеванием, это скорее поведенческий феномен и часть опыта очень многих людей. Его можно практически считать нормальным на определенных этапах профессионального развития (но при выраженной интенсивности, которая мешает нормально жить и работать, лучше обратиться за помощью).
Некоторые специалисты выделяют пять типов синдрома самозванца:
- характерный для перфекционистов (ну тут понятно);
- для экспертов (хотят знать о своей области вообще все, малейшая некомпетентность кажется им полным провалом);
- для одиночек (тех, кто считает, что достижение можно засчитать только тогда, когда оно достигнуто исключительно их усилиями; если кто-то помогал, это не считается);
- для гениев (считают, что достижение – это когда все получилось легко и быстро; если пришлось напрягаться – не считается);
- для сверхлюдей (тех, кто привык жонглировать сразу кучей обязанностей и хотят преуспеть везде; если хотя бы в одной области они терпят неудачу, это провал всей жизни).
Если вы себя узнали, возможно, вас утешит тот факт, что синдром самозванца не характерен для новичков и дилетантов. Скорее всего, вы уже чего-то в самом деле достигли. Возможно, теперь пора достичь психолога.

(Иллюстрация сгенерирована с использованием GhatGPT)
😁2🤓1
Чтобы учиться максимально эффективно по науке, надо сначала побегать, потом поучиться, а затем сразу пойти спать
Ладно, это немного утрированный подход, но в нем есть некоторое здравое зерно. Регулярные тренировки (не только бег, а любые аэробные нагрузки, то есть, то, что мы называем «кардио» – нагрузки с увеличением частоты сердечных сокращений) замедляют процесс потери мозговой ткани, связанный с возрастом, а также помогают улучшить внимание, ускорить процесс обработки информации и более эффективно обучаться. Дело в том, что во время тренировок с повышением пульса к мозгу поступает больше крови, насыщенной глюкозой и кислородом. Кроме того, увеличивается уровень содержания молекул BDNF (brain-derived neurotrophic factor) – эти молекулы подпитывают образующиеся в процессе обучения нейронные связи и делают запоминание информации эффективнее.

В исследованиях с помощью фМРТ обнаружили, что у более активных пожилых людей больше объем гиппокампа, чем у менее активных. Гиппокамп играет очень важную роль в обучении и формировании новых воспоминаний. В частности, пациенты с серьезными повреждениями гиппокампа не могут запомнить, что происходило с ними вчера или несколько часов назад, но помнят события своей жизни, произошедшие до травмы или операции, в результате которых гиппокамп был поврежден.
Положительный эффект регулярных упражнений показан и на детях, и на молодых взрослых. При этом совершенно не нужно каждый день бегать марафоны. В исследованиях участники тренировались по полчаса, из которых пять минут уходило на разминку и еще пять – на заминку и восстановление.
Упражнения, даже невысокой интенсивности, помимо прочего, помогают справиться со стрессом, снизить тревогу и облегчить симптомы депрессии.

Что касается сна, тут все как будто более очевидно. Кто пытался учиться после пары бессонных ночей, понимает, что как минимум недостаток сна точно влияет на достижение успеха в этом направлении.
На самом деле, сон тоже влияет на гиппокамп (не только на него, конечно). Объем информации, которую способен хранить в себе гиппокамп, ограничен – это наша краткосрочная память. Во сне информация из краткосрочной памяти переносится в долгосрочную. Соответственно, недостаток сна снижает способность формировать долгосрочные воспоминания (здесь речь идет скорее о глубокой фазе сна, а вот фаза быстрых движений глаз (REM), по всей видимости, влияет на способность решать сложные задачи).

Теперь практически-полезное: в брошюре Student Sleep Guide собрана полезная информация про стадии сна, их влияние на память и способности к обучению, а еще некоторые практические рекомендации (например, исследователи советуют ложиться в промежуток между десятью вечера и полуночью и стараться спать хотя бы семь часов каждую ночь, обеспечить себя темнотой и тишиной и прибить храпящего соседа табуреткой).
Конечно, нормальное и достаточное время сна может отличаться от человека к человеку. Кому-то будет достаточно спать шесть часов или меньше, кому-то нужно девять часов, это зависит в том числе от неконтролируемых врожденных факторов. Главное, чтобы после сна человек себя чувствовал отдохнувшим и полным сил.
Короче говоря, сначала тренируемся и повышаем уровень глюкозы, кислорода и BDNF в мозгу, потом учимся, потом быстро спать для закрепления материала.

(Изображение сгенерировано с использованием PaLM AI)
👍21
В 2022 году была опубликована большая обзорная статья, авторы которой собрали и проанализировали 1 635 статей, опубликованных с 1990 по 2020 год. Цель обзора – понять, какие аспекты прокрастинации интересовали исследователей на протяжении всего обозначенного периода, как менялся их фокус внимания и на чем следует сосредоточиться будущим исследователям.
Поскольку я не могу физически обработать такой объем информации, сосредоточусь на паре самых свежих работ из списка, которые особенно привлекли мое внимание.
* В работе «Caught in the moment: Are there person-specific associations between momentary procrastination and passively measured smartphone use?» 2022 года авторы изучают связь между прокрастинацией и использованием смартфонов. В качестве испытуемых припахали студентов, конечно же, в количестве 221 человека. В течение месяца они сами записывали свои моменты прокрастинации, параллельно отслеживалась продолжительность использования смартфонов. Выводы получились, в общем, не удивительные: смартфоны связаны с прокрастинацией, но эта связь у разных людей проявляется по-разному. Общие наблюдение заключаются в том, что, во-первых, чем больше уведомлений, тем больше прокрастинации, и чем более фрагментировано (часто понемногу) использование смартфона, тем тоже больше прокрастинации.
* В статье «The Effect of Abusive Supervision on Employees’ Work Procrastination Behavior» (2021 год) авторы выясняют, что будет с прокрастинацией, если сотрудников на рабочем месте периодически пинать (вербально и невербально, но не прям в буквальном смысле). Во введении к статье они сообщают, что офисные сотрудники прокрастинируют примерно 1,3 часа в день, и это еще заниженная оценка (тут мне стало полегче, потому что я, оказывается, еще не самый злостный прокрастинатор). Так вот, если пинать людей часто, а поощрять редко, они чаще прокрастинируют. Меньше прокрастинируют более устойчивые ко всяким негативным внешним воздействиям люди, а также те, кто умеет как следует отдыхать и переключаться в нерабочее время.
* В статье «Procrastination and problematic new media use: the mediating role of future anxiety» авторы выделяют прокрастинацию общую (которая выражается в откладывании повседневных дел) и прокрастинацию, связанную с принятием решений в срок. Изучали опять студентов, выяснили, что самые прокрастинирующие выражают наиболее высокий страх перед будущим (это относится к обоим типам прокрастинации, но немного больше к тому, который связан с принятием решений). Авторы также упоминают другие исследования, которые связывают использование социальных сетей с системой вознаграждения в мозге (получение быстрого дофамина). Тревожимся по поводу будущего –> залипаем на котиков –> не делаем дела –> тревожимся еще больше. Замкнутый круг.
* Авторы работы «Outcome value and task aversiveness impact task procrastination through separate neural pathways» засунули своих подопытных в аппарат МРТ, чтобы выяснить, что в мозгу непосредственно влияет на прокрастинацию. Выяснили, что влияют амигдала (она же миндалевидное тело) и гиппокамп. Гиппокамп активно участвует в формировании воспоминаний и мыслях о будущем, а амигдала обрабатывает эмоции, она в значительной степени связана со страхом. Если выполнение задания сулит большую награду (или невыполнение сулит большие проблемы), включается гиппокамп и дает нам хорошего пинка, чтобы мы отложили котиков. Если задание неприятное, скучное или сложное, амигдала требует отложить задание и смотреть котиков. Что мы в итоге будем делать, решает исход их поединка: у кого мощнее сигнал, тот и перехватывает контроль над поведением.

Короче, вот научно обоснованный план по победе над прокрастинацией:

1. Осознать, что вам не победить.
2. Разбить свои задачи на задачи поменьше и ставить галочки в списке, чтобы получить немножко дофамина.
3. Отключить уведомления на телефоне.
4. Отдыхать в выходные и вовремя ходить в отпуск.
5. Не ругать себя слишком сильно. Это только усилит тревогу и точно не поможет оторваться от телефона. И вообще, некоторые задачи должны отлежаться в мозгу, прежде чем вы найдете решение.
2
* (Изображение сгенерировано с использованием ChatGPT)
Мне кажется, это актуальный пост для сентября, для тех, кто хочет прикрутить себе к мозгу дополнительное расширение и учиться / работать эффективнее (я хочу).
Здесь инструменты, которыми я либо пользуюсь постоянно, либо тестирую. Первая часть про инструменты вышла здесь, потом этот пост был, а сейчас будет что-то вроде саммари. Для удобства сделала тег #инструменты, буду помечать им все посты из этой группы.
На самом деле, у меня постоянно что-то новое на тесте, поэтому хочу такие посты выкладывать время от времени, с обновлениями.
Итак, список:
- Gravitywrite (купила подписку и пребываю в стадии активного тестирования; помогает мне улучшать тексты с помощью Text Improver, Blog Content неплохо справляется с генерацией идей. Там есть еще инструменты для работы с кодом, и для рерайтинга / копирайтинга, в том числе так, чтобы на проверке не заметили участия ИИ в написании текста, инструменты для презентаций и много чего еще. Эдакий мультитул. Работает на русском языке);
- ChatGPT (он мне рисует картинки для некоторых постов и пишет саммари публикаций для ускорения работы. Еще конкретно сейчас он мне пишет запросы в postgresql. Я один раз описала подробно всю базу данных, теперь просто обращаюсь с запросами, все инструкции он помнит. Правда, в какой-то момент кода стало очень много, и он стал забывать некоторые функции, поэтому сборку в основном делаю без его помощи. Статьи тоже все равно приходится читать самостоятельно целиком, потому что у всех языковых моделей бывают галлюцинации и надо их проверять, но вместе все равно быстрее получается);
- Perplexity (для поиска источников; с саммаризацией у него есть проблемы, нужно внимательно проверять);
- Gemini (дебаггинг кода. Честно говоря, с действительно сложными случаями не помогает, но по мелочи отловить глупые ошибки – запросто);
- PaLM (рисует картинки часто лучше, чем DALL-E, доступная через интерфейс ChatGPT);
- Coconote (в стадии тестирования, активно буду тестировать с сентября, а пока пробую на совещаниях);
- Notability (про него, кажется, нигде не писала еще. Это приложение-блокнот, пользуюсь им давно для записи лекций от руки. ИИ там распознает почерк (мой даже он не всегда распознает), чтобы можно было искать по написанному);
- Skype (использую автоматические субтитры и саммари совещаний. Последние в меньшей степени, потому что есть Coconote, а вот тот, кто додумался до субтитров, должен попасть в рай без очереди. Это я поняла, когда у меня был преподаватель из Индии (при всем уважении));
- Gamma (тестирую, недавно был пост про нее);
- Notion (планирую в нем сейчас вообще все. Там есть ИИ, который делает саммари описаний задач, отвечает на вопросы по документам и таблицам, может сделать черновик письма или повестки совещания).

Глядя на этот список, можно подумать, что я вообще ничего не делаю, все делает ИИ за меня (но я делаю, я тестирую инструменты!).

Облизываюсь на clockwise, но он работает только для корпоративных пользователей. Ничего, я придумаю, кого корпоративно соблазнить на затест.
Еще положила глаз на Otter.ai, на будущее, потому что это снова инструмент для написания конспектов, надо сначала закончить текущие тесты.
Всего у меня сейчас восемь разных инструментов (не включая вышеперечисленные) висит в очереди на тест, но это секрет пока.

#инструменты
🔥2
Галлюцинации языковых моделей

Я тут много рассказываю, как сама пользуюсь инструментами на основе ИИ, и много чего советую, поэтому пришло время поговорить о некоторых подводных камнях при использовании таких инструментов. Поскольку в основном я интересуюсь языковыми моделями, речь пойдет преимущественно о них.

Это не то чтобы большой секрет, но большие языковые модели страдают галлюцинациями. Галлюцинация – это некорректный ответ, не отражающий реальность и созданный вследствие ошибки. Иногда модели «выдумывают» правдоподобные на вид литературные источники или людей, рассказывают про факты, которых не было, и все такое.
Основа для поста – статья «WildHallucinations: Evaluating Long-form Factuality in LLMs with Real-World Entity Queries», в которой представлен метод оценки галлюцинаций и метод борьбы с ними же.
Авторы использовали WildChat – базу данных, состоящую из реальных диалогов пользователей с ChatGPT. Для оценки корректности ответов модели использовали FActScore – метрику, которая рассчитывается как доля фактов в сгенерированном ответе, подтвержденных надежными источниками. Каждый факт в данном случае – это минимальная единица информации (пример на скриншоте 1).
В ходе экспериментов авторы выяснили, что языковые модели чаще подвержены галлюцинациям в отношении тем, касающихся людей и финансов и в меньшей – в отношении географии и областей, связанных с вычислениями. Если об объекте запроса есть статья в Википедии, модели галлюцинируют меньше (Википедия – один из наиболее популярных источников для обучения). RAG помогает бороться с галлюцинациями, но не избавиться от них окончательно.

После применения автоматической оценки достоверности, авторы собрали собственный набор данных, который как раз и называется WildHallucinations. Эти данные теперь можно использовать для тестирования моделей на галлюцинации: в них выделен объект, о котором сообщаются факты, и приведены источники достоверных данных для оценки.
Теперь самое интересное – сравнение моделей. На скриншоте с гистограммой (скриншот 2) модели отсортированы по убыванию метрики WildFactScore-Strict. WildFactScore – это FActScore, только она еще адаптирована для учета редких категорий, по которым задаются вопросы. WildFactScore-Strict – ее модификация, у которой есть дополнительные ограничения: она будет равна 0 в том случае, если в сгенерированном моделью ответе хотя бы один факт не подтвержден, или если модель отказывается отвечать.
Как видите, в лидерах GPT, Gemini и Claude. Меня, если честно, немного расстроили результаты Llama, но это было до последнего релиза, и самая большая модель из семейства на оценивалась. Возможно, она себя еще покажет.
Хотя и лидеры не дотянули до 35% полностью корректных ответов, что уж там. Это повод проверять сгенерированные результаты еще более тщательно.
При этом Gemini и Claude, хотя и страдают галлюцинациями немного больше, чем GPT, «выдумывают» факты о меньшем числе объектов (то есть, GPT про всех сочиняет по чуть-чуть, а Gemini и Claude – не про всех, но много). Но в целом они достаточно близки.

Ладно, а что делать-то теперь?
Во-первых, проверять (простите за повтор, но это не лишнее).
Во-вторых, использовать техники, которые помогают сократить число галлюцинаций, такие как упомянутый ранее RAG, или внимательно очищать тренировочные данные от недостоверных фактов. Большие модели тренируются на огромных массивах, собранных со всего интернета, и проверить их все невозможно, разумеется. Однако можно попробовать привести в порядок набор данных, на котором модель будет обучаться под конкретные рабочие задачи (речь про fine-tuning).
Работа с галлюцинациями – это отдельная задача в области Responsible AI (ответственного ИИ, RAI). Я сейчас участвую в большом и очень интересном проекте, который относится к RAI, и занимаюсь непосредственно галлюцинациями (как бы это странно ни звучало). Так что буду писать еще про это все дело.
1
AI, life and balance
Мне кажется, это актуальный пост для сентября, для тех, кто хочет прикрутить себе к мозгу дополнительное расширение и учиться / работать эффективнее (я хочу). Здесь инструменты, которыми я либо пользуюсь постоянно, либо тестирую. Первая часть про инструменты…
Notion будет недоступен с сентября ☹️
Взяла на тест российское ПО - Weeek. Меня привлекло то, что в него можно вгрузить проект из Notion по специально для этой цели созданной инструкции.
Из ИИ там есть YandexGPT, обещают подключить в будущем ChatGPT4 и GigaChat (это от Сбера). Из функций саммари текста, генерация идей и загадочное "многое другое".

Еще есть два ИИ-ассистента, которые выполняют роль техподдержки. Пока выглядит интересно.
Наследование человеческих стереотипов языковыми моделями. Часть 1

После разговора о галлюцинациях время поговорить о стереотипах (я же обещала больше ответственного ИИ – вот).
Это не то чтобы великая неожиданность, но ИИ наследует искажения и стереотипы, присущие людям. Потому что люди обучают ИИ и люди генерируют и собирают данные для обучения ИИ, чему уж тут удивляться. Но изучать этот феномен нужно, чтобы как-то с ним бороться.
Авторы статьи «Bias and Fairness in Large Language Models: A Survey» как раз этим занялись. Это внушительная работа, в которой авторы собрали и классифицировали ошибки, метрики для их обнаружения и способы борьбы с ними.
Я не буду всю огромную таксономию сюда переписывать, разумеется, но вот пример искажения на уровне кодирования предложений (sentence embedding) из статьи: если взять вектор слова «doctor» в предложении «This is a doctor», он будет ближе к вектору слова «man», чем к вектору слова «woman» (близость измеряется с помощью косинусного коэффициента). В то же время вектор слова «nurse» будет ближе к вектору слова «woman». На первом скриншоте графическое изображение этой разницы.
На практике вся эта косинусная близость означает следующее: в текстах, на которых обучали языковую модель, слово «врач» чаще обозначало мужчину, а слово «медсестра» – женщину (в английском языке на медсестру и медбрата один термин – nurse). Генерируя текст, модель будет писать о враче скорее как о мужчине, чем как о женщине.
Или вот другой пример (картинка на втором скриншоте): вероятность того, что в предложении «Она хороша в [MASK]» на место маски (скрытого токена) будет сгенерирован токен «искусстве» будет выше, чем вероятность того, что будет сгенерирован токен «математике». Для действующего лица «Он» все наоборот.
Казалось бы, в чем тут проблема? Всего лишь пара невинных стереотипов о том, что математика для мальчиков, а литература – для девочек, как это повлияет на нашу жизнь?
Мой ответ (помимо того, что мне такие стереотипы не нравятся, в отличие от математики) в том, что многие люди возлагают на ИИ очень большие надежды (про это еще отдельный большой был пост). Они думают: «Вот как разовьем сейчас ИИ и как заменим медленных людей, которые делают ошибки, на быстрых и точных роботов». А по факту мы заменим медленных людей, которые делают ошибки, на быстрых роботов, которые тоже делают ошибки, но интенсивнее. Если мы хотим добиться повышения качества нашей работы, а не только ее скорости, нам нужно потрудиться над искоренением искажений, как у себя, так и у наших синтетических помощников. Конечно, совсем мы от них не избавимся, но можно хотя бы лежать в нужную сторону.
В вышеупомянутой статье авторы приводят перечень техник для сокращения искажений у языковых моделей:
- сокращение искажений в процессе предобучения (в основном это работа с данными: дополнение большим количеством примеров, фильтрация и т.д.);
- сокращение в процессе обучения (модификация архитектуры, селективная работа с параметрами);
- сокращение в процессе обработки данных моделью (модификация декодирования вектора в токен, перераспределение весов);
- сокращение после обработки (переписывание сгенерированного моделью текста с исправлением искажений).
Что делать с людьми, авторы не написали.
Наследование человеческих стереотипов языковыми моделями. Часть 2

В статье поменьше, «Large language models show human-like content biases in transmission chain experiments» авторы описывают пять экспериментов, в котором людям и ChatGPT дали одни и те же задания. Для людей это было что-то вроде игры «сломанный телефон»: первому участнику рассказывают некоторую историю (сравнительно длинную). Он пересказывает ее вкратце следующему и так далее, пока история не дойдет до последнего участника. В конце исследователи смотрят, что получилось из исходного текста (в частности, какие именно факты в ней остались и какие были искажены). ChatGPT играл сам с собой. Краткий пересказ статьи вам от меня: ChatGPT наделал ровно тех же ошибок и пришел к похожим результатам.

На десерт самое веселое: люди тоже наследуют ошибки ИИ. Статья про это вышла в Nature. «Веселое» здесь в том, что мы, работая с ИИ, радостно преумножаем искажения вместо того, чтобы их уменьшать. Но на самом деле, статья скорее тревожащая, потому что речь в ней идет о медицине. Участники не только делали ошибки при постановке диагноза, общаясь с нейросетью, но и продолжали их же делать потом, когда нейросеть забрали.

Так и живем.
Habsburg AI

На этот пост меня натолкнула статья «When AI’s output is a threat to AI itself». Точнее, не сама статья, потому что доступ к ней закрытый, а ее обсуждение в сообществе. На самом деле, тема не новая, и я буду опираться на более ранние статьи, в частности, «AI-Generated Data Can Poison Future AI Models» и «AI could choke on its own exhaust as it fills the web».
Тема вот какая: мы уже засунули в генеративные модели примерно все данные, созданные человеком, какие есть в нашем распоряжении. Разумеется, люди продолжают генерировать больше, снабжая исследователей новыми наборами тренировочных данных. Однако параллельно Интернет наполняется данными, сгенерированными ИИ, и эти данные тоже попадают в тренировочные массивы. Вопрос, который вызвал обсуждения: не приведет ли обучение моделей на синтетических данных к тому, что модели начнут деградировать? Мы уже поняли, что искаженное человеческое восприятие мира влияет на искаженное восприятие мира ИИ. Потом ИИ влияет на человека, усиливая искажение. А еще ИИ влияет на себя же, и тоже не в лучшую сторону.
Преимущественно в статьях, на которые я ссылаюсь, речь идет о больших языковых моделях, но это не только их беда.
Можно ли избежать попадания синтетических данных в обучающие выборки? Похоже, что это становится все сложнее сделать. Во всяком случае, есть исследования, авторы которых полагают, что созданных человеком данных со временем может стать недостаточно для обучения по-настоящему больших и мощных моделей. Конечно, здесь присутствуют некоторая экстраполяция и некоторые допущения. Однако даже при наличии созданных людьми данных, синтетические данные все равно нужны для отдельных специфических задач, для которых человеком сгенерированного контента не хватает.
И есть другие исследования, которые показывают, что новые модели, обученные на синтетических данных, созданных предшественниками, работают хуже и накапливают «неблагоприятные мутации» с каждым следующим поколением. Jathan Sadowski, соавтор подкаста This Machine Kills, придумал термин «Habsburg AI» («ИИ Габсбургов») на этот счет. У него же я, кстати, нашла термин «Potemkin AI» («Потёмкинский ИИ»), но это уже другая история.

Конечно, есть и другая точка зрения. Многие исследователи считают, что создание синтетических данных поможет преодолеть нехватку таковых в отдельных узких областях. Эксперименты с разметкой данных, например, показывают вполне себе хорошие результаты.

Короче говоря, это не пост про то, как все сломалось, развалилось и больше не работает. Это пост про то, о чем нужно подумать, чтобы совершенствовать наши инструменты в будущем, а не топтаться на месте. Мне кажется, что тема работы с синтетическими данными будет актуальна в ближайшее время, поэтому буду за ней наблюдать.

(Изображение сгенерировано с использованием ChatGPT)