AI, life and balance
114 subscribers
136 photos
3 videos
11 files
204 links
Download Telegram
В одном из предыдущих постов я рассказывала про Turbolearn.ai, а вскоре нашла еще одно похожее приложение – Coconote. Его существенное преимущество перед Turbolearn заключается в том, что он многоязычный, и русский язык тоже понимает (Turbolearn умеет только английский расшифровывать).
Он работает и с аудио, и с видео (но не с любыми, а только с теми, к которым есть субтитры, во всяком случае, в бесплатном варианте). Тоже умеет создавать для вас тесты и карточки для запоминания материала, а еще может перевести его на русский язык, что полезно.
Пока подробно не тестировала, планирую. Один раз пробовала использовать Coconote для записи рабочего совещания и подготовки протокола. На первый взгляд нормально смотрится.

#инструменты
Дополнительных материалов пост (Часть 1).
На vc писала про сверточные нейросети и упомянула там про ResNet вскользь, тут расскажу побольше.
При увеличении числа слоев в нейросети может возникать проблема деградации: это когда начиная с определенного момента (числа слоев) ошибка, вместо того чтобы снижаться, начинает расти, причем как на тестовой выборке, так и на обучающей. То есть, проблема не в переобучении, когда модель слишком хорошо подстраивается к тренировочным данным и не справляется с тестовыми (тогда ошибка на тренировочной выборке снижается, а на тестовой растет). Проблема в большом числе параметров. С математической точки зрения обучение модели заключается в минимизации функции ошибки. Больше параметров – сложнее функция, сложнее функция – больше локальных минимумов и вероятность застрять в одном из них, так и не добравшись до глобального минимума. Шикарная визуализация этой идеи представлена здесь.
Чтобы решить эту проблему, авторы ResNet предложили использовать остаточное обучение (residual learning).
(Часть 2) Если простыми словами, это работает так: обычно данные передаются от слоя к слою последовательно (вход слоя n – это выход слоя n-1), а ResNet состоит из блоков, в которых выход слоя n-1 пропускает следующий за ним и передается в слой n+1 вместе с выходом слоя n (на скриншоте x – это матрица с входными данными, а F(x) – результат преобразования x в первом слое)
Тогда каждый следующий слой получает информацию о том, что изменилось на предыдущем (то есть, что изменилось при переходе от x к F(x)). Это «что изменилось» и есть остаток.
Функция ошибки сглаживается, процесс обучения становится более стабильным, и это в свое время стало прорывом и помогло нейросетям обойти человека в задаче классификации изображений.
Правовое регулирование ИИ
Правовое регулирование в области ИИ – это недавняя история, во всем мире в последние несколько лет ведутся обсуждения того, что именно регулировать и как. Каких-то строго прописанных законов практически нет (или мне не удалось найти), но есть разные руководящие принципы и инициативы.
- EU AI Act (одобрен в мае 2024 года). Это часть стратегии цифрового развития Евросоюза. Акт делит риски, связанные с ИИ на высокие и недопустимые. Решения, связанные с недопустимыми рисками (биометрическая идентификация и категоризация людей, манипуляция сознанием, социальный скоринг) должны быть запрещены за редкими исключениями (например, биометрическая идентификация может потенциально быть применена для поимки преступников). Решения, связанные с высокими рисками (работа с критической инфраструктурой, медицинские и образовательные решения, решения, связанные с наймом сотрудников, применением закона и пр.) должны сначала пройти проверку регулирующих органов, и только потом могут быть выпущены на рынок. Кроме того, акт предъявляет требования к прозрачности (например, специальную пометку для контента, созданного с использованием ИИ).
- Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence (США, выпущен в октябре 2023 года). Указ также требует прозрачности и дает рекомендации для мер по защите персональных данных. Что отдельно интересно, в течение 120 дней с момента публикации указа Ведомство по патентам и товарным знакам США должно было выпустить руководство для патентных экспертов и заявителей на тему использования генеративного ИИ в изобретениях. В течение еще 270 дней – руководство непосредственно по патентованию, про это надо будет отдельно написать.
- для России нашла такой ресурс. Там перечислены нормативно-правовые акты, актуальные на 2024 год, стандарты, исследования – много всего. Кратко не опишешь, нужно зайти и почитать. На том же портале можно найти Национальную стратегию на период до 2030 года;
- в Китае, кажется, регулирование ИИ достаточно проработанное (ссылка открывается через VPN). Много внимания уделяется рекомендательным алгоритмам и алгоритмам глубокого синтеза (deep synthesis; с их помощью можно создать deep fake).
Я писала пост про Turbolearn (инструмент для конспектирования лекций). Это было в тот момент, когда я его только нашла, и пост получился очень положительный. Сейчас я протестировала его платную версию (взяла безлимитный тариф) в течение трех недель на больших лекциях и хочу закончить тему полноценным уже обзором со всеми недостатками, которые обнаружились в процессе работы.
1) Для расшифровки аудиозаписей там есть два варианта: можно либо прям в веб-приложении записывать аудио, потом расшифровать, либо записать отдельно на диктофон и загрузить. В первый день я попробовала функцию встроенной записи, и она стерлась в процессе обработки. Я потеряла так час лекций (благо это был вводный день, не то чтобы было много новой информации).
2) Написала в поддержку в надежде решить эту проблему, но мне никто так и не ответил. Через неделю написала еще раз, но, видимо, там никого нет. С моей точки зрения, это существенный минус.
3) Приложение должно обрабатывать видео, но не обрабатывает. У меня оно зависало на отметке в 90% готовности, и все на этом. Ждала несколько часов, пробовала перезапускать – ноль реакции. При этом видео были короткие, 10-15 минут.
4) Выгрузить заметки никак вообще нельзя. Кроме меня на курсе учился по меньшей мере еще один человек, который пользовался Turbolearn, мы вместе поискали возможность извлечь заметки на компьютер – не нашли. В итоге я их просто скопировала себе в ворд.
5) Работает только на английском языке, другие не расшифровывает.
Плюсы тоже есть, конечно:
1) Если записывать лекции на свой диктофон, а потом загружать, запись обрабатывается быстро. У меня в день общий объем лекций получался час-два, достаточно быстро они расшифровались.
2) Сильный акцент лекторов или помехи связи он тоже нормально воспринимает и расшифровывает.
3) В общей сложности получилось 167 страниц конспектов хорошего качества. Помимо расшифровки лекций, Turbolearn генерирует в нужных местах примеры кода или таблицы, это потом удобно перечитывать.
4) По истечении тестового периода подписка отменилась без проблем, хотя я видела сообщение по меньшей мере от одного пользователя, у которого подписка не отменялась. Учитывая отсутствие техподдержки, было волнительно, но обошлось.
В целом, у меня скорее положительное впечатление. Если вы учитесь только на английском языке, будет нормально. Но прям советовать не могу.
Осенью пойду опять учиться, на этот раз на русском языке, и протестирую Coconote. Он может быть получше.

#инструменты #обзор
Планы
Я пишу все посты заранее, стараюсь на полторы-две недели вперед (сейчас я в отпуске и напишу побольше). Этот пост я пишу 29 июля, а выложу 9 августа. На этот момент у меня готов большой пост на vc на воскресенье 4 августа. Он лежит и чешется, но я держусь и жду даты запланированной публикации. Когда этот пост выйдет, скорее всего, я уже допишу про когнитивные искажения на 18 августа.
Мне вообще часто сложно удержаться от публикации, уж очень охота поделиться интересным. Но запас по времени нужен, чтобы не сбивать расписание в случае большой загрузки на работе или командировок. Я публикую здесь маленькие посты во вторник и пятницу, большие на vc – по воскресеньям, не хочу допускать простоев.
План по публикациям готов аж до первого ноября включительно. Понятно, что через месяц я могу найти что-то более актуальное и интересное для себя, тогда какие-то публикации подвину, но этот план все равно важен. Он помогает оценить объем тем, которые у меня есть, и я себя спокойнее чувствую, зная, что не нужно искать и что-то новое придумывать.
Идеи для всех постов сначала набиваются в Огромный Список, потом сортируются по датам, исходя из того, что скорее хочется поисследовать (это сложно, потому что все хочется).
Изначально была идея писать по мере собственного желания, но у меня есть склонность сначала работать 25/8, а потом лежать в углу и прокрастинировать, поэтому планирование – мое все.
Напоследок пара спойлеров: в воскресенье на vc будет пост про GAN, на следующей за ним неделе поделюсь тут полезными штуками, у которых есть бесплатные версии (такой пост получился, мне прям хочется его скорее опубликовать). До конца месяца планирую посты про прокрастинацию и научный подход к обучению. В сентябре будет несколько очень крутых и интересных моделей и небольшой заброс про кое-какой проект, которым я занимаюсь в свободное от работы время.
👌3
В воскресенье вышел пост про GANs, можно глянуть.
А тут вот красивые картинки про языковые модели, которые я взяла с сайта Dr. Alan D. Thompson lifearchitect.ai, который героически собирает все современные знания про ИИ и выкладывает их у себя для всех желающих. Хочу быть как он, когда вырасту.
Первая картинка – сравнение размеров крупнейших языковых моделей, представленных в виде планет солнечной системы. В роли Юпитера выступает модель Claude 3 Opus. У меня она стоит в плане на осень (разбор архитектуры со статьями, все как мы любим), а пока можно почитать про нее тут. Она выглядит перспективно.
Вторая картинка – рейтинг моделей по размеру контекстного окна (это число токенов, которое модель может принять на вход за один раз).
И последняя в моем посте, но не в том, который я цитирую – список ачивок, которые выбили самые большие модели. Тут и понимание текста, и дебаггинг кода, и математика, и дедукция – в общем, просто посмотрите на это.
И обязательно заходите lifearchitect.ai, вам оно точно надо.
👍1🕊1
gravitywrite.png
332.6 KB
Нашла интересный пост с разными инструментами для студентов, которые могут быть доступны по бесплатной подписке. В списке есть Perplexity и Turbolearn (у него бесплатная версия есть, конечно, но очень ограниченная), которые я упоминала, и еще пять новых:
- Gravitywrite (помощник для написания текстов; у меня не вышло зарегистрироваться через почту с доменом .ru, но получилось через gmail, без vpn. С русским языком он при этом работает. Есть бесплатная версия, урезанная до 1 000 слов в месяц и доступа с одного устройства. Внутри куча разных инструментов для работы с блогом, я попробовала Text Improver на своем предыдущем посте, результаты на скрине. В целом интересно, и я возьму его на тест, как раз хочу поработать над своей письменной речью);
- Humata AI (это ПО для «общения» с документами; делает саммари длинных файлов; здесь зарегистрировалась на почту .ru, тоже без vpn. По-русски понимает. Из плюсов – когда задаешь вопрос, он в документе выделяет те места, откуда взят ответ. В бесплатной версии можно обрабатывать до 60 страниц и задать до 10 вопросов. На тест брать не буду, не заинтересовалась. В платных версиях указано, что используется GPT-4, а он у меня и так есть, к тому же, набор функций очень узкий);
- Math GPT (для решения задач по математике, физике и бухучету; регистрироваться можно через дискорд или гугл; русский язык он понимает, задачу из школьной олимпиады по физике решил. Я тот еще физик, но ответ совпал с правильным, так что засчитаем. Задачу и решение прикрепила, тестировать пока не буду, мне не на чем. Опять же, можно ChatGPT припахать, если уж на то пошло);
- Tutor AI (предлагает составить курс на предложенную вами тему; на российскую почту зарегистрировалась, vpn не нужен. Русского языка у него нет, а на английском попробовать не получилось, так как бесплатно дается одна попытка. Пока этот инструмент лично мне не очень интересен, тестировать не буду);
- Gamma (для создания презентаций, доступен без vpn, с российской почтой работает, русский язык есть, но пока в бета-версии. Можно выбрать число слайдов (в бесплатном режиме до 10), можно сделать презентацию, сайт или документ. Сначала задаем тему, потом приложение гненерит план, который выгляит достойно, в общем. Потом можно выбрать тему оформления – и получить весьма приличную презентацию. Выглядит любопытно, возьму на тест и посмотрю подробнее. Прикрепила к посту тестовую презентацию по GAN, которую сделала в Gamma).

#инструменты
👍2
В продолжение к посту про когнитивные искажения сегодня напишу про моего главного врага – синдром самозванца (он не только мой, им, кажется, вообще все страдают).
Впервые он был описан в 1978 году в статье «The Imposter Phenomenon in High Achieving Women: Dynamics and Therapeutic Intervention» («Феномен самозванки у успешных женщин: динамика и терапия»). Как можно догадаться из названия, впервые синдром был описан именно на женщинах, которые, несмотря на свои многочисленные достижения, были убеждены в том, что они на самом деле не так умны и талантливы и всего лишь сумели обмануть окружающих и заставить их считать иначе. В той старой статье авторы сомневаются, что синдром характерен для мужчин (или, во всяком случае, столь же распространен).
Сегодня есть разные данные относительно распространенности синдрома по популяции. Среди студентов и выпускников вузов и колледжей, медсестер и представителей профессий из области STEM, образования и бизнеса синдромом самозванца страдают от 56% до 82% людей.
Еще одно большое исследование указывает на то, что синдрому самозванца сильно подвержены эйчары; 54% женщин и 38% мужчин с ним сталкивались. Forbes пишет об исследовании, согласно которому аж 70% людей вообще столкнется с синдромом самозванца хоть раз в жизни.
Синдром самозванца не является заболеванием, это скорее поведенческий феномен и часть опыта очень многих людей. Его можно практически считать нормальным на определенных этапах профессионального развития (но при выраженной интенсивности, которая мешает нормально жить и работать, лучше обратиться за помощью).
Некоторые специалисты выделяют пять типов синдрома самозванца:
- характерный для перфекционистов (ну тут понятно);
- для экспертов (хотят знать о своей области вообще все, малейшая некомпетентность кажется им полным провалом);
- для одиночек (тех, кто считает, что достижение можно засчитать только тогда, когда оно достигнуто исключительно их усилиями; если кто-то помогал, это не считается);
- для гениев (считают, что достижение – это когда все получилось легко и быстро; если пришлось напрягаться – не считается);
- для сверхлюдей (тех, кто привык жонглировать сразу кучей обязанностей и хотят преуспеть везде; если хотя бы в одной области они терпят неудачу, это провал всей жизни).
Если вы себя узнали, возможно, вас утешит тот факт, что синдром самозванца не характерен для новичков и дилетантов. Скорее всего, вы уже чего-то в самом деле достигли. Возможно, теперь пора достичь психолога.

(Иллюстрация сгенерирована с использованием GhatGPT)
😁2🤓1
Чтобы учиться максимально эффективно по науке, надо сначала побегать, потом поучиться, а затем сразу пойти спать
Ладно, это немного утрированный подход, но в нем есть некоторое здравое зерно. Регулярные тренировки (не только бег, а любые аэробные нагрузки, то есть, то, что мы называем «кардио» – нагрузки с увеличением частоты сердечных сокращений) замедляют процесс потери мозговой ткани, связанный с возрастом, а также помогают улучшить внимание, ускорить процесс обработки информации и более эффективно обучаться. Дело в том, что во время тренировок с повышением пульса к мозгу поступает больше крови, насыщенной глюкозой и кислородом. Кроме того, увеличивается уровень содержания молекул BDNF (brain-derived neurotrophic factor) – эти молекулы подпитывают образующиеся в процессе обучения нейронные связи и делают запоминание информации эффективнее.

В исследованиях с помощью фМРТ обнаружили, что у более активных пожилых людей больше объем гиппокампа, чем у менее активных. Гиппокамп играет очень важную роль в обучении и формировании новых воспоминаний. В частности, пациенты с серьезными повреждениями гиппокампа не могут запомнить, что происходило с ними вчера или несколько часов назад, но помнят события своей жизни, произошедшие до травмы или операции, в результате которых гиппокамп был поврежден.
Положительный эффект регулярных упражнений показан и на детях, и на молодых взрослых. При этом совершенно не нужно каждый день бегать марафоны. В исследованиях участники тренировались по полчаса, из которых пять минут уходило на разминку и еще пять – на заминку и восстановление.
Упражнения, даже невысокой интенсивности, помимо прочего, помогают справиться со стрессом, снизить тревогу и облегчить симптомы депрессии.

Что касается сна, тут все как будто более очевидно. Кто пытался учиться после пары бессонных ночей, понимает, что как минимум недостаток сна точно влияет на достижение успеха в этом направлении.
На самом деле, сон тоже влияет на гиппокамп (не только на него, конечно). Объем информации, которую способен хранить в себе гиппокамп, ограничен – это наша краткосрочная память. Во сне информация из краткосрочной памяти переносится в долгосрочную. Соответственно, недостаток сна снижает способность формировать долгосрочные воспоминания (здесь речь идет скорее о глубокой фазе сна, а вот фаза быстрых движений глаз (REM), по всей видимости, влияет на способность решать сложные задачи).

Теперь практически-полезное: в брошюре Student Sleep Guide собрана полезная информация про стадии сна, их влияние на память и способности к обучению, а еще некоторые практические рекомендации (например, исследователи советуют ложиться в промежуток между десятью вечера и полуночью и стараться спать хотя бы семь часов каждую ночь, обеспечить себя темнотой и тишиной и прибить храпящего соседа табуреткой).
Конечно, нормальное и достаточное время сна может отличаться от человека к человеку. Кому-то будет достаточно спать шесть часов или меньше, кому-то нужно девять часов, это зависит в том числе от неконтролируемых врожденных факторов. Главное, чтобы после сна человек себя чувствовал отдохнувшим и полным сил.
Короче говоря, сначала тренируемся и повышаем уровень глюкозы, кислорода и BDNF в мозгу, потом учимся, потом быстро спать для закрепления материала.

(Изображение сгенерировано с использованием PaLM AI)
👍21
В 2022 году была опубликована большая обзорная статья, авторы которой собрали и проанализировали 1 635 статей, опубликованных с 1990 по 2020 год. Цель обзора – понять, какие аспекты прокрастинации интересовали исследователей на протяжении всего обозначенного периода, как менялся их фокус внимания и на чем следует сосредоточиться будущим исследователям.
Поскольку я не могу физически обработать такой объем информации, сосредоточусь на паре самых свежих работ из списка, которые особенно привлекли мое внимание.
* В работе «Caught in the moment: Are there person-specific associations between momentary procrastination and passively measured smartphone use?» 2022 года авторы изучают связь между прокрастинацией и использованием смартфонов. В качестве испытуемых припахали студентов, конечно же, в количестве 221 человека. В течение месяца они сами записывали свои моменты прокрастинации, параллельно отслеживалась продолжительность использования смартфонов. Выводы получились, в общем, не удивительные: смартфоны связаны с прокрастинацией, но эта связь у разных людей проявляется по-разному. Общие наблюдение заключаются в том, что, во-первых, чем больше уведомлений, тем больше прокрастинации, и чем более фрагментировано (часто понемногу) использование смартфона, тем тоже больше прокрастинации.
* В статье «The Effect of Abusive Supervision on Employees’ Work Procrastination Behavior» (2021 год) авторы выясняют, что будет с прокрастинацией, если сотрудников на рабочем месте периодически пинать (вербально и невербально, но не прям в буквальном смысле). Во введении к статье они сообщают, что офисные сотрудники прокрастинируют примерно 1,3 часа в день, и это еще заниженная оценка (тут мне стало полегче, потому что я, оказывается, еще не самый злостный прокрастинатор). Так вот, если пинать людей часто, а поощрять редко, они чаще прокрастинируют. Меньше прокрастинируют более устойчивые ко всяким негативным внешним воздействиям люди, а также те, кто умеет как следует отдыхать и переключаться в нерабочее время.
* В статье «Procrastination and problematic new media use: the mediating role of future anxiety» авторы выделяют прокрастинацию общую (которая выражается в откладывании повседневных дел) и прокрастинацию, связанную с принятием решений в срок. Изучали опять студентов, выяснили, что самые прокрастинирующие выражают наиболее высокий страх перед будущим (это относится к обоим типам прокрастинации, но немного больше к тому, который связан с принятием решений). Авторы также упоминают другие исследования, которые связывают использование социальных сетей с системой вознаграждения в мозге (получение быстрого дофамина). Тревожимся по поводу будущего –> залипаем на котиков –> не делаем дела –> тревожимся еще больше. Замкнутый круг.
* Авторы работы «Outcome value and task aversiveness impact task procrastination through separate neural pathways» засунули своих подопытных в аппарат МРТ, чтобы выяснить, что в мозгу непосредственно влияет на прокрастинацию. Выяснили, что влияют амигдала (она же миндалевидное тело) и гиппокамп. Гиппокамп активно участвует в формировании воспоминаний и мыслях о будущем, а амигдала обрабатывает эмоции, она в значительной степени связана со страхом. Если выполнение задания сулит большую награду (или невыполнение сулит большие проблемы), включается гиппокамп и дает нам хорошего пинка, чтобы мы отложили котиков. Если задание неприятное, скучное или сложное, амигдала требует отложить задание и смотреть котиков. Что мы в итоге будем делать, решает исход их поединка: у кого мощнее сигнал, тот и перехватывает контроль над поведением.

Короче, вот научно обоснованный план по победе над прокрастинацией:

1. Осознать, что вам не победить.
2. Разбить свои задачи на задачи поменьше и ставить галочки в списке, чтобы получить немножко дофамина.
3. Отключить уведомления на телефоне.
4. Отдыхать в выходные и вовремя ходить в отпуск.
5. Не ругать себя слишком сильно. Это только усилит тревогу и точно не поможет оторваться от телефона. И вообще, некоторые задачи должны отлежаться в мозгу, прежде чем вы найдете решение.
2
* (Изображение сгенерировано с использованием ChatGPT)
Мне кажется, это актуальный пост для сентября, для тех, кто хочет прикрутить себе к мозгу дополнительное расширение и учиться / работать эффективнее (я хочу).
Здесь инструменты, которыми я либо пользуюсь постоянно, либо тестирую. Первая часть про инструменты вышла здесь, потом этот пост был, а сейчас будет что-то вроде саммари. Для удобства сделала тег #инструменты, буду помечать им все посты из этой группы.
На самом деле, у меня постоянно что-то новое на тесте, поэтому хочу такие посты выкладывать время от времени, с обновлениями.
Итак, список:
- Gravitywrite (купила подписку и пребываю в стадии активного тестирования; помогает мне улучшать тексты с помощью Text Improver, Blog Content неплохо справляется с генерацией идей. Там есть еще инструменты для работы с кодом, и для рерайтинга / копирайтинга, в том числе так, чтобы на проверке не заметили участия ИИ в написании текста, инструменты для презентаций и много чего еще. Эдакий мультитул. Работает на русском языке);
- ChatGPT (он мне рисует картинки для некоторых постов и пишет саммари публикаций для ускорения работы. Еще конкретно сейчас он мне пишет запросы в postgresql. Я один раз описала подробно всю базу данных, теперь просто обращаюсь с запросами, все инструкции он помнит. Правда, в какой-то момент кода стало очень много, и он стал забывать некоторые функции, поэтому сборку в основном делаю без его помощи. Статьи тоже все равно приходится читать самостоятельно целиком, потому что у всех языковых моделей бывают галлюцинации и надо их проверять, но вместе все равно быстрее получается);
- Perplexity (для поиска источников; с саммаризацией у него есть проблемы, нужно внимательно проверять);
- Gemini (дебаггинг кода. Честно говоря, с действительно сложными случаями не помогает, но по мелочи отловить глупые ошибки – запросто);
- PaLM (рисует картинки часто лучше, чем DALL-E, доступная через интерфейс ChatGPT);
- Coconote (в стадии тестирования, активно буду тестировать с сентября, а пока пробую на совещаниях);
- Notability (про него, кажется, нигде не писала еще. Это приложение-блокнот, пользуюсь им давно для записи лекций от руки. ИИ там распознает почерк (мой даже он не всегда распознает), чтобы можно было искать по написанному);
- Skype (использую автоматические субтитры и саммари совещаний. Последние в меньшей степени, потому что есть Coconote, а вот тот, кто додумался до субтитров, должен попасть в рай без очереди. Это я поняла, когда у меня был преподаватель из Индии (при всем уважении));
- Gamma (тестирую, недавно был пост про нее);
- Notion (планирую в нем сейчас вообще все. Там есть ИИ, который делает саммари описаний задач, отвечает на вопросы по документам и таблицам, может сделать черновик письма или повестки совещания).

Глядя на этот список, можно подумать, что я вообще ничего не делаю, все делает ИИ за меня (но я делаю, я тестирую инструменты!).

Облизываюсь на clockwise, но он работает только для корпоративных пользователей. Ничего, я придумаю, кого корпоративно соблазнить на затест.
Еще положила глаз на Otter.ai, на будущее, потому что это снова инструмент для написания конспектов, надо сначала закончить текущие тесты.
Всего у меня сейчас восемь разных инструментов (не включая вышеперечисленные) висит в очереди на тест, но это секрет пока.

#инструменты
🔥2
Галлюцинации языковых моделей

Я тут много рассказываю, как сама пользуюсь инструментами на основе ИИ, и много чего советую, поэтому пришло время поговорить о некоторых подводных камнях при использовании таких инструментов. Поскольку в основном я интересуюсь языковыми моделями, речь пойдет преимущественно о них.

Это не то чтобы большой секрет, но большие языковые модели страдают галлюцинациями. Галлюцинация – это некорректный ответ, не отражающий реальность и созданный вследствие ошибки. Иногда модели «выдумывают» правдоподобные на вид литературные источники или людей, рассказывают про факты, которых не было, и все такое.
Основа для поста – статья «WildHallucinations: Evaluating Long-form Factuality in LLMs with Real-World Entity Queries», в которой представлен метод оценки галлюцинаций и метод борьбы с ними же.
Авторы использовали WildChat – базу данных, состоящую из реальных диалогов пользователей с ChatGPT. Для оценки корректности ответов модели использовали FActScore – метрику, которая рассчитывается как доля фактов в сгенерированном ответе, подтвержденных надежными источниками. Каждый факт в данном случае – это минимальная единица информации (пример на скриншоте 1).
В ходе экспериментов авторы выяснили, что языковые модели чаще подвержены галлюцинациям в отношении тем, касающихся людей и финансов и в меньшей – в отношении географии и областей, связанных с вычислениями. Если об объекте запроса есть статья в Википедии, модели галлюцинируют меньше (Википедия – один из наиболее популярных источников для обучения). RAG помогает бороться с галлюцинациями, но не избавиться от них окончательно.

После применения автоматической оценки достоверности, авторы собрали собственный набор данных, который как раз и называется WildHallucinations. Эти данные теперь можно использовать для тестирования моделей на галлюцинации: в них выделен объект, о котором сообщаются факты, и приведены источники достоверных данных для оценки.
Теперь самое интересное – сравнение моделей. На скриншоте с гистограммой (скриншот 2) модели отсортированы по убыванию метрики WildFactScore-Strict. WildFactScore – это FActScore, только она еще адаптирована для учета редких категорий, по которым задаются вопросы. WildFactScore-Strict – ее модификация, у которой есть дополнительные ограничения: она будет равна 0 в том случае, если в сгенерированном моделью ответе хотя бы один факт не подтвержден, или если модель отказывается отвечать.
Как видите, в лидерах GPT, Gemini и Claude. Меня, если честно, немного расстроили результаты Llama, но это было до последнего релиза, и самая большая модель из семейства на оценивалась. Возможно, она себя еще покажет.
Хотя и лидеры не дотянули до 35% полностью корректных ответов, что уж там. Это повод проверять сгенерированные результаты еще более тщательно.
При этом Gemini и Claude, хотя и страдают галлюцинациями немного больше, чем GPT, «выдумывают» факты о меньшем числе объектов (то есть, GPT про всех сочиняет по чуть-чуть, а Gemini и Claude – не про всех, но много). Но в целом они достаточно близки.

Ладно, а что делать-то теперь?
Во-первых, проверять (простите за повтор, но это не лишнее).
Во-вторых, использовать техники, которые помогают сократить число галлюцинаций, такие как упомянутый ранее RAG, или внимательно очищать тренировочные данные от недостоверных фактов. Большие модели тренируются на огромных массивах, собранных со всего интернета, и проверить их все невозможно, разумеется. Однако можно попробовать привести в порядок набор данных, на котором модель будет обучаться под конкретные рабочие задачи (речь про fine-tuning).
Работа с галлюцинациями – это отдельная задача в области Responsible AI (ответственного ИИ, RAI). Я сейчас участвую в большом и очень интересном проекте, который относится к RAI, и занимаюсь непосредственно галлюцинациями (как бы это странно ни звучало). Так что буду писать еще про это все дело.
1