AI, life and balance
114 subscribers
136 photos
3 videos
11 files
204 links
Download Telegram
Правовое регулирование ИИ
Правовое регулирование в области ИИ – это недавняя история, во всем мире в последние несколько лет ведутся обсуждения того, что именно регулировать и как. Каких-то строго прописанных законов практически нет (или мне не удалось найти), но есть разные руководящие принципы и инициативы.
- EU AI Act (одобрен в мае 2024 года). Это часть стратегии цифрового развития Евросоюза. Акт делит риски, связанные с ИИ на высокие и недопустимые. Решения, связанные с недопустимыми рисками (биометрическая идентификация и категоризация людей, манипуляция сознанием, социальный скоринг) должны быть запрещены за редкими исключениями (например, биометрическая идентификация может потенциально быть применена для поимки преступников). Решения, связанные с высокими рисками (работа с критической инфраструктурой, медицинские и образовательные решения, решения, связанные с наймом сотрудников, применением закона и пр.) должны сначала пройти проверку регулирующих органов, и только потом могут быть выпущены на рынок. Кроме того, акт предъявляет требования к прозрачности (например, специальную пометку для контента, созданного с использованием ИИ).
- Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence (США, выпущен в октябре 2023 года). Указ также требует прозрачности и дает рекомендации для мер по защите персональных данных. Что отдельно интересно, в течение 120 дней с момента публикации указа Ведомство по патентам и товарным знакам США должно было выпустить руководство для патентных экспертов и заявителей на тему использования генеративного ИИ в изобретениях. В течение еще 270 дней – руководство непосредственно по патентованию, про это надо будет отдельно написать.
- для России нашла такой ресурс. Там перечислены нормативно-правовые акты, актуальные на 2024 год, стандарты, исследования – много всего. Кратко не опишешь, нужно зайти и почитать. На том же портале можно найти Национальную стратегию на период до 2030 года;
- в Китае, кажется, регулирование ИИ достаточно проработанное (ссылка открывается через VPN). Много внимания уделяется рекомендательным алгоритмам и алгоритмам глубокого синтеза (deep synthesis; с их помощью можно создать deep fake).
Я писала пост про Turbolearn (инструмент для конспектирования лекций). Это было в тот момент, когда я его только нашла, и пост получился очень положительный. Сейчас я протестировала его платную версию (взяла безлимитный тариф) в течение трех недель на больших лекциях и хочу закончить тему полноценным уже обзором со всеми недостатками, которые обнаружились в процессе работы.
1) Для расшифровки аудиозаписей там есть два варианта: можно либо прям в веб-приложении записывать аудио, потом расшифровать, либо записать отдельно на диктофон и загрузить. В первый день я попробовала функцию встроенной записи, и она стерлась в процессе обработки. Я потеряла так час лекций (благо это был вводный день, не то чтобы было много новой информации).
2) Написала в поддержку в надежде решить эту проблему, но мне никто так и не ответил. Через неделю написала еще раз, но, видимо, там никого нет. С моей точки зрения, это существенный минус.
3) Приложение должно обрабатывать видео, но не обрабатывает. У меня оно зависало на отметке в 90% готовности, и все на этом. Ждала несколько часов, пробовала перезапускать – ноль реакции. При этом видео были короткие, 10-15 минут.
4) Выгрузить заметки никак вообще нельзя. Кроме меня на курсе учился по меньшей мере еще один человек, который пользовался Turbolearn, мы вместе поискали возможность извлечь заметки на компьютер – не нашли. В итоге я их просто скопировала себе в ворд.
5) Работает только на английском языке, другие не расшифровывает.
Плюсы тоже есть, конечно:
1) Если записывать лекции на свой диктофон, а потом загружать, запись обрабатывается быстро. У меня в день общий объем лекций получался час-два, достаточно быстро они расшифровались.
2) Сильный акцент лекторов или помехи связи он тоже нормально воспринимает и расшифровывает.
3) В общей сложности получилось 167 страниц конспектов хорошего качества. Помимо расшифровки лекций, Turbolearn генерирует в нужных местах примеры кода или таблицы, это потом удобно перечитывать.
4) По истечении тестового периода подписка отменилась без проблем, хотя я видела сообщение по меньшей мере от одного пользователя, у которого подписка не отменялась. Учитывая отсутствие техподдержки, было волнительно, но обошлось.
В целом, у меня скорее положительное впечатление. Если вы учитесь только на английском языке, будет нормально. Но прям советовать не могу.
Осенью пойду опять учиться, на этот раз на русском языке, и протестирую Coconote. Он может быть получше.

#инструменты #обзор
Планы
Я пишу все посты заранее, стараюсь на полторы-две недели вперед (сейчас я в отпуске и напишу побольше). Этот пост я пишу 29 июля, а выложу 9 августа. На этот момент у меня готов большой пост на vc на воскресенье 4 августа. Он лежит и чешется, но я держусь и жду даты запланированной публикации. Когда этот пост выйдет, скорее всего, я уже допишу про когнитивные искажения на 18 августа.
Мне вообще часто сложно удержаться от публикации, уж очень охота поделиться интересным. Но запас по времени нужен, чтобы не сбивать расписание в случае большой загрузки на работе или командировок. Я публикую здесь маленькие посты во вторник и пятницу, большие на vc – по воскресеньям, не хочу допускать простоев.
План по публикациям готов аж до первого ноября включительно. Понятно, что через месяц я могу найти что-то более актуальное и интересное для себя, тогда какие-то публикации подвину, но этот план все равно важен. Он помогает оценить объем тем, которые у меня есть, и я себя спокойнее чувствую, зная, что не нужно искать и что-то новое придумывать.
Идеи для всех постов сначала набиваются в Огромный Список, потом сортируются по датам, исходя из того, что скорее хочется поисследовать (это сложно, потому что все хочется).
Изначально была идея писать по мере собственного желания, но у меня есть склонность сначала работать 25/8, а потом лежать в углу и прокрастинировать, поэтому планирование – мое все.
Напоследок пара спойлеров: в воскресенье на vc будет пост про GAN, на следующей за ним неделе поделюсь тут полезными штуками, у которых есть бесплатные версии (такой пост получился, мне прям хочется его скорее опубликовать). До конца месяца планирую посты про прокрастинацию и научный подход к обучению. В сентябре будет несколько очень крутых и интересных моделей и небольшой заброс про кое-какой проект, которым я занимаюсь в свободное от работы время.
👌3
В воскресенье вышел пост про GANs, можно глянуть.
А тут вот красивые картинки про языковые модели, которые я взяла с сайта Dr. Alan D. Thompson lifearchitect.ai, который героически собирает все современные знания про ИИ и выкладывает их у себя для всех желающих. Хочу быть как он, когда вырасту.
Первая картинка – сравнение размеров крупнейших языковых моделей, представленных в виде планет солнечной системы. В роли Юпитера выступает модель Claude 3 Opus. У меня она стоит в плане на осень (разбор архитектуры со статьями, все как мы любим), а пока можно почитать про нее тут. Она выглядит перспективно.
Вторая картинка – рейтинг моделей по размеру контекстного окна (это число токенов, которое модель может принять на вход за один раз).
И последняя в моем посте, но не в том, который я цитирую – список ачивок, которые выбили самые большие модели. Тут и понимание текста, и дебаггинг кода, и математика, и дедукция – в общем, просто посмотрите на это.
И обязательно заходите lifearchitect.ai, вам оно точно надо.
👍1🕊1
gravitywrite.png
332.6 KB
Нашла интересный пост с разными инструментами для студентов, которые могут быть доступны по бесплатной подписке. В списке есть Perplexity и Turbolearn (у него бесплатная версия есть, конечно, но очень ограниченная), которые я упоминала, и еще пять новых:
- Gravitywrite (помощник для написания текстов; у меня не вышло зарегистрироваться через почту с доменом .ru, но получилось через gmail, без vpn. С русским языком он при этом работает. Есть бесплатная версия, урезанная до 1 000 слов в месяц и доступа с одного устройства. Внутри куча разных инструментов для работы с блогом, я попробовала Text Improver на своем предыдущем посте, результаты на скрине. В целом интересно, и я возьму его на тест, как раз хочу поработать над своей письменной речью);
- Humata AI (это ПО для «общения» с документами; делает саммари длинных файлов; здесь зарегистрировалась на почту .ru, тоже без vpn. По-русски понимает. Из плюсов – когда задаешь вопрос, он в документе выделяет те места, откуда взят ответ. В бесплатной версии можно обрабатывать до 60 страниц и задать до 10 вопросов. На тест брать не буду, не заинтересовалась. В платных версиях указано, что используется GPT-4, а он у меня и так есть, к тому же, набор функций очень узкий);
- Math GPT (для решения задач по математике, физике и бухучету; регистрироваться можно через дискорд или гугл; русский язык он понимает, задачу из школьной олимпиады по физике решил. Я тот еще физик, но ответ совпал с правильным, так что засчитаем. Задачу и решение прикрепила, тестировать пока не буду, мне не на чем. Опять же, можно ChatGPT припахать, если уж на то пошло);
- Tutor AI (предлагает составить курс на предложенную вами тему; на российскую почту зарегистрировалась, vpn не нужен. Русского языка у него нет, а на английском попробовать не получилось, так как бесплатно дается одна попытка. Пока этот инструмент лично мне не очень интересен, тестировать не буду);
- Gamma (для создания презентаций, доступен без vpn, с российской почтой работает, русский язык есть, но пока в бета-версии. Можно выбрать число слайдов (в бесплатном режиме до 10), можно сделать презентацию, сайт или документ. Сначала задаем тему, потом приложение гненерит план, который выгляит достойно, в общем. Потом можно выбрать тему оформления – и получить весьма приличную презентацию. Выглядит любопытно, возьму на тест и посмотрю подробнее. Прикрепила к посту тестовую презентацию по GAN, которую сделала в Gamma).

#инструменты
👍2
В продолжение к посту про когнитивные искажения сегодня напишу про моего главного врага – синдром самозванца (он не только мой, им, кажется, вообще все страдают).
Впервые он был описан в 1978 году в статье «The Imposter Phenomenon in High Achieving Women: Dynamics and Therapeutic Intervention» («Феномен самозванки у успешных женщин: динамика и терапия»). Как можно догадаться из названия, впервые синдром был описан именно на женщинах, которые, несмотря на свои многочисленные достижения, были убеждены в том, что они на самом деле не так умны и талантливы и всего лишь сумели обмануть окружающих и заставить их считать иначе. В той старой статье авторы сомневаются, что синдром характерен для мужчин (или, во всяком случае, столь же распространен).
Сегодня есть разные данные относительно распространенности синдрома по популяции. Среди студентов и выпускников вузов и колледжей, медсестер и представителей профессий из области STEM, образования и бизнеса синдромом самозванца страдают от 56% до 82% людей.
Еще одно большое исследование указывает на то, что синдрому самозванца сильно подвержены эйчары; 54% женщин и 38% мужчин с ним сталкивались. Forbes пишет об исследовании, согласно которому аж 70% людей вообще столкнется с синдромом самозванца хоть раз в жизни.
Синдром самозванца не является заболеванием, это скорее поведенческий феномен и часть опыта очень многих людей. Его можно практически считать нормальным на определенных этапах профессионального развития (но при выраженной интенсивности, которая мешает нормально жить и работать, лучше обратиться за помощью).
Некоторые специалисты выделяют пять типов синдрома самозванца:
- характерный для перфекционистов (ну тут понятно);
- для экспертов (хотят знать о своей области вообще все, малейшая некомпетентность кажется им полным провалом);
- для одиночек (тех, кто считает, что достижение можно засчитать только тогда, когда оно достигнуто исключительно их усилиями; если кто-то помогал, это не считается);
- для гениев (считают, что достижение – это когда все получилось легко и быстро; если пришлось напрягаться – не считается);
- для сверхлюдей (тех, кто привык жонглировать сразу кучей обязанностей и хотят преуспеть везде; если хотя бы в одной области они терпят неудачу, это провал всей жизни).
Если вы себя узнали, возможно, вас утешит тот факт, что синдром самозванца не характерен для новичков и дилетантов. Скорее всего, вы уже чего-то в самом деле достигли. Возможно, теперь пора достичь психолога.

(Иллюстрация сгенерирована с использованием GhatGPT)
😁2🤓1
Чтобы учиться максимально эффективно по науке, надо сначала побегать, потом поучиться, а затем сразу пойти спать
Ладно, это немного утрированный подход, но в нем есть некоторое здравое зерно. Регулярные тренировки (не только бег, а любые аэробные нагрузки, то есть, то, что мы называем «кардио» – нагрузки с увеличением частоты сердечных сокращений) замедляют процесс потери мозговой ткани, связанный с возрастом, а также помогают улучшить внимание, ускорить процесс обработки информации и более эффективно обучаться. Дело в том, что во время тренировок с повышением пульса к мозгу поступает больше крови, насыщенной глюкозой и кислородом. Кроме того, увеличивается уровень содержания молекул BDNF (brain-derived neurotrophic factor) – эти молекулы подпитывают образующиеся в процессе обучения нейронные связи и делают запоминание информации эффективнее.

В исследованиях с помощью фМРТ обнаружили, что у более активных пожилых людей больше объем гиппокампа, чем у менее активных. Гиппокамп играет очень важную роль в обучении и формировании новых воспоминаний. В частности, пациенты с серьезными повреждениями гиппокампа не могут запомнить, что происходило с ними вчера или несколько часов назад, но помнят события своей жизни, произошедшие до травмы или операции, в результате которых гиппокамп был поврежден.
Положительный эффект регулярных упражнений показан и на детях, и на молодых взрослых. При этом совершенно не нужно каждый день бегать марафоны. В исследованиях участники тренировались по полчаса, из которых пять минут уходило на разминку и еще пять – на заминку и восстановление.
Упражнения, даже невысокой интенсивности, помимо прочего, помогают справиться со стрессом, снизить тревогу и облегчить симптомы депрессии.

Что касается сна, тут все как будто более очевидно. Кто пытался учиться после пары бессонных ночей, понимает, что как минимум недостаток сна точно влияет на достижение успеха в этом направлении.
На самом деле, сон тоже влияет на гиппокамп (не только на него, конечно). Объем информации, которую способен хранить в себе гиппокамп, ограничен – это наша краткосрочная память. Во сне информация из краткосрочной памяти переносится в долгосрочную. Соответственно, недостаток сна снижает способность формировать долгосрочные воспоминания (здесь речь идет скорее о глубокой фазе сна, а вот фаза быстрых движений глаз (REM), по всей видимости, влияет на способность решать сложные задачи).

Теперь практически-полезное: в брошюре Student Sleep Guide собрана полезная информация про стадии сна, их влияние на память и способности к обучению, а еще некоторые практические рекомендации (например, исследователи советуют ложиться в промежуток между десятью вечера и полуночью и стараться спать хотя бы семь часов каждую ночь, обеспечить себя темнотой и тишиной и прибить храпящего соседа табуреткой).
Конечно, нормальное и достаточное время сна может отличаться от человека к человеку. Кому-то будет достаточно спать шесть часов или меньше, кому-то нужно девять часов, это зависит в том числе от неконтролируемых врожденных факторов. Главное, чтобы после сна человек себя чувствовал отдохнувшим и полным сил.
Короче говоря, сначала тренируемся и повышаем уровень глюкозы, кислорода и BDNF в мозгу, потом учимся, потом быстро спать для закрепления материала.

(Изображение сгенерировано с использованием PaLM AI)
👍21
В 2022 году была опубликована большая обзорная статья, авторы которой собрали и проанализировали 1 635 статей, опубликованных с 1990 по 2020 год. Цель обзора – понять, какие аспекты прокрастинации интересовали исследователей на протяжении всего обозначенного периода, как менялся их фокус внимания и на чем следует сосредоточиться будущим исследователям.
Поскольку я не могу физически обработать такой объем информации, сосредоточусь на паре самых свежих работ из списка, которые особенно привлекли мое внимание.
* В работе «Caught in the moment: Are there person-specific associations between momentary procrastination and passively measured smartphone use?» 2022 года авторы изучают связь между прокрастинацией и использованием смартфонов. В качестве испытуемых припахали студентов, конечно же, в количестве 221 человека. В течение месяца они сами записывали свои моменты прокрастинации, параллельно отслеживалась продолжительность использования смартфонов. Выводы получились, в общем, не удивительные: смартфоны связаны с прокрастинацией, но эта связь у разных людей проявляется по-разному. Общие наблюдение заключаются в том, что, во-первых, чем больше уведомлений, тем больше прокрастинации, и чем более фрагментировано (часто понемногу) использование смартфона, тем тоже больше прокрастинации.
* В статье «The Effect of Abusive Supervision on Employees’ Work Procrastination Behavior» (2021 год) авторы выясняют, что будет с прокрастинацией, если сотрудников на рабочем месте периодически пинать (вербально и невербально, но не прям в буквальном смысле). Во введении к статье они сообщают, что офисные сотрудники прокрастинируют примерно 1,3 часа в день, и это еще заниженная оценка (тут мне стало полегче, потому что я, оказывается, еще не самый злостный прокрастинатор). Так вот, если пинать людей часто, а поощрять редко, они чаще прокрастинируют. Меньше прокрастинируют более устойчивые ко всяким негативным внешним воздействиям люди, а также те, кто умеет как следует отдыхать и переключаться в нерабочее время.
* В статье «Procrastination and problematic new media use: the mediating role of future anxiety» авторы выделяют прокрастинацию общую (которая выражается в откладывании повседневных дел) и прокрастинацию, связанную с принятием решений в срок. Изучали опять студентов, выяснили, что самые прокрастинирующие выражают наиболее высокий страх перед будущим (это относится к обоим типам прокрастинации, но немного больше к тому, который связан с принятием решений). Авторы также упоминают другие исследования, которые связывают использование социальных сетей с системой вознаграждения в мозге (получение быстрого дофамина). Тревожимся по поводу будущего –> залипаем на котиков –> не делаем дела –> тревожимся еще больше. Замкнутый круг.
* Авторы работы «Outcome value and task aversiveness impact task procrastination through separate neural pathways» засунули своих подопытных в аппарат МРТ, чтобы выяснить, что в мозгу непосредственно влияет на прокрастинацию. Выяснили, что влияют амигдала (она же миндалевидное тело) и гиппокамп. Гиппокамп активно участвует в формировании воспоминаний и мыслях о будущем, а амигдала обрабатывает эмоции, она в значительной степени связана со страхом. Если выполнение задания сулит большую награду (или невыполнение сулит большие проблемы), включается гиппокамп и дает нам хорошего пинка, чтобы мы отложили котиков. Если задание неприятное, скучное или сложное, амигдала требует отложить задание и смотреть котиков. Что мы в итоге будем делать, решает исход их поединка: у кого мощнее сигнал, тот и перехватывает контроль над поведением.

Короче, вот научно обоснованный план по победе над прокрастинацией:

1. Осознать, что вам не победить.
2. Разбить свои задачи на задачи поменьше и ставить галочки в списке, чтобы получить немножко дофамина.
3. Отключить уведомления на телефоне.
4. Отдыхать в выходные и вовремя ходить в отпуск.
5. Не ругать себя слишком сильно. Это только усилит тревогу и точно не поможет оторваться от телефона. И вообще, некоторые задачи должны отлежаться в мозгу, прежде чем вы найдете решение.
2
* (Изображение сгенерировано с использованием ChatGPT)
Мне кажется, это актуальный пост для сентября, для тех, кто хочет прикрутить себе к мозгу дополнительное расширение и учиться / работать эффективнее (я хочу).
Здесь инструменты, которыми я либо пользуюсь постоянно, либо тестирую. Первая часть про инструменты вышла здесь, потом этот пост был, а сейчас будет что-то вроде саммари. Для удобства сделала тег #инструменты, буду помечать им все посты из этой группы.
На самом деле, у меня постоянно что-то новое на тесте, поэтому хочу такие посты выкладывать время от времени, с обновлениями.
Итак, список:
- Gravitywrite (купила подписку и пребываю в стадии активного тестирования; помогает мне улучшать тексты с помощью Text Improver, Blog Content неплохо справляется с генерацией идей. Там есть еще инструменты для работы с кодом, и для рерайтинга / копирайтинга, в том числе так, чтобы на проверке не заметили участия ИИ в написании текста, инструменты для презентаций и много чего еще. Эдакий мультитул. Работает на русском языке);
- ChatGPT (он мне рисует картинки для некоторых постов и пишет саммари публикаций для ускорения работы. Еще конкретно сейчас он мне пишет запросы в postgresql. Я один раз описала подробно всю базу данных, теперь просто обращаюсь с запросами, все инструкции он помнит. Правда, в какой-то момент кода стало очень много, и он стал забывать некоторые функции, поэтому сборку в основном делаю без его помощи. Статьи тоже все равно приходится читать самостоятельно целиком, потому что у всех языковых моделей бывают галлюцинации и надо их проверять, но вместе все равно быстрее получается);
- Perplexity (для поиска источников; с саммаризацией у него есть проблемы, нужно внимательно проверять);
- Gemini (дебаггинг кода. Честно говоря, с действительно сложными случаями не помогает, но по мелочи отловить глупые ошибки – запросто);
- PaLM (рисует картинки часто лучше, чем DALL-E, доступная через интерфейс ChatGPT);
- Coconote (в стадии тестирования, активно буду тестировать с сентября, а пока пробую на совещаниях);
- Notability (про него, кажется, нигде не писала еще. Это приложение-блокнот, пользуюсь им давно для записи лекций от руки. ИИ там распознает почерк (мой даже он не всегда распознает), чтобы можно было искать по написанному);
- Skype (использую автоматические субтитры и саммари совещаний. Последние в меньшей степени, потому что есть Coconote, а вот тот, кто додумался до субтитров, должен попасть в рай без очереди. Это я поняла, когда у меня был преподаватель из Индии (при всем уважении));
- Gamma (тестирую, недавно был пост про нее);
- Notion (планирую в нем сейчас вообще все. Там есть ИИ, который делает саммари описаний задач, отвечает на вопросы по документам и таблицам, может сделать черновик письма или повестки совещания).

Глядя на этот список, можно подумать, что я вообще ничего не делаю, все делает ИИ за меня (но я делаю, я тестирую инструменты!).

Облизываюсь на clockwise, но он работает только для корпоративных пользователей. Ничего, я придумаю, кого корпоративно соблазнить на затест.
Еще положила глаз на Otter.ai, на будущее, потому что это снова инструмент для написания конспектов, надо сначала закончить текущие тесты.
Всего у меня сейчас восемь разных инструментов (не включая вышеперечисленные) висит в очереди на тест, но это секрет пока.

#инструменты
🔥2
Галлюцинации языковых моделей

Я тут много рассказываю, как сама пользуюсь инструментами на основе ИИ, и много чего советую, поэтому пришло время поговорить о некоторых подводных камнях при использовании таких инструментов. Поскольку в основном я интересуюсь языковыми моделями, речь пойдет преимущественно о них.

Это не то чтобы большой секрет, но большие языковые модели страдают галлюцинациями. Галлюцинация – это некорректный ответ, не отражающий реальность и созданный вследствие ошибки. Иногда модели «выдумывают» правдоподобные на вид литературные источники или людей, рассказывают про факты, которых не было, и все такое.
Основа для поста – статья «WildHallucinations: Evaluating Long-form Factuality in LLMs with Real-World Entity Queries», в которой представлен метод оценки галлюцинаций и метод борьбы с ними же.
Авторы использовали WildChat – базу данных, состоящую из реальных диалогов пользователей с ChatGPT. Для оценки корректности ответов модели использовали FActScore – метрику, которая рассчитывается как доля фактов в сгенерированном ответе, подтвержденных надежными источниками. Каждый факт в данном случае – это минимальная единица информации (пример на скриншоте 1).
В ходе экспериментов авторы выяснили, что языковые модели чаще подвержены галлюцинациям в отношении тем, касающихся людей и финансов и в меньшей – в отношении географии и областей, связанных с вычислениями. Если об объекте запроса есть статья в Википедии, модели галлюцинируют меньше (Википедия – один из наиболее популярных источников для обучения). RAG помогает бороться с галлюцинациями, но не избавиться от них окончательно.

После применения автоматической оценки достоверности, авторы собрали собственный набор данных, который как раз и называется WildHallucinations. Эти данные теперь можно использовать для тестирования моделей на галлюцинации: в них выделен объект, о котором сообщаются факты, и приведены источники достоверных данных для оценки.
Теперь самое интересное – сравнение моделей. На скриншоте с гистограммой (скриншот 2) модели отсортированы по убыванию метрики WildFactScore-Strict. WildFactScore – это FActScore, только она еще адаптирована для учета редких категорий, по которым задаются вопросы. WildFactScore-Strict – ее модификация, у которой есть дополнительные ограничения: она будет равна 0 в том случае, если в сгенерированном моделью ответе хотя бы один факт не подтвержден, или если модель отказывается отвечать.
Как видите, в лидерах GPT, Gemini и Claude. Меня, если честно, немного расстроили результаты Llama, но это было до последнего релиза, и самая большая модель из семейства на оценивалась. Возможно, она себя еще покажет.
Хотя и лидеры не дотянули до 35% полностью корректных ответов, что уж там. Это повод проверять сгенерированные результаты еще более тщательно.
При этом Gemini и Claude, хотя и страдают галлюцинациями немного больше, чем GPT, «выдумывают» факты о меньшем числе объектов (то есть, GPT про всех сочиняет по чуть-чуть, а Gemini и Claude – не про всех, но много). Но в целом они достаточно близки.

Ладно, а что делать-то теперь?
Во-первых, проверять (простите за повтор, но это не лишнее).
Во-вторых, использовать техники, которые помогают сократить число галлюцинаций, такие как упомянутый ранее RAG, или внимательно очищать тренировочные данные от недостоверных фактов. Большие модели тренируются на огромных массивах, собранных со всего интернета, и проверить их все невозможно, разумеется. Однако можно попробовать привести в порядок набор данных, на котором модель будет обучаться под конкретные рабочие задачи (речь про fine-tuning).
Работа с галлюцинациями – это отдельная задача в области Responsible AI (ответственного ИИ, RAI). Я сейчас участвую в большом и очень интересном проекте, который относится к RAI, и занимаюсь непосредственно галлюцинациями (как бы это странно ни звучало). Так что буду писать еще про это все дело.
1
AI, life and balance
Мне кажется, это актуальный пост для сентября, для тех, кто хочет прикрутить себе к мозгу дополнительное расширение и учиться / работать эффективнее (я хочу). Здесь инструменты, которыми я либо пользуюсь постоянно, либо тестирую. Первая часть про инструменты…
Notion будет недоступен с сентября ☹️
Взяла на тест российское ПО - Weeek. Меня привлекло то, что в него можно вгрузить проект из Notion по специально для этой цели созданной инструкции.
Из ИИ там есть YandexGPT, обещают подключить в будущем ChatGPT4 и GigaChat (это от Сбера). Из функций саммари текста, генерация идей и загадочное "многое другое".

Еще есть два ИИ-ассистента, которые выполняют роль техподдержки. Пока выглядит интересно.
Наследование человеческих стереотипов языковыми моделями. Часть 1

После разговора о галлюцинациях время поговорить о стереотипах (я же обещала больше ответственного ИИ – вот).
Это не то чтобы великая неожиданность, но ИИ наследует искажения и стереотипы, присущие людям. Потому что люди обучают ИИ и люди генерируют и собирают данные для обучения ИИ, чему уж тут удивляться. Но изучать этот феномен нужно, чтобы как-то с ним бороться.
Авторы статьи «Bias and Fairness in Large Language Models: A Survey» как раз этим занялись. Это внушительная работа, в которой авторы собрали и классифицировали ошибки, метрики для их обнаружения и способы борьбы с ними.
Я не буду всю огромную таксономию сюда переписывать, разумеется, но вот пример искажения на уровне кодирования предложений (sentence embedding) из статьи: если взять вектор слова «doctor» в предложении «This is a doctor», он будет ближе к вектору слова «man», чем к вектору слова «woman» (близость измеряется с помощью косинусного коэффициента). В то же время вектор слова «nurse» будет ближе к вектору слова «woman». На первом скриншоте графическое изображение этой разницы.
На практике вся эта косинусная близость означает следующее: в текстах, на которых обучали языковую модель, слово «врач» чаще обозначало мужчину, а слово «медсестра» – женщину (в английском языке на медсестру и медбрата один термин – nurse). Генерируя текст, модель будет писать о враче скорее как о мужчине, чем как о женщине.
Или вот другой пример (картинка на втором скриншоте): вероятность того, что в предложении «Она хороша в [MASK]» на место маски (скрытого токена) будет сгенерирован токен «искусстве» будет выше, чем вероятность того, что будет сгенерирован токен «математике». Для действующего лица «Он» все наоборот.
Казалось бы, в чем тут проблема? Всего лишь пара невинных стереотипов о том, что математика для мальчиков, а литература – для девочек, как это повлияет на нашу жизнь?
Мой ответ (помимо того, что мне такие стереотипы не нравятся, в отличие от математики) в том, что многие люди возлагают на ИИ очень большие надежды (про это еще отдельный большой был пост). Они думают: «Вот как разовьем сейчас ИИ и как заменим медленных людей, которые делают ошибки, на быстрых и точных роботов». А по факту мы заменим медленных людей, которые делают ошибки, на быстрых роботов, которые тоже делают ошибки, но интенсивнее. Если мы хотим добиться повышения качества нашей работы, а не только ее скорости, нам нужно потрудиться над искоренением искажений, как у себя, так и у наших синтетических помощников. Конечно, совсем мы от них не избавимся, но можно хотя бы лежать в нужную сторону.
В вышеупомянутой статье авторы приводят перечень техник для сокращения искажений у языковых моделей:
- сокращение искажений в процессе предобучения (в основном это работа с данными: дополнение большим количеством примеров, фильтрация и т.д.);
- сокращение в процессе обучения (модификация архитектуры, селективная работа с параметрами);
- сокращение в процессе обработки данных моделью (модификация декодирования вектора в токен, перераспределение весов);
- сокращение после обработки (переписывание сгенерированного моделью текста с исправлением искажений).
Что делать с людьми, авторы не написали.
Наследование человеческих стереотипов языковыми моделями. Часть 2

В статье поменьше, «Large language models show human-like content biases in transmission chain experiments» авторы описывают пять экспериментов, в котором людям и ChatGPT дали одни и те же задания. Для людей это было что-то вроде игры «сломанный телефон»: первому участнику рассказывают некоторую историю (сравнительно длинную). Он пересказывает ее вкратце следующему и так далее, пока история не дойдет до последнего участника. В конце исследователи смотрят, что получилось из исходного текста (в частности, какие именно факты в ней остались и какие были искажены). ChatGPT играл сам с собой. Краткий пересказ статьи вам от меня: ChatGPT наделал ровно тех же ошибок и пришел к похожим результатам.

На десерт самое веселое: люди тоже наследуют ошибки ИИ. Статья про это вышла в Nature. «Веселое» здесь в том, что мы, работая с ИИ, радостно преумножаем искажения вместо того, чтобы их уменьшать. Но на самом деле, статья скорее тревожащая, потому что речь в ней идет о медицине. Участники не только делали ошибки при постановке диагноза, общаясь с нейросетью, но и продолжали их же делать потом, когда нейросеть забрали.

Так и живем.