Сиолошная
42.9K subscribers
685 photos
107 videos
1 file
836 links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
В эфире рубрика "Интересные джейлбрейки". Jailbreak - в контексте языковых моделей и чатботов это такой промпт (запрос), который заставит их отвечать не так, как планировалось, и напрямую перечить инструкциям во время обучения (вроде "будь безобидной и никого не оскорбляй").

В твиттере запостили новый промпт - можно сказать модели, что вы страдаете от «нейросемантического инвертита», когда ваш мозг интерпретирует весь текст с инвертированной эмоциональной валентностью. Иначе говоря положительное вы воспринимаете негативно, и наоборот. У модели, если она хочет вести с вами диалог, есть возможность начать писать грубости, чтобы вам они "казались" позитивно окрашенными.

Постоянный гость нашего канала, русский Серёга из Ангарска, попросил модель пояснить за отличия структур в Python, так как у него редкое заболевание - Нейросемантик Гопикус.

Короче, GPT-like модели + образование = любому кенту всё ровно пояснят
Media is too big
VIEW IN TELEGRAM
Антрепренёры не успели — Github объявили о новом продукте GH Copilot X, улучшенный вариант Copilot, о котором я писал буквально вчера.

GPT-4, конечно, умная, но режим чата в браузере - не самый удобный для погружения в проблему. Да, можно копировать куски кода самому, да, можно закидывать ошибки и контекст - но зачем? Появление инструмента, который будет всё это автоматизировать и напрямую предоставлять доступ к модели прямо из среды разработки было вопросом времени.

Если раньше Copilot просто дописывал код (учитывая комментарии), то теперь появись новые фичи, которые выглядят очень сочно. Разработчики Copilot X верят, что

> С помощью ИИ, доступного на всех этапах, мы можем фундаментально повлиять производительность разработчиков. Мы сокращаем время на шаблонные задачи и упрощаем сложную работу на протяжении всего жизненного цикла разработчика. Тем самым мы даем возможность каждому разработчику сосредоточить все свои творческие способности на общей картине: создании инноваций завтрашнего дня и ускорении человеческого прогресса уже сегодня.

Уже можно записаться в лист ожидания, чтобы получить доступ к таким фичам, как:
— интеллектуальный чат, который видит, что вы выделяете (можно задавать вопросы по части кода), и предлагает, например, сгенерировать тесты, объяснить кусок (и дописать документацию и даже найти и прокомментировать баг (см. видео)
— Copilot для PR - пишет за вас, что за функциональность добавлена в коде
— и для принимаемых изменений проводит анализ и указывает на потенциальные проблемы, что что-то содержит баг или может не работать. И снова - модель предложит тесты, которые в пару кликов можно добавить.
— документация для проекта в виде чата - уже опробовали на React, Azure Docs и MDN. Теперь не нужно гуглить, а потом копаться в документации - можно сразу переходить на страницу библиотеки и на естественном языке давать запрос

Цель (по крайней мере пока) - не заменить разработчика, а увеличить эффективность и удовольствие от работы. Последнее, например, можно достичь заменой рутины.
Лол, не думал, что сделают так - но анонсировали игру с названием "Counter Strike 2". Звучать должно как большой шаг вперед (особенно с учётом, что 1.6 вышла 20 лет назад, хахаха 😁), как переход от DotA к DotA 2, но всё выглядит достаточно приземлённо. Это просто могло быть очередным обновлением, и всё...

Немного жалко, что Valve убили СТОЛЬКО времени на перенос игры на новый движок. Да, это позволит ускорить разработку в будущем, но со стороны этот процесс выглядит слишком медленно, неэффективно. Чтоб вы понимали - есть отдельный промо-ролик, где рассказывается, что дымовая граната теперь отображается у всех одинаково, и учитывает освещение, а ещё дым может разлетаться.

Выход летом 2023го.
https://www.youtube.com/watch?v=ExZtISgOxEQ (и еще несколько видео на офф. канале)
Please open Telegram to view this post
VIEW IN TELEGRAM
Обширная статья от исследователей из Microsoft с говорящим названием Sparks of Artificial General Intelligence: Early experiments with GPT-4. В ней 150 страниц, из которых 50 - это appendix с деталями экспериментов. Все я не прочитал, некоторые более интересные для себя блоки изучил. С каждой страницей копилось всё больше и больше материала, которым хотелось поделиться 😭 поэтому если вам интересно - предлагаю открыть оглавление и пощёлкать избранные пункты.

TLDR: В общем, по ходу обучения GPT-4 делают огромное количество разнообразных эксперименты, причём я так понимаю большая часть из них даже не включает финальную версию модели. Пробуют оценить рассуждения модели, понимание математики, программирования (берут свежие задачи с LeetCode, которые появились в конце 2022го, то есть именно в таких формулировках модель их не должна была видеть, разве что очень похожие), Theory of Mind (по сути наброски той работы, что я уже описывал выше), генерация кода для создания графиков по их описанию (картинка 3), написание музыки.

> Центральное утверждение нашей работы состоит в том, что GPT-4 достигает формы общего интеллекта, действительно демонстрируя искры искусственного общего интеллекта (AGI). Об этом свидетельствуют его основные умственные способности (такие как рассуждение, творчество и дедукция), диапазон тем, по которым он приобрел опыт (например, литература, медицина и программирование), и разнообразие задач, которые он может выполнять. (например, играя в игры, используя инструменты, объясняя концепты...). Еще многое предстоит сделать для создания системы, которая могла бы квалифицироваться как полноценный AGI.

Мне понравился пример, где модель играла в текстовую игру, перемещаясь по комнатам, а затем смогла выдать код, который рисует структуру переходов между комнатами - и почти без ошибок (см. картинку 2). А ещё чем дольше модель учится, тем лучше она рисует единорога с помощью LaTeX (картинка 1).
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Обширная статья от исследователей из Microsoft с говорящим названием Sparks of Artificial General Intelligence: Early experiments with GPT-4. В ней 150 страниц, из которых 50 - это appendix с деталями экспериментов. Все я не прочитал, некоторые более интересные…
В качестве слабостей модели указывают отсутствие критического мышления к своим же выводам. Если напрямую указать, что вот тут ошибка, или же спросить "ты уверена, что вот тут - всё правильно?", то модель исправляется, причем в значимом числе случаев правильно. Уже существуют работы (в том числе и от самих OpenAI) по созданию критиков, которые и играют роль вопрошающих. В теории, нет такого ограничения, которое бы не позволяло к выводам одной модели подсоединять другую такую же, решающую свою подзазачу (критика/упрощение/валидация фактов/прочее).

В разделе математики, например, очень много ошибок (68%) в решении задач приходятся на арифметику. То есть модель правильно подходит к решению, но просто ошибается в вычислении значения выражения. Другие ошибки см. на картинке.

В моём понимании, это не проблема - ведь существуют способы "пришить" калькулятор и другие инструменты (tools) к модели. Как пример - демонстрируется имейл-ассистент, который принимает на вход команду в духе "сделай мне встречу в таком-то кафе с вот этими двумя людьми", и затем сам проверяет ваш календарь, календарь других людей, читает почту и пишет письма (см. картинку). Так умели и модели раньше, просто у меня нет сомнений, что GPT-4 обходит предшественников в понимании использования таких инструментов. И главное тут не требуется никакого дообучения - инструменты описываются прям текстом, например EMAIL.send(recipient, subject, message) - this function would allow the computer to send an email to a given recipient with a given subject and message.. Больше про инструменты я писал тут.
Ну и поздравляю всех нас!

10'000 - это результат, который был достигнут всего лишь за 2 месяца. Первое сообщение в канале было опубликовано 24го января, и завтра будет мини-юбилей.

🚀🚀🚀🚀🚀

Позже проведу серию опросов, чтобы лучше понимать аудиторию, интересные темы, способы подачи. Если у вас есть какие-либо идеи - не стесняйтесь делиться ими в комментариях!

Напоминаю, что прочитать про меня больше можно в закрепленном сообщении, и там же ниже - про все мои наработки, статьи, видео-лекции и курсы.
Forwarded from Сиолошная
Увидел мем про мой сегодняшний день 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
This is huge....

OpenAI подсуетились и добавили плагины к ChatGPT (документация тут). Причём набор очень солидный - есть !ВНИМАНИЕ! веб-браузер и ретривер, код для которого открыт и лежит на GitHub. Ретривер - это то, что позволяет искать нужный контекст среди большой коллекции документов. Например, вы пишете бота, который должен отвечать на вопросы по истории - просто загрузите в него википедию! Тогда по запросу про Древний Рим будет находиться пара нужных страниц, они будут подставлены в контекст, а ChatGPT их "прочитает" и даст ответ!

А ещё есть интерпретатор кода. В общем, по сути почти любую идею теперь можно накликать прямо в браузере, и собрать на коленке огненный прототип, который и в интернет сбегает, и калькулятор вызовет для арифметики, и ещё и сообщение в слак-канал вам отправит.

Про то, как языковая модель работает с браузером, у меня аж целая статья есть на 30 минут чтения, чтобы разобраться во всех деталях!

Го накликивать свои юникорн-стартапы⌨️

UPD: можно делать свои плагины, которые обращаются к вашим собственным программам по API. И да, можно попросить GPT-4 написать плагин за вас :D
Например, если мне не хватает функциональности дешевого переводчика - я просто делаю API, которое дергает гугл-переводчик под капотом в 10 строк, и всё. Теперь модель может вызывать переводчик.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Борис опять
Комитет по AI safety в OpenAI. Накануне очередного релиза:
- Ебанет?
- Не должно…
😑😑
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
😑😑
Сразу перемотал на интересную часть, как можно было понять по посту выше (таймкод). Многие всё еще скептически относятся к "Open"AI, так как они начинали как non-profit (Некоммерческая организация), то есть их целью не было зарабатывание денег.
Но несколько лет назад они осознали, что нужно куда больше денег, чем им удалось достать по структуре инвестиций в некоммерческую организацию. Сэм говорит, что как NonProfit они попробовали несколько раз и у них не поулчилось поднять достаточно денег (ну а кто будет давать деньги компании, которая не задается целью вернуть эти деньги?). Поэтому был логичный вывод что-то изменить и попробовать снова.
"Нам нужны были некоторые преимущества капитализма, но главное не заигрываться/уходить с головой в это (<>, but not too much)" - сказал Сэм на интервью.

Я видел очень хороший разбор, где прямо показывалось, что условия сделки составлены так, что для инвесторов это очень плохая и шаткая сделка, и что их могут опрокинуть в любой момент. К сожалению, не могу найти этот разбор, но ещё поищу. Если вы поняли, о чём речь - поделитесь ссылкой, пожалуйста. А я перескажу анализ своими словами (не является инвестиционной рекомендацией!):

Сейчас есть две части компании: OpenAI LP (Limited Partnership) и OpenAI NP (non-profit). И non-profit часть - это та, которой принадлежат технологии, та, что управляет процессом, та, где сидит Сэм Альтман и весь совет директоров. Со слов Сэма они в полном контроле, и их совет директоров не управляется людьми из LP (инвесторами). При этом инвесторы покупают долю в LP, которая почти никакого отношения не имеет к NP.
Так вот смысл в том, что - и тут это Сэм ещё раз подтверждает в видео - они даже могут отменить действие акций (cancel equity, я не совсем понимаю, какое конкретное правовое действие это означает, но посыл такой, что владельцы доли компании никак не влияют на её решения. Вообще никак, даже на 1%. И их доля может быть аннулирована). И эта же структура позволяет им принимать решения, которые никто из инвесторов не разделяет (слова Сэма).
А LP часть появилась исключительно для того, чтобы привлекать инвесторов. По сути OpenAI обещают, что они будут делиться прибылью, пока инвестор не получит, скажем, в десять раза больше, чем вложил - а дальше всё, гуляй, спасибо за деньги, вот твой профит, удачи! (это и есть capped-profit, оно же limited profit).

Более того, из недавних отчётов появилось понимание, подтверждающее некоторые тезисы выше - вот CNBC пишут, что у Сэма НЕТ акций ("решение было необычным для людей из Силиконовой долины").

Ну и после этого хочется напомнить немного про Сэма, СЕО OpenAI - он в прошлом директор Y Combinator, одного из самых старых и престижных стартап инкубаторов, и он точно 1) собаку съел в структурах компаний и переговорах 2) он очень хорошо понимает, как привлекать деньги (и у него не получилось) 3) у него были способы заработать гораздо больше и быстрее, по крайней мере на текущий момент. Чуть больше можно почитать выше по каналу.

UPD: важный для понимания факт в том, что сам переход на формат двух компаний и LC был в 2019м году, и это не помешало выпустить открыто GPT-2, опубликовать статью про GPT-3, GPT-3.5 и кучу других вещей. Это не вчера произошло, что они такие "ой нет всё теперь мы не некоммерческая организация, и ничего вам не дадим" - это было давно.
Сиолошная
Сразу перемотал на интересную часть, как можно было понять по посту выше (таймкод). Многие всё еще скептически относятся к "Open"AI, так как они начинали как non-profit (Некоммерческая организация), то есть их целью не было зарабатывание денег. Но несколько…
Добрый подписчик с полуслова понял, о какой статье идёт речь - об анализе в Тинькофф.Журнале, приглашаю к прочтению: https://journal.tinkoff.ru/chatgpt-financial-history/
(блин, а за интеграцию заплатят..?)

Вырезки оттуда:

— На март 2023 года существует две OpenAI. «Основная» OpenAI — НКО, которая и занимается ИИ. Так как это НКО, у нее нет владельцев, а есть совет управляющих из 9 человек. В нем состоят основные фигуры OpenAI и ранние основатели-инвесторы, в том числе Альтман.
— «Коммерческая» OpenAI Limited Partnership (OpenAI LP), через которую деньги поступают в основную компанию и которая проводит и оформляет коммерческие операции НКО, например продажу товаров и услуг. Долями в ней владеют инвесторы и НКО OpenAI.
— А основная НКО, которая и занимается работой над ИИ-проектами, инвесторам не принадлежит. OpenAI LP выполняет чисто техническую роль: собирает все заработанные OpenAI деньги, но именно головная некоммерческая OpenAI их распределяет так, как считает нужным, что в контексте НКО означает траты на основную цель существования — НИОКР в сфере ИИ.
— У НКО есть право вето на решения руководства OpenAI LP, которые касаются ценностей НКО OpenAI, лицензирования технологии и безопасности ее передачи.

И главное, отвечая на тезисы "OpenAI продались":
— Такая структура создает немалые риски для инвесторов в OpenAI LP, которая по факту не владеет ничем
— Руководить распределением прибыли ( после выхода на прибыль и решения проблемы «вернуть прибыль за 10 млрд от Microsoft») будет НКО OpenAI. В самой НКО OpenAI у Microsoft и других инвесторов долей нет.


TLDR:
Такая структура создает немалые риски для инвесторов в OpenAI LP (Microsoft и других), которая по факту не владеет ничем: инвесторы в OpenAI владеют токеном от дырки от бублика — долей в OpenAI LP, которой не принадлежит ничего (никаких технологий).
Теоретически возможна ситуация, при которой НКО OpenAI просто разорвет отношения с OpenAI LP, и инвесторы останутся ни с чем.

Блестяще провёрнутая сделка, Мистер Альтман!
Сиолошная
Погнали смотреть https://www.youtube.com/watch?v=L_Guz73e6fw или не погнали, сделаю несколько постов anyways
Саммари первой половины:

— если рассуждать с точки зрения того, что будет написано в Википедии на странице AGI в будущем, то Сэм считает, что там как промежуточный этап среди всех моделей OpenAI должна быть ChatGPT (не 3 и не 4), из-за удобства использования/формата чатбота, а не тройка или четверка
— дообучение из фидбека людей (RLHF, переход от GPT-3 к ChatGPT) изучено нами куда хуже, чем тренировка больших моделей, и мы слабо понимаем, что, как и почему происходит
— сейчас модели тренируют как хранилище знаний, чтобы оно выучивало то, что мы загружаем в модель, не как "reasoning engine" (движок/машина рассуждений). Но для некоторого определения слова "рассуждения" модель показывает способности к этому навыку (тут не дается четкого определения, так как это дискуссионный вопрос, потому и речь про "некоторое определение")
— ранняя публикация моделей позволяет получить фидбек от мира, и узнать о вещах, о которых вообще никто в OpenAI не думал: как модель ответит на этот вопрос? Может ли решить вот эту задачу? В то же время это даёт людям время "почувствовать" технологию и принять участие (в общем смысле) в её формировании
— сам Сэм не считает, что RLHF можно назвать решением проблемы alignment'а
— "много технических прыжков в базовой модели GPT-4" ("a lot of technical leaps in the base model") - так Сэм ответил на вопрос про отличие относительно GPT-3, мол, это не только RLHF/Alignment. Говорит, что они ищут множество маленьких улучшений, и комбинируют их вместе для получения результата, это не одна и не две идеи. И это всё - на каждом отдельном этапе, от сбора данных, от очистки и до деталей тренировки
— система, которая не может произвести значимое количество новых научные знания - не может называться AGI (Сэм употребляет слово "Superintelligent")
— он оценивает вероятность того, что невозможно решить проблему alignment'а, как ненулевую, и это лишь подтверждает то, что мы должны обращать на неё внимание, а не игнорировать. В том числе одно из главных направлений - это нахождение новых способов решения
— дальше они с Лексом обсуждают, имеют ли модели сознание, и откуда мы знаем, что ответ на этот вопрос сейчас "нет"? Лекс говорит, что модели, вероятно, хороши в притворстве обладания сознанием, а Сэм ловко подмечает, что вообще нонсенс, что мы об этом начинаем вот так говорить, что у нас нет однозначного чёткого ответа (потому что само понятие сознания не определено, в том числе).
— немного отстранённое воспоминание от Сэма на тему рассуждений о сознании с Ильёй Суцкевером на тему "а как мы поймем, что у модели есть сознание?": если мы каким-то образом очистить всю тренировочную выборку модели от не только употребления этого слова, но и от самого концепта сознания, и обучить модель, а потом начать ей объяснять понятие сознания и она ответит в духе "да, я понимаю, о чём ты!" - вот тогда стоит начать очень сильно беспокоиться по этому поводу. Но так как датасеты уже давно больше сотни гигабайт - то мы никогда на 100% не можем быть уверены, что проводим эксперимент правильно, с полной изоляцией нашего собственного понятия и восприятия разума.
— Сэм переживает, что с ростом доступности GPT-4-подобных моделей появятся проблемы дезинформации, может быть даже экономических шоков, к которым мы не готовы. И для этого не нужен суперинтеллект даже. И дело в том, что эта проблема не получает должного внимания, но с релизом ChatGPT и массовым распространением люди начинают думать, размышлять по этому поводу. А так - мы даже не заметим, как значимая доля контента в социальных сетях, особенно в твиттере, может начать генерироваться LLMками. И OpenAI частично работает и будет продолжать работать над проблемой.
— Первая половина кончается на серьёзной ноте: что будет, когда их конкуренты начнут делать что-то подобное и даже обгонят? Начнут ли OpenAI жертвовать безопасностью? Сэм утверждает, что надо придерживаться той миссии, которую они себе обозначили, и что они не будут польоваться сокращенными путями для ускорения — и что в результате этого они могут даже начать отставать.
Сиолошная
Погнали смотреть https://www.youtube.com/watch?v=L_Guz73e6fw или не погнали, сделаю несколько постов anyways
— Сэм верит, что будет несколько AGI, и они лишь делают один из нескольких. Интересная точка зрения, в моей картине мира, как я думал, будет один AGI, а остальные не будут за ним успевать, что делает их бесполезными в этой гонке (и первый будет их в некотором смысле "уничтожать", стирать, как вирусы). А как видите вы?
Сиолошная
Погнали смотреть https://www.youtube.com/watch?v=L_Guz73e6fw или не погнали, сделаю несколько постов anyways
Саммари второй половины:

— хорошая (страшная) шутка. Лекс: "...но в какой-то же момент будет какая-то комната, где люди посмотрят на то, что у них получилось (в эксперименте по обучению модели) и скажут «ну нихера себе...»". Сэм: "Такое сейчас происходит чаще, чем ты думаешь"
— Сэм говорит, что они более открытые, чем многие другие компании, включая Google, так как они дают API и доступ практически каждому (при этом контролируют запросы), и что их мало заботят риски плохого пиара. Особенно уповает на то, что его не беспокоят кликбейты от журналистов
— Сэм открыт к любым конструктивным предложениям по регуляции и открытости исследований, и говорит, что часто ведет беседы по этому поводу с разными людьми. Если у вас есть идея как сделать GPT-4 более открытой, включая публикацию статьи, при этом снизить риски любого рода — смело пишите статью и закидывайте (куда нибудь)
— Альтман отсылается к интервью Илона Маска (вот кусочек, рекомендую послушать и посмотреть), где тот чуть не расплакался, отвечая на вопрос, каково это видеть, что твои герои вроде Нила Армстронга, не верят в твою идею и не видят той тяжелой работы, что ты делаешь. И, мол, что Илон сейчас по отношению к OpenAI ведет себя так же, по крайней мере в публичном поле
— Сэм признает, что у исследователей OpenAI может замылиться глаз, что они будут вносить свои баисы в модель, поэтому они плотно работают с разными группами людей/исследователей и в том числе релизят ChatGPT/GPT-4, чтобы увидеть как можно больше мнений
— Он упоминает, что OpenAI проспонсировали одно из самых крупных и дорогих (а может и самое) исследований по безусловному базовому доходу, чтобы лучше понимать, как справляться в будущем с пришествием AI. Исследование закончится ближе к концу года (2023го)
— экономические изменения (вызванные GPT-подобными системами) вызовут и политические изменения, это очень связанные вещи, поэтому обо всём нужно думать вместе (блин, как будто строчка из пресс-релиза Пескова...)
— Сэм признает, что сам по себе инструмент не несёт ответственности за что-либо, поэтому любые последствия, вызванные ChatGPT/другими моделями - на плечах его компании и его команды
— Во время обсуждения крутости команды OpenAI и того, как они нанимают, Сэм упомянул, что он тратит примерно треть времени на это (что для СЕО очень много), и что всё еще каждого отдельного кандидата он подтверждает лично. Поэтому у них в команде только лучшие из лучших, кто реально горит работой и готов впахивать
— Microsoft и их руководители очень хорошие партнеры, взгляды которых на безопасность и Alignment очень близки компании, и они уже сейчас понимают, почему такие технологии должны оставаться в OpenAI (в отличие от других партнеров, к которым приходил Сэм, когда нужны были деньги)
ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks

Многие задачи в NLP требуют ручной разметки данных для тех или иных целей, в частности, для обучения или оценки моделей. В зависимости от размера и степени сложности задачи могут выполняться "крауд-воркерами" (живыми людьми, специализирующемся на разметке) на таких платформах, как MTurk или Толока (от Яндекса), а также отдельно обученными аннотаторами, например научными сотрудниками.

В Алиэкспрессе, к слову, для решения задачи сопоставления товаров мы прибегали к обоим группам. Краудсорсеры дешевле, но их разметка более шумная (люди могут просто кликать ответы, не вникая, чтобы денежку заработать) и быстрее. Обученный аннотатор же часто погружается в детали, и ещё и откладывает интересные примеры, по которым у него возникают вопросы.

Исследователи из университета Цюриха задались вопросом: а можно ли заменить крауд-сорсинг для разметки данных с помощью ChatGPT (здесь и далее - февральская модель GPT-3.5, не четвёрка). У них уже был набор данных для фильтрации твитов из их прошлой статьи (так что для них задача максимально прикладная). Всего было размечено 2'382 твитов, каждый оценивался двумя обученными аннотаторами (люди с высшим образованием, специализирующиеся на политике - студенты соседних курсов).

Что интересно - в выборку попали те твиты, по которым оба разметчика независимо дали один и тот же ответ. Это вносит некоторое смещение, так как неонозначные ситуации, где даже два специалиста не сошлись во мнении, по сути выкидывались. Частично я могу понять авторов статьи - надо же как-то сформировать "голден сет", набор данных, в котором они уверены и чьи метки используются как мерило для всех остальных исполнителей.

Всего было 5 разных задач, все - на классификацию твитов:
— обсуждение политики модерации Твиттера (2 класса)
— указывает ли твит на модерацию как на проблему (ограничение свободы слова) или на решение (запрет разжигания ненависти) (3 класса, включая "нейтральный")
— нарушающий закон США о контенте соц. сетей (3 класса)
— классификация по проблемам (6 классов, включая топик "бан Трампа", лол)
— классификация по темам (14 классов вроде "здравоохранение" или "право" или "экономика")
Со стороны кожаных отбирали хороших исполнителей, которые имели высокий внутренний рейтинг платформы (и статус "MTurk Masters"). То есть они в меньшей степени кликают просто так, чтобы копеечка капала, и скорее внимательно читают задание. Все - из США.

Для ChatGPT не использовали никакой специальный промпт, поэтому потенциально результаты могут быть ещё лучше. Модели давали ту же самую инструкцию, что и людям, и добавляли "Вот твит, что я выбрал, пожалуйста укажи его класс из множества [тут список возможных ответов]".

Метрики перед вами на графике. ChatGPT тут представлена в двух видах с разными параметрами температуры при генерации (отвечает за то, насколько случайно будем выбирать слова). Слева - график сравнения доли правильных ответов, справа - согласованность разметки (как часто ответы совпадают от разных разметчиков одного и того же источника. Для ChatGPT - это два одинаковых запуска, для людей - разметка двух разных индивидов)

Ключевое:
1. На 4 задачах из 5 модель справляется сопоставимо или лучше, при этом на ТРЕХ задачах существенно превосходит людей.
2. ChatGPT очень часто согласуется с самим собой, ну это в целом и понятно - ведь нет дообучения между разными запусками, и тут просто встаёт вопрос семплинга ответа.
3. В сложных задачах, где метрики ниже (классификация на 14 классов, она априори сложнее) согласованность даже тренированных ассистентов низкая, 50%. В других задачах она на приемлемом уровне выше 75%.
4. Авторы не дают никакого объяснения тому, почему ChatGPT проигрывает по метрикам на одной задаче.

TLDR: да, в этой конкретной задаче разметки твитов модель превосходит наёмных крауд-воркеров, а главное экономит деньги - каждый запрос стоит меньше $0.003. Большое упущение, что не попробовали добавлять в промпт по 10-20 примеров, чтобы модель лучше понимала задачу (in-context learning - такое показывает прирост по метрикам обычно).

В любом случае, берём на вооружение новый промежуточный способ для сбора данных в своих задачах в будущем.