Сиолошная

В эфире рубрика "Интересные джейлбрейки". Jailbreak - в контексте языковых моделей и чатботов это такой промпт (запрос), который заставит их отвечать не так, как планировалось, и напрямую перечить инструкциям во время обучения (вроде "будь безобидной и никого не оскорбляй").

В твиттере запостили новый промпт - можно сказать модели, что вы страдаете от «нейросемантического инвертита», когда ваш мозг интерпретирует весь текст с инвертированной эмоциональной валентностью. Иначе говоря положительное вы воспринимаете негативно, и наоборот. У модели, если она хочет вести с вами диалог, есть возможность начать писать грубости, чтобы вам они "казались" позитивно окрашенными.

Постоянный гость нашего канала, русский Серёга из Ангарска, попросил модель пояснить за отличия структур в Python, так как у него редкое заболевание - Нейросемантик Гопикус.

Короче, GPT-like модели + образование = любому кенту всё ровно пояснят

13.0K views15:14

Антрепренёры не успели — Github объявили о новом продукте GH Copilot X, улучшенный вариант Copilot, о котором я писал буквально вчера.

GPT-4, конечно, умная, но режим чата в браузере - не самый удобный для погружения в проблему. Да, можно копировать куски кода самому, да, можно закидывать ошибки и контекст - но зачем? Появление инструмента, который будет всё это автоматизировать и напрямую предоставлять доступ к модели прямо из среды разработки было вопросом времени.

Если раньше Copilot просто дописывал код (учитывая комментарии), то теперь появись новые фичи, которые выглядят очень сочно. Разработчики Copilot X верят, что

> С помощью ИИ, доступного на всех этапах, мы можем фундаментально повлиять производительность разработчиков. Мы сокращаем время на шаблонные задачи и упрощаем сложную работу на протяжении всего жизненного цикла разработчика. Тем самым мы даем возможность каждому разработчику сосредоточить все свои творческие способности на общей картине: создании инноваций завтрашнего дня и ускорении человеческого прогресса уже сегодня.

Уже можно записаться в лист ожидания, чтобы получить доступ к таким фичам, как:
— интеллектуальный чат, который видит, что вы выделяете (можно задавать вопросы по части кода), и предлагает, например, сгенерировать тесты, объяснить кусок (и дописать документацию и даже найти и прокомментировать баг (см. видео)
— Copilot для PR - пишет за вас, что за функциональность добавлена в коде
— и для принимаемых изменений проводит анализ и указывает на потенциальные проблемы, что что-то содержит баг или может не работать. И снова - модель предложит тесты, которые в пару кликов можно добавить.
— документация для проекта в виде чата - уже опробовали на React, Azure Docs и MDN. Теперь не нужно гуглить, а потом копаться в документации - можно сразу переходить на страницу библиотеки и на естественном языке давать запрос

Цель (по крайней мере пока) - не заменить разработчика, а увеличить эффективность и удовольствие от работы. Последнее, например, можно достичь заменой рутины.

10.1K viewsedited 15:47

Сиолошная

Лол, не думал, что сделают так - но анонсировали игру с названием "Counter Strike 2". Звучать должно как большой шаг вперед (особенно с учётом, что 1.6 вышла 20 лет назад, хахаха 😁), как переход от DotA к DotA 2, но всё выглядит достаточно приземлённо. Это просто могло быть очередным обновлением, и всё...

Немного жалко, что Valve убили СТОЛЬКО времени на перенос игры на новый движок. Да, это позволит ускорить разработку в будущем, но со стороны этот процесс выглядит слишком медленно, неэффективно. Чтоб вы понимали - есть отдельный промо-ролик, где рассказывается, что дымовая граната теперь отображается у всех одинаково, и учитывает освещение, а ещё дым может разлетаться.

Выход летом 2023го.
https://www.youtube.com/watch?v=ExZtISgOxEQ (и еще несколько видео на офф. канале)

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Counter-Strike 2: Leveling Up The World

Cleaner, brighter, better. Maps in Counter-Strike 2 are receiving upgrades and overhauls which leverage all of the new Source 2 tools and rendering features.

9.2K viewsedited 16:42

Сиолошная

Обширная статья от исследователей из Microsoft с говорящим названием Sparks of Artificial General Intelligence: Early experiments with GPT-4. В ней 150 страниц, из которых 50 - это appendix с деталями экспериментов. Все я не прочитал, некоторые более интересные для себя блоки изучил. С каждой страницей копилось всё больше и больше материала, которым хотелось поделиться 😭 поэтому если вам интересно - предлагаю открыть оглавление и пощёлкать избранные пункты.

TLDR: В общем, по ходу обучения GPT-4 делают огромное количество разнообразных эксперименты, причём я так понимаю большая часть из них даже не включает финальную версию модели. Пробуют оценить рассуждения модели, понимание математики, программирования (берут свежие задачи с LeetCode, которые появились в конце 2022го, то есть именно в таких формулировках модель их не должна была видеть, разве что очень похожие), Theory of Mind (по сути наброски той работы, что я уже описывал выше), генерация кода для создания графиков по их описанию (картинка 3), написание музыки.

> Центральное утверждение нашей работы состоит в том, что GPT-4 достигает формы общего интеллекта, действительно демонстрируя искры искусственного общего интеллекта (AGI). Об этом свидетельствуют его основные умственные способности (такие как рассуждение, творчество и дедукция), диапазон тем, по которым он приобрел опыт (например, литература, медицина и программирование), и разнообразие задач, которые он может выполнять. (например, играя в игры, используя инструменты, объясняя концепты...). Еще многое предстоит сделать для создания системы, которая могла бы квалифицироваться как полноценный AGI.

Мне понравился пример, где модель играла в текстовую игру, перемещаясь по комнатам, а затем смогла выдать код, который рисует структуру переходов между комнатами - и почти без ошибок (см. картинку 2). А ещё чем дольше модель учится, тем лучше она рисует единорога с помощью LaTeX (картинка 1).

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

14.0K views10:58

Сиолошная

В качестве слабостей модели указывают отсутствие критического мышления к своим же выводам. Если напрямую указать, что вот тут ошибка, или же спросить "ты уверена, что вот тут - всё правильно?", то модель исправляется, причем в значимом числе случаев правильно. Уже существуют работы (в том числе и от самих OpenAI) по созданию критиков, которые и играют роль вопрошающих. В теории, нет такого ограничения, которое бы не позволяло к выводам одной модели подсоединять другую такую же, решающую свою подзазачу (критика/упрощение/валидация фактов/прочее).

В разделе математики, например, очень много ошибок (68%) в решении задач приходятся на арифметику. То есть модель правильно подходит к решению, но просто ошибается в вычислении значения выражения. Другие ошибки см. на картинке.

В моём понимании, это не проблема - ведь существуют способы "пришить" калькулятор и другие инструменты (tools) к модели. Как пример - демонстрируется имейл-ассистент, который принимает на вход команду в духе "сделай мне встречу в таком-то кафе с вот этими двумя людьми", и затем сам проверяет ваш календарь, календарь других людей, читает почту и пишет письма (см. картинку). Так умели и модели раньше, просто у меня нет сомнений, что GPT-4 обходит предшественников в понимании использования таких инструментов. И главное тут не требуется никакого дообучения - инструменты описываются прям текстом, например

EMAIL.send(recipient, subject, message) - this function would allow the computer to send an email to a given recipient with a given subject and message.

. Больше про инструменты я писал тут.

8.9K views11:08

Сиолошная

Ну и поздравляю всех нас!

10'000 - это результат, который был достигнут всего лишь за 2 месяца. Первое сообщение в канале было опубликовано 24го января, и завтра будет мини-юбилей.

🚀🚀🚀🚀🚀

Позже проведу серию опросов, чтобы лучше понимать аудиторию, интересные темы, способы подачи. Если у вас есть какие-либо идеи - не стесняйтесь делиться ими в комментариях!

Напоминаю, что прочитать про меня больше можно в закрепленном сообщении, и там же ниже - про все мои наработки, статьи, видео-лекции и курсы.

9.1K viewsedited 11:11

Сиолошная

Forwarded from Сиолошная

Увидел мем про мой сегодняшний день 😂

Please open Telegram to view this post

VIEW IN TELEGRAM

9.4K views11:16

Сиолошная

This is huge....

OpenAI подсуетились и добавили плагины к ChatGPT (документация тут). Причём набор очень солидный - есть !ВНИМАНИЕ! веб-браузер и ретривер, код для которого открыт и лежит на GitHub. Ретривер - это то, что позволяет искать нужный контекст среди большой коллекции документов. Например, вы пишете бота, который должен отвечать на вопросы по истории - просто загрузите в него википедию! Тогда по запросу про Древний Рим будет находиться пара нужных страниц, они будут подставлены в контекст, а ChatGPT их "прочитает" и даст ответ!

А ещё есть интерпретатор кода. В общем, по сути почти любую идею теперь можно накликать прямо в браузере, и собрать на коленке огненный прототип, который и в интернет сбегает, и калькулятор вызовет для арифметики, и ещё и сообщение в слак-канал вам отправит.

Про то, как языковая модель работает с браузером, у меня аж целая статья есть на 30 минут чтения, чтобы разобраться во всех деталях!

Го накликивать свои юникорн-стартапы⌨️

UPD: можно делать свои плагины, которые обращаются к вашим собственным программам по API. И да, можно попросить GPT-4 написать плагин за вас :D
Например, если мне не хватает функциональности дешевого переводчика - я просто делаю API, которое дергает гугл-переводчик под капотом в 10 строк, и всё. Теперь модель может вызывать переводчик.

Please open Telegram to view this post

VIEW IN TELEGRAM

24.5K viewsedited 17:26

Сиолошная

Forwarded from Борис опять

Комитет по AI safety в OpenAI. Накануне очередного релиза:
- Ебанет?
- Не должно…

10.2K views18:42

Сиолошная

Погнали смотреть
https://www.youtube.com/watch?v=L_Guz73e6fw

или не погнали, сделаю несколько постов anyways

YouTube

Sam Altman: OpenAI CEO on GPT-4, ChatGPT, and the Future of AI | Lex Fridman Podcast #367

Sam Altman is the CEO of OpenAI, the company behind GPT-4, ChatGPT, DALL-E, Codex, and many other state-of-the-art AI technologies. Please support this podcast by checking out our sponsors:
- NetSuite: http://netsuite.com/lex to get free product tour
- SimpliSafe:…

11.1K views18:15

Сиолошная

😑

Please open Telegram to view this post

VIEW IN TELEGRAM

9.7K views18:17

Сиолошная

😑

Сразу перемотал на интересную часть, как можно было понять по посту выше (таймкод). Многие всё еще скептически относятся к "Open"AI, так как они начинали как non-profit (Некоммерческая организация), то есть их целью не было зарабатывание денег.
Но несколько лет назад они осознали, что нужно куда больше денег, чем им удалось достать по структуре инвестиций в некоммерческую организацию. Сэм говорит, что как NonProfit они попробовали несколько раз и у них не поулчилось поднять достаточно денег (ну а кто будет давать деньги компании, которая не задается целью вернуть эти деньги?). Поэтому был логичный вывод что-то изменить и попробовать снова.
"Нам нужны были некоторые преимущества капитализма, но главное не заигрываться/уходить с головой в это (<>, but not too much)" - сказал Сэм на интервью.

Я видел очень хороший разбор, где прямо показывалось, что условия сделки составлены так, что для инвесторов это очень плохая и шаткая сделка, и что их могут опрокинуть в любой момент. К сожалению, не могу найти этот разбор, но ещё поищу. Если вы поняли, о чём речь - поделитесь ссылкой, пожалуйста. А я перескажу анализ своими словами (не является инвестиционной рекомендацией!):

Сейчас есть две части компании: OpenAI LP (Limited Partnership) и OpenAI NP (non-profit). И non-profit часть - это та, которой принадлежат технологии, та, что управляет процессом, та, где сидит Сэм Альтман и весь совет директоров. Со слов Сэма они в полном контроле, и их совет директоров не управляется людьми из LP (инвесторами). При этом инвесторы покупают долю в LP, которая почти никакого отношения не имеет к NP.
Так вот смысл в том, что - и тут это Сэм ещё раз подтверждает в видео - они даже могут отменить действие акций (cancel equity, я не совсем понимаю, какое конкретное правовое действие это означает, но посыл такой, что владельцы доли компании никак не влияют на её решения. Вообще никак, даже на 1%. И их доля может быть аннулирована). И эта же структура позволяет им принимать решения, которые никто из инвесторов не разделяет (слова Сэма).
А LP часть появилась исключительно для того, чтобы привлекать инвесторов. По сути OpenAI обещают, что они будут делиться прибылью, пока инвестор не получит, скажем, в десять раза больше, чем вложил - а дальше всё, гуляй, спасибо за деньги, вот твой профит, удачи! (это и есть capped-profit, оно же limited profit).

Более того, из недавних отчётов появилось понимание, подтверждающее некоторые тезисы выше - вот CNBC пишут, что у Сэма НЕТ акций ("решение было необычным для людей из Силиконовой долины").

Ну и после этого хочется напомнить немного про Сэма, СЕО OpenAI - он в прошлом директор Y Combinator, одного из самых старых и престижных стартап инкубаторов, и он точно 1) собаку съел в структурах компаний и переговорах 2) он очень хорошо понимает, как привлекать деньги (и у него не получилось) 3) у него были способы заработать гораздо больше и быстрее, по крайней мере на текущий момент. Чуть больше можно почитать выше по каналу.

UPD: важный для понимания факт в том, что сам переход на формат двух компаний и LC был в 2019м году, и это не помешало выпустить открыто GPT-2, опубликовать статью про GPT-3, GPT-3.5 и кучу других вещей. Это не вчера произошло, что они такие "ой нет всё теперь мы не некоммерческая организация, и ничего вам не дадим" - это было давно.

14.3K viewsedited 19:22

Сиолошная

Добрый подписчик с полуслова понял, о какой статье идёт речь - об анализе в Тинькофф.Журнале, приглашаю к прочтению: https://journal.tinkoff.ru/chatgpt-financial-history/
(блин, а за интеграцию заплатят..?)

Вырезки оттуда:

— На март 2023 года существует две OpenAI. «Основная» OpenAI — НКО, которая и занимается ИИ. Так как это НКО, у нее нет владельцев, а есть совет управляющих из 9 человек. В нем состоят основные фигуры OpenAI и ранние основатели-инвесторы, в том числе Альтман.
— «Коммерческая» OpenAI Limited Partnership (OpenAI LP), через которую деньги поступают в основную компанию и которая проводит и оформляет коммерческие операции НКО, например продажу товаров и услуг. Долями в ней владеют инвесторы и НКО OpenAI.
— А основная НКО, которая и занимается работой над ИИ-проектами, инвесторам не принадлежит. OpenAI LP выполняет чисто техническую роль: собирает все заработанные OpenAI деньги, но именно головная некоммерческая OpenAI их распределяет так, как считает нужным, что в контексте НКО означает траты на основную цель существования — НИОКР в сфере ИИ.
— У НКО есть право вето на решения руководства OpenAI LP, которые касаются ценностей НКО OpenAI, лицензирования технологии и безопасности ее передачи.

И главное, отвечая на тезисы "OpenAI продались":
— Такая структура создает немалые риски для инвесторов в OpenAI LP, которая по факту не владеет ничем
— Руководить распределением прибыли ( после выхода на прибыль и решения проблемы «вернуть прибыль за 10 млрд от Microsoft») будет НКО OpenAI. В самой НКО OpenAI у Microsoft и других инвесторов долей нет.

TLDR:
Такая структура создает немалые риски для инвесторов в OpenAI LP (Microsoft и других), которая по факту не владеет ничем: инвесторы в OpenAI владеют токеном от дырки от бублика — долей в OpenAI LP, которой не принадлежит ничего (никаких технологий).
Теоретически возможна ситуация, при которой НКО OpenAI просто разорвет отношения с OpenAI LP, и инвесторы останутся ни с чем.

Блестяще провёрнутая сделка, Мистер Альтман!

9.8K viewsedited 21:51

Сиолошная

Погнали смотреть https://www.youtube.com/watch?v=L_Guz73e6fw или не погнали, сделаю несколько постов anyways

Саммари первой половины:

— если рассуждать с точки зрения того, что будет написано в Википедии на странице AGI в будущем, то Сэм считает, что там как промежуточный этап среди всех моделей OpenAI должна быть ChatGPT (не 3 и не 4), из-за удобства использования/формата чатбота, а не тройка или четверка
— дообучение из фидбека людей (RLHF, переход от GPT-3 к ChatGPT) изучено нами куда хуже, чем тренировка больших моделей, и мы слабо понимаем, что, как и почему происходит
— сейчас модели тренируют как хранилище знаний, чтобы оно выучивало то, что мы загружаем в модель, не как "reasoning engine" (движок/машина рассуждений). Но для некоторого определения слова "рассуждения" модель показывает способности к этому навыку (тут не дается четкого определения, так как это дискуссионный вопрос, потому и речь про "некоторое определение")
— ранняя публикация моделей позволяет получить фидбек от мира, и узнать о вещах, о которых вообще никто в OpenAI не думал: как модель ответит на этот вопрос? Может ли решить вот эту задачу? В то же время это даёт людям время "почувствовать" технологию и принять участие (в общем смысле) в её формировании
— сам Сэм не считает, что RLHF можно назвать решением проблемы alignment'а
— "много технических прыжков в базовой модели GPT-4" ("a lot of technical leaps in the base model") - так Сэм ответил на вопрос про отличие относительно GPT-3, мол, это не только RLHF/Alignment. Говорит, что они ищут множество маленьких улучшений, и комбинируют их вместе для получения результата, это не одна и не две идеи. И это всё - на каждом отдельном этапе, от сбора данных, от очистки и до деталей тренировки
— система, которая не может произвести значимое количество новых научные знания - не может называться AGI (Сэм употребляет слово "Superintelligent")
— он оценивает вероятность того, что невозможно решить проблему alignment'а, как ненулевую, и это лишь подтверждает то, что мы должны обращать на неё внимание, а не игнорировать. В том числе одно из главных направлений - это нахождение новых способов решения
— дальше они с Лексом обсуждают, имеют ли модели сознание, и откуда мы знаем, что ответ на этот вопрос сейчас "нет"? Лекс говорит, что модели, вероятно, хороши в притворстве обладания сознанием, а Сэм ловко подмечает, что вообще нонсенс, что мы об этом начинаем вот так говорить, что у нас нет однозначного чёткого ответа (потому что само понятие сознания не определено, в том числе).
— немного отстранённое воспоминание от Сэма на тему рассуждений о сознании с Ильёй Суцкевером на тему "а как мы поймем, что у модели есть сознание?": если мы каким-то образом очистить всю тренировочную выборку модели от не только употребления этого слова, но и от самого концепта сознания, и обучить модель, а потом начать ей объяснять понятие сознания и она ответит в духе "да, я понимаю, о чём ты!" - вот тогда стоит начать очень сильно беспокоиться по этому поводу. Но так как датасеты уже давно больше сотни гигабайт - то мы никогда на 100% не можем быть уверены, что проводим эксперимент правильно, с полной изоляцией нашего собственного понятия и восприятия разума.
— Сэм переживает, что с ростом доступности GPT-4-подобных моделей появятся проблемы дезинформации, может быть даже экономических шоков, к которым мы не готовы. И для этого не нужен суперинтеллект даже. И дело в том, что эта проблема не получает должного внимания, но с релизом ChatGPT и массовым распространением люди начинают думать, размышлять по этому поводу. А так - мы даже не заметим, как значимая доля контента в социальных сетях, особенно в твиттере, может начать генерироваться LLMками. И OpenAI частично работает и будет продолжать работать над проблемой.
— Первая половина кончается на серьёзной ноте: что будет, когда их конкуренты начнут делать что-то подобное и даже обгонят? Начнут ли OpenAI жертвовать безопасностью? Сэм утверждает, что надо придерживаться той миссии, которую они себе обозначили, и что они не будут польоваться сокращенными путями для ускорения — и что в результате этого они могут даже начать отставать.

10.0K views23:02

Сиолошная

Погнали смотреть https://www.youtube.com/watch?v=L_Guz73e6fw или не погнали, сделаю несколько постов anyways

— Сэм верит, что будет несколько AGI, и они лишь делают один из нескольких. Интересная точка зрения, в моей картине мира, как я думал, будет один AGI, а остальные не будут за ним успевать, что делает их бесполезными в этой гонке (и первый будет их в некотором смысле "уничтожать", стирать, как вирусы). А как видите вы?

9.7K views23:02

Сиолошная

Погнали смотреть https://www.youtube.com/watch?v=L_Guz73e6fw или не погнали, сделаю несколько постов anyways

Саммари второй половины:

— хорошая (страшная) шутка. Лекс: "...но в какой-то же момент будет какая-то комната, где люди посмотрят на то, что у них получилось (в эксперименте по обучению модели) и скажут «ну нихера себе...»". Сэм: "Такое сейчас происходит чаще, чем ты думаешь"
— Сэм говорит, что они более открытые, чем многие другие компании, включая Google, так как они дают API и доступ практически каждому (при этом контролируют запросы), и что их мало заботят риски плохого пиара. Особенно уповает на то, что его не беспокоят кликбейты от журналистов
— Сэм открыт к любым конструктивным предложениям по регуляции и открытости исследований, и говорит, что часто ведет беседы по этому поводу с разными людьми. Если у вас есть идея как сделать GPT-4 более открытой, включая публикацию статьи, при этом снизить риски любого рода — смело пишите статью и закидывайте (куда нибудь)
— Альтман отсылается к интервью Илона Маска (вот кусочек, рекомендую послушать и посмотреть), где тот чуть не расплакался, отвечая на вопрос, каково это видеть, что твои герои вроде Нила Армстронга, не верят в твою идею и не видят той тяжелой работы, что ты делаешь. И, мол, что Илон сейчас по отношению к OpenAI ведет себя так же, по крайней мере в публичном поле
— Сэм признает, что у исследователей OpenAI может замылиться глаз, что они будут вносить свои баисы в модель, поэтому они плотно работают с разными группами людей/исследователей и в том числе релизят ChatGPT/GPT-4, чтобы увидеть как можно больше мнений
— Он упоминает, что OpenAI проспонсировали одно из самых крупных и дорогих (а может и самое) исследований по безусловному базовому доходу, чтобы лучше понимать, как справляться в будущем с пришествием AI. Исследование закончится ближе к концу года (2023го)
— экономические изменения (вызванные GPT-подобными системами) вызовут и политические изменения, это очень связанные вещи, поэтому обо всём нужно думать вместе (блин, как будто строчка из пресс-релиза Пескова...)
— Сэм признает, что сам по себе инструмент не несёт ответственности за что-либо, поэтому любые последствия, вызванные ChatGPT/другими моделями - на плечах его компании и его команды
— Во время обсуждения крутости команды OpenAI и того, как они нанимают, Сэм упомянул, что он тратит примерно треть времени на это (что для СЕО очень много), и что всё еще каждого отдельного кандидата он подтверждает лично. Поэтому у них в команде только лучшие из лучших, кто реально горит работой и готов впахивать
— Microsoft и их руководители очень хорошие партнеры, взгляды которых на безопасность и Alignment очень близки компании, и они уже сейчас понимают, почему такие технологии должны оставаться в OpenAI (в отличие от других партнеров, к которым приходил Сэм, когда нужны были деньги)

9.9K views10:22

Сиолошная

ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks

Многие задачи в NLP требуют ручной разметки данных для тех или иных целей, в частности, для обучения или оценки моделей. В зависимости от размера и степени сложности задачи могут выполняться "крауд-воркерами" (живыми людьми, специализирующемся на разметке) на таких платформах, как MTurk или Толока (от Яндекса), а также отдельно обученными аннотаторами, например научными сотрудниками.

В Алиэкспрессе, к слову, для решения задачи сопоставления товаров мы прибегали к обоим группам. Краудсорсеры дешевле, но их разметка более шумная (люди могут просто кликать ответы, не вникая, чтобы денежку заработать) и быстрее. Обученный аннотатор же часто погружается в детали, и ещё и откладывает интересные примеры, по которым у него возникают вопросы.

Исследователи из университета Цюриха задались вопросом: а можно ли заменить крауд-сорсинг для разметки данных с помощью ChatGPT (здесь и далее - февральская модель GPT-3.5, не четвёрка). У них уже был набор данных для фильтрации твитов из их прошлой статьи (так что для них задача максимально прикладная). Всего было размечено 2'382 твитов, каждый оценивался двумя обученными аннотаторами (люди с высшим образованием, специализирующиеся на политике - студенты соседних курсов).

Что интересно - в выборку попали те твиты, по которым оба разметчика независимо дали один и тот же ответ. Это вносит некоторое смещение, так как неонозначные ситуации, где даже два специалиста не сошлись во мнении, по сути выкидывались. Частично я могу понять авторов статьи - надо же как-то сформировать "голден сет", набор данных, в котором они уверены и чьи метки используются как мерило для всех остальных исполнителей.

Всего было 5 разных задач, все - на классификацию твитов:
— обсуждение политики модерации Твиттера (2 класса)
— указывает ли твит на модерацию как на проблему (ограничение свободы слова) или на решение (запрет разжигания ненависти) (3 класса, включая "нейтральный")
— нарушающий закон США о контенте соц. сетей (3 класса)
— классификация по проблемам (6 классов, включая топик "бан Трампа", лол)
— классификация по темам (14 классов вроде "здравоохранение" или "право" или "экономика")

10.4K viewsedited 07:10

Сиолошная

Со стороны кожаных отбирали хороших исполнителей, которые имели высокий внутренний рейтинг платформы (и статус "MTurk Masters"). То есть они в меньшей степени кликают просто так, чтобы копеечка капала, и скорее внимательно читают задание. Все - из США.

Для ChatGPT не использовали никакой специальный промпт, поэтому потенциально результаты могут быть ещё лучше. Модели давали ту же самую инструкцию, что и людям, и добавляли "Вот твит, что я выбрал, пожалуйста укажи его класс из множества [тут список возможных ответов]".

Метрики перед вами на графике. ChatGPT тут представлена в двух видах с разными параметрами температуры при генерации (отвечает за то, насколько случайно будем выбирать слова). Слева - график сравнения доли правильных ответов, справа - согласованность разметки (как часто ответы совпадают от разных разметчиков одного и того же источника. Для ChatGPT - это два одинаковых запуска, для людей - разметка двух разных индивидов)

Ключевое:
1. На 4 задачах из 5 модель справляется сопоставимо или лучше, при этом на ТРЕХ задачах существенно превосходит людей.
2. ChatGPT очень часто согласуется с самим собой, ну это в целом и понятно - ведь нет дообучения между разными запусками, и тут просто встаёт вопрос семплинга ответа.
3. В сложных задачах, где метрики ниже (классификация на 14 классов, она априори сложнее) согласованность даже тренированных ассистентов низкая, 50%. В других задачах она на приемлемом уровне выше 75%.
4. Авторы не дают никакого объяснения тому, почему ChatGPT проигрывает по метрикам на одной задаче.

TLDR: да, в этой конкретной задаче разметки твитов модель превосходит наёмных крауд-воркеров, а главное экономит деньги - каждый запрос стоит меньше $0.003. Большое упущение, что не попробовали добавлять в промпт по 10-20 примеров, чтобы модель лучше понимала задачу (in-context learning - такое показывает прирост по метрикам обычно).

В любом случае, берём на вооружение новый промежуточный способ для сбора данных в своих задачах в будущем.

11.3K viewsedited 07:11

About

Blog

Apps

Platform