Сиолошная
44.5K subscribers
764 photos
133 videos
1 file
944 links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Сиолошная
Погнали смотреть https://www.youtube.com/watch?v=L_Guz73e6fw или не погнали, сделаю несколько постов anyways
Саммари второй половины:

— хорошая (страшная) шутка. Лекс: "...но в какой-то же момент будет какая-то комната, где люди посмотрят на то, что у них получилось (в эксперименте по обучению модели) и скажут «ну нихера себе...»". Сэм: "Такое сейчас происходит чаще, чем ты думаешь"
— Сэм говорит, что они более открытые, чем многие другие компании, включая Google, так как они дают API и доступ практически каждому (при этом контролируют запросы), и что их мало заботят риски плохого пиара. Особенно уповает на то, что его не беспокоят кликбейты от журналистов
— Сэм открыт к любым конструктивным предложениям по регуляции и открытости исследований, и говорит, что часто ведет беседы по этому поводу с разными людьми. Если у вас есть идея как сделать GPT-4 более открытой, включая публикацию статьи, при этом снизить риски любого рода — смело пишите статью и закидывайте (куда нибудь)
— Альтман отсылается к интервью Илона Маска (вот кусочек, рекомендую послушать и посмотреть), где тот чуть не расплакался, отвечая на вопрос, каково это видеть, что твои герои вроде Нила Армстронга, не верят в твою идею и не видят той тяжелой работы, что ты делаешь. И, мол, что Илон сейчас по отношению к OpenAI ведет себя так же, по крайней мере в публичном поле
— Сэм признает, что у исследователей OpenAI может замылиться глаз, что они будут вносить свои баисы в модель, поэтому они плотно работают с разными группами людей/исследователей и в том числе релизят ChatGPT/GPT-4, чтобы увидеть как можно больше мнений
— Он упоминает, что OpenAI проспонсировали одно из самых крупных и дорогих (а может и самое) исследований по безусловному базовому доходу, чтобы лучше понимать, как справляться в будущем с пришествием AI. Исследование закончится ближе к концу года (2023го)
— экономические изменения (вызванные GPT-подобными системами) вызовут и политические изменения, это очень связанные вещи, поэтому обо всём нужно думать вместе (блин, как будто строчка из пресс-релиза Пескова...)
— Сэм признает, что сам по себе инструмент не несёт ответственности за что-либо, поэтому любые последствия, вызванные ChatGPT/другими моделями - на плечах его компании и его команды
— Во время обсуждения крутости команды OpenAI и того, как они нанимают, Сэм упомянул, что он тратит примерно треть времени на это (что для СЕО очень много), и что всё еще каждого отдельного кандидата он подтверждает лично. Поэтому у них в команде только лучшие из лучших, кто реально горит работой и готов впахивать
— Microsoft и их руководители очень хорошие партнеры, взгляды которых на безопасность и Alignment очень близки компании, и они уже сейчас понимают, почему такие технологии должны оставаться в OpenAI (в отличие от других партнеров, к которым приходил Сэм, когда нужны были деньги)
ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks

Многие задачи в NLP требуют ручной разметки данных для тех или иных целей, в частности, для обучения или оценки моделей. В зависимости от размера и степени сложности задачи могут выполняться "крауд-воркерами" (живыми людьми, специализирующемся на разметке) на таких платформах, как MTurk или Толока (от Яндекса), а также отдельно обученными аннотаторами, например научными сотрудниками.

В Алиэкспрессе, к слову, для решения задачи сопоставления товаров мы прибегали к обоим группам. Краудсорсеры дешевле, но их разметка более шумная (люди могут просто кликать ответы, не вникая, чтобы денежку заработать) и быстрее. Обученный аннотатор же часто погружается в детали, и ещё и откладывает интересные примеры, по которым у него возникают вопросы.

Исследователи из университета Цюриха задались вопросом: а можно ли заменить крауд-сорсинг для разметки данных с помощью ChatGPT (здесь и далее - февральская модель GPT-3.5, не четвёрка). У них уже был набор данных для фильтрации твитов из их прошлой статьи (так что для них задача максимально прикладная). Всего было размечено 2'382 твитов, каждый оценивался двумя обученными аннотаторами (люди с высшим образованием, специализирующиеся на политике - студенты соседних курсов).

Что интересно - в выборку попали те твиты, по которым оба разметчика независимо дали один и тот же ответ. Это вносит некоторое смещение, так как неонозначные ситуации, где даже два специалиста не сошлись во мнении, по сути выкидывались. Частично я могу понять авторов статьи - надо же как-то сформировать "голден сет", набор данных, в котором они уверены и чьи метки используются как мерило для всех остальных исполнителей.

Всего было 5 разных задач, все - на классификацию твитов:
— обсуждение политики модерации Твиттера (2 класса)
— указывает ли твит на модерацию как на проблему (ограничение свободы слова) или на решение (запрет разжигания ненависти) (3 класса, включая "нейтральный")
— нарушающий закон США о контенте соц. сетей (3 класса)
— классификация по проблемам (6 классов, включая топик "бан Трампа", лол)
— классификация по темам (14 классов вроде "здравоохранение" или "право" или "экономика")
Со стороны кожаных отбирали хороших исполнителей, которые имели высокий внутренний рейтинг платформы (и статус "MTurk Masters"). То есть они в меньшей степени кликают просто так, чтобы копеечка капала, и скорее внимательно читают задание. Все - из США.

Для ChatGPT не использовали никакой специальный промпт, поэтому потенциально результаты могут быть ещё лучше. Модели давали ту же самую инструкцию, что и людям, и добавляли "Вот твит, что я выбрал, пожалуйста укажи его класс из множества [тут список возможных ответов]".

Метрики перед вами на графике. ChatGPT тут представлена в двух видах с разными параметрами температуры при генерации (отвечает за то, насколько случайно будем выбирать слова). Слева - график сравнения доли правильных ответов, справа - согласованность разметки (как часто ответы совпадают от разных разметчиков одного и того же источника. Для ChatGPT - это два одинаковых запуска, для людей - разметка двух разных индивидов)

Ключевое:
1. На 4 задачах из 5 модель справляется сопоставимо или лучше, при этом на ТРЕХ задачах существенно превосходит людей.
2. ChatGPT очень часто согласуется с самим собой, ну это в целом и понятно - ведь нет дообучения между разными запусками, и тут просто встаёт вопрос семплинга ответа.
3. В сложных задачах, где метрики ниже (классификация на 14 классов, она априори сложнее) согласованность даже тренированных ассистентов низкая, 50%. В других задачах она на приемлемом уровне выше 75%.
4. Авторы не дают никакого объяснения тому, почему ChatGPT проигрывает по метрикам на одной задаче.

TLDR: да, в этой конкретной задаче разметки твитов модель превосходит наёмных крауд-воркеров, а главное экономит деньги - каждый запрос стоит меньше $0.003. Большое упущение, что не попробовали добавлять в промпт по 10-20 примеров, чтобы модель лучше понимала задачу (in-context learning - такое показывает прирост по метрикам обычно).

В любом случае, берём на вооружение новый промежуточный способ для сбора данных в своих задачах в будущем.
Нашёл интересный проект. Наверняка вы играли в "Да/Нетки", где загадывают объект или человека, и с помощью вопросов с примитивным ответом нужно угадать, что было загадано. Заграницей эта игра называется "20" (потому что ограничение в 20 вопросов). Что будет, если посадить играть ChatGPT саму с собой?

Для 1823 объектов она смогла отгадать лишь 68.

Работает это так (см. картинку): одна модель получает случайное слово и называется "оракулом" (так как обладает абсолютным знанием). Второй модели подаётся промпт, описывающий игру, а также с каждым ходом дописываются предыдущие вопросы и ответы (как история). Вопросы второй модели подаются первой, а она, обладая знанием об объекте, формирует ответ. И так по кругу.

Интересно, какой результат был бы на людях (как в "Акинаторе"), а не объектах типа "стол" или "муравей".

Код полностью выложен тут, блогпост с деталями здесь. Если у вас есть доступ к API GPT-4 - можете буквально в пару строк запустить и проверить, потом поделитесь)
AI-ассистент финансовому аналитику

Тут один британский учёный инженер решил на коленке склепать себе ассистента для анализа финансовой отчётности с помощью GPT. Как proof-of-concept он загрузил примерно тысячу страниц PDF-файлов из отчётности Tesla за 2020-2022 года. Понятно, что человеку, даже опытному, достаточно тяжело в таком ориентироваться и выуживать только нужные части.

Но что если на помощь позвать ассистента, которому можно задать вопрос, а он найдет на него ответ из файлов, ещё и может приложить свою экспертизу?

Вот 40-минутное видео с детальным объяcнением принципа работы, а код весь открыт тут. Очень клёвая идея для петпроекта, ещё бы добавить возможность модели самой задавать вопросы и на них отвечать (aka "чеклист проверки отчётности") - и вообще огнище будет!

На скриншоте - диаграмма пайплайна, описывающая ключевые компоненты системы.
Давненько не видел хаков, чтобы вытащить промпт из ChatGPT. Как-то все остыли к этому уже чтоли, и больше играются с крутыми штуками :)

С появлением плагинов вроде браузера и интерпретатора кода были маленькие вопросы "а как оно там работает, какие промпты?". Не то чтобы это большой секрет и так никто не делал — я про это писал больше месяца назад. Если вкратце, то модели текстом описывают, что ей нужно написать, чтобы "вызвать" браузер/другую модель/какой-то скрипт. Например, "ПОИСК: <запрос>" - чтобы отправить запрос в — вы не поверите — поисковик.

Так вот, о чём это я. Умельцы из твиттера вытащили промпт и некоторые детали того, как работает браузер.
TLDR: это отдельная моделька, дообученная из text-davinci-002 (то есть большая, 175B параметров, и уже с Instruction-подходом, а как иначе!) и увеличенной до 8к шириной контекста.

Но рыбята пошли ещё дальше - переписали инструкции модели, добавили свои команды, и модель, конечно же, отреагировала! Скажем, функция in_the_style_of(LINK), которая заставляет модель окрасить текст в стиль, соответствующий оному на другой странице!

Второй источник с некоторыми деталями из логов (как происходят вызовы, какие есть поля, как формируется аутпут).
This media is not supported in your browser
VIEW IN TELEGRAM
Проснулись потянулись, посмотрели на преемника Alpaca - GPT4All (блин, не животное!)

На самом деле преемник не полноценный - способ сбора данных другой, самогенерации данных нет (но ответы от GPT-3.5-Turbo есть!).
Собрали в пачку два датасета - OIG (тут писал что это) от LAION и вопросы StackOverflow. Был ещё и датасет P3 от BigScience, но после генерации ответов от ChatGPT стало ясно, что он не очень (слишком однородные и короткие семплы). Поэтому всего было 437,605 пар для обучения - в 14 раз больше Alpaca!

Под капотом - затюненная LLAMA 7B, с и без использования LoRA
$500 на сбор данных + $800 на тренировку ($100 для LoRA-версии)

Код (включая все скрипты обучения и собранные данные): гитхаб
Лог обучения: опа
Статья: пфд

И вот тут есть ВЕСА натрененной модельки (но нужна ванильная LLAMA 7B, чтобы запустить)
Как бы мог выглядеть пайплайн работы AGI, или снова "чё там у твиторских".

У языковых моделей есть очевидная проблема - они не планируют наперёд. Но ведь это можно исправить несколькими умными промптами, и начать:
1. Генерировать предположения о задачах, которые нужно сделать, чтобы приблизиться к цели
2. Оценивать приоритет задач и порядок их выполнения
3. Добавить внешнюю память, куда будут складываться диалоги GPT-4 с ней же (размышления + найденная информация)
4. Дать доступ к поисковику, чтобы актуализировать знания

В теории, если модель достаточно умна, умеет пользоваться интернетом и писать код - то повторение в цикле всех вышеописанных действий должно приводить к какому-то результату.

Предложенный пользователем твиттера концепт пока не выглядит как что-то, что действительно представляет угрозу или способно реально менять мир, но как proof-of-concept - сойдет. Демка демонстрирует потенциал языковых моделей для автономного выполнения задач в различных условиях и контекстах.

Самое интересное тут - посмотреть, о чём "думает" модель. Тред стартует здесь. Там много примеров, но ниже я распишу только один.

Возможно вы слышали про "фабрику скрепок" - это когда ИИ получил задачу оптимизировать производство скрепок для бумаги, и начал делать роботов-гипнотезеров, чтобы заставлять людей покупать скрепки. В конце концов, вся вселенная была задействована для наращивания оборотов производства. Про это даже есть веб-игра (ОСТОРОЖНО! очень залипательно, есть риск выпадения из мира на 10 часов!)

Что предложила сделать GPT-4? К сожалению, всё скучно(
1. Так как модель прочитала интернет, то вспомнила про опасность разрастания ИИ до чудовищных размеров, и предложила выработать протокол безопасности
2. Ну, и поэтому зациклилась на решении проблемы AI Safety :( (тут начал радоваться один Юдковский...)

В общем, очень рекомендую почитать скрины и тред - немного весело, немного страшно, и очень интересно.

Техническое описание (с диаграммами) - тут
Тред и историей развития - здесь
Forwarded from Denis Sexy IT 🤖
Bing Chat постепенно встраивает рекламу в результаты поиска, выглядит так, будто бы эпоха «нативной рекламы» снова вернулась, но уже без участия человека. Хоть бейджик «Ad» ставят, и на том спасибо.

Интересно насколько такая реклама будет дороже для бизнеса
Если кто-то в мае-июне будет в этих городах:

Toronto, DC, Rio, Lagos, Madrid, Brussels, Munich, London, Paris, Tel Aviv, Dubai, New Delhi, Singapore, Jakarta, Seoul, Tokyo, Melbourne.

то вы можете заполнить заявку тут, чтобы попасть на аудиенцию к Sam Altman — там можно будет обсудить с ним AGI и GPT с точки зрения разработчиков и пользователей. Если у вас есть беспокойства по открытости рисерча, безопасности методологий тестирования, етц - самое оно. Если есть фидбек, вопросы, пожелания - можно прям очно пообщаться.
Сиолошная
ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks Многие задачи в NLP требуют ручной разметки данных для тех или иных целей, в частности, для обучения или оценки моделей. В зависимости от размера и степени сложности задачи могут выполняться "крауд…
AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators

Продолжаем смотреть на способы, которыми GPT будут отбирать работу у кожаных. Более конкретно - на замену разметчиков данных. Подробнее я писал об этом тут - рекомендую ознакомиться для понимания, если вы ещё этого не сделали.

В новой же статье от другой исследовательской группы берётся три новых набора данных:
— Датасет QK, оценка релевантности запроса пользователя в поисковике и ключевого слова (2 класса, BAD and NOT BAD)
— Boolean Questions, набор вопросов из поисковика, сопоставленных с параграфами из Википедии. Для каждого вопроса есть контекст, и по нему нужно ответить "ДА" или "НЕТ" (и ответ содержится в тексте).
— Word-in-Context, задача на устранение неоднозначности смыслов слов посредством бинарной классификации пар предложений. Даются два текстовых фрагмента вместе с многозначным словом, которое встречается в обоих предложениях. Ответ "ДА" если слово несёт один и тот же смысл в обоих контекстах, иначе "НЕТ

Как видно, задачи простые, всего 2 ответа в каждом вопросе, так что люди должны достаточно хорошо справляться с задачей (не нужно держать 14 разных классов в голове, как в прошлой работе). Ответы для задач получались, если 3 человека независимо пришли к одному и тому же ответу.

Главный прикол работы (см. картинку) - авторы просят саму модель написать решение, мол, почему именно такой ответ был дан, "да" или "нет". Затем эти рассуждения и несколько примеров уже отвеченных вопросов (но абсолютно других) подают как контекст, после чего просят ответить на ещё один вопрос. Модель начинает рассуждать, и в конце концов пишет свой вердикт. Используемый промпт: "Кратко объясни, почему ответ <...>, при этом длина ответа не должна превышать 100 слов."

Для задачи QK удивительно, но ChatGPT (Здесь и далее - в работе использовали обычную GPT-3.5) хуже справляется с этой задачей, если ей дать несколько примеров, чем если сразу просить ответить на один и только один вопрос. Существует резонное предположение, что дообучение на инструкции (чтобы сразу чётко отвечать на запрос) снижает способность модели к обучению из контекста и примеров 🤷‍♂️ Но если добавить рассуждения - то метрики только улучшаются.

В общем, на первой задаче модель рвёт людей-разметчиков, на второй выдаёт ровно такой же результат, а на третьей - пока отстаёт, так как сложно даётся определение точного значения, исходя из контекста.
Please open Telegram to view this post
VIEW IN TELEGRAM
Умный ассистент Siri появился больше 10 лет назад, в 2011. Кажется, что многие тогда думали "ухххх через 10-то лет будет такой умной! Настоящий ИИ!"

Парень с твиттера прикрутил к Siri в Apple Watch вызовы GPT-4. Далее он сказал своим часам, мол, мне надо в репозиторий с моим проектом добавить вот такую кнопку, так и так, можешь помочь?". Дальше происходит магия, и на GitHub появляется пулл-реквест от GPT-шки, с написанным кодом.

Ухххх поскорее бы аналог Джарвиса из "Железного Человека"...

3-минутное видео с демонстрацией: https://fxtwitter.com/i/status/1641204093074145281
В гугле происходит шото непонятное. Так действительно можно на горизонте года растерять всё наработанное преимущество.

Вот статья TheInformation, которая рассказывает про внутренние проблемы. Среди прочего там говорится, что известный исследователь из Google в области искусственного интеллекта ушел в отставку после того, как предупредил генерального директора Сундара Пичаи и других руководителей высшего звена о том, что Bard — конкурент Google для ChatGPT... готовы? воздуху набрали?

...использует данные ChatGPT. Это запрещено лицензией OpenAI: нельзя использовать результаты работы модели для создания и обучения моделей-конкурентов.

Если какой-то исследовательский продукт на гитхабе (вроде Alpaca) - это ещё не понятно, конкурент или просто поделка, то такой-же чатбот от Google..тут уже без сомнений.

Где-то сейчас сидит один Sam Altman и считает бюджет на обучения GPT-6:
1. Прес качат
2. $10 милилардов от Microsoft получат
3. Иск к Google на $20 миллиардов подават

Вот и экономика сошлась!
Мем в тему дня.

На фото - Eliezer Yudkowsky, специалист по искусственному интеллекту, исследующий проблемы технологической сингулярности и выступающий за создание дружественного ИИ. Ключевая фигура сообщества рационалистов.

Он уже больше 20 лет пытается вместе с группой ученых пододвинуться к решению проблемы AI Alignment.

Суть в том, что у нас нет никаких защитных гарантирующих методов, которые позволяют контролировать Искусственный Интеллект.

Не поймите неправильно - он не кричит, мол, GPT-4 это AGI, и мы все умрем! Он просто говорит о том, что нужно придумать щит до того, как появится меч, нужно подготовиться.

Сегодня в Time вышла статья от него, некоторые тезисы которой весьма спорны, и их сложно назвать рациональными. Среди прочего, предлагается начать плотно следить за датацентрами, в которых могут обучать нейросети, и если появляется несанкционированный - бомбить его (airstrike, я не шучу)

Разбора статьи не будет, в ближайшие 3-4 дня, думаю, об этом будут говорить все - а там глянем, что получилось.
Сиолошная
Мем в тему дня. На фото - Eliezer Yudkowsky, специалист по искусственному интеллекту, исследующий проблемы технологической сингулярности и выступающий за создание дружественного ИИ. Ключевая фигура сообщества рационалистов. Он уже больше 20 лет пытается…
https://www.youtube.com/watch?v=AaTRHFaaPG8

А вот и подоспело свежее интервью c Eliezer'ом на целых 3 часа. Если хотите лучше понять его точку зрения - уверен, там достаточно много детале. Спойлер: он не городской сумасшедший, который требует невозможного (вроде остановки прогресса человечества).

За ссылку спасибо нашему постоянному гостю Всеволоду из Эстонии

UPD: Только не отказывайте себе в просмотре видео по той причине, что "ну он про бомбардировку датацентра написал"...
Маск сказал - Маск сделал

Твиттер опубликовал весь исходный код системы рекомендаций площадки.
Репозиторий на гите: тык

Интересно, как быстро умельцы найдут баги, и сколько новой информации для себя другие компании вытащат.

За ссылку спасибо каналу @j_links

UPD: для мл-моделек тоже есть репозиторий.
Вы наверняка подозревали, что у моделей есть свой свой hub. Ну в смысле место, куда люди загружают обученные нейронки, а другие могут их оттуда скачивать и использовать. Вы же об этом подумали, да? 😑

Так вот, сейчас индустриальный стандарт для опенсорсных моделей - это HuggingFace 🤗 Hub.
В статье HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace предлагается дать ChatGPT возможность обращаться к этим моделям (а их тысячи, и они решают сотни разных задач). То есть саму языковую модель на основе GPT мы не учим рисовать изображения или переводить текст в речь, но мы даём ей возможность использовать внешние инструменты. Похожая по смыслу работа уже упоминалась в канале, но та была куда менее масштабируемой, и требовала ресурсов для запуска нейронок локально.

Итого получаем примерно следующее:
1) ChatGPT получает команду на человеческом языке
2) переводит команду в набор "Задач", которые надо выполнить
3) для каждой задачи среди тысяч доступных моделей выбирается нужная (по предоставленному описанию)
4) ChatGPT читает описание аргументов, которые нужно дать модели, и готовит их
5) после исполнения задачи ChatGPT смотрит на результат и движется по плану дальше, повторяя пункты 3-5

Для лучшего понимания можно рассмотреть скриншот из статьи со следующим запросом: "создай изображение, на котором девочка читает книгу, а ее поза такая же, как у мальчика на изображении <такое то>. А после опиши новое изображение своим голосом".

Модель для такого запроса выделяет целых 6 задач (см. в красных рамках на изображении), и успешно справляется с их последовательным выполнением.

Код в репозитории с очень занятным названием "Джарвис": https://github.com/microsoft/JARVIS. Наверное, это отсылка к ИИ-ассистенту из фильма "Железный Человек" :) (я бы точно так же назвал, 💯)
Please open Telegram to view this post
VIEW IN TELEGRAM