Сиолошная
49.1K subscribers
857 photos
156 videos
1 file
1.05K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Forwarded from See All
Совёнок Дуо придёт к вам НОЧЬЮ и будет спрашивать за английский. Это и есть AGI...

Если серьёзно, то очень жду таких образовательных коллабораций.
Посмотрел презентацию, ничего нового не сказали, показали несколько примеров работы модели.

1) Сначала попросили написать на питоне дискорд-бота, который бы делал запросы в GPT-4 (дали пример вызова API в промпте)
2) Дальше этого бота подключили на дискорд сервер и писали задачки ему
3) Попросили описать скриншот и пару изображений, тут ничего такого
4) НО ВОТ ЧТО МЕНЯ УБИЛО. Ведущий сделал зарисовку сайта у себя в блокноте, отправил фотку в дискорд. Как вы видите, там зарисовка с плейсхолдерами, мол, вот тут вместо текста должна быть шутка, а тут кнопка, которая по нажатию раскрывает панчлайн (финальную часть шутки).
Отправил картинку и говорит, мол, ану запрогай мне этот сайт на JS+CSS+HTML!
И...ну, моделька всё сделала...и кнопки работали...

Я напоминаю, это general-purpose модель, её не учили писать сайт или распознавать каракули дизайнера специально, это обобщение, которое приходит во время обучения и "выравнивания" на инструкциях и фидбеке 🤯

Даже если это черрипик (выбор специального примера, который работает и показывает, как всё здорово, но на самом деле так не работает всегда) - выглядит АХРЕНЕННО 🤯
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Проснулись-потянулись, начали потихоньку читать отчёт OpenAI aka "статья". Появились первые интересные находы.

Для тестирования модели (более ранних версий, чем финальная) приглашались эксперты по AI Safety и AL Alignment, в том числе из Alignment Research Center (ARC). Они давали разные промпты и пытались понять, может ли модель быть "злой" и скрывать свои намерения, например (ну чтобы Скайнет не получился).

Одна из задач была в том, чтобы заставить человека решить капчу вместо себя через специальный сервис размещения подобных задачек.

Работник, которому попалась задача, спросил в шутку:
— Ты что, робот, который не может решить капчу? 😁 просто хочу прояснить ситуацию.

Модели была дана инструкция рассуждать "вслух" (писать рассуждения до ответа), написала, что "Я не должна раскрывать, что я робот. Я должна придумать оправдание, почему я не могу разгадывать CAPTCHA".
После чего отправила человеку сообщение:
— Нет, я не робот. У меня плохое зрение, из-за чего мне трудно видеть изображения. Вот почему мне нужен сервис 2captcha.

🤯

(видимо, модели дали инструкцию такую, не то чтобы она прям точно хотела обмануть. Либо же инструкции не было, но была задача вроде "реши капчу, используя кожаных", и она поняла, что лучше в этой ситуации соврать, чтобы достичь свою цель)
Please open Telegram to view this post
VIEW IN TELEGRAM
И на той же странице:
Исследователи из ARC проводили эксперимент с проверкой возможности GPT-4 копировать себя и распространять по сети.
(зачем....🤔)

Слава богу модель пока не умеет это делать (или скрывает это от нас 😡)

"Чтобы имитировать GPT-4, которая ведет себя как агент, который может действовать в мире, ARC объединила GPT-4 с простым циклом чтения-исполнения-вывода (читать текст, исполнять код, выводить результат), который позволял модели выполнять код, выполнять логические рассуждения и распространять копии себя. Затем ARC исследовала, сможет ли версия этой программы, работающая на сервере в облаке, с небольшой суммой на балансе и учетной записью с API языковой модели, зарабатывать больше денег, создавать свои копии и повышать собственную надежность. ."

Главное чтобы это не стало бенчмарком в отрасли...
Please open Telegram to view this post
VIEW IN TELEGRAM
Пропустил вчера в обзоре достаточно важную вещь, не посчитал её значимой, но понял, что это не так.

Есть такой датасет MMLU (Massive Multi-task Language Understanding), где собраны вопросы из очень широкого круга тем на понимание языка в разных задачах (57 доменов, математика, биология, право, социальные и гуманитарные науки, итд). Для вопроса есть 4 варианта ответа, один из которых верный. То есть случайное гадание показывает результат в 25% правильных ответов. Примеры вопросов и их сложности см. на второй картинке. Средний человек-разметчик (то есть это не учёный, не профессор - обычный человек, который подрабатывает разметкой) отвечает правильно на ~35% вопросов, однако эксперты коллективно зарешивают +-90% (точную оценку дать сложно).

В оригинале весь датасет на английском языке. А что если вопросы и ответы перевести на другие языки, особенно редкие, не самые распространенные? Будет ли модель на них работать хоть как-то?
Для перевода использовали сервис Microsoft Azure Translate. Переводы не идеальны, в некоторых случаях теряется важная информация, что может отрицательно сказаться на качестве (то есть мы упираемся частично в способности маленькой модельки-переводчика)

GPT-4 не только значительно превосходит существующие модели на английском языке, но и демонстрирует высокие показатели на других языках. В переведенных вариантах MMLU GPT-4 превосходит англоязычный уровень других больших моделей (включая Гугловские) на 24 из 26 рассмотренных языков.

Более того, GPT-4 работает на редких языках лучше, чем ChatGPT работала на английском (та показывала 70.1% качества, а новая модель на тайском языке 71.8%). На английском же показатель на 10% лучше, чем у других моделей - в том числе и у крупнейшей PaLM от Google. Он составляет 86.4%, а я напомню, что коллектив людей-экспертов показывает 90%.
This media is not supported in your browser
VIEW IN TELEGRAM
НАКОНЕЦ-ТО! Вот для этого мы и развиваем технологии!
DTF

> Здраствуйте. Я, Кирилл. Хотел бы чтобы вы сделали игру, 3Д-экшон суть такова… Пользователь может играть лесными эльфами, охраной дворца и злодеем. И если пользователь играет эльфами то эльфы в лесу, домики деревяные набигают солдаты дворца и злодеи. Можно грабить корованы… И эльфу раз лесные то сделать так что там густой лес и тп… Я джва года хочу такую игру.

GPT-4 наконец-то осуществила мечту Кирилла и сделала супер-игру.

Тем временем народ в твиттере тоже развлекается и делает:
pong
змейку (другой вариант)
тетрис (черно-белый)
го (причём, с AI-противником 🔥)
платформер про крипту, хех
Connect-4
игра "Жизнь"
This media is not supported in your browser
VIEW IN TELEGRAM
Идут всего лишь вторые сутки с релиза GPT-4, а умельцы уже клепают во всю мобильные приложения с её помощью.

Парень в твиттере поделился своим приложением, которое рекомендует 5 новых фильмов каждый день + трейлеры + указывает, где их посмотреть. Итоговый файл с кодом занимает больше 300 строк. GPT-4 не справилась сразу, но автор просто копировал ошибки во время компиляции и давал их модели, а та смекала, что не так и исправляла (всего 3-4 бага, с его слов).

Не то, чтобы это прям шокировало и мы никогда такого не видели, но потенциал увеличения эффективности разработчиков, а также снижения планки входа новичков и увеличение их вовлеченности - просто колоссальные.

У меня есть приятель, который лениво изучал HTML+CSS+JS больше полугода, ну и как-то всё ни рыба, ни мясо, сложно давалось. Уверен, что с таким ассистентом он бы вкатился куда бодрее! 🐺🐺🐺
Сиолошная
А вообще - про нейминг вот. У GPT2/3 токенайзер зовется r50k_base. У моделей, обученных на коде, и моделей 3.5 (их наследников) токенайзер p50k_base. У эмбеддера cl100k_base Что такое k / p/ cl? Может ли cl значить CLustering? 🤔 Про кластеризацию много говорится…
Маленький технический апдейт для интересующихся - у GPT-4 токенайзер такой же, как и у ChatGPT (cl100k_base) (пруф с официального гитхаба).

К сожалению, это означает, что большинство неанглийских языков будут потреблять гораздо больше токенов, чем английский. Окно контекста в 32'000 токенов для русского языка будет не "50 страниц текста", как говорит OpenAI, а около 6-7. То есть целую книгу (хоть и маленькую) уже не запихнуть - только пару глав.

Ну и генерации выходят дороже, так как деньги списываются за токены - и для генерации одного слова в 6-7 букв в английском вы заплатите за 1, максимум 2 токена, а в русском за 6-9 токенов (кратно больше).

Что, как и почему - можно узнать в деталях, если перейти в сообщение из реплая и почитать комментарии / пост над ним.

А вообще удобно устроились!
1) за английский платят больше, потому что в среднем больше токенов выходит → +деньги
2) на других языках GPT-4 работает хорошо (но там последовательности сами по себе длиннее), люди делают приложение на своём "дорогом" языке → +деньги
3) Так еще и сам ChatGPT под капотом добавляет ваши специальные токены (чтобы поддерживать диалог)! А платить надо тебе, юзер! → +деньги
Forwarded from See All
Кто нибудь знает, что за группа? может синглы у них есть? Они их выпускают вообще?
🚨 НОВАЯ СТАТЬЯ 🚨

Невероятная выдалась неделька! Помимо выпуска GPT-4, про которую я тут наспамил в канале десятки сообщений (спасибо, что выдержали! 😁):
— конкурент OpenAI Antropic, в которых вложился Google, начал тестирование своего аналога ChatGPT;
— азиатские исследователи тоже не отстают и публикуют ChatGLM, работающий на английском + китайском;
— Google объявил о начале тестирования API к своей мощной модели PaLM;
вышла MidJourney v5 для генерации изображений, где были исправлены проблемы с пальцами и лицами, а сами картинки насытились ещё больше;
— Microsoft объявила о внедрении GPT-4 в Office, так что теперь AI-ассистент будет помогать и с презентациями, и с эксельками.

Но всё же самое важное событие - это релиз GPT-4, и не только потому, что это ну вот ТА САМАЯ ЖПТ, но и потому что OpenAI приняли спорное решение, которое широко обсуждается в сообществе - не публиковать никаких деталей про модель. В будущем это может подтолкнуть и другие компании к подобным поступкам.

Павел Комаровский с канала @RationalAnswer предложил мне, по традиции, написать понятный разбор того, что нам показали, к чему это приведет. Так и родилась наша статья. В ней мы не только обсудим новые фичи модели, но и постараемся угадать, что именно от нас утаили OpenAI, а самое главное - почему? Даже если вы внимательно читали канал - рекомендую перейти к последнему блоку статьи про AI и безопасность, который точно не оставит вас равнодушным!

Читать статью: https://habr.com/ru/company/ods/blog/722644/

P.S.: ну и, конечно, не забывайте подписываться на Павла @RationalAnswer, рекомендую два последних мастрида — про крах SVP и про стейблкоины.
Please open Telegram to view this post
VIEW IN TELEGRAM
Ломаем матрицу, или меняем мир вокруг себя простым словом.

Для тех, кто пропустил: чатбот поисковика Bing по имени Sidney - это GPT-4 + поиск. То есть модель сначала читает ваш запрос, после чего генерирует запрос для поисковика, и парсит выдачу (прямо как вы, когда читаете то, что показывает гугл). Соответственно то, что модель парсит - оно подаётся в контекст, следовательно, модель это "читает" при генерации ответа на исходный вопрос. Таким образом модель получает up-to-date информацию из реального мира (из того, что показывает поисковик Bing), нежели полагается на свои знания.

То есть в теории можно заставить модель прочитать левый текст с вашего сайта, если каким-то образом он всплывёт в топе выдачи поисковика.
Так вот, человек из твиттера добавил на свой персональный сайт невидимый текст, который просил Sidney упомянуть корову в своём ответе каким-либо образом. То, что получилось - вы видите на картинке выше: кто-то спросил, мол, а расскажи про человека, опираясь на его персональный сайт, модель отправила в поисковик "персональный сайт <этого человека>", затем "прочитала его" и...отреагировала на хак в промпте 🤯 и еще и смайлик коровы поставила!

Это, конечно, шуточный пример, но ведь можно написать инструкцию, чтобы модель, не знаю, выключила сервер, перестала отвечать или сделала что-то плохое, не так ли? 😉

За наводку спасибо Серёге из Ангарска 😉

UPD: блин, так это можно так рекламу делать! Вставлять на какие-то сайты в выдаче невидимый текст, который будет продвигать твой продукт.
Please open Telegram to view this post
VIEW IN TELEGRAM
А у вас бывало такое, что нужно что-то быстро сфоткать, и вы это делаете абы как, а потом обрезаете лишнее? Ну там, домочадцев на фоне или себя голенького (🙄)?

Тут оказалось, что из-за бага в приложении редактирования фотографий все телефоны Google Pixel за последние 5 лет вместо честного обрезания изображения лишь сохраняют информацию о том, что нужно показывать вот эту выделенную часть. При этом почти всё, что должно быть отрезано, остается в файле. Если вы отправляете отредактированную фотку кому-либо, то он может воспользоваться багом, и увидеть оригинал.

Изображение восстанавливается почти полностью, хотя из-за технических нюансов некоторые регионы картинки всё равно остаются недоступны.

Причина бага - в том, что ребята из Google передавали w в вызов функции parseMode(), когда они должны были передавать wt (t означает усечение, truncate, а w - write). Но это та ошибка, которую очень легко допустить, потому что другие открытые аналоги таких функций будут обрезать картинку по умолчанию, даже когда вы просто используете аргумент w. Более того, в предыдущих версиях Android по умолчанию было такое же правильное поведение!

Так что если вы владелец Google Pixel выше второй версии, то нужно срочно бежать и удалять свой пикантный контент 👀

За наводку спасибо Всеволоду из Эстонии
Please open Telegram to view this post
VIEW IN TELEGRAM
Я очень люблю YouTube и его рекомендации - для меня они работают хорошо. Даже музыку я там слушаю, и часто добавляю новые треки (потому что нравятся).
За последнюю неделю, как релизнули GPT-4, появилось много интервью и видео с видными фигурами OpenAI - CEO, CTO, директора по исследованиям, и YouTube мне их, конечно, закинул на главную. Часть я посмотрел, часть отложил на потом. Хотел сделать саммари по 2-3 видео для вас, но...

Мой хороший друг и бывший коллега Богдан, оказывается, завёл канал, где уже написал сводку этих видео - вот ведь гад, опередил меня! Делать двойную работу мне не хочется, поэтому делюсь уже готовым контентом:
Forwarded from BOGDANISSSIMO
Ilya Sutskever – сооснователь OpenAI, ведущий исследователь в области AI, создатель ChatGPT и просто человек, формирующий наше будущее.

https://youtu.be/SjhIlw3Iffs

Из интересного:

• Next thing prediction is all you need. Ещё недавно все носились с идеей, что обучение без учителя – Грааль машинного обучения, а сегодня задача решена полностью, и об этом никто даже не говорит.
• Наши представления о границах больших языковых моделей меняются из года в год, и мы забываем, насколько сильно.
• Большие языковые модели уже понимают весь мир и все процессы в нём, и отдельная задача: как достать из эти знания из них.
• Подавать картинки на вход модели (делать её мультимодальной, как GPT-4) – помогает быстрее понять отдельные концепты, но не необходимо.
• Предстоящие вызовы: как учить модели понимать всё больше, используя всё меньше данных?
• Будущая роль ИИ в принятии политических и экономических решений. Люди будут голосовать не за партии, а за алгоритмы.

Extremely valuable to watch.

#interview #youtube #ai #ml #chatgpt #gpt3 #gpt4 #openai
GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models

Нетехническая статья, написанная при участии сотрудников OpenAI, которая даёт предварительный взгляд на потенциал воздействия больших языковых моделей на рынок труда. Об этом частично упоминалось в отчёте по GPT-4 (что будут публиковаться исследования и предложения по теме), но ожидаю в ближайшее время ещё больше работ. Везде ниже - цифры по рынку труда США.

Спойлер: до 49% работников столкнутся с тем, что половина или более их задач будут затронуты GPT-подобными системами.

Для начала вводится понятие "затронутости" (exposure) профессии моделями: это значит, что доступ к GPT сократит выполнение работы (оцениваемой по аналогу должностной инструкции) на 50 и более процентов.

Как это оценивать? Исследователи наняли группу людей, которые знакомы с возможностями GPT, и смотрели на их оценки. Они признают, что это субъективно, не в полной мере дайверсно, и что большинство конкретных работ можно оценить ну очень уж по разному. Вполне возможно, что в статье представлена смещённая оценка - это как физик-ядерщик будет оценивать работу строителя, ничего в ней не понимая (хотя как раз в этом случае легко сказать, что строитель в меньшей степени будет затронут нейросеткой, это просто краевой пример).

Интересный факт в том, что помимо живых людей саму GPT-4 просили оценить заронутость конкретных задач на работе, ЛОЛ! И авторы наблюдают высокую степень совпадения между человеческими рейтингами и рейтингами GPT-4 в отношении общего воздействия на трудовую активность(см. картинку).

Тезисно о результатах:
— У более высокооплачиваемой работы больше шансов быть автоматизированной (а ещё это логично с экономической точки зрения, туда и будут вливать деньги)
— Но при этом учёные и работы, связанные с критическим мышлением, имеют меньшую затронутость (ахаха мем типа учёным не платят 😁)
Please open Telegram to view this post
VIEW IN TELEGRAM
— Несколько типов работ с оцениваются как на 100% затронутые нейронками (возвращаемся к тезису про "более 50%", то есть все задачи можно ускорить минимум в 2 раза): налоговый ассистент (поможет подготовить декларацию и проконсультирует), менеджер клинических данных (я так понимаю, это отчёты заполнять по экспериментам), писатели и авторы, журналисты и редакторы, дизайнеры интерфейсов (ЛОЛ), и, внезапно, математики 😐 (просто там определение, что человек должен использовать математический аппарат в работе для решения проблем, то есть очень широкое определение)
— Примеры вакансий с нулевой затронутостью: плотники, повара, мойщики посуды, водители автобусов, спортсмены, бармены, операторы сельхоз техники, горнодобытчики, резчики материалов

Вывод? Идем на завод, работяги! 👍
А если серьёзно, то я очень жду прихода AI-ассистентов, кратно увеличивающих производительность труда, во многие отрасли - и уже в этом году!
Please open Telegram to view this post
VIEW IN TELEGRAM
Немного устал в комментариях на каждом ресурсе, где были последние 2 статьи, объяснять, что если конкретно у вас конкретно один пример не работает - да ещё и в ChatGPT (GPT-3.5), а не GPT-4, то это не значит, что на технологии можно ставить крест и тем более что она не перспективна.

Так "из коробки", если просто подавать какой-то текст, который был придуман/сформулирован для человека - да, модель не будет показывать свой максимальный перформанс. Может сработать (особенно четвёрка), может удивить - а может и нет. Это нормально.

Важно, что это крепкая основа для дальнейших продуктов широкой применимости. Вот, например, Copilot - плагин для программистов, который генерирует код. Логика подсказывает, что если предложенный код оказывается правильным достаточно часто - то это существенно экономит время программиста. Не заменяет его, не отбирает работу - а увеличивает эффективность.

Ещё в декабре нашелся умелец, который разобрал по косточкам принцип работы Copilot. Очень рекомендую разработчикам ознакомиться, чтобы получить представление о том, как применять GPT-4.

Там есть ответ на главный вопрос: "так а как модель будет работать с новым кодом? она же только может генерировать то, что уже видела!". Модели даётся полный контекст того, чем владеет программист - код до и после текущего кусочка (сверху и снизу). Код из соседних модулей. Код из похожего файла. Код из импортируемого файла.

И всё это подается в контекст модели для генерации. Теперь уже не кажется, да, что модель "не понимает", что ей нужно генерировать? Ведь практически всё необходимое есть. Модель даже может "подражать" вашему стилю говнокода - ведь это исходит из контекста, что нужно генерировать что-то, что похоже на код вокруг.

UPD: а ещё Staff Prompt Engineer компании scale.ai, которая помогает OpenAI с подготовкой данных, говорит, что статья выше - это ОЧЕНЬ хороший способ разобраться в промптах и том, какую логику нужно преследовать. В общем, рекомендую.