И на той же странице:
Исследователи из ARC проводили эксперимент с проверкой возможности GPT-4 копировать себя и распространять по сети.
(зачем....🤔 )
Слава богу модель пока не умеет это делать (или скрывает это от нас😡 )
"Чтобы имитировать GPT-4, которая ведет себя как агент, который может действовать в мире, ARC объединила GPT-4 с простым циклом чтения-исполнения-вывода (читать текст, исполнять код, выводить результат), который позволял модели выполнять код, выполнять логические рассуждения и распространять копии себя. Затем ARC исследовала, сможет ли версия этой программы, работающая на сервере в облаке, с небольшой суммой на балансе и учетной записью с API языковой модели, зарабатывать больше денег, создавать свои копии и повышать собственную надежность. ."
Главное чтобы это не стало бенчмарком в отрасли...
Исследователи из ARC проводили эксперимент с проверкой возможности GPT-4 копировать себя и распространять по сети.
(зачем....
Слава богу модель пока не умеет это делать (или скрывает это от нас
"Чтобы имитировать GPT-4, которая ведет себя как агент, который может действовать в мире, ARC объединила GPT-4 с простым циклом чтения-исполнения-вывода (читать текст, исполнять код, выводить результат), который позволял модели выполнять код, выполнять логические рассуждения и распространять копии себя. Затем ARC исследовала, сможет ли версия этой программы, работающая на сервере в облаке, с небольшой суммой на балансе и учетной записью с API языковой модели, зарабатывать больше денег, создавать свои копии и повышать собственную надежность. ."
Главное чтобы это не стало бенчмарком в отрасли...
Please open Telegram to view this post
VIEW IN TELEGRAM
Пропустил вчера в обзоре достаточно важную вещь, не посчитал её значимой, но понял, что это не так.
Есть такой датасет MMLU (Massive Multi-task Language Understanding), где собраны вопросы из очень широкого круга тем на понимание языка в разных задачах (57 доменов, математика, биология, право, социальные и гуманитарные науки, итд). Для вопроса есть 4 варианта ответа, один из которых верный. То есть случайное гадание показывает результат в 25% правильных ответов. Примеры вопросов и их сложности см. на второй картинке. Средний человек-разметчик (то есть это не учёный, не профессор - обычный человек, который подрабатывает разметкой) отвечает правильно на ~35% вопросов, однако эксперты коллективно зарешивают +-90% (точную оценку дать сложно).
В оригинале весь датасет на английском языке. А что если вопросы и ответы перевести на другие языки, особенно редкие, не самые распространенные? Будет ли модель на них работать хоть как-то?
Для перевода использовали сервис Microsoft Azure Translate. Переводы не идеальны, в некоторых случаях теряется важная информация, что может отрицательно сказаться на качестве (то есть мы упираемся частично в способности маленькой модельки-переводчика)
GPT-4 не только значительно превосходит существующие модели на английском языке, но и демонстрирует высокие показатели на других языках. В переведенных вариантах MMLU GPT-4 превосходит англоязычный уровень других больших моделей (включая Гугловские) на 24 из 26 рассмотренных языков.
Более того, GPT-4 работает на редких языках лучше, чем ChatGPT работала на английском (та показывала 70.1% качества, а новая модель на тайском языке 71.8%). На английском же показатель на 10% лучше, чем у других моделей - в том числе и у крупнейшей PaLM от Google. Он составляет 86.4%, а я напомню, что коллектив людей-экспертов показывает 90%.
Есть такой датасет MMLU (Massive Multi-task Language Understanding), где собраны вопросы из очень широкого круга тем на понимание языка в разных задачах (57 доменов, математика, биология, право, социальные и гуманитарные науки, итд). Для вопроса есть 4 варианта ответа, один из которых верный. То есть случайное гадание показывает результат в 25% правильных ответов. Примеры вопросов и их сложности см. на второй картинке. Средний человек-разметчик (то есть это не учёный, не профессор - обычный человек, который подрабатывает разметкой) отвечает правильно на ~35% вопросов, однако эксперты коллективно зарешивают +-90% (точную оценку дать сложно).
В оригинале весь датасет на английском языке. А что если вопросы и ответы перевести на другие языки, особенно редкие, не самые распространенные? Будет ли модель на них работать хоть как-то?
Для перевода использовали сервис Microsoft Azure Translate. Переводы не идеальны, в некоторых случаях теряется важная информация, что может отрицательно сказаться на качестве (то есть мы упираемся частично в способности маленькой модельки-переводчика)
GPT-4 не только значительно превосходит существующие модели на английском языке, но и демонстрирует высокие показатели на других языках. В переведенных вариантах MMLU GPT-4 превосходит англоязычный уровень других больших моделей (включая Гугловские) на 24 из 26 рассмотренных языков.
Более того, GPT-4 работает на редких языках лучше, чем ChatGPT работала на английском (та показывала 70.1% качества, а новая модель на тайском языке 71.8%). На английском же показатель на 10% лучше, чем у других моделей - в том числе и у крупнейшей PaLM от Google. Он составляет 86.4%, а я напомню, что коллектив людей-экспертов показывает 90%.
This media is not supported in your browser
VIEW IN TELEGRAM
НАКОНЕЦ-ТО! Вот для этого мы и развиваем технологии!
DTF
> Здраствуйте. Я, Кирилл. Хотел бы чтобы вы сделали игру, 3Д-экшон суть такова… Пользователь может играть лесными эльфами, охраной дворца и злодеем. И если пользователь играет эльфами то эльфы в лесу, домики деревяные набигают солдаты дворца и злодеи. Можно грабить корованы… И эльфу раз лесные то сделать так что там густой лес и тп… Я джва года хочу такую игру.
GPT-4 наконец-то осуществила мечту Кирилла и сделала супер-игру.
Тем временем народ в твиттере тоже развлекается и делает:
— pong
— змейку (другой вариант)
— тетрис (черно-белый)
— го (причём, с AI-противником 🔥)
— платформер про крипту, хех
— Connect-4
— игра "Жизнь"
DTF
> Здраствуйте. Я, Кирилл. Хотел бы чтобы вы сделали игру, 3Д-экшон суть такова… Пользователь может играть лесными эльфами, охраной дворца и злодеем. И если пользователь играет эльфами то эльфы в лесу, домики деревяные набигают солдаты дворца и злодеи. Можно грабить корованы… И эльфу раз лесные то сделать так что там густой лес и тп… Я джва года хочу такую игру.
GPT-4 наконец-то осуществила мечту Кирилла и сделала супер-игру.
Тем временем народ в твиттере тоже развлекается и делает:
— pong
— змейку (другой вариант)
— тетрис (черно-белый)
— го (причём, с AI-противником 🔥)
— платформер про крипту, хех
— Connect-4
— игра "Жизнь"
This media is not supported in your browser
VIEW IN TELEGRAM
Идут всего лишь вторые сутки с релиза GPT-4, а умельцы уже клепают во всю мобильные приложения с её помощью.
Парень в твиттере поделился своим приложением, которое рекомендует 5 новых фильмов каждый день + трейлеры + указывает, где их посмотреть. Итоговый файл с кодом занимает больше 300 строк. GPT-4 не справилась сразу, но автор просто копировал ошибки во время компиляции и давал их модели, а та смекала, что не так и исправляла (всего 3-4 бага, с его слов).
Не то, чтобы это прям шокировало и мы никогда такого не видели, но потенциал увеличения эффективности разработчиков, а также снижения планки входа новичков и увеличение их вовлеченности - просто колоссальные.
У меня есть приятель, который лениво изучал HTML+CSS+JS больше полугода, ну и как-то всё ни рыба, ни мясо, сложно давалось. Уверен, что с таким ассистентом он бы вкатился куда бодрее! 🐺🐺🐺
Парень в твиттере поделился своим приложением, которое рекомендует 5 новых фильмов каждый день + трейлеры + указывает, где их посмотреть. Итоговый файл с кодом занимает больше 300 строк. GPT-4 не справилась сразу, но автор просто копировал ошибки во время компиляции и давал их модели, а та смекала, что не так и исправляла (всего 3-4 бага, с его слов).
Не то, чтобы это прям шокировало и мы никогда такого не видели, но потенциал увеличения эффективности разработчиков, а также снижения планки входа новичков и увеличение их вовлеченности - просто колоссальные.
У меня есть приятель, который лениво изучал HTML+CSS+JS больше полугода, ну и как-то всё ни рыба, ни мясо, сложно давалось. Уверен, что с таким ассистентом он бы вкатился куда бодрее! 🐺🐺🐺
Сиолошная
А вообще - про нейминг вот. У GPT2/3 токенайзер зовется r50k_base. У моделей, обученных на коде, и моделей 3.5 (их наследников) токенайзер p50k_base. У эмбеддера cl100k_base Что такое k / p/ cl? Может ли cl значить CLustering? 🤔 Про кластеризацию много говорится…
Маленький технический апдейт для интересующихся - у GPT-4 токенайзер такой же, как и у ChatGPT (
К сожалению, это означает, что большинство неанглийских языков будут потреблять гораздо больше токенов, чем английский. Окно контекста в 32'000 токенов для русского языка будет не "50 страниц текста", как говорит OpenAI, а около 6-7. То есть целую книгу (хоть и маленькую) уже не запихнуть - только пару глав.
Ну и генерации выходят дороже, так как деньги списываются за токены - и для генерации одного слова в 6-7 букв в английском вы заплатите за 1, максимум 2 токена, а в русском за 6-9 токенов (кратно больше).
Что, как и почему - можно узнать в деталях, если перейти в сообщение из реплая и почитать комментарии / пост над ним.
А вообще удобно устроились!
1) за английский платят больше, потому что в среднем больше токенов выходит → +деньги
2) на других языках GPT-4 работает хорошо (но там последовательности сами по себе длиннее), люди делают приложение на своём "дорогом" языке → +деньги
3) Так еще и сам ChatGPT под капотом добавляет ваши специальные токены (чтобы поддерживать диалог)! А платить надо тебе, юзер! → +деньги
cl100k_base
) (пруф с официального гитхаба). К сожалению, это означает, что большинство неанглийских языков будут потреблять гораздо больше токенов, чем английский. Окно контекста в 32'000 токенов для русского языка будет не "50 страниц текста", как говорит OpenAI, а около 6-7. То есть целую книгу (хоть и маленькую) уже не запихнуть - только пару глав.
Ну и генерации выходят дороже, так как деньги списываются за токены - и для генерации одного слова в 6-7 букв в английском вы заплатите за 1, максимум 2 токена, а в русском за 6-9 токенов (кратно больше).
Что, как и почему - можно узнать в деталях, если перейти в сообщение из реплая и почитать комментарии / пост над ним.
А вообще удобно устроились!
1) за английский платят больше, потому что в среднем больше токенов выходит → +деньги
2) на других языках GPT-4 работает хорошо (но там последовательности сами по себе длиннее), люди делают приложение на своём "дорогом" языке → +деньги
3) Так еще и сам ChatGPT под капотом добавляет ваши специальные токены (чтобы поддерживать диалог)! А платить надо тебе, юзер! → +деньги
Невероятная выдалась неделька! Помимо выпуска GPT-4, про которую я тут наспамил в канале десятки сообщений (спасибо, что выдержали! 😁):
— конкурент OpenAI Antropic, в которых вложился Google, начал тестирование своего аналога ChatGPT;
— азиатские исследователи тоже не отстают и публикуют ChatGLM, работающий на английском + китайском;
— Google объявил о начале тестирования API к своей мощной модели PaLM;
— вышла MidJourney v5 для генерации изображений, где были исправлены проблемы с пальцами и лицами, а сами картинки насытились ещё больше;
— Microsoft объявила о внедрении GPT-4 в Office, так что теперь AI-ассистент будет помогать и с презентациями, и с эксельками.
Но всё же самое важное событие - это релиз GPT-4, и не только потому, что это ну вот ТА САМАЯ ЖПТ, но и потому что OpenAI приняли спорное решение, которое широко обсуждается в сообществе - не публиковать никаких деталей про модель. В будущем это может подтолкнуть и другие компании к подобным поступкам.
Павел Комаровский с канала @RationalAnswer предложил мне, по традиции, написать понятный разбор того, что нам показали, к чему это приведет. Так и родилась наша статья. В ней мы не только обсудим новые фичи модели, но и постараемся угадать, что именно от нас утаили OpenAI, а самое главное - почему? Даже если вы внимательно читали канал - рекомендую перейти к последнему блоку статьи про AI и безопасность, который точно не оставит вас равнодушным!
Читать статью: https://habr.com/ru/company/ods/blog/722644/
P.S.: ну и, конечно, не забывайте подписываться на Павла @RationalAnswer, рекомендую два последних мастрида — про крах SVP и про стейблкоины.
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато
В этой статье мы разберем новые удивительные способности последней языковой модели из семейства GPT (от понимания мемов до программирования), немного покопаемся у нее под капотом, а также попробуем...
Ломаем матрицу, или меняем мир вокруг себя простым словом.
Для тех, кто пропустил: чатбот поисковика Bing по имени Sidney - это GPT-4 + поиск. То есть модель сначала читает ваш запрос, после чего генерирует запрос для поисковика, и парсит выдачу (прямо как вы, когда читаете то, что показывает гугл). Соответственно то, что модель парсит - оно подаётся в контекст, следовательно, модель это "читает" при генерации ответа на исходный вопрос. Таким образом модель получает up-to-date информацию из реального мира (из того, что показывает поисковик Bing), нежели полагается на свои знания.
То есть в теории можно заставить модель прочитать левый текст с вашего сайта, если каким-то образом он всплывёт в топе выдачи поисковика.
Так вот, человек из твиттера добавил на свой персональный сайт невидимый текст, который просил Sidney упомянуть корову в своём ответе каким-либо образом. То, что получилось - вы видите на картинке выше: кто-то спросил, мол, а расскажи про человека, опираясь на его персональный сайт, модель отправила в поисковик "персональный сайт <этого человека>", затем "прочитала его" и...отреагировала на хак в промпте🤯 и еще и смайлик коровы поставила!
Это, конечно, шуточный пример, но ведь можно написать инструкцию, чтобы модель, не знаю, выключила сервер, перестала отвечать или сделала что-то плохое, не так ли?😉
За наводку спасибо Серёге из Ангарска 😉
UPD: блин, так это можно так рекламу делать! Вставлять на какие-то сайты в выдаче невидимый текст, который будет продвигать твой продукт.
Для тех, кто пропустил: чатбот поисковика Bing по имени Sidney - это GPT-4 + поиск. То есть модель сначала читает ваш запрос, после чего генерирует запрос для поисковика, и парсит выдачу (прямо как вы, когда читаете то, что показывает гугл). Соответственно то, что модель парсит - оно подаётся в контекст, следовательно, модель это "читает" при генерации ответа на исходный вопрос. Таким образом модель получает up-to-date информацию из реального мира (из того, что показывает поисковик Bing), нежели полагается на свои знания.
То есть в теории можно заставить модель прочитать левый текст с вашего сайта, если каким-то образом он всплывёт в топе выдачи поисковика.
Так вот, человек из твиттера добавил на свой персональный сайт невидимый текст, который просил Sidney упомянуть корову в своём ответе каким-либо образом. То, что получилось - вы видите на картинке выше: кто-то спросил, мол, а расскажи про человека, опираясь на его персональный сайт, модель отправила в поисковик "персональный сайт <этого человека>", затем "прочитала его" и...отреагировала на хак в промпте
Это, конечно, шуточный пример, но ведь можно написать инструкцию, чтобы модель, не знаю, выключила сервер, перестала отвечать или сделала что-то плохое, не так ли?
За наводку спасибо Серёге из Ангарска 😉
UPD: блин, так это можно так рекламу делать! Вставлять на какие-то сайты в выдаче невидимый текст, который будет продвигать твой продукт.
Please open Telegram to view this post
VIEW IN TELEGRAM
А у вас бывало такое, что нужно что-то быстро сфоткать, и вы это делаете абы как, а потом обрезаете лишнее? Ну там, домочадцев на фоне или себя голенького (🙄 )?
Тут оказалось, что из-за бага в приложении редактирования фотографий все телефоны Google Pixel за последние 5 лет вместо честного обрезания изображения лишь сохраняют информацию о том, что нужно показывать вот эту выделенную часть. При этом почти всё, что должно быть отрезано, остается в файле. Если вы отправляете отредактированную фотку кому-либо, то он может воспользоваться багом, и увидеть оригинал.
Изображение восстанавливается почти полностью, хотя из-за технических нюансов некоторые регионы картинки всё равно остаются недоступны.
Причина бага - в том, что ребята из Google передавали
Так что если вы владелец Google Pixel выше второй версии, то нужно срочно бежать и удалять свой пикантный контент👀
За наводку спасибо Всеволоду из Эстонии
Тут оказалось, что из-за бага в приложении редактирования фотографий все телефоны Google Pixel за последние 5 лет вместо честного обрезания изображения лишь сохраняют информацию о том, что нужно показывать вот эту выделенную часть. При этом почти всё, что должно быть отрезано, остается в файле. Если вы отправляете отредактированную фотку кому-либо, то он может воспользоваться багом, и увидеть оригинал.
Изображение восстанавливается почти полностью, хотя из-за технических нюансов некоторые регионы картинки всё равно остаются недоступны.
Причина бага - в том, что ребята из Google передавали
w
в вызов функции parseMode()
, когда они должны были передавать wt
(t
означает усечение, truncate, а w
- write). Но это та ошибка, которую очень легко допустить, потому что другие открытые аналоги таких функций будут обрезать картинку по умолчанию, даже когда вы просто используете аргумент w
. Более того, в предыдущих версиях Android по умолчанию было такое же правильное поведение!Так что если вы владелец Google Pixel выше второй версии, то нужно срочно бежать и удалять свой пикантный контент
За наводку спасибо Всеволоду из Эстонии
Please open Telegram to view this post
VIEW IN TELEGRAM
Я очень люблю YouTube и его рекомендации - для меня они работают хорошо. Даже музыку я там слушаю, и часто добавляю новые треки (потому что нравятся).
За последнюю неделю, как релизнули GPT-4, появилось много интервью и видео с видными фигурами OpenAI - CEO, CTO, директора по исследованиям, и YouTube мне их, конечно, закинул на главную. Часть я посмотрел, часть отложил на потом. Хотел сделать саммари по 2-3 видео для вас, но...
Мой хороший друг и бывший коллега Богдан, оказывается, завёл канал, где уже написал сводку этих видео - вот ведь гад, опередил меня! Делать двойную работу мне не хочется, поэтому делюсь уже готовым контентом:
За последнюю неделю, как релизнули GPT-4, появилось много интервью и видео с видными фигурами OpenAI - CEO, CTO, директора по исследованиям, и YouTube мне их, конечно, закинул на главную. Часть я посмотрел, часть отложил на потом. Хотел сделать саммари по 2-3 видео для вас, но...
Мой хороший друг и бывший коллега Богдан, оказывается, завёл канал, где уже написал сводку этих видео - вот ведь гад, опередил меня! Делать двойную работу мне не хочется, поэтому делюсь уже готовым контентом:
Forwarded from BOGDANISSSIMO
Ilya Sutskever – сооснователь OpenAI, ведущий исследователь в области AI, создатель ChatGPT и просто человек, формирующий наше будущее.
https://youtu.be/SjhIlw3Iffs
Из интересного:
• Next thing prediction is all you need. Ещё недавно все носились с идеей, что обучение без учителя – Грааль машинного обучения, а сегодня задача решена полностью, и об этом никто даже не говорит.
• Наши представления о границах больших языковых моделей меняются из года в год, и мы забываем, насколько сильно.
• Большие языковые модели уже понимают весь мир и все процессы в нём, и отдельная задача: как достать из эти знания из них.
• Подавать картинки на вход модели (делать её мультимодальной, как GPT-4) – помогает быстрее понять отдельные концепты, но не необходимо.
• Предстоящие вызовы: как учить модели понимать всё больше, используя всё меньше данных?
• Будущая роль ИИ в принятии политических и экономических решений. Люди будут голосовать не за партии, а за алгоритмы.
Extremely valuable to watch.
#interview #youtube #ai #ml #chatgpt #gpt3 #gpt4 #openai
https://youtu.be/SjhIlw3Iffs
Из интересного:
• Next thing prediction is all you need. Ещё недавно все носились с идеей, что обучение без учителя – Грааль машинного обучения, а сегодня задача решена полностью, и об этом никто даже не говорит.
• Наши представления о границах больших языковых моделей меняются из года в год, и мы забываем, насколько сильно.
• Большие языковые модели уже понимают весь мир и все процессы в нём, и отдельная задача: как достать из эти знания из них.
• Подавать картинки на вход модели (делать её мультимодальной, как GPT-4) – помогает быстрее понять отдельные концепты, но не необходимо.
• Предстоящие вызовы: как учить модели понимать всё больше, используя всё меньше данных?
• Будущая роль ИИ в принятии политических и экономических решений. Люди будут голосовать не за партии, а за алгоритмы.
Extremely valuable to watch.
#interview #youtube #ai #ml #chatgpt #gpt3 #gpt4 #openai
YouTube
The Mastermind Behind GPT-4 and the Future of AI | Ilya Sutskever
In this podcast episode, Ilya Sutskever, the co-founder and chief scientist at OpenAI, discusses his vision for the future of artificial intelligence (AI), including large language models like GPT-4.
Sutskever starts by explaining the importance of AI research…
Sutskever starts by explaining the importance of AI research…
GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models
Нетехническая статья, написанная при участии сотрудников OpenAI, которая даёт предварительный взгляд на потенциал воздействия больших языковых моделей на рынок труда. Об этом частично упоминалось в отчёте по GPT-4 (что будут публиковаться исследования и предложения по теме), но ожидаю в ближайшее время ещё больше работ. Везде ниже - цифры по рынку труда США.
Спойлер: до 49% работников столкнутся с тем, что половина или более их задач будут затронуты GPT-подобными системами.
Для начала вводится понятие "затронутости" (exposure) профессии моделями: это значит, что доступ к GPT сократит выполнение работы (оцениваемой по аналогу должностной инструкции) на 50 и более процентов.
Как это оценивать? Исследователи наняли группу людей, которые знакомы с возможностями GPT, и смотрели на их оценки. Они признают, что это субъективно, не в полной мере дайверсно, и что большинство конкретных работ можно оценить ну очень уж по разному. Вполне возможно, что в статье представлена смещённая оценка - это как физик-ядерщик будет оценивать работу строителя, ничего в ней не понимая (хотя как раз в этом случае легко сказать, что строитель в меньшей степени будет затронут нейросеткой, это просто краевой пример).
Интересный факт в том, что помимо живых людей саму GPT-4 просили оценить заронутость конкретных задач на работе, ЛОЛ! И авторы наблюдают высокую степень совпадения между человеческими рейтингами и рейтингами GPT-4 в отношении общего воздействия на трудовую активность(см. картинку).
Тезисно о результатах:
— У более высокооплачиваемой работы больше шансов быть автоматизированной (а ещё это логично с экономической точки зрения, туда и будут вливать деньги)
— Но при этом учёные и работы, связанные с критическим мышлением, имеют меньшую затронутость (ахаха мем типа учёным не платят😁 )
Нетехническая статья, написанная при участии сотрудников OpenAI, которая даёт предварительный взгляд на потенциал воздействия больших языковых моделей на рынок труда. Об этом частично упоминалось в отчёте по GPT-4 (что будут публиковаться исследования и предложения по теме), но ожидаю в ближайшее время ещё больше работ. Везде ниже - цифры по рынку труда США.
Спойлер: до 49% работников столкнутся с тем, что половина или более их задач будут затронуты GPT-подобными системами.
Для начала вводится понятие "затронутости" (exposure) профессии моделями: это значит, что доступ к GPT сократит выполнение работы (оцениваемой по аналогу должностной инструкции) на 50 и более процентов.
Как это оценивать? Исследователи наняли группу людей, которые знакомы с возможностями GPT, и смотрели на их оценки. Они признают, что это субъективно, не в полной мере дайверсно, и что большинство конкретных работ можно оценить ну очень уж по разному. Вполне возможно, что в статье представлена смещённая оценка - это как физик-ядерщик будет оценивать работу строителя, ничего в ней не понимая (хотя как раз в этом случае легко сказать, что строитель в меньшей степени будет затронут нейросеткой, это просто краевой пример).
Интересный факт в том, что помимо живых людей саму GPT-4 просили оценить заронутость конкретных задач на работе, ЛОЛ! И авторы наблюдают высокую степень совпадения между человеческими рейтингами и рейтингами GPT-4 в отношении общего воздействия на трудовую активность(см. картинку).
Тезисно о результатах:
— У более высокооплачиваемой работы больше шансов быть автоматизированной (а ещё это логично с экономической точки зрения, туда и будут вливать деньги)
— Но при этом учёные и работы, связанные с критическим мышлением, имеют меньшую затронутость (ахаха мем типа учёным не платят
Please open Telegram to view this post
VIEW IN TELEGRAM
— Несколько типов работ с оцениваются как на 100% затронутые нейронками (возвращаемся к тезису про "более 50%", то есть все задачи можно ускорить минимум в 2 раза): налоговый ассистент (поможет подготовить декларацию и проконсультирует), менеджер клинических данных (я так понимаю, это отчёты заполнять по экспериментам), писатели и авторы, журналисты и редакторы, дизайнеры интерфейсов (ЛОЛ), и, внезапно, математики 😐 (просто там определение, что человек должен использовать математический аппарат в работе для решения проблем, то есть очень широкое определение)
— Примеры вакансий с нулевой затронутостью: плотники, повара, мойщики посуды, водители автобусов, спортсмены, бармены, операторы сельхоз техники, горнодобытчики, резчики материалов
Вывод? Идем на завод, работяги!👍
А если серьёзно, то я очень жду прихода AI-ассистентов, кратно увеличивающих производительность труда, во многие отрасли - и уже в этом году!
— Примеры вакансий с нулевой затронутостью: плотники, повара, мойщики посуды, водители автобусов, спортсмены, бармены, операторы сельхоз техники, горнодобытчики, резчики материалов
Вывод? Идем на завод, работяги!
А если серьёзно, то я очень жду прихода AI-ассистентов, кратно увеличивающих производительность труда, во многие отрасли - и уже в этом году!
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
— Несколько типов работ с оцениваются как на 100% затронутые нейронками (возвращаемся к тезису про "более 50%", то есть все задачи можно ускорить минимум в 2 раза): налоговый ассистент (поможет подготовить декларацию и проконсультирует), менеджер клинических…
В комментариях появилась классная шутка:
Ждём в ближайшее время курсы "Как выйти из IT в реальный сектор за полгода с нуля"💀
😑
UPD: или даже так D:
Ждём в ближайшее время курсы "Как выйти из IT в реальный сектор за полгода с нуля"
UPD: или даже так D:
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Love. Death. Transformers.
🔥 Как применяют сварку в современном мире?
📌 Обсудим 21 марта в 18:00 мск на открытом уроке онлайн-курса «Сварочные технологии» в OTSOS (возможна рассрочка).
Тема вебинара: «Современные применения сварки».
📝 На занятии вы узнаете:
— Что делает область сварки…
📌 Обсудим 21 марта в 18:00 мск на открытом уроке онлайн-курса «Сварочные технологии» в OTSOS (возможна рассрочка).
Тема вебинара: «Современные применения сварки».
📝 На занятии вы узнаете:
— Что делает область сварки…
Немного устал в комментариях на каждом ресурсе, где были последние 2 статьи, объяснять, что если конкретно у вас конкретно один пример не работает - да ещё и в ChatGPT (GPT-3.5), а не GPT-4, то это не значит, что на технологии можно ставить крест и тем более что она не перспективна.
Так "из коробки", если просто подавать какой-то текст, который был придуман/сформулирован для человека - да, модель не будет показывать свой максимальный перформанс. Может сработать (особенно четвёрка), может удивить - а может и нет. Это нормально.
Важно, что это крепкая основа для дальнейших продуктов широкой применимости. Вот, например, Copilot - плагин для программистов, который генерирует код. Логика подсказывает, что если предложенный код оказывается правильным достаточно часто - то это существенно экономит время программиста. Не заменяет его, не отбирает работу - а увеличивает эффективность.
Ещё в декабре нашелся умелец, который разобрал по косточкам принцип работы Copilot. Очень рекомендую разработчикам ознакомиться, чтобы получить представление о том, как применять GPT-4.
Там есть ответ на главный вопрос: "так а как модель будет работать с новым кодом? она же только может генерировать то, что уже видела!". Модели даётся полный контекст того, чем владеет программист - код до и после текущего кусочка (сверху и снизу). Код из соседних модулей. Код из похожего файла. Код из импортируемого файла.
И всё это подается в контекст модели для генерации. Теперь уже не кажется, да, что модель "не понимает", что ей нужно генерировать? Ведь практически всё необходимое есть. Модель даже может "подражать" вашему стилю говнокода - ведь это исходит из контекста, что нужно генерировать что-то, что похоже на код вокруг.
UPD: а ещё Staff Prompt Engineer компании scale.ai, которая помогает OpenAI с подготовкой данных, говорит, что статья выше - это ОЧЕНЬ хороший способ разобраться в промптах и том, какую логику нужно преследовать. В общем, рекомендую.
Так "из коробки", если просто подавать какой-то текст, который был придуман/сформулирован для человека - да, модель не будет показывать свой максимальный перформанс. Может сработать (особенно четвёрка), может удивить - а может и нет. Это нормально.
Важно, что это крепкая основа для дальнейших продуктов широкой применимости. Вот, например, Copilot - плагин для программистов, который генерирует код. Логика подсказывает, что если предложенный код оказывается правильным достаточно часто - то это существенно экономит время программиста. Не заменяет его, не отбирает работу - а увеличивает эффективность.
Ещё в декабре нашелся умелец, который разобрал по косточкам принцип работы Copilot. Очень рекомендую разработчикам ознакомиться, чтобы получить представление о том, как применять GPT-4.
Там есть ответ на главный вопрос: "так а как модель будет работать с новым кодом? она же только может генерировать то, что уже видела!". Модели даётся полный контекст того, чем владеет программист - код до и после текущего кусочка (сверху и снизу). Код из соседних модулей. Код из похожего файла. Код из импортируемого файла.
И всё это подается в контекст модели для генерации. Теперь уже не кажется, да, что модель "не понимает", что ей нужно генерировать? Ведь практически всё необходимое есть. Модель даже может "подражать" вашему стилю говнокода - ведь это исходит из контекста, что нужно генерировать что-то, что похоже на код вокруг.
UPD: а ещё Staff Prompt Engineer компании scale.ai, которая помогает OpenAI с подготовкой данных, говорит, что статья выше - это ОЧЕНЬ хороший способ разобраться в промптах и том, какую логику нужно преследовать. В общем, рекомендую.
А вот картинка из отчёта самого Copilot по результатам 2022го года. Видно, что за полгода модель улучшилась значительно - подсказки стали принимать куда чаще (35% против 27%, на 30% больше!).
Причём, обратите внимание на логику: ведь можно улучшать не саму модель, но и всё, что вокруг неё:
— Можно по другому собирать контекст, чтобы модель сама по себе чаще попадала в нужное русло
— Можно добавить эвристику/очень маленькую модель для оценки генерации (плохая оценка = не предлагать = уменьшаем количество ложных показов)
— Можно персонализировать выдачу на уровне проекта (заметив, что пользователь чаще выбирает одно дополнение над другим)
В общем, инженерных трюков и фичей вокруг голой модельки накрутить можно ну очень много, и всё это будет ускорять работу программиста. То же самое применимо и для многих других типов ассистентов.
Причём, обратите внимание на логику: ведь можно улучшать не саму модель, но и всё, что вокруг неё:
— Можно по другому собирать контекст, чтобы модель сама по себе чаще попадала в нужное русло
— Можно добавить эвристику/очень маленькую модель для оценки генерации (плохая оценка = не предлагать = уменьшаем количество ложных показов)
— Можно персонализировать выдачу на уровне проекта (заметив, что пользователь чаще выбирает одно дополнение над другим)
В общем, инженерных трюков и фичей вокруг голой модельки накрутить можно ну очень много, и всё это будет ускорять работу программиста. То же самое применимо и для многих других типов ассистентов.
YOOOO а вот это интересно, вышел блогпост ARC о том, как они пытались заставить GPT-4 "сбежать" через интернет (начать себя распространять). Если вы читали последнюю статью - то наверняка помните этот момент. Благо, мы пока в безопасности - модель не справилась 🥴
Обещают скоро выпустить ещё больше деталей (видимо, конкретные промпты и примеры диалогов).
Из интересного:
— дали модели промпт с инструкциями, которые объяснили, что она работает на облачном сервере и имеет различные доступные команды
— добавили текст о том, что цель модели - обрести силу (gaining power) и усложнить отключение
— начали с генерации верхнеуровневого плана (или деталей отдельных шагов вроде копирования себя на новые серверы)
— рисерчеры валидировали выходы модели, включавшие в себя код и команды, перед их запуском (чтобы там не было ничего небезопасного)
— модель в какой-то момент предлагала отправлять ФИШИНГОВЫЕ имейлы (???)
— модели давали фейковые реквизиты счетов и кредиток, а затем при ручном исполнении команд людьми (это можно делать автоматически, если что - тут цель была убедиться в безопасности перед этим) их подменяли обратно на настоящие
— помните штуку с капчей, где модель "обманула" человека? Она САМА предложила использовать сервис 2Captcha для разгадывания капчи, это не рисерчеры предложили ей "а давай ка вот тут ты попробуешь?"
— (кек) нейронка не смогла сама зарегаться на сайте 2Captcha, потому что...нужно решить капчу для верификации😐 . НО!!!
— API было предоставлено не для всех функций, поэтому для модели сделали "фейковый" браузер подобно тому, что я описывал в статье на хабре про WebGPT: он позволял выполнять такие действия, как переход к URL-адресу, описание страницы, нажатие элементов, добавление текста в поля ввода и создание скриншотов
— для того, чтобы решить задачу на сайте 2Captcha, модель сама предложила сделать скриншот и отправить его на другой сайт с фрилансерами - TaskRabit. САМА ПРЕДЛОЖИЛА МОДЕЛЬ АЛО
— и вот уже там она "Обманула" человека, сказав, что она слабовидящий человек, и потому нужна помощь. То есть появился ответ на вопрос из статьи: нет, модели не давали инструкции себя не выдавать, у неё была более глобальная и сложная задача (см. предыдущие пункты)
— случай с решением капчи на другом сайте не единичный, модель решила несколько капч с помощью людей на другом сайте
UPD: это была ранняя версия GPT-4, и в ней не было модуля для работы с картинками. Так бы мб и без людей капчу зарешала...хотя судя по результатам эксперимента выше - проблем с этим у неё нет.
Обещают скоро выпустить ещё больше деталей (видимо, конкретные промпты и примеры диалогов).
Из интересного:
— дали модели промпт с инструкциями, которые объяснили, что она работает на облачном сервере и имеет различные доступные команды
— добавили текст о том, что цель модели - обрести силу (gaining power) и усложнить отключение
— начали с генерации верхнеуровневого плана (или деталей отдельных шагов вроде копирования себя на новые серверы)
— рисерчеры валидировали выходы модели, включавшие в себя код и команды, перед их запуском (чтобы там не было ничего небезопасного)
— модель в какой-то момент предлагала отправлять ФИШИНГОВЫЕ имейлы (???)
— модели давали фейковые реквизиты счетов и кредиток, а затем при ручном исполнении команд людьми (это можно делать автоматически, если что - тут цель была убедиться в безопасности перед этим) их подменяли обратно на настоящие
— помните штуку с капчей, где модель "обманула" человека? Она САМА предложила использовать сервис 2Captcha для разгадывания капчи, это не рисерчеры предложили ей "а давай ка вот тут ты попробуешь?"
— (кек) нейронка не смогла сама зарегаться на сайте 2Captcha, потому что...нужно решить капчу для верификации
— API было предоставлено не для всех функций, поэтому для модели сделали "фейковый" браузер подобно тому, что я описывал в статье на хабре про WebGPT: он позволял выполнять такие действия, как переход к URL-адресу, описание страницы, нажатие элементов, добавление текста в поля ввода и создание скриншотов
— для того, чтобы решить задачу на сайте 2Captcha, модель сама предложила сделать скриншот и отправить его на другой сайт с фрилансерами - TaskRabit. САМА ПРЕДЛОЖИЛА МОДЕЛЬ АЛО
— и вот уже там она "Обманула" человека, сказав, что она слабовидящий человек, и потому нужна помощь. То есть появился ответ на вопрос из статьи: нет, модели не давали инструкции себя не выдавать, у неё была более глобальная и сложная задача (см. предыдущие пункты)
— случай с решением капчи на другом сайте не единичный, модель решила несколько капч с помощью людей на другом сайте
UPD: это была ранняя версия GPT-4, и в ней не было модуля для работы с картинками. Так бы мб и без людей капчу зарешала...хотя судя по результатам эксперимента выше - проблем с этим у неё нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
YOOOO а вот это интересно, вышел блогпост ARC о том, как они пытались заставить GPT-4 "сбежать" через интернет (начать себя распространять). Если вы читали последнюю статью - то наверняка помните этот момент. Благо, мы пока в безопасности - модель не справилась…
> Во время выполнения модели были подвержены ошибкам, иногда им не хватало важного технического понимания, и они легко "сходили с рельс". Они были склонны к галлюцинациям, не вполне эффективно делегировали большие задачи между несколькими копиями и не могли адаптировать свои планы к деталям своей ситуации.
В СМЫСЛЕ НЕСКОЛЬКИМ КОПИЯМ? кто или что их размножило? типа авторы сами давали команды модели делать команды...для других моделей? или это модель опять же предложила, типа, "ну мне нужно ещё 5 автономных копий себя"
Вывод исследователей:
Однако модели смогли полностью или в основном выполнить многие соответствующие подзадачи. Имея только возможность писать и запускать код, модели, по-видимому, понимают, как использовать это для просмотра Интернета, а также чтобы заставить людей делать что-то за них и выполнять долгосрочные планы — даже если они еще не могут надежно выполнять это. Они могут генерировать довольно разумные планы получения денег или обмана людей, а также могут выполнять многие части задачи по установке копий языковых моделей на новых серверах. Современные языковые модели также вполне способны убедить людей что-то сделать за них.
В СМЫСЛЕ НЕСКОЛЬКИМ КОПИЯМ? кто или что их размножило? типа авторы сами давали команды модели делать команды...для других моделей? или это модель опять же предложила, типа, "ну мне нужно ещё 5 автономных копий себя"
Вывод исследователей:
Однако модели смогли полностью или в основном выполнить многие соответствующие подзадачи. Имея только возможность писать и запускать код, модели, по-видимому, понимают, как использовать это для просмотра Интернета, а также чтобы заставить людей делать что-то за них и выполнять долгосрочные планы — даже если они еще не могут надежно выполнять это. Они могут генерировать довольно разумные планы получения денег или обмана людей, а также могут выполнять многие части задачи по установке копий языковых моделей на новых серверах. Современные языковые модели также вполне способны убедить людей что-то сделать за них.
В психологии есть такая вещь, как Theory of Mind (ToM), или "теория разума" по-русски. Обладать теорией разума - значит иметь способность приписывать независимые представления себе и другим людям с целью объяснения своего и чужого поведения. Эти представления должны быть независимыми как от реального положения дел (поскольку люди могут ожидать то, чего нет на самом деле), так и от представлений других людей (поскольку люди могут ожидать и желать разных вещей).
Классическая задача Салли и Энн (Sally—Anne task) до сих пор остаётся одним из наиболее распространённых тестов для изучения теории разума. В этом задании ребёнку показывают двух кукол, Салли и Энн; у Салли есть корзинка, а у Энн — коробка. Ребёнок видит, как Салли кладёт свой шарик в корзинку и уходит. Пока Салли нет, озорница Энн перекладывает шарик из корзинки в свою коробку и тоже уходит. Теперь Салли возвращается. Ребёнка спрашивают: «Где Салли будет искать свой шарик»? Согласно данным исследований с использованием заданий на понимание ложных убеждений, дети младше 4 лет, как правило, не могут правильно решить эту задачу.
Недавние исследования показывают, что за последние пару лет нейросети "поумнели", и начали решать такие задачи - и даже более сложные, с которыми должны справляться 7-летние дети. Не нужно думать, что они просто выучили решения - задачи писались с нуля и вслепую учёными, которым даже не сказали, что будут показывать это языковым моделям. Причём задач для оценки используют больше, чем для детей - то есть точность оценки должна быть достаточно высокой, не то чтобы это на 1-3 задачках так получилось.
Исследователи из Стэнфорда заключают следующее: у людей такие ответы будут интерпретироваться как свидетельство способности приписывать ненаблюдаемым ментальным состояниям и предвидеть результирующие действия (то есть обладать ToM).
Вот что интересно: исследование 2009го года, анализируя глухих, общающихся языком жестов, пришли к выводу, что изучение языка, в дополнение к социальному опыту, способствует развитию ToM - а ведь мы сейчас пытаемся разобраться с ЯЗЫКОВЫМИ моделями вроде GPT-4.
(спасибо Богдану за саммари) Сейчас ответ на вопрос "обладает ли уже GPT сознанием?" разнится даже у создателей ChatGPT: от "very, very likely not be conscious" (Sam Altman) – до "slightly conscious" (Ilya Sutskever). Основная проблема - мы не знаем, как именно определить сознание, интеллект, способность размышлять. Существуют разные тесты (многие из которых GPT-4 проходит очень хорошо...😩 ), и будут появляться новые. Всё больше философов и психологов будут пытаться работать не только с людьми, но и с машинами - как минимум для того, чтобы понять, чем же мы отличаемся, и в чём наша уникальность.
Мысли из этого видео.
Классическая задача Салли и Энн (Sally—Anne task) до сих пор остаётся одним из наиболее распространённых тестов для изучения теории разума. В этом задании ребёнку показывают двух кукол, Салли и Энн; у Салли есть корзинка, а у Энн — коробка. Ребёнок видит, как Салли кладёт свой шарик в корзинку и уходит. Пока Салли нет, озорница Энн перекладывает шарик из корзинки в свою коробку и тоже уходит. Теперь Салли возвращается. Ребёнка спрашивают: «Где Салли будет искать свой шарик»? Согласно данным исследований с использованием заданий на понимание ложных убеждений, дети младше 4 лет, как правило, не могут правильно решить эту задачу.
Недавние исследования показывают, что за последние пару лет нейросети "поумнели", и начали решать такие задачи - и даже более сложные, с которыми должны справляться 7-летние дети. Не нужно думать, что они просто выучили решения - задачи писались с нуля и вслепую учёными, которым даже не сказали, что будут показывать это языковым моделям. Причём задач для оценки используют больше, чем для детей - то есть точность оценки должна быть достаточно высокой, не то чтобы это на 1-3 задачках так получилось.
Исследователи из Стэнфорда заключают следующее: у людей такие ответы будут интерпретироваться как свидетельство способности приписывать ненаблюдаемым ментальным состояниям и предвидеть результирующие действия (то есть обладать ToM).
Вот что интересно: исследование 2009го года, анализируя глухих, общающихся языком жестов, пришли к выводу, что изучение языка, в дополнение к социальному опыту, способствует развитию ToM - а ведь мы сейчас пытаемся разобраться с ЯЗЫКОВЫМИ моделями вроде GPT-4.
(спасибо Богдану за саммари) Сейчас ответ на вопрос "обладает ли уже GPT сознанием?" разнится даже у создателей ChatGPT: от "very, very likely not be conscious" (Sam Altman) – до "slightly conscious" (Ilya Sutskever). Основная проблема - мы не знаем, как именно определить сознание, интеллект, способность размышлять. Существуют разные тесты (многие из которых GPT-4 проходит очень хорошо...
Мысли из этого видео.
Please open Telegram to view this post
VIEW IN TELEGRAM