Сиолошная
51.7K subscribers
981 photos
177 videos
1 file
1.15K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Сиолошная
Measuring the Persuasiveness of Language Models Навык (пере-)убеждения в языковых моделеях вызывает обоснованную обеспокоенность по поводу их потенциального неприемлемого использования. Этот навык может быть использован для генерации дезинформации или побуждения…
В подкрепление последней заметки из поста выше — вот так выглядит гистограмма оценок участников.

По горизонтали — исходная оценка людей по теме, цветом закодировано изменение позиции. Желтая группа, самая большая — это нулевое изменение в оценке (как был уверен на X баллов из 7, так и остался). Дальше идёт зелёная, это +1.
😠 OpenAI блин 😠 где исследования?

Когда ваши работы по социальному импакту будем разбирать уже? А?

😢

(а может они просто laser-focused на доработке и оценке GPT-5...и её импакте на мир? 😳👀)
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышла свежая версия GPT-4-Turbo (суффикс 04-09). Я бы про это не писал, если бы в Twitter сразу 3 сотрудника OpenAI не репостнули это со словами «big improvement». Один даже указал, что улучшения особенно заметны в математике.

Также эту модель должны принести в ChatGPT (веб-сайт с подпиской за $20, не API).

Ждём на LMSYS Arena, оценим, что это за «улучшения». Тайминг выбран интересный — вот только сегодня рейтинг обновился, и оказалось, что модель CMD-R+ от Cohere на 100B+ параметров обогнала GPT-4 (исходные версии весны 2023-го). Claude 3 Opus всё еще сидит на первом месте.

Ну что, началось..? Sama нажал большую красную кнопку?

UPD: ещё написали, что скоро могут опубликовать метрики, чтобы продемонстрировать рост качества рассуждений и способностей в математике
Forwarded from DL Paper Reviews
Новая версия GPT-4 умеет решать олимпиадные задачки по математике на порядок круче, чем это делала предыдущая версия.

На соревновании, которое кстати еще идет, до апдейта GPT-4 решал только одну задачу и то с длинным промтом (по факту это подсказка).

Новая же версия решила уже 5! из 10 задач. Claude 3 Opus решила тоже только одну (правда без подсказок). В общем разница как я вижу в сложных математических задачах просто колоссальная!
Недели 3 назад многие хайпили по Suno, сайту с нейронкой для генерации музыки. Я и сам подзалип — даже подписку в первый вечер купил, так затянуло (правда улетучилось через 2 дня, кек). Можете послушать топ треков за день здесь.

Да, каждый трек на той странице — сгенерирован. И музыка, и речь, и (зачастую) текст. Последнее можно вбивать и руками, так что если услышите перепев знакомой песни — не удивляйтесь. Некоторые треки так хороши, что реально западают в голову — ждём первый AI-трек, который займет значимые места в чартах.

Но недолго музыка играла - недолго Suno хайпили. Говорят, уже есть убийца в лице Udio — то ли в 2, то ли в 10 раз лучше (по словам твиттерских). И они умеют генерировать в стерео-формате, где левый и правый каналы реально отличаются. Принёс несколько семплов вам на оценку, ждём публичной беты, чтобы каждый мог поиграться сам. Тут у меня сжатые перекачаные треки, лучше слушать по ссылкам ниже.

Источники (Twitter): 1, 2, 3, 4, 5, 6

UPD: Twitter-тред с анонсом стартапа, 1200 генераций в месяц бесплатно: https://www.udio.com/
Please open Telegram to view this post
VIEW IN TELEGRAM
Завсегдатаи lesswrong и борцы за alignment в шоке — самая важная команда OpenAI потеряла двух сотрудников.

Причина увольнения: утечка информации (какой - не сообщается). Кому сказали, что сказали — 🤷‍♂️

Если источники The Information верны, то Pavel Izmailov и Leopold Aschenbrenner были уволены. Они оба были частью команды Superalignment (возглавляемую Sutskever'ом), целью которой был (и есть?) контроль и управление сильным искусственным интеллектом (сверхинтеллектом), который, к примеру, мог бы двигать научный прогресс человечества.

Вероятно, было проведено какое-то внутреннее расследование, которое закончилось совсем недавно (или же само событие произошло вот только-только), ибо Pavel буквально месяц назад презентовал свою статью на OpenAI Forum (я смотрел live-трансляцию) и был полноценным сотрудником (не сидел в сторонке, как Ilya сейчас).

Статус Sutskever'а пока не ясен. С одной стороны его не уволили в этот же заход, с другой — от него всё ещё нуль новостей, и надежды на возвращение меньше с каждым днём 🙁 моя, к сожалению, пессимистичная ставка — возвращения не будет 😅

В целом очень жалко — людей, которые хотели бы делать Alignment, очень мало, а тех, кто мог бы — ещё меньше. На момент последней статьи от Superalignment Team в авторах числилось 12 авторов, включая Ilya 🫡 а Jan Leike, второй руководитель команды, часто в подкастах сокрушался, что людей мало, и он готов хайрить почти всех (если скиллсет подходит).

---

Могло ли быть так, что эти двое были источниками The Information, и больше надёжных сливов мы не увидим? 😰(но кто тогда слил новости про увольнение сливальщиков? кек)
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня День космонавтики, поздравляю всех любителей космоса и сочувствующих!

63 года назад один человек согласился залезть в маленький неуютный шарик, закреплённый на вчерашней межконтинентальной баллистической ракете, и полететь куда-то наверх. Расчётная вероятность успешного завершения полета корабля составляла 87.5%, при этом тогдашние требования к уровню надежности составляли 95% — но космос, он про смелых и решительных.

Ко всеобщей радости, Юрий Гагарин вернулся целым и невредимым, а человечество вступило в космическую эру 🥳

Ровно через 20 лет после этого на орбиту полетит первый Шаттл, и сразу с людьми — по тем временам это был беспрецедентный риск. С современными нормами NASA и других агентств такое представить трудно. В том пуске меры по спасению экипажа не были прописаны для всех этапов — вот случись чего, и всё!

Сейчас же, в наше время, мы наблюдаем за тестированием самой большой и революционной системы запуска — и как жаль, что некоторые участники космической гонки не застали этого 🥲 в этом десятилетии нам есть, что им показать!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Новый рекорд: один ускоритель Falcon 9 переиспользовали 20 раз.

Этой ночью ускоритель под индексом B1062 совершил свой исторический 20-ый запуск с последующей посадкой на баржу в океане. Пока ведутся жаркие споры, что «многоразовость это тупиковое и дорогое направление», конкретно эта ракета всего за 3.5 года совершила 20 полётов и в общей сложности доставила 8 человек на орбиту, более 261 тонн полезной нагрузки и около 500 спутников.

Сейчас SpaceX пушит сертификацию на полёты до 40 раз для одного ускорителя Falcon 9, так что следующий рекорд придётся подождать.
Свежий подкаст Dario Amodei (CEO Anthropic, один из главных конкурентов OpenAI) для NYT
(подкаст)(транскрипт)

Название подкаста было многообещающим («What if Dario Amodei Is Right About A.I.?»), но в топик, к сожалению, не так глубоко ушли. Выписал для себя несколько интересных тезисов, плюс, добавил свои мысли:

— На обучение моделей текущего поколения тратится $100M, мб +- 2 раза. Уже сейчас тренируются модели, обучение которых будет стоить $1B. Из этой информации выходит, что 1) скорее всего Claude 3 Opus — не миллиардная моделька 2) в конце 24-го — начале 25-го ждём бенгеров. А ещё это описание полностью бьётся с тем, что он говорил полгода назад. Всё по графику, короче.
— при этом прогноз на будущее он поправил: теперь в 2025-2026м году он предвидит обучение моделей стоимостью $5-10B — и это всё ещё до запуска суперкомпьютера OpenAI x Microsoft за 100 миллиардов!
— пока что на этот и следующий год, по его оценке, вычислительных мощностей его компании хватит, а вот после этого уже не ясно, и главное тут - сможет ли адаптироваться индустрия полупроводников.
— с точки зрения навыков модели, Dario предвидит наибольший рост метрик в тех задачах, где легко и быстро получить обратную связь. Программирование и математика под это определение попадают — в обоих можно быстро удостовериться, что ответ правильный, а заодно покритиковать решение. Взаимодействие с реальным миром - куда сложнее (вероятно, самое сложное).
— на сложении двадцатизначных чисел у Claude 3 качество примерно 99.9% (без внешних инструментов типа калькулятора или кода). Но если проверить данные, на которых обучается модель, то там качество сильно меньше. Это как будто бы играет на руку гипотезе, что модели уже могут производить более качественные данные, чем те, на которых они были обучены. Я к сожалению потерял ссылку, но видел статью с экспериментом, где модель учат на 100% неправильных примерах, и тем не менее её качество на новых примерах отлично от нуля. То есть по полностью неправильному она смогла начать хоть что-то решать
— соответственно, эти два тезиса объединяются в гармоничную картинку мира «давайте модели будут тренировать другие модели», особенно в задачках, где понятно, как оценивать ответ.
— Про то, как модель достигает хорошего качества в сложении чисел: Dario спекулирует, что все «правды» связаны в одну большую паутину мира, и держатся друг за друга. А каждая ложь, ошибка и неправда — она своя, особенная, и выбиается из этого. Согласно исследованиям, мы знаем, что модели знают, когда они врут/пишут неправду (это не означает, что они обманывают нас намеренно). Им пришлось научиться в этом разбираться во время обучения, чтобы понимать, делать ли предсказания с ошибкой или контекст требует чёткости. Это напомнило мне о недавней статье, где показывали, что если модели во время обучения показывать домен сайта, откуда взят текст, то качество работы повысится — потому что она, видимо, разбирается, что хрень а что полезно, и меньше обращает внимания на мусор. Вывод: каждый делает сам для себя 🤷‍♂️

Дальше обсуждается тема рисков AI в контексте дальнейшего развития, ждите следующий пост!
Please open Telegram to view this post
VIEW IN TELEGRAM
Начинается обсуждение с RSP, Responsible Scaling Policy. Краткое напоминание: RSP определяет «Уровни безопасности искусственного интеллекта» (AI Safety Levels, ASL) для работы с потенциальными катастрофическиим рисками, которые по формату аналогичны стандартам уровней биобезопасности (BSL) правительства США для обращения с опасными биологическими материалами.

Сейчас модели находятся на уровне ASL 2. Они не несут какого-то риска и почти не предоставляют информации, которую нельзя было бы найти, вооружившись поисковиком.

ASL 3 завязан на увеличение риска от биологического и кибер-оружия. Такой риск должен быть существенно (без численной оценки) больше, чем до появления такой модели. Сейчас Anthropic работают с бывшими сотрудниками правительственной программы по биозащите для проработки точных критериев. Например, это может быть «использование модели увеличивает риск на 20%» (оценка через безопасное тестирование — как в их предыдущем исследовании, разбор тут).

Уровень ASL 4 пока слабо проработан, но:
— с точки зрения злоупотреблений такая система позволит расширить свои возможности уже на уровне целого государства (что значительно сложнее, чем помочь одному гуглящему человеку)
— с точки зрения автономности, такие системы должны быть крайне близки к способности воспроизводиться и выживать в дикой среде. Говоря иначе, если модели дать доступ в интерент — она сама себя скопирует на десятки носителей и будет зарабатывать деньги для своего поддержания. Звучит страшно, хорошо, что модели пока так не могут (вот целое исследование)

И самое интересное. Давайте разыграем сценку.
Ведущий: и какая у вас оценка появления ASL3/4?
Dario Amodei: я думаю, что ASL 3 может легко случиться уже в этом или следующем году. Я думаю, что ASL 4...
Ведущий: Господи...
Dario: не-не, я говорю тебе. Я верю в экспоненциальное развитие текущих моделей. Я думаю, ASL 4 может случиться хоть где от 2025-го до 2028-го.
Ведущий: это очень быстро...
Dario: да-да, я говорю об очень ближайшем будущем. Это не про историю на 50 лет вперёд.

Смешно? нет? а ровно это произошло на подкасте (вот ссылка).

Политика Anthropic утверждает набор тестов и критерии их прохождения для того, чтобы определить уровень системы. Схожие политики есть у OpenAI и Google. В случае достижения нового уровня компании обязуются: a) остановить разработку для обсуждения дальнейшего развития, оценки уровня угрозы б) публично анонсировать это.

У ведущего, как и у многих читателей, возникает вопрос - а остановить это вот как? Как же классический аргумент «А что Китай?». Dario говорит:
— Если, например, нам надо будет остановиться на год в 2027 году, я думаю, что это осуществимо. Если это похоже на то, что нам нужно остановить всю индустрию на 10 лет, это будет очень сложно, потому что модели будут создаваться и в других странах. Люди будем нарушать законы. Экономическое давление станет огромным.
(под «остановиться» здесь подразумевается остановка исследований по увеличению набора навыков модели для того, чтобы запустить исследования по контролю и безопасности)

Кажется, что это очень сложно, нужно будет вмешиваться государству, а компании каким-то образом должны будут начать делиться моделями и деталями обучения. Нужна кооперация. Dario считает, что такой процесс возможен, как только будут продемонстрированы реальные риски уровня ASL 4 (или некоторые отдельные с ASL 3). Это заставит всех встрепенуться и начать действовать. Интересно, какие примеры из прошлого приводятся для описания ситуации:
«Если вы посмотрите на исторические периоды, такие как Первая или Вторая мировые войны, воля промышленности может быть направлена в сторону работы на государство. Бизнесы и предпринимателей можно заставить делать вещи, которые не обязательно принесут прибыль в краткосрочной перспективе, потому что они понимают, что возникла чрезвычайная ситуация. Сейчас у нас нет чрезвычайной ситуации.»

😨😳 и чего тогда ждать нам? (Amodei спойлерит, что хочет бескровной демонстарции, когда просто в рамках безопасного эксперимента показывается, на что способна модель)
Please open Telegram to view this post
VIEW IN TELEGRAM
И вот если мир будет таким, и модели будут а) очень агентными и автономными б) начать заменять части экономики, то как нам готовить к такому миру своих детей? Чему учить? Что вообще будет актуальным хотя бы через 10 лет?

«Очевидная рекомендация — просто знакомиться с технологией самому и знакомить с ней ребёнка. Научите своих детей адаптироваться, быть готовыми к миру, который меняется очень быстро. Мне хотелось бы дать ответы получше, но я думаю, что это лучшее, на что я способен» — говорит Dario. «Есть ситуации, когда в креативных задачах AI создаёт черновую версию, а затем человек её изменят и финализирует. Но для этого самому человеку нужно неплохо разбираться в предмете. Нужно ли сейчас всех заставлять использовать инстурменты по максимум или наоборот ограничить, чтобы выработать навыки самостоятельного мышления, и уже затем показать технологию? Мне ответ не очевиден» — отвечает ведущий.

Ну и раз уж мы заговорили про образование, то Dario Amodei рекомендует три книги! Сначала я обрадовался и подумал «ха-ха ну хоть какой-то позитив», а затем я услышал описания книг от него и 😨

Итак, список ✍️:
1️⃣The Making of the Atomic Bomb (😳) «Просто посмотрите на персонажей и то, как они на реагировали на разработку. Как люди, которые по сути были учеными, постепенно осознали невероятные последствия своей технологии, а также то, как она приведет их в мир, который сильно отличается привычному им миру»

2️⃣Серия книг «The Expanse»: «Мир в этой вселенной очень продвинут. Люди уже осваивают космос. Но они по-прежнему сталкиваются с некоторыми из тех же геополитических вопросов, вопросов неравенства и эксплуатации, которые существуют в нашем мире сейчас. Вот такой фон истории. И суть в том, что в этот мир привносится какой-то принципиально новый технологический объект и как все на него реагируют, как на него реагируют правительства, как на него реагируют отдельные люди и как на него реагируют политические идеологии. Когда я прочитал это несколько лет назад, я увидел много параллелей» 👀

3️⃣«The Guns of August» (😳): «Это, по сути, история Первой мировой войны. Основная идея заключается в том, что кризисы происходят очень быстро, почти никто не знает, что происходит. Просчетов много, потому что в центре всех процессов находятся люди»

===
Вот такие книги рекомендует человек, который каждый день думает, как модели из лаборатории вписать в реальный мир и экономику... Всего доброго 👋
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Там собрали окружение (на базе виртуальной машины) для тестирования мультимодальных агентиков в работе с реальной операционной системой.
Внутри стоят реальные приложения, которыми мы с вами пользуемся. Также на выбор несколько операционок.

Агент может управлять мышкой и клавиатурой.
А на входе получает скриншот экрана + XML-format accessibility (a11y) tree (дерево доступности, представляющее собой дополнительную информацию вроде позиций окон и их размеров, позиции указателя и тд), а еще инструкцию с описанием задачи.

Ещё подготовили бенчмарк с 369 задачками, на котором протестировали современные LLM/VLM.
Задачки вроде: "Можешь помочь мне очистить мой компьютер, избавившись от всех файлов cookie, которые мог сохранить Amazon?", которые проверяют способность пользоваться возможностями операционных систем и программ.

Пишут, что человек способен выполнить 72.36% всех задач.

GPT-4 показала лучший результат среди LLMок: 12.24% (получая на вход A11y tree).
GPT-4V показала результат 12.17% (Screenshot + A11y tree на входе).

Интересненько. Отсюда ведь можно еще и датасетики собирать теперь, чтобы учиться...

https://os-world.github.io/

https://github.com/xlang-ai/OSWorld

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
https://arxiv.org/abs/2404.07972
Сиолошная
Там собрали окружение (на базе виртуальной машины) для тестирования мультимодальных агентиков в работе с реальной операционной системой. Внутри стоят реальные приложения, которыми мы с вами пользуемся. Также на выбор несколько операционок. Агент может управлять…
Есть что-то завораживающее в наблюдении за машиной, которая сама автономно выполняет задачи — нужно просто задать цель. Сейчас это 12%, через полгода — 30%, а с выходом GPT-5 75%....
👍
Please open Telegram to view this post
VIEW IN TELEGRAM