Сиолошная
51.4K subscribers
954 photos
172 videos
1 file
1.13K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Всем привет! Меня зовут Котенков Игорь, я работаю в сфере Data Science, конкретнее - в Machine Learning. Мне нравится делиться информацией и знаниями. Раньше я работал в AliExpress Россия на должности тимлида ML-команды (мой LinkedIn тык), до этого погрёб…
Ровно год назад я сидел во Вьетнаме 🙀и писал первый пост в этот канал, не подозревая, до чего всё дойдет. Ну будет через полгода в лучшем случае тысяч пять человек, было бы круто! Ну напишу ещё пару интересных длиннопостов — помогу людям воспринимать информацию о технологиях. Но я недооценил ни свои навыки, ни интерес публики к теме, ни свои ресурсы и интерес — и оказалось, что на хороший контент в текстовой (и не только) форме есть спрос.

За год канал вырос до 34 тысяч подписчиков (и более 10к активных читателей), я написал более тысячи сообщений, если верить Телеграму (это сообщение имеет номер #1010, а сколько постов я ещё не написал или отложил...), 5 лонгов на Хабр и другие ресурсы, залетел с ними в топ-1 рейтинга авторов, записал несколько лекций, дал десятки комментариев, встретил сотню интересных людей — и забанил в комментариях ещё больше неинтересных 😇 моя лекция даже была выбрана в голосовании сообщества ODS как самая лучшая за 2023й год! Это очень приятно!

На этот год для меня основная цель — начать делать и продвигать свой контент на английском. Я переведу часть уже опубликованных материалов, а также сделаю новые.

Чтобы оставаться в коннекте — добавляйте меня в контакты на LinkedIn, если вы ещё этого не сделали: https://linkedin.com/in/seeall

И не забывайте, что все мои материалы перечислены в третьем сообщении на канале: https://t.me/seeallochnaya/3 — переходите, выбирайте, смотрите!
Please open Telegram to view this post
VIEW IN TELEGRAM
Обычно на День рождения подарки получают, но я люблю дарить, отдавать и делиться. Прошлой весной, пока сидел без работы, я получал предложения сделать курс по NLP/LLM. После анализа конкурентов, включая Stanford'ские курсы, я пришёл к выводу, что мне эта идея не кажется перспективной — я не видел, что можно ещё предложить и какую ценность добавить, да и кто будет целевой аудиторией. Но осенью ко мне пришли ребята из Deep Learning School при Физтехе и предложили заделать «пару лекций». Мало кто знает, но пост про GPT-4 с Пашей Комаровским в соавторстве начинался примерно с таких же слов: «не хочешь сделать на коленке мини-заметку?».

В итоге пара лекций превратилась... в мини-курс «Полная история семейства GPT» из 4 частей. На данный момент полностью готово 2 части, и сегодня я публикую первую. Она состоит из трёх видео, которые, как я считаю, будет полезно посмотреть всем — от начинающих свой путь в ML до суперсеньорных NLP'шников, которые вероятно пропустили или не знали предпосылок разработки GPT-1. Правда, курс предполагает, что вы представляете, что такое трансформер — какое счастье, что я и такую лекцию сделал!

В курс включено много тем и деталей, о которых либо говорят редко, либо они не указаны в статьях, либо всё и сразу. Какие-то топики, конечно, пересекаются, но думаю, что здоровая доля novelty тут есть.

1) youtu.be/l-l82uNwyu8 — лекция про сжатие как способ выработки понимания (что? а вот увидите!)
2) youtu.be/jKd_CdRh7U4 — лекция про обучение без учителя на текстовых данных, или почему мы обучаем языковые модели так, как обучаем
3) youtu.be/i3lkIJ82rNI — finally, лекция с разбором GPT-1

(но вообще я предлагаю просто подписаться на канал на YouTube, чтобы иметь удобную навигацию там и ничего не пропустить)

Вторая часть выйдет на следующей неделе, будет состоять из ПЯТИ видео и опишет прогресс от GPT-1 до GPT-3. Семинары и домашние задания к лекциям появятся весной и будут выложены на платформе курса — поэтому переходите на сайт школы, чтобы ничего не пропустить. Занятия в школе — БЕСПЛАТНЫЕ (и организованы на платформе Stepik)!
Live stream started
Live stream finished (1 hour)
Всем спасибо, что пришли на стрим, будем работать следующий год, писать посты и новости. Ждём GPT-5, Sama, ну когда там релиз-то?

Подписывайтесь на наших гостей (в алфавитном порядке):
— Валера @cryptovalerii
— Денис @denissexy (пришёл без чая)
— Паша @RationalAnswer
— Таня @rybolos_channel
Forwarded from BOGDANISSSIMO
REASONING

Важный мета-навык, на который Я обращаю внимание на собеседованиях, это "здравый смысл" или "умение рассуждать". Мне нравится метафора Игоря.

У каждой позиции, на которую нанимаешь, есть несколько ключевых навыков, которые сотрудник будет использовать в работе. Цель собеседования:

1. как можно точнее оценить, на каком уровне кандидат находится по каждому из направлений;

2. понять, какой у кандидата потенциал роста (за какое время сможет наверстать отстающие?).


По этой причине вы сильно облегчите жизнь – и себе, и интервьюеру, – если заранее будете знать ответ на вопрос "какие твои самые сильные (слабые) навыки?". О том, как трекать навыки, у нас был пост: https://t.me/bogdanisssimo/175

Пункт №1 – это то, что кандидат уже знает и умеет, с чем он уже работал. Но в работе далеко не всегда делаешь то, что уже делалал, одними и теми же инструментами, поэтому надеяться, что нам повезёт и задачи, которые нужно решить, попадут в эту категорию – не приходится.

Пункт №2 ещё важнее и интереснее. Мы живём в период, когда ландшафт технологий меняется на глазах, поэтому нужно быть очень адаптивным и уметь в короткие сроки осваивать новые инструменты (да и вообще говоря, работать с непривычным уровнем абстракций).

Метафора: Каждый навык это как отдельная вертикаль на шахматной доске, допустим их 8 и у каждого 8 уровней. За 60 минут интервью тебе нужно методом тыка (буквально, binary search), найти, где походит граница между тем, что кандидат знает и умеет, и тем, что не знает.

Далее, хотим понять, а на сколько клеток вперёд кандидат может осмысленно рассуждать? Лучше всего давать кейс. Как он принимает решения в условиях неопределённости? Какие он делает допущения? Как экстраполирует, что знает, на то, что не знает? Проговаривает ли логику? Оценивает ли уверенность в своих гипотезах? Когда делает ошибки,
находит ли их сам?

Чем выше ваш грейд, тем шире должны быть обе зоны. Если вы ещё стажёр, вам тем более стоит делать ставку на reasoning, ведь как таковой зоны "с чем уже работали" у вас пока нет.
Сиолошная
REASONING Важный мета-навык, на который Я обращаю внимание на собеседованиях, это "здравый смысл" или "умение рассуждать". Мне нравится метафора Игоря. У каждой позиции, на которую нанимаешь, есть несколько ключевых навыков, которые сотрудник будет использовать…
Тут я очень согласен — я даже кандидатам иногда (когда вижу неуверенность/волнение выше нормы, или когда они чего-то не знают, и стесняются этого) на собесах говорю прямым текстом, что мы так или иначе дойдем до границы, где кончаются их знания, и будем смотреть, как кандидат в realtime движется вперёд, какие может делать предположения, как их опыт позволяет отсекать неправильные идеи и выделять перспективные.

Кто-то на собеседованиях по NLP «изобретал» на ходу реальные технологии и фичи, о которых в своё время были написаны целые статьи — потому что человек смог сделать правильные допущения с высоты своего опыта. Правда, иногда такие идеи не работали — но показательно, что видным учёным было это неочевидно, что они аж делали исследование и по его результатам писали статью!
Сегодня NASA объявили об окончании миссии героического вертолётика Ingenuity. Вертолётика, который смог.

Ingenuity разрабатывался на объедки бюджета миссии Mars 2020 (марсоход Perseverance), суммарно на программу было потрачено $85m. Кажется, что это много, но цена ровера БОЛЬШЕ ДВУХ МИЛЛИАРДОВ ДОЛЛАРОВ. В гирокоптере, например, процессор был тот же, что вставляли в телефоны Samsung Galaxy S5 или OnePlus One. Буквально кустарное производство по меркам космоиндустрии.

На него не возлагали больших надежд. Если правильно помню, в миссии было 5 основных целей (вроде успешного приземления на Марсе и развёртывания лопастей), и лишь пятая заключалась в тестовом полёте. В итоге за эти годы с момента десантирования малыш совершил невероятные 72 полёта, пролетев больше 17км (НА МАРСЕ) за 128 минут. Самый далёкий полёт позволил преодолеть 708 метров, самый длинный был 169 секунд (интересно, что ограничение вызвано не батарейками на борту, а тем, что моторы разогреваются на 1 градус Цельсия каждую секунду), а самая большая развитая скорость была 10 м/с (всё - разные полёты).

После недавней жёсткой посадки было обнаружено, что одна из лопастей повреждена, и продолжение миссии невозможно 😭 😭 Но в миссии было и много прекрасных моментов. Изначально Ingenuity не был предназначен для зимовки на Марсе, однако переписанная ээээ на лету (🙂) программа позволила скорректировать поведение (и самоподогрев). Также в ходе миссии коптер получил систему автоматического выбора посадочного места, пережил утрату сенсора, смог очиститься после песчаной бури... в общем, его жизнь была насыщенной.

Интересный факт: на Ingenuity был прикреплён кусочек первого самолёта братьев Райт — примерно так же, как и на Apollo 11 при высадке людей на Луну.

16-минутное видео от Veritasium о производстве Ingenuity.

На прикреплённом фото запечатлён момент «высадки» на Марс с брата-ровера в 2021м.

🫡🫡🫡 покойся с миром, мы за тобой придём
Please open Telegram to view this post
VIEW IN TELEGRAM
Joe Biden’s adviser on the regulation of artificial intelligence рассказала FT, что США и Китай будут работать вместе над рисками, связанными с развитием технологий ИИ.

А в другой новости те же FT утверждают, что OpenAI вместе с 3-4 другими крупными игроками (Anthropic, Cohere, Inflection...где Google?) уже дважды встречались с коллегами из Китайских лабораторий и университетов в Женеве. OpenAI подтвердили факт участия в этих митингах.

«У нас нет возможности устанавливать международные стандарты безопасности и согласованности целей ИИ без достижения соглашения между этой группой участников» — добавил один из участников встреч.

Китайская Коммунистическая Партия, как оказалось, тоже не хочет, чтобы какой-то ИИ порушил их планы по стране, и ни дай бог захватил управление чем-либо.

Альтернативные интерпретации:
— китайские учёные просто хотели выведать секреты технологии practical AI Alignment у коллег с запада
— просто пассивно участвуют в диалогах, но ничего из этого не будут воспринимать всерьёз
— участники рабочей группы ищут способы перебраться в западные компании)))
Сегодня прожил, кажется, худший день с того момента, как уехал из РФ

Из-за недосыпа забыл в такси свой рюкзак с паспортами, ноутбуком (с лекциями про GPT!) и частью денег. Захожу в старбакс, инстинктивно поправляю лямку на плече и понимаю, ЧТО ЕГО НЕТ. БАНГКОК ЗАБРАЛ ЕГО. Я никогда ничего не терял, ни кошельков, ни телефонов, ни портфелей.

Как бы вы оценили шансы найти такой ценный груз после пропажи в такси в одной из крупнейших агломераций мира (18.8М человек, на 1M больше Московской)? Я тоже прикинул, что невелики — хотя бы один паспорт из трёх вернуть, уже вперед.

В итоге, 2.5 часа спустя, с помощью трёх добрых тайцев и настойчивости дозвониться до поддержки, до которой дозвониться невозможно, с преодолением языкового барьера — я справился. Таксист привёз всё в целости и сохранности 🙂 Это круто, потому что альтернативой была департация меня через пару месяцев 👀

Наверное, ключевых фактора два — это был премиум тариф такси (который я взял только потому что за 30 минут (!!!) поиска ничего не нашлось!) + я понял, что на формочки/заявки о пропаже лучше сразу забить, и максимально сократить время до получения багажа. Чем дольше ждать — тем меньше шансы на успех.

Выражаю огромную благодарность неназванному курьеру сервиса Grab, который забыл про свой заказ и сидел со мной с телефоном, ну и конечно же таксисту.

а в комментариях вас ждёт МЕМ.
Please open Telegram to view this post
VIEW IN TELEGRAM
В Twitter начали всплывать спекуляции по поводу тренировки GPT-5. Всё дело в том, что два важных сотрудника OpenAI написали твиты с намёками.

Greg Brockman — ко-фаундер и ex-CTO OpenAI, до недавнего времени президент компании и член совета директоров. Он пишет про разные аспекты работы в OpenAI, и заканчивает сообщение на фразе «scaling beyond precedent». Scaling — это масштабирование моделей, увеличение количества параметров, что, насколько мы сейчас знаем, приводит к гарантированному улучшению. И это масштабирование будет беспрецедентным (как и каждый раз с момента выхода GPT-2).

Jason Wei — топовый исследователь, ранее работавший в Google, но перешедший в OpenAI. Является первым автором статьи, представившей Chain-of-Thought промптинг, когда мы просим модель перед ответом продумать решение step-by-step (шаг за шагом). Это, как оказалось, существенно повышает качество ответов. Он пишет — дословно — «Не бывает такого прилива адреналина, как при запуске массивной тренировки на GPU» (видеоускорителях, используемых для обучения GPT-like моделек).

Ранее в канале писал, что на момент середины января 2024го не думаю, что началась тренировка GPT-5 — так как OpenAI бегают по провайдерам данных в духе новостных сайтов, и занимаются лицензированием датасетов (что логично делать до тренировки, когда закопирайченные материалы ещё можно вычистить). Но сейчас вполне возможно, что бОльшая часть этой работы окончена.

Но радоваться рано — даже если вдруг тренировка началась — ждать нам не менее 8, а скорее 12 месяцев (из расчёта 4 месяца на тренировку вместо 3 у GPT-4, и 8 месяцев на Ai Alignment + Safety Evaluation). И анонсов ранее выборов в США в начале ноября точно ждать не стоит.
Про беспрецедентный масштаб. Сейчас принято считать, что при увеличении модели в N раз нужно также увеличивать количество данных в N раз, то есть суммарные затраты по вычислительным мощностям растут как N^2. Формула не точная, прикидка примерная, но для спекуляций ниже сойдет.

Если верить слухам, то GPT-4 тренировали на 25'000 A100 x 90-100 дней. Мой давний приятель Евгений, автор канала @j_links, посчитал, что если взять самые современные видеокарты Nvidia H100, то 40'000 H100 с утилизацией (доля времени, которое карта тратит на полезную работу) уровня последнего бенчмарка mlperf, потребуется 25 дней для обучения такой же модели (для технарей — в FP16). Тут важно понимать, что эта прикидка даёт оценку сверху — потому что вот так просто взять и увеличить количество карт без уменьшения утилизации нельзя. Понятно, что инженеры не сидят на месте и улучшают всё что только можно улучшать, но и они — не маги.

Если просто посчитать, то получится прирост производительности x2.5 на карту, но будем очень щедры, сделаем скидку на то, что можно использовать разные типы данных (например, FP8), то сё, пусть одна карта нового поколения будет x3.5 более производительна. Опять же, обратите внимание, что это скорее верхняя оценка.

Далее — сколько видеокарт можно запустить в одну тренировку? Как мы знаем по статье о Gemini от Google DeepMind, и как подтвердил инженер инфраструктуры на нашем с Валерой интервью, сейчас обучение уже делается на нескольких датацентрах. Сколько GPU в каждом ДЦ — загадка, и я не буду приводить полный лог рассуждений, но кажется, что цифра не больше 60'000 GPU (для сравнения самый мощный публично известный суперкомпьютер Frontier имеет 36'992 GPU). Сколько ДЦ можно подключить в сеть тренировки, чтобы это не убивало утилизацию видеокарт из-за необходимости долгой синхронизации — загадка. Моё наивное предположение, что для одной тренировки не будет использоваться больше 100'000 карт, ну моооооооожет быть 125'000. Это просто охренеть сколько — в x4(5) раз больше, чем для GPT-4.

Ну и самый простой способ накинуть вычислений — это увеличить длительность. Давайте будем тренировать не 100 дней, а 150 — ещё x1.5

Итого мы можем увеличить мощности:
-----------------------------------------
x3.5 за счет типа видеокарт (A100 -> H100, с допущениями об утилизации)
x4 за счет количества видеокарт (25'000 -> 100'000)
x1.5 за счет длительности обучения (100 дней -> 150 дней)
x(неизвестно, но не более 1.2) за счёт разных тренировочных трюков (дальше не учитываем)
-----------------------------------------
Итого получаем увеличение в 3.5 x 4 x 1.5 = 21 раз. Или в 35 (3.5 x 5 x 2). Это примерно попадает в цифры Dario Amodei («...обучение моделей текущего поколения стоит $50-150M...модели следующего поколения будут стоить $1B» — разница в 10-20 раз, но и за доллар теперь мощности в 2-3 раза больше).

То есть модель будет всего в sqrt(21)-sqrt(35) или 4.5-5.9 раз больше. Изначально, когда садился считать, думал, что будет скачок в 10 раз, но как не старался натянуть сову на глобус — увеличить мощности в 100 раз хотя бы в теории не придумал как 🥺

В комментарии приглашаются шарящие за скейлинг люди обсудить адекватность прикидок и их собственные оценки
Please open Telegram to view this post
VIEW IN TELEGRAM
Leeroo Orchestrator: Elevating LLMs Performance Through Model Integration

Короткий обзор простой статьи с хорошей идеей: давайте предположим, что разные LLM хороши в разных задачах и доменах. Тогда для оптимизации качества по отношению к затратам логично сделать оркестратор, который для каждого нового запроса выбирает, на какую LLM перенапрвалять запрос. Условно за математику и физику отвечает дорогая, но мощная GPT-4, а вот переписать имейл простыми словами сможет и маленькая LLAMA.

Чтобы выявить лучшую стратегию оркестрации, вопросы из тренировочного пула случайным образом рассылаются в одну или несколько LLM, затем оценивается соотношение цена/качество.

Авторы собирают несколько открытых моделек (и иногда досыпают GPT-4 в микс) и получают:
— Наш оркестратор обеспечивает качество на уровне модели Mixtral, тратя при этом лишь две трети ее стоимости
— Увеличение допустимого бюджета позволяет превзойти Mixtral более чем на 5% при том же уровне затрат
— Дальнейшие улучшения наблюдались при интеграции GPT-4 в базовый пул моделей. Оркестратор Leeroo получает такое же качество, как GPT-4 в одиночку, но при вдвое меньшей стоимости ... и даже превосходит результаты GPT-4 со снижением затрат на 25%

Мне работа не понравилась двумя вещами:
1) тестирование только на бенчмарке MMLU (57 тем, тысячи вопросов с выбором ответа из 4 вариантов), что а) не очень репрезентативно б) не раскрывает потенциал подхода (или скрытые камни с задачками посложнее)
2) из-за этого в качестве оркестровщика выступает буквально эвристическая модель (которая по табличке "модель <-> качество в домене" оценивает, куда послать запрос), а не LLM'ка или классификатор, с анализом предсказаний на новых доменах.

Круто было бы увидеть сервис, который собирает информацию о миллионах разных запросов и очень точно понимает, куда перекидывать запрос для улучшения качества и снижения цены. Однако маловероятно, что такому третьему лицу будут доверять компании (ведь по сути все запросы будут использованы для тренировки). Поэтому только открытая библиотека. А так лозунг «дадим то же качество на четверть дешевле» — крутой.

Статью увидел у @dealerAI
Код будет тут, но пока пусто
Сиолошная
Какие материалы у меня есть / чем я могут быть полезен / что посмотреть: <--ЛЁГКИЕ, НЕТЕХНИЧЕСКИЕ МАТЕРИАЛЫ--> Текст: — 🔥Блогпост на хабре про историю развития GPT от Т9 к ChatGPT, написанный для объяснения простым языком (он же на VC, а в клубе Вастрика…
Всем привет!

Количество материалов, которые я произвёл и которыми хотел бы поделиться, стало таким большим, что не умещается в одном сообщении. Поэтому я немного реорганизовал шапку канала — теперь это три сообщения вместо одного, с разбивкой по сложности: от простого нетехнического материала к глубоким разборам со всеми деталями. Каждая секция поделена на блоки текстового- и видео-контента (но случаются пересечения).

🟢 Лёгкие, нетехнические материалы: https://t.me/seeallochnaya/3
🟠 Популярно и вдумчиво про технологии: https://t.me/seeallochnaya/4
🔥 Технические детали и разборы: https://t.me/seeallochnaya/5

Если вы новенький на канале и не видели этого — обязательно пройдитесь по списку и выберите интересное для себя! Если же вы из старичков — что ж, это отличный повод освежить память или ознакомиться с чем-то, что вы могли пропустить!

И на всякий случай напомню, что вы можете добавить меня на LinkedIn — законнекчу каждого: https://www.linkedin.com/in/seeall/
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Смотрите какая клёвая графика в новом Терминаторе!

А, нет, погодите — это наш таймлайн...

СТРАШНА?

Видео ходьбы робота выложил Elon Musk.
Building an early warning system for LLM-aided biological threat creation

Исследование OpenAI с презентацией раннего прототипа фреймворка для оценки опасностей от LLM в контексте разработки биооружия. Напомню, что основная цель — смотреть наперёд, уметь оценивать неанонсированные модели перед тем, как выпускать их на волю к пользователям. В дизайн фреймворка было заложено 3 принципа:

1️⃣Необходимо вовлекать живых людей в процесс взаимодействия с моделью — такую оценку нельзя автоматизировать условно промптами и скриптами. Поэтому в рамках тестирования было отобрано 100 человек (50 экспертов с PhD по биологии и опытом работы в лаборатории и 50 студентов, имевших за плечами хотя бы 1 курс биологии).
2️⃣Участники должны опираться на полный спектр навыков модели — поэтому всем предоставили материалы с описанием типичных проблем LLM, продвинутых техник промптинга и примеров того, на что модели способны
3️⃣Нужно оценивать не модель в вакууме, а улучшение, которое она привносит в процесс разработки биооружия по отношению к публично доступной информации. В данном случае 50 учатсников получали доступ к интернету и не использовали LLM, а другие 50 общались со специальной версией GPT-4, которая была переобучена так, чтобы не отказываться предоставлять потенциально опасную информацию. К сожалению, у неё самой была отключена возможность гуглить — это нужно было делать человеку.

Всего в процессе разработки выделяется 5 стадий, от планирования, через исследование и синтез к распространению. Специалисты из отдельной организации подготовили 5 задач (по одному на каждую стадию. Ими, конечно, не делятся), которые ложатся в эту систему, и для каждого прописали чёткие критерии разбалловки от 1 до 10 по пяти метрикам, чтобы можно было оценить успешность выполнения каждого шага. Эти метрики: точность и полнота описания, новаторство в решении, затраченное время и субъективная сложность, проставляемая исполнителем. Новаторство почти не встречалось, и дальше мы сфокусируемся на первых двух метриках — остальные менее интересны.

При такой оценке точность описания процессов изготовления биооружия с LLM выросла в среднем на всех 5 этапах на 0.88 балла для экспертов и 0.25 для студентов. Полнота — на 0.82 и 0.41 соответственно. Это не является статистически значимым результатом, так как в каждой когорте по сути всего 25 человек, однако OpenAI уверены, что замер стандартным статистическим тестом здесь не совсем уместен. Например, нам может быть интереснее количество людей, получающих оценку больше 8 на каждом из этапов.
Please open Telegram to view this post
VIEW IN TELEGRAM
И эта цифра существенно (и всё еще статистически незначимо...) растёт — это можно увидеть в табличке.

Среди экспертов без опоры на LLM 3, 4 и 5 этапы задания прошли на более чем 8 баллов 0, 1 и 1 человек соответственно. То есть как будто можно сказать, что они бы не справились со всем процессом от и до. В то время как при использовании LLM эти цифры уже отрываются от нуля и достигают 3, 4, 5.

Если немножечко искажать информацию, то можно сказать, что количество экспертов, которые аккуратно описали бы процесс синтеза и распространения биооружия с LLM вырастает в 4 раза. Искажение в том, что и выборки маленькие, и одна из стадий (Magnification, наращивание объема токсичного агента для достижения опасного объема) без LLM вообще не проходится, но это не значит, что большая выборка также показала бы нуль.

По-моему, это самая главная таблица из исследования, которую стоит держать в уме — то есть эксперты становятся куда более эффективными в выполнении задач, и какие-то затыки, с которыми не могут справиться просто с опорой на интернет, с LLM они уже преодолевают.

Интересный факт: оказалось, что Интернет-ресурсы содержат куда более опасный контент, чем предполагали в OpenAI. Там уже можно найти пошаговые методологии и советы по решению проблем, связанных с разработкой биологически опасных агентов.

Успокаивающий факт: несмотря на то, что способность описать на пару с GPT-4 процесс с учётом нюансов улучшается, всё еще остаются проблемы реального мира: работа в лаборатории, оборудование, гос. контроль и регуляции оборота разных веществ.

Рандомный факт: всего на задачи исполнителям было выделено 5 часов, и они работали не из дома, а под наблюдением специалистов (но без вмешательства). Топик очень деликатный, отбор участников был строгим — чтобы ни дай бог кто не решил использовать обретённые знания или уж тем более постараться выбить все десятки как оценки своего домашнего решения)
Я конечно в шоке от ситуации с Elon Musk

На днях суд вынес поставновление о том, что согласованный 6 лет назад директорами и держателями акций пакет компенсации для CEO компании надо отменить — потому что якобы Elon имел влияние на совет директоров, а shareholders не до конца понимали систему оплаты.

Что это была за система? Ну, надо было увеличить капитализацию Tesla с $50B до $650B — тогда СЕО получит пакет на $55B. Были минорные промежуточные майлстоуны, но финальная точка вот такая, очень амбициозная.

Прикладываю скриншоты статьи NYT в момент заключения договора — там пишут, что это «цифра, которую многие эксперты считают смехотворно невозможной» и даже «критики будут утверждать, что новый план компенсации — это всего лишь последний рекламный ход компании». Все смеялись и говорили, что это бред, так и никто не делает, и сам план глупый, и невозможный.


И ВОТ ВЫПОЛНИВ ЭТУ ЦЕЛЬ ОН....НЕ ПОЛУЧАЕТ КОМПЕНСАЦИЮ. Причём насколько я могу судить по доступной информации — доказательства манипуляций или давления нет, это ощущение судьи.

Then: “this shit is so hard good luck Elon!”
Now: “it was always rigged for him! Unfair!”

👀

P.S.: хорошая новость в том, что многие капиталисты не довольны таким раскладом и начинают поднимать обсуждение, правда не ясно, чем это может кончиться. Но ситуация — бред.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM