Сиолошная
Взгляд из прошлого: Elon Musk делится фотографиями ранних OpenAI в момент, когда CEO Nvidia подарил команде DGX-1 (сервер с 8 видеокартами для обучения нейросетей). Я к такому серверу имел честь прикасаться (заказывали и устанавливали в X5, эх, было время).…
8 лет спустя: Jensen доставляет первый в мире DGX H200 "to advance AI, computing, and humanity" компании OpenAI
В этом ящичке мощи для обучения нейронок больше, чем у самого мощного суперкомпьютера в мире ~11 лет назад (этот или этот) в сумме (а ведь они занимали целый машинный зал!). А дальше - только больше: этот готов, и ещё 200 тысяч на подходе!
Источник (GDB, мужик справа)
В этом ящичке мощи для обучения нейронок больше, чем у самого мощного суперкомпьютера в мире ~11 лет назад (этот или этот) в сумме (а ведь они занимали целый машинный зал!). А дальше - только больше: этот готов, и ещё 200 тысяч на подходе!
Источник (GDB, мужик справа)
This media is not supported in your browser
VIEW IN TELEGRAM
Года три назад активно развивалась область нейрорендеринга или NeRF'ов — это когда нейронка (или как оказалось впоследствии, не обязательно нейронка) выучивает 3D-представление сцены из нескольких кадров с разных ракурсов, а затем может нарисовать любой новый ракурс, которого до этого не было. Время шло, технологии развивались: некоторые методы вообще позволяли делать реконструкцию по одному кадру, другие позволяли воссоздавать видео (то есть четыерёхмерное пространство, с осью времени), третьи могли редактировать сцены, например, меняя день на ночь (или направление освещения).
На смену NeRF'ам пришел Gaussian Splatting. Что это такое я рассказывать не буду (потому что сам не знаю, кек), но по сути он делает то же самое, только качественнее и быстрее. Увидел с ними вот такую демку, как записанное с разных ракурсов видео переводится в анимированную 3D-модель, которую можно вставлять в разные декорации. Ещё раз отмечу: большая часть ракурсов тут не была видна камерам, они воссоздаются на лету. Можно делать пролёты итд, без затрат на это в реальном мире.
Лично мне очень напомнило брейндансы из киберпанка (пример глянуть тут) — осталось только придумать, как это транслировать умнее, чем просто показывать на экране. Тоже можно свободно летать по сцене, перематывать время, рассматривать детали.
Интересно, какое отражение подобные технологии могут найти в киноиндустрии (или хотя бы в любительских видео на ютубе) — если вы видели что-то по теме, скиньте пж в комменты!
На смену NeRF'ам пришел Gaussian Splatting. Что это такое я рассказывать не буду (потому что сам не знаю, кек), но по сути он делает то же самое, только качественнее и быстрее. Увидел с ними вот такую демку, как записанное с разных ракурсов видео переводится в анимированную 3D-модель, которую можно вставлять в разные декорации. Ещё раз отмечу: большая часть ракурсов тут не была видна камерам, они воссоздаются на лету. Можно делать пролёты итд, без затрат на это в реальном мире.
Лично мне очень напомнило брейндансы из киберпанка (пример глянуть тут) — осталось только придумать, как это транслировать умнее, чем просто показывать на экране. Тоже можно свободно летать по сцене, перематывать время, рассматривать детали.
Интересно, какое отражение подобные технологии могут найти в киноиндустрии (или хотя бы в любительских видео на ютубе) — если вы видели что-то по теме, скиньте пж в комменты!
Это чё, я уже таким старым стал...
(
((
Please open Telegram to view this post
VIEW IN TELEGRAM
Retrieval Head Mechanistically Explains Long-Context Factuality
В архитектуре трансформера есть «головы внимания», на каждом слое их одинаковое количество штук. Эти головы отвечают за то, чтобы перевзвешивать важность слов в контексте: вместо того, чтобы смотреть на тысячи слов за раз модель как бы зануляет большую часть из них, и размазывает 100% внимания лишь по нескольким токенам.
Например, есть голова внимания, которая всегда смотрит только на предыдущее слово, как бы позволяя нейронке опереться на него при генерации. Есть головы, делающие более сложные операции — выявление действующих лиц для местоимений («кошка гуляла, она шла медленно» -> «она» - это кошка). Ничего из этого не программируется вручную — модель во время обучения сама понимает, когда, как и на что смотреть, и изобретает разные алгоритмы.
В рамках науки об интерпретируемости учёные пытаются понять, как учится трансформер, что именно он понимает и как именно работают отдельные механизмы на основе голов внимания. В значимой степени это лишь теория, которая однако имеет огромные перспективы для применения в практике за счёт получения ответов на вопросы в духе «почему модель ошиблась?» или «соврала ли LLM?».
И вот данная работа — как раз такая, она на стыке оптимизации длинного контекста в LLM и интерпретируемости. Для того, чтобы понять текст дальше, нужно прочитать пост <https://t.me/seeallochnaya/1135> с объяснением принципа теста «иголка в стоге сена».
Авторы придумали критерий, по которому научились определять retrieval heads, которые позволяют копировать модели части промпта. Представьте, что у вас есть 5 страниц текста, и вы в рамках ответа на вопрос приводите цитату: для этого мусолите палец, ставите его на нужное место на странице и двигаете вправо как указатель, и вслед за этим записываете ответ. Вот так и работают эти головы, позволяя модели не сбиваться. Но важно это в очень широком круге задач, особенно в тех, где модель обязана следовать за инструкцией в промпте на 20 страниц — ведь если задуматься это тоже задача поиска: «какое правило тут применить?».
Проанализировав разные семейства моделей (Llama 2, Mistral, Qwen), обнаружили, что такие головы занимают ~5% (~50) от примерно тысячи голов в модели. Их прям конкретно смогли выписать: вот эта вот, с таким то номером. Если их начать отключать (занулять, не давать им смотреть на контекст) — то внезапно модели перестают читать контекст и теряются, их качество существенно падает на задаче поиска иголки в стоге сена. Ещё такой же результат наблюдается на решении математических задач с рассуждением (ведь теперь в них нельзя подсмотреть), а вот качество ответов на вопросы, связанные с чистым знанием не меняется (потому что из контекста не нужно ничего выписывать).
Итак, почему это важно для практики? Когда LLM используется для генерации текста, то для всех предыдущих слов считается огромный тензор вещественных чисел, хранящий информацию о том, что было написано (именно в нём головы внимания находят то, что им нужно). Такой KV-cache для модели LLAMA 2 7B для 100к токенов весит 50 гигабайт. Маленькая модель, контекст не то чтобы очень большой (у Google Gemini вон вообще миллион), и ЦЕЛЫХ 50 ГИГОВ.
В этих гигах как раз таки хранится информация для разных наборов голов. И если мы знаем заранее, что нам нужна голова номер 15 в 10-ом слое — то мы можем сохранять только её, а остальное удалять. Конечно, лучше перестраховаться, и брать, скажем, 10-20% от всего множества — но это в 5-10 раз уменьшает потребление памяти, а значит позволяет и существенно ускорить работу, и уменьшить требования к железу.
Очень жду этой фичи из коробки в большинстве фреймворков, реально очень круто.
В архитектуре трансформера есть «головы внимания», на каждом слое их одинаковое количество штук. Эти головы отвечают за то, чтобы перевзвешивать важность слов в контексте: вместо того, чтобы смотреть на тысячи слов за раз модель как бы зануляет большую часть из них, и размазывает 100% внимания лишь по нескольким токенам.
Например, есть голова внимания, которая всегда смотрит только на предыдущее слово, как бы позволяя нейронке опереться на него при генерации. Есть головы, делающие более сложные операции — выявление действующих лиц для местоимений («кошка гуляла, она шла медленно» -> «она» - это кошка). Ничего из этого не программируется вручную — модель во время обучения сама понимает, когда, как и на что смотреть, и изобретает разные алгоритмы.
В рамках науки об интерпретируемости учёные пытаются понять, как учится трансформер, что именно он понимает и как именно работают отдельные механизмы на основе голов внимания. В значимой степени это лишь теория, которая однако имеет огромные перспективы для применения в практике за счёт получения ответов на вопросы в духе «почему модель ошиблась?» или «соврала ли LLM?».
И вот данная работа — как раз такая, она на стыке оптимизации длинного контекста в LLM и интерпретируемости. Для того, чтобы понять текст дальше, нужно прочитать пост <https://t.me/seeallochnaya/1135> с объяснением принципа теста «иголка в стоге сена».
Авторы придумали критерий, по которому научились определять retrieval heads, которые позволяют копировать модели части промпта. Представьте, что у вас есть 5 страниц текста, и вы в рамках ответа на вопрос приводите цитату: для этого мусолите палец, ставите его на нужное место на странице и двигаете вправо как указатель, и вслед за этим записываете ответ. Вот так и работают эти головы, позволяя модели не сбиваться. Но важно это в очень широком круге задач, особенно в тех, где модель обязана следовать за инструкцией в промпте на 20 страниц — ведь если задуматься это тоже задача поиска: «какое правило тут применить?».
Проанализировав разные семейства моделей (Llama 2, Mistral, Qwen), обнаружили, что такие головы занимают ~5% (~50) от примерно тысячи голов в модели. Их прям конкретно смогли выписать: вот эта вот, с таким то номером. Если их начать отключать (занулять, не давать им смотреть на контекст) — то внезапно модели перестают читать контекст и теряются, их качество существенно падает на задаче поиска иголки в стоге сена. Ещё такой же результат наблюдается на решении математических задач с рассуждением (ведь теперь в них нельзя подсмотреть), а вот качество ответов на вопросы, связанные с чистым знанием не меняется (потому что из контекста не нужно ничего выписывать).
Итак, почему это важно для практики? Когда LLM используется для генерации текста, то для всех предыдущих слов считается огромный тензор вещественных чисел, хранящий информацию о том, что было написано (именно в нём головы внимания находят то, что им нужно). Такой KV-cache для модели LLAMA 2 7B для 100к токенов весит 50 гигабайт. Маленькая модель, контекст не то чтобы очень большой (у Google Gemini вон вообще миллион), и ЦЕЛЫХ 50 ГИГОВ.
В этих гигах как раз таки хранится информация для разных наборов голов. И если мы знаем заранее, что нам нужна голова номер 15 в 10-ом слое — то мы можем сохранять только её, а остальное удалять. Конечно, лучше перестраховаться, и брать, скажем, 10-20% от всего множества — но это в 5-10 раз уменьшает потребление памяти, а значит позволяет и существенно ускорить работу, и уменьшить требования к железу.
Очень жду этой фичи из коробки в большинстве фреймворков, реально очень круто.
Визуализация того, как работает одна голова внимания.
У нас есть длинный-длинный текст, а в его середину вставлена иголка: предложение про Сан-Франциско и сэндвич. Это предложение не имеет никакого отношения к контексту.
И вот когда мы задаём модели вопрос, то она смотрит в контекст и определяет, что ответ содержится вот в этой вставке. Для всех остальных слов синяя колонка (= количество внимания) около нуля, а для текущего слова, которое модель хочет выписать в рамках ответа, куда больше.
У нас есть длинный-длинный текст, а в его середину вставлена иголка: предложение про Сан-Франциско и сэндвич. Это предложение не имеет никакого отношения к контексту.
И вот когда мы задаём модели вопрос, то она смотрит в контекст и определяет, что ответ содержится вот в этой вставке. Для всех остальных слов синяя колонка (= количество внимания) около нуля, а для текущего слова, которое модель хочет выписать в рамках ответа, куда больше.
Но и это ещё не всё!
Одна из больших задач в интерпретируемости — это определить, когда модели врут (обманывают) или галлюцинируют.
И вот оказывается, что если заранее определённые головы внимания (старые добрые retrieval heads, которые мы вот только что научились находить) смотрят на одни и те же слова — то всё ок, ответ выписан по тексту. А если они обращены к первому токену (такое обычно называется «слив», когда модели нужно куда-то да посмотреть, но она не хочет — и просто тупит в начало текста) — то значит модель не опиралась на контекст для ответа.
[16-19, 11-15 и другие числа на картинке — это как раз конкретные головы внимания, их номера, за которыми мы следим для определения типа поведения]
Эксплуатируя развитие этой техники можно либо существенно уменьшить количество галлюцинаций, либо ввести какую-то лампочку, которая загорается и говорит пользователю: «скорее всего этот ответ выдуман и является неправильным» (если мы явно хотели добиться обратного).
Одна из больших задач в интерпретируемости — это определить, когда модели врут (обманывают) или галлюцинируют.
И вот оказывается, что если заранее определённые головы внимания (старые добрые retrieval heads, которые мы вот только что научились находить) смотрят на одни и те же слова — то всё ок, ответ выписан по тексту. А если они обращены к первому токену (такое обычно называется «слив», когда модели нужно куда-то да посмотреть, но она не хочет — и просто тупит в начало текста) — то значит модель не опиралась на контекст для ответа.
[16-19, 11-15 и другие числа на картинке — это как раз конкретные головы внимания, их номера, за которыми мы следим для определения типа поведения]
Эксплуатируя развитие этой техники можно либо существенно уменьшить количество галлюцинаций, либо ввести какую-то лампочку, которая загорается и говорит пользователю: «скорее всего этот ответ выдуман и является неправильным» (если мы явно хотели добиться обратного).
Сиолошная
Но и это ещё не всё! Одна из больших задач в интерпретируемости — это определить, когда модели врут (обманывают) или галлюцинируют. И вот оказывается, что если заранее определённые головы внимания (старые добрые retrieval heads, которые мы вот только что…
Please open Telegram to view this post
VIEW IN TELEGRAM
На самом деле, если вы разбираетесь в технологиях [прим.: Paul использует это слово в широком смысле, не обязательно в рамках IT], легко находить идеи для стартапа. Если вы хорошо разбираетесь в какой-то технологии, то, глядя на мир, вы видите пунктирные контуры вокруг недостающих вещей. Вы начинаете видеть как то, чего не хватает в самой технологии, так и все сломанные вещи, которые можно исправить с ее помощью, и каждое из них является потенциальным стартапом.
Рядом с нашим домом есть магазин с табличкой, предупреждающей, что дверь туго закрывается. Этот знак стоит там уже несколько лет. Людям в магазине должно показаться загадочным природным явлением, что дверь застревает, и все, что они могут сделать, это повесить табличку, предупреждающую покупателей об этом. Но любой плотник, глядя на эту ситуацию, подумает: «Почему бы вам просто не отстругать ту часть, которая вызывает фрикцию?»
— из мартовского эссе How to start Google
То же верно для Google. Larry и Sergey поначалу не пытались основать компанию. Они просто пытались улучшить поиск. До Google большинство поисковых систем не пытались сортировать результаты, которые они вам выдавали, в порядке важности. Если вы искали «регби», вам просто выдавались все веб-страницы, содержащие слово «регби». А в 1997 году сеть была настолько маленькой, что это действительно работало! Ну вроде. Там могло быть всего 20 или 30 страниц со словом «регби», но сеть росла в геометрической прогрессии, а это означало, что этот способ поиска становился все более сломанным. Большинство пользователей просто думали: «Ух ты, мне точно придется просмотреть множество результатов поиска, чтобы найти то, что я хочу». Дверь туго закрывается.
Рядом с нашим домом есть магазин с табличкой, предупреждающей, что дверь туго закрывается. Этот знак стоит там уже несколько лет. Людям в магазине должно показаться загадочным природным явлением, что дверь застревает, и все, что они могут сделать, это повесить табличку, предупреждающую покупателей об этом. Но любой плотник, глядя на эту ситуацию, подумает: «Почему бы вам просто не отстругать ту часть, которая вызывает фрикцию?»
— из мартовского эссе How to start Google
То же верно для Google. Larry и Sergey поначалу не пытались основать компанию. Они просто пытались улучшить поиск. До Google большинство поисковых систем не пытались сортировать результаты, которые они вам выдавали, в порядке важности. Если вы искали «регби», вам просто выдавались все веб-страницы, содержащие слово «регби». А в 1997 году сеть была настолько маленькой, что это действительно работало! Ну вроде. Там могло быть всего 20 или 30 страниц со словом «регби», но сеть росла в геометрической прогрессии, а это означало, что этот способ поиска становился все более сломанным. Большинство пользователей просто думали: «Ух ты, мне точно придется просмотреть множество результатов поиска, чтобы найти то, что я хочу». Дверь туго закрывается.
Forwarded from Техасский Вестник
С пылу с жару апдейт от NASA по текущему состоянию дозаправки на орбите для Starship.
Архитектура миссии:
- Первым стартует корабль для заправки, который будет висеть на орбите в ожидании. У него будет активная система для стыковки, но будет *относительно* простая система для навигации сближения без дополнительного оборудования.
- Вторым полетит сам заправщик. У него пассивная система для стыковки, но именно он будет проводить операцию по сближению.
- Тест перекачки и затем импульс на торможение для каждого корабля.
На самом деле интересно, что SpaceX для этой миссии разделяет наборы сенсоров и оборудования. Но на это есть причины. Обычно, более тяжёлый объект является целью, а более лёгкий корабль проводит навигацию и стыковку.
Аккуратное предположение, что заправщик в этой версии будет достаточно лёгким, а не полноценным танкером. Летит он во вторую очередь, тк проблемы с испарением на орбите не решены и висеть долго он не может. Именно поэтому он и будет проводить операцию по сближению, а не наоборот. И в данном случае нормально, что активный стыковочный узел будет именно у первого корабля, который выступает в роли цели.
Другой момент, какое у миссии будет время и насколько большая разница между первыми двумя полётами. Если оно будет большим, то возможно перекачивать будут отдельно и метан и кислород (что не звучит правдоподобно с точки зрения архитектуры). Но тогда из каких запасов горючего будет проводить тормозной манёвр для схода первый корабль? Любопытно увидеть прогнозы по закипанию горючего для первого корабля.
Тест с двумя кораблями ожидается в 2025 году. Также закончилось ревью для демонстрации по перекачке топлива во время IFT-3. SpaceX признали миссию успешной. Вперед доработка и все связанные процессы с сертификацией оборудования для демо.
Архитектура миссии:
- Первым стартует корабль для заправки, который будет висеть на орбите в ожидании. У него будет активная система для стыковки, но будет *относительно* простая система для навигации сближения без дополнительного оборудования.
- Вторым полетит сам заправщик. У него пассивная система для стыковки, но именно он будет проводить операцию по сближению.
- Тест перекачки и затем импульс на торможение для каждого корабля.
На самом деле интересно, что SpaceX для этой миссии разделяет наборы сенсоров и оборудования. Но на это есть причины. Обычно, более тяжёлый объект является целью, а более лёгкий корабль проводит навигацию и стыковку.
Аккуратное предположение, что заправщик в этой версии будет достаточно лёгким, а не полноценным танкером. Летит он во вторую очередь, тк проблемы с испарением на орбите не решены и висеть долго он не может. Именно поэтому он и будет проводить операцию по сближению, а не наоборот. И в данном случае нормально, что активный стыковочный узел будет именно у первого корабля, который выступает в роли цели.
Другой момент, какое у миссии будет время и насколько большая разница между первыми двумя полётами. Если оно будет большим, то возможно перекачивать будут отдельно и метан и кислород (что не звучит правдоподобно с точки зрения архитектуры). Но тогда из каких запасов горючего будет проводить тормозной манёвр для схода первый корабль? Любопытно увидеть прогнозы по закипанию горючего для первого корабля.
Тест с двумя кораблями ожидается в 2025 году. Также закончилось ревью для демонстрации по перекачке топлива во время IFT-3. SpaceX признали миссию успешной. Вперед доработка и все связанные процессы с сертификацией оборудования для демо.
В пилотном выпуске сериала The Last of Us про зомби придумали такую подводку к апокалипсису (видео): мол, существуют грибки, которые заражают насекомых, паразитируют и берут их под контроль (такие и вправду есть). Но они не выживают, если температура тела организма выше определённого порога — и потому не действуют на людей. Но вот если у грибка появится естественный позыв эволюционировать, скажем, из-за глобального потепления — то это может измениться...
Новость The Economist: комары, распространяющие лихорадку Денге, очень чувствительны к температуре, и с глобальным потеплением увеличивают ареал обитания. В этом году случаев заражения в Латинской Америке и на Карибах уже больше, чем во всём 2023-м, хотя прошлый год сам по себе тоже был рекордсменом.
Моделирование показывает, что при нынешних тенденциях изменения климата переносчики распространятся на большую часть южной Европы и Соединенных Штатов, подвергая риску заражения еще 2 миллиарда человек.
Также из новости узнал, что в Сингапуре с 2016-го года для борьбы делают следующее: размножают комаров, заражают их специальной бактерией, которая не позволяет им и их потомкам переносить заболевание — и отпускают на волю. Каждую неделю — по 5 миллионов комаров! А программа стоит всего $35M/год.
Новость The Economist: комары, распространяющие лихорадку Денге, очень чувствительны к температуре, и с глобальным потеплением увеличивают ареал обитания. В этом году случаев заражения в Латинской Америке и на Карибах уже больше, чем во всём 2023-м, хотя прошлый год сам по себе тоже был рекордсменом.
Моделирование показывает, что при нынешних тенденциях изменения климата переносчики распространятся на большую часть южной Европы и Соединенных Штатов, подвергая риску заражения еще 2 миллиарда человек.
Также из новости узнал, что в Сингапуре с 2016-го года для борьбы делают следующее: размножают комаров, заражают их специальной бактерией, которая не позволяет им и их потомкам переносить заболевание — и отпускают на волю. Каждую неделю — по 5 миллионов комаров! А программа стоит всего $35M/год.
Из вот этого видео узнал про интересный эксперимент NASA от 1984-го года, Long Duration Exposure Facility. Он представлял собой цилиндрическую установку, предназначенную для предоставления долгосрочных экспериментальных данных о космической среде и ее влиянии на космические системы, материалы и выживаемость разных видов спор.
Эта штука выводилась на орбиту Шаттлом (они уже тогда были!), чуть выше чем МКС (480 КМ), и по плану через годик он же должен был аккуратно снять LDEF с орбиты и вернуть на Землю.
Картинка 1 — вывод на орбиту, картинка 2 — забор, картинка 3 — Шаттл «Columbia» вместе с забранным грузом перевозят в другое место (каждый раз удивляюсь, как вижу фотки Шаттлов на самолётах).
Изначально LDEF должна была повисеть на орбите год, но по разным обстоятельствам миссии откладывались, и в итоге за ней вернулись лишь через 69 месяцев (nice). Штука в том, что станция содержала какой-то очень странный механизм (gravity-gradient stabilization), который заменил двигательную установку или другие системы ориентации. Все 5 лет станция была в стационарном состоянии, без вращения вокруг своих осей, и направлена одной стороной к Земле, другой от неё — чтобы разные эксперименты на разных сторонах тушки получали ровно отмеренные дозы.
Главной целью миссии было лучше понять влияние радиации, атмосферы, Солнца и маленьких метеоритов на материалы, потенциально предназначенные для разработки крупных космических станций. Именно эти данные ложились в основу при проектировании МКС и проектов других, даже никогда не полетевших, станций.
Эта штука выводилась на орбиту Шаттлом (они уже тогда были!), чуть выше чем МКС (480 КМ), и по плану через годик он же должен был аккуратно снять LDEF с орбиты и вернуть на Землю.
Картинка 1 — вывод на орбиту, картинка 2 — забор, картинка 3 — Шаттл «Columbia» вместе с забранным грузом перевозят в другое место (каждый раз удивляюсь, как вижу фотки Шаттлов на самолётах).
Изначально LDEF должна была повисеть на орбите год, но по разным обстоятельствам миссии откладывались, и в итоге за ней вернулись лишь через 69 месяцев (nice). Штука в том, что станция содержала какой-то очень странный механизм (gravity-gradient stabilization), который заменил двигательную установку или другие системы ориентации. Все 5 лет станция была в стационарном состоянии, без вращения вокруг своих осей, и направлена одной стороной к Земле, другой от неё — чтобы разные эксперименты на разных сторонах тушки получали ровно отмеренные дозы.
Главной целью миссии было лучше понять влияние радиации, атмосферы, Солнца и маленьких метеоритов на материалы, потенциально предназначенные для разработки крупных космических станций. Именно эти данные ложились в основу при проектировании МКС и проектов других, даже никогда не полетевших, станций.
Вчера на LMSYS Arena (место, где живые люди вслепую сравнивают генерации разных LLM и выбирают лучшую) появилась странная модель:
Предлагаю вам самим поиграться тут: https://chat.lmsys.org/ (вкладка Direct Chat, там выбрать модель в выпадающем списке). Ограничение всего 8 сообщений в сутки, пользуйтесь с умом (или используйте VPN и режим инкогнито, кек).
На реддите люди тестируют свои задачки, которые якобы не решаются моделями предыдущих поколений, а эта либо щелкает, либо куда ближе к ответу, чем остальные. Треды почитать: 1, 2, 3.
Мой опыт:
— я дал ей простую задачку
— с таким же промптом (и даже с уточнениями) GPT-4-Turbo выдала лишь чб-рендер одного объекта, в куда менее удобном стиле написания кода. Тут не получилось быстро добавить на сцену объектов, в то время как у обсуждаемой модели всё было очень круто организовано.
— ещё по паре вопросов я заметил, что модель то ли делает паузы (особенно в начале), то ли просто зависает интернет-соединение. Возможно, под капотом есть Retrieval по интернету — и модель опирается на что-то со страниц из поисковика. Пока на Арене всего одна модель ходит в интернет (гугловский Бард), может, аугментировали GPT-4🤷♂️
Что можно сказать про модель:
— Вот тут ребята сделали быстрое тестирование. Модель утверждает, что её сделали OpenAI, она ведётся на те же ловушки странных-редких токенов, на которые ведутся их модели (а другие модели — нет, потому что у них другой набор токенов). Скорее всего, это не просто дообученная LLAMA-3 или какая-то другая модель.
— На Arena для неё используют тот же системный промпт, что и для последней GPT-4-Turbo
— пользователи сравнивали ASCII-арт, просили нарисовать единорога, и модель давала такой же ответ, как и ChatGPT. Причём именно такой же единорог есть в интернете — либо модель его нашла и срисовала, либо выучила наизусть во время тренировки, и теперь воспроизводит. А какие-то рисует лучше🤷♂️
— формат ответа очень напоминает формат ответа Gemini, расписывает всё по пунктам и подпунктам. Мне код, например, писала в 5 или 6 этапов.
— некоторые пользователи говорят, что им ответы модели нравятся теперь меньше(🔫
Короче, очень интересно, чем окажется модель, и когда это вскроется. И тем более какое у неё будет место на лидерборде. Поживём — увидим!
Но просто напомню, что GPT-4 была запущена как часть Bing Chat за 5 недель до официального анонса 🤡 а потом все такие «вау!»
Пишите в комменты про ваш опыт использования 👇 только не выбирайте слишком сложные задачи, модель прям не настолько лучше, чтобы претендовать на звание AGI.
gpt2-chatbot
. И несмотря на то, что по названию можно подумать о слабости модели, она, внезапно, очень хороша. Настолько, что люди гадают, кто же её сделал, является ли это GPT-4.5 / 5, или может это свежий релиз Gemini Ultra 2.0.Предлагаю вам самим поиграться тут: https://chat.lmsys.org/ (вкладка Direct Chat, там выбрать модель в выпадающем списке). Ограничение всего 8 сообщений в сутки, пользуйтесь с умом (или используйте VPN и режим инкогнито, кек).
На реддите люди тестируют свои задачки, которые якобы не решаются моделями предыдущих поколений, а эта либо щелкает, либо куда ближе к ответу, чем остальные. Треды почитать: 1, 2, 3.
Мой опыт:
— я дал ей простую задачку
Show me an example of 3d ray tracing (with python). Set a simple scene, different light sources, etc.
и получил полностью работающий код (в 2 или 3 ответа) с первого раза. Он учитывал материал объектов, включая цвет и уровень отражения. У меня получилось отрисовать сферу, на которой было два блика от двух источников света. После я попросил добавить поддержку не только сферы, но любой произвольной 3D-модели. Это заработало со второго раза — новонаписанный код был правильным, но оказалось, что нужно слегка изменить предыдущий. Скормив ошибку, получил работающее решение — и немного покрутив камеру увидел, что движок даже отражения от поверхностей учитывает!— с таким же промптом (и даже с уточнениями) GPT-4-Turbo выдала лишь чб-рендер одного объекта, в куда менее удобном стиле написания кода. Тут не получилось быстро добавить на сцену объектов, в то время как у обсуждаемой модели всё было очень круто организовано.
— ещё по паре вопросов я заметил, что модель то ли делает паузы (особенно в начале), то ли просто зависает интернет-соединение. Возможно, под капотом есть Retrieval по интернету — и модель опирается на что-то со страниц из поисковика. Пока на Арене всего одна модель ходит в интернет (гугловский Бард), может, аугментировали GPT-4
Что можно сказать про модель:
— Вот тут ребята сделали быстрое тестирование. Модель утверждает, что её сделали OpenAI, она ведётся на те же ловушки странных-редких токенов, на которые ведутся их модели (а другие модели — нет, потому что у них другой набор токенов). Скорее всего, это не просто дообученная LLAMA-3 или какая-то другая модель.
— На Arena для неё используют тот же системный промпт, что и для последней GPT-4-Turbo
— пользователи сравнивали ASCII-арт, просили нарисовать единорога, и модель давала такой же ответ, как и ChatGPT. Причём именно такой же единорог есть в интернете — либо модель его нашла и срисовала, либо выучила наизусть во время тренировки, и теперь воспроизводит. А какие-то рисует лучше
— формат ответа очень напоминает формат ответа Gemini, расписывает всё по пунктам и подпунктам. Мне код, например, писала в 5 или 6 этапов.
— некоторые пользователи говорят, что им ответы модели нравятся теперь меньше(
Короче, очень интересно, чем окажется модель, и когда это вскроется. И тем более какое у неё будет место на лидерборде. Поживём — увидим!
Пишите в комменты про ваш опыт использования 👇 только не выбирайте слишком сложные задачи, модель прям не настолько лучше, чтобы претендовать на звание AGI.
Please open Telegram to view this post
VIEW IN TELEGRAM
Увидел у Бобука новость (https://t.me/addmeto/5722) про готовящееся обновление Safari, мол, в него и блок рекламы добавят, и даже языковые модели для суммаризации страницы (а может ешё и для поиска) — и всё это прямо на устройстве пользователя, без доп. затрат на сервера и вычисления на каждый чих.
Кажется, разработчики Arc (https://t.me/seeallochnaya/1206) напряглись — у них как раз основные опасения, что 1) нет своего AI, всё через облако и третьи лица 2) на каждый чих нужно дёргать модельку, даже на самые простые и обыденные команды. В видео они уверяли, что «в гонке LLM/AI Apple сейчас отстаёт, и потому они могут пропустить окно возможностей, которое вот уже открыто» — может, так, может и нет, но не зря ведь Apple общается с компаниями, делающими AI? (например)
В общем, очень жду WWDC '24 (с 10-го июня), интересно, как оно выгорит, как покатит AI-фичи компания, СЕО которой на прошлой презентации ни разу словосочетание AI и не упомянул🤷♂️
Кажется, разработчики Arc (https://t.me/seeallochnaya/1206) напряглись — у них как раз основные опасения, что 1) нет своего AI, всё через облако и третьи лица 2) на каждый чих нужно дёргать модельку, даже на самые простые и обыденные команды. В видео они уверяли, что «в гонке LLM/AI Apple сейчас отстаёт, и потому они могут пропустить окно возможностей, которое вот уже открыто» — может, так, может и нет, но не зря ведь Apple общается с компаниями, делающими AI? (например)
В общем, очень жду WWDC '24 (с 10-го июня), интересно, как оно выгорит, как покатит AI-фичи компания, СЕО которой на прошлой презентации ни разу словосочетание AI и не упомянул
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
addmeto
По слухам, в новом сафари будет всё то, что появилось недавно в хипстерских браузерах: встроенная блокировка рекламы (кроме эппловой), встроенный суммаризатор страниц (работающий прямо на устройстве!) и разные другие важные штуки.
Причем, эппл, судя по скриншотам…
Причем, эппл, судя по скриншотам…
Уже несколько раз писал про LMSYS Arena (из неё кстати убрали gpt2-chatbot 🥲 ) — место, где вы вслепую сравниваете два ответа LLM на ВАШ запрос, и по тысячам таких сравнений строится оценка, какая модель лучше. Если живые люди стабильно предпочитают одну модель над другой на широком наборе запросов — можно говорить, что она лучше (по крайней мере в этом контексте).
Способ оценки неплохой, но очень накладной: нужно с одной стороны оплачивать API моделей/выпрашивать кредиты, а с другой нагонять трафик, а затем ждать, пока наберётся статистика. Если моделей всего 10-20, то проблем нет, но сейчас буквально каждый день появляется с десяток! Хочется как-то отфильтровать уж совсем мусор, и достойных кандидатов выпускать на Арену.
Делать это можно прогоном моделей по каким-то предварительным данным с последующей автоматической оценкой. Требований к датасету несколько:
1️⃣ возможность надежного разделения моделей разного уровня навыков
2️⃣ отражение человеческих предпочтений в реальных сценариях использования
3️⃣ должен обновляться со временем, чтобы свежие модели не могли переобучиться и показать результаты выше объективных
(в идеале ещё быстро & дешево, но тут как в анекдоте, выберите 2 из 3)
Вот именно с последним зачастую возникают проблемы, хоть и второй2️⃣ пункт тоже с полпинка не заведётся. Так, авторы Арены ещё год назад придумали MTBench: у них на руках были запросы пользователей, они посмотрели на частотность, и придумали 80 вопросов, по 10 в 8 категориях, которые якобы отражают распределение сообщений от людей. В качестве оценщика выступала GPT-4, исследователи проверили, насколько хорошо модель справляется с угадыванием мнений людей, насколько откалибровано её мнение и какие биасы заложены. Например, модель всегда поощряет более длинные ответы, а также безумно рада «своим» генерациям (то есть от GPT-4).
В итоге, MTBench какое-то время был хоть немного, но актуальным бенчмарком. Но сейчас, к сожалению, его оценка перестала удовлетворять как минимум первому1️⃣ требованию из списка — разделимость моделей. Вот GPT-4 имеет оценку 8.6 (из 10), Claude 3 Opus 8.6, другие модели около 8.1-8.2 болтаются — но ведь вопросов всего 80! И потому доверительные интервалы очень широкие, и нельзя надёжно сказать, что вот одно лучше другого. И никаих обновлений по3️⃣ не было. Как быть, кто виноват и что делать?
Способ оценки неплохой, но очень накладной: нужно с одной стороны оплачивать API моделей/выпрашивать кредиты, а с другой нагонять трафик, а затем ждать, пока наберётся статистика. Если моделей всего 10-20, то проблем нет, но сейчас буквально каждый день появляется с десяток! Хочется как-то отфильтровать уж совсем мусор, и достойных кандидатов выпускать на Арену.
Делать это можно прогоном моделей по каким-то предварительным данным с последующей автоматической оценкой. Требований к датасету несколько:
(в идеале ещё быстро & дешево, но тут как в анекдоте, выберите 2 из 3)
Вот именно с последним зачастую возникают проблемы, хоть и второй
В итоге, MTBench какое-то время был хоть немного, но актуальным бенчмарком. Но сейчас, к сожалению, его оценка перестала удовлетворять как минимум первому
Please open Telegram to view this post
VIEW IN TELEGRAM
Собственно, LMSYS почесали репу и придумали новый бенчмарк, Arena Hard v0.1
Ключевых метрики для сравнения с MTBench две:
1. Agreement. Дан запрос и ответы двух LLM. Вот человек выбрал первый или второй как более предпочтительный. В каком проценте случаев автоматическая система оценки будет совпадать с ответом кожаного?
2. Separability. Если мы выберем топ-20 моделей с Arena, то для какой доли пар между всеми моделями их получится разделить с учётом бутстрепа и построения 95%-ого доверительного интервала? (это как раз критерий1️⃣ из поста выше). На пальцах: если у нас 4 модели, то получается 6 пар. Когда мы сравниваем интервалы для этих моделей, то если они не пересекаются, и та модель, что выше в рейтинге по реальным человеческим оценкам, выше и тут — то это +1/6 (~16.6%, потому что 6 пар).
Agreement:
— MTBench 26.1%
— Arena-Hard-v0.1 89.1% (!) — это очень много, у людей-оценщиков между собой не всегда так сходятся оценки. Помню в работах OpenAI при создании датасетов для праотца ChatGPT сами исследователи соглашались друг с другом в ~83% случаев. А тут модель угадывает, что ответит человек, почти в 90%.
Separability:
— MTBench 22.6%
— Arena-Hard-v0.1 87.4% — то есть почти все модели можно разделить в том порядке, что есть сейчас. Это тоже высокий показатель, так как в целом не все модели отличаются. Уж между соседними версиями GPT-4-Turbo действительно может не быть огромной разницы, чтобы обнаружить её бенчмарком.
А как, собственно, собирались данные для оценки?
— Взяли 200'000 запросов от людей на Арене
— сделали кластеризацию по топикам, выделив больше 4000 штук
— использовали GPT-4-turbo для объединения в бОльшие группы (aka иерархическая кластериация)
— определили 7 критериев, по которым GPT-4 будет оценивать кластера. Там и сложность, и креативность, и насколько близко к реальным сценариям использования
— произвели оценку, отфильтровали шлак. Кластеры с более высокой оценкой часто соответствуют сложным темам или задачам по меркам LLM, таким как разработка игр или написание мат. доказательств.
— из оставшихся кластеров с оценкой 6-7 (из 7) выбрали 250 штук, из каждого по 2 запроса. Итого 500 промптов
— Модели пишут ответы на запросы. Затем GPT-4 оценивает сначала пару ответов от модели A и B, а затем наоборот — чтобы побороть предвзятость модели, мол, первый ответ чаще бывает лучше. Полный промпт ищите тут.
Ключевых метрики для сравнения с MTBench две:
1. Agreement. Дан запрос и ответы двух LLM. Вот человек выбрал первый или второй как более предпочтительный. В каком проценте случаев автоматическая система оценки будет совпадать с ответом кожаного?
2. Separability. Если мы выберем топ-20 моделей с Arena, то для какой доли пар между всеми моделями их получится разделить с учётом бутстрепа и построения 95%-ого доверительного интервала? (это как раз критерий
Agreement:
— MTBench 26.1%
— Arena-Hard-v0.1 89.1% (!) — это очень много, у людей-оценщиков между собой не всегда так сходятся оценки. Помню в работах OpenAI при создании датасетов для праотца ChatGPT сами исследователи соглашались друг с другом в ~83% случаев. А тут модель угадывает, что ответит человек, почти в 90%.
Separability:
— MTBench 22.6%
— Arena-Hard-v0.1 87.4% — то есть почти все модели можно разделить в том порядке, что есть сейчас. Это тоже высокий показатель, так как в целом не все модели отличаются. Уж между соседними версиями GPT-4-Turbo действительно может не быть огромной разницы, чтобы обнаружить её бенчмарком.
А как, собственно, собирались данные для оценки?
— Взяли 200'000 запросов от людей на Арене
— сделали кластеризацию по топикам, выделив больше 4000 штук
— использовали GPT-4-turbo для объединения в бОльшие группы (aka иерархическая кластериация)
— определили 7 критериев, по которым GPT-4 будет оценивать кластера. Там и сложность, и креативность, и насколько близко к реальным сценариям использования
— произвели оценку, отфильтровали шлак. Кластеры с более высокой оценкой часто соответствуют сложным темам или задачам по меркам LLM, таким как разработка игр или написание мат. доказательств.
— из оставшихся кластеров с оценкой 6-7 (из 7) выбрали 250 штук, из каждого по 2 запроса. Итого 500 промптов
— Модели пишут ответы на запросы. Затем GPT-4 оценивает сначала пару ответов от модели A и B, а затем наоборот — чтобы побороть предвзятость модели, мол, первый ответ чаще бывает лучше. Полный промпт ищите тут.
Please open Telegram to view this post
VIEW IN TELEGRAM