Сиолошная
45.7K subscribers
818 photos
152 videos
1 file
1K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Исследователи задаются тем же вопросом — вот что произойдёт, когда модель-судья, производящая оценку, будет не из стана OpenAI? Давайте попробуем с Claude 3 Opus, она ж вон тоже очень крутая!

В таком случае Agreement падает с 89.1% до 66.7%, что существенно. Separability просаживается мало, до 83.7%.

Но главный прикол — это что по мнению Opus'а свежая GPT-4-Turbo всё равно остаётся лучшей моделью, хоть и со слегка меньшей оценкой. Перед вами табличка, первая колонка — это отражение оценок с прошлого поста, вторая — доля побед, когда судит Opus, а третья — разница между ними.

Видно, что модель Anthropic хоть и пытается подыгрывать своим, сильно повышая им оценку (ожидаемо) — этого не хватает, чтобы перебить чемпиона 😎

Ну а так как версия бенчмарка 0.1, то, во первых, ждём расширения набора запросов, и, во вторых, его постоянное обновление, с доливкой свежих вопросов. И может ещё промпты немного улучшат, метрики подрастут.

===

Посмотреть все ответы и промпты можно тут. А здесь лежит код для того, чтобы самому тестировать модели (~25$ за запуск на кредиты OpenAI API)
Please open Telegram to view this post
VIEW IN TELEGRAM
🥲 после таких длинных серий постов задаюсь вопросом — почему это оседает в телеге, а не превращается в лонг на Habr 😪
Please open Telegram to view this post
VIEW IN TELEGRAM
A Careful Examination of Large Language Model Performance on Grade School Arithmetic

Работа Scale.ai по оценке переобученности отдельных моделей на популярный датасет Grade School Math 8k (задачи уровня начальной школе по математике). В каждой задаче от 2 до 8 действий с четырьмя базовыми операциями (+, −, ×, ÷) — никакого рокет саенса. Оригинальный датасет, кстати, готовили и публиковали OpenAI (аж в 2021-м!), и вот теперь компания, которая занимается для них разметкой, повторяет трюк.

Чтоб было нагляднее, вот пример задачи: Ли купил 6 акций Delta по цене 40 долларов за акцию. Если он хочет заработать 24 доллара на этой сделке, сколько должна стоить акция Delta, когда он ее продаст?

Логика такая: если модель показывает тот же результат на новых задачах, собранным по тем же критериям и с той же сложностью, то модель не запоминала конкретные задачи (то есть её разработчики тщательно отфильтровали датасет). Если же заметна просадка — значит, модель скорее всего уже видела данные из старого датасета, и может запомнить часть ответов.

Не буду перечислять всё, что сделали исследователи, однако отмечу, что они очень грамотно подошли к вопросу фильтрации своих данных, чтобы те максимально отражали качества исходного датасета. Например, берут старые модели, вышедшие до GSM8k, и смотрят, что те показывают не то что одинаковые доли правильных ответов — а даже что распределение вероятностей совпадает. И что люди решают одинаковый процент задач. Итого получилось 1250 штук.

Датасет останется приватным, чтобы на него не переобучались — никто не знает, что там за задачи и какие у них ответы (кроме 50 примеров из статьи, но они не участвуют в оценке, просто даны для сведения). Таким образом, по метрикам на нём можно будет бить себя в грудь и говорить ДА Я ДА МЫ ДА НАША МОДЕЛЬ РЕАЛЬНО ЛУЧШАЯ. Кстати, умный ход от компании, которая, кхм, занимается разметкой данных - делать приватные бенчмарки as a service и становиться индустриальным стандартом.
А теперь — к интересному, как на новой выборке ведут себя свежие модели.

TLDR:
— модели OpenAI не переобучены, у них оценка что на старом, что на новом наборе задач совпадает
— это же применимо к моделям Anthropic, они на новой выборке даже чуть лучше себя проявляют
— модели Mistral (включая Mixtral) и Phi (это которые обучаются на синтетике, сгенерированной GPT-шкой) - очень переобучены, и для них деградация метрик составляет около 8-10%. То есть на оригинальной выборке от OpenAI они, скажем, показывали 80%, а тут 70%
— свежая LLAMA 3 на 8B деградирует на 6%, однако старший брат 70B просаживается всего на 2%. Возможно, бОльшая модель генерализуется, и хоть и даёт ответы чуть-чуть лучше на старой выборке, на новой всё равно показывает сильный результат.
— при этом вот LLAMA 2 на 7B и 70B почти не отличаются, то есть для них такого эффекта не наблюдается
— модели Gemini переобучены совсем чуть-чуть, в целом всё честно.

TLTLDR от самих авторов:

Gemini, GPT, and Claude show little to no signs of overfitting

И это важно, так как многие начали оверфититься на бенчмарки, и может казаться, что да, вот, мы уже догнали OpenAI! (😀 расскажете)
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Я
Тэк, вижу нотки непонимания, давайте по другому.

Вот есть экзамен по истории. Вашей группе выдали 100 билетов для подготовки.
Кто-то сидел, зубрил ответы именно на них, кто-то просто читал учебник, доп. материалы и искренне интересовался историей.

В день экзамена приходит препод и говорит: «это пранк, на самом деле я буду спрашивать по новым 100 билетам. Ни один вопрос не пересекается со старой стопкой, но те, кто реально учил — у вас проблем не будет».

У тех, для кого билеты были лишь общим направлением, кто искренне интересуется предметом и изучает самостоятельно — у них трудностей не возникнет. Они и за те, и за эти билеты готовы пояснить.

А у довечника Васи, который только и запомнил, что «текст билета -> зазубренный ответ» (и то для половины) — у него произойдет оказия. Дай бог он сможет на троечку наскрести, вспомнив максимально похожий билет из первой сотни, по которой он готовился. Но вне этого у него знаний и понимания нуль.

===

Так и тут. Есть 8 тысяч задач старых, есть 1250 задач новых. Если LLM дает ответы одинаково хорошо и там, и тут — она понимает. Если она переобучилась на старые задачи — качество ответов упадёт. Не настолько сильно, как в примере с Васей (он то вообще ни бум-бум), но достаточно, чтобы заметить. Это и есть переобучение: когда модель показывает качество лучше на той выборке, что она видела, нежели на новой. Часть ответов/задач LLM запомнила, и ответ на них не является показателем навыков. Можно сказать, что нет обобщения.

В мире машинного обучения такое случается постоянно, поэтому обычно делают отложенную выборку, которую никогда не показывают модели (и в идеале по ней даже не принимают решения, что лучше а что хуже), а затем в конце проверяют, что всё ок.
Первое официальное музыкальное видео, сделанное с помощью OpenAI Sora:
Washed Out - The Hardest Part

Автор утверждает, что почти никакой постобработки нет, лишь самый минимум — зато сам ролик склеен из 55 отдельных кусочков (выходит по 4.4 секунды в среднем). А раньше всплыло, что одно из демо-видео, Air Head, оказывается сильно редактировалось — модель всё хотела нарисовать человека с головой, а не пустым местом (полная история тут).

Немного полистал комментарии, а там сразу:
— Раньше я был большим поклонником каждого альбома, слушал на рипите, покупал винил и т. д. Но я больше не могу поддерживать Washed Out. ИИ — это не просто инструмент для создания искусства, это замена художника. Я надеюсь, что Эрнест [музыкант], как творческий профессионал, это поймет. Я читал интервью, в котором он говорил, что у него было «видение» этой концепции видео в течение многих лет, но, по моему мнению, оно терпит неудачу - реальные актеры прониклись бы работой гораздо больше. Я просто не знаю… если это неизбежное будущее, думаю, я просто перевернусь и умру.

🕺 слушаем, танцуем и думаем о будущем 💃 делитесь в комментах 👇, кто где сколько голов и пальцев на руках насчитал
Please open Telegram to view this post
VIEW IN TELEGRAM
===Объявление===

В ближайшие 2 месяца мне потребуется помощь. Я немного устал делать презентации для лекций (именно слайды в PowerPoint), уже тяжело смотреть на них, искать картинки, итд. Поэтому я ищу себе помощника (одного), который может взять от меня верхнеуровневое описание и перебить в слайды. Описания достаточно точные, иногда оставляют простор для творчества.

В качестве примеров того, что я ожидаю от вас, можно посмотреть презентации моих открытых лекций:
1) GPTs-1
3) What's next for OpenAI
4) RLHF Intro

Примеры описаний, которые я буду давать (на самом деле вот прям эти нужны будут) вам на вход:
1) Problem Space VS Solution Space
2) Design document

Задача перебить описание в слайды 🙂 На английском языке. Часть я пишу по англ., часть — на русском, и тогда нужно будет переводить. Также в идеале кандидат должен понимать Machine Learning на уровне джуна, чтобы а) сделать работу более продуктивной б) иногда чуть додумывать, если непонятно написано.

Всего потребуется сделать от 3 до 7 презентаций. На каждую, по моим ощущениям, уйдет от 6 до 10 часов. Я готов платить по часам (в адекватных пределах) по ставке $20-25. Также я буду давать фидбек, чтобы вы смогли понять, как лучше делать. Если будет больше 5 презентаций — я готов сверху сделать 2-3 созвона с обсуждением разных вещей (обычно такое стоит $200-250/h), от тех. задач до карьеры и ревью резюме, если вам это нужно.

Я понимаю, что это не так много, но к сожалению без рекламы в канале и без постоянной работы больше выделить не могу 🥺

От вас ожидаю 4 качества:
1) базовое умение делать слайды
2) базовый английский (условно, не ниже B1, иначе кмк будет сложно)
3) умение понимать, что вам не понятно (и задавать вопросы)
4) ответственность — САМОЕ ГЛАВНОЕ. Если мы с вами договорились, что презентация будет готова к пятнице — она должна быть.

В идеале вы можете начать работу на следующей неделе, и продолжать её до середины-конца июня. Необходимый темп — 1 презентация в неделю, условно у вас есть 10-12 часов свободных. Если не уверены — пожалуйста, не подавайтесь. Темп и постоянство очень важны.

Если вы хотите попробовать — пожалуйста, заполните гугл-форму: https://forms.gle/ihp5JFPzabuE8iCh6
В её рамках вам придётся подготовить 1 (один) слайд. Ожидаю, что это займет не более 20-25 минут. Они будут оплачены, но только тому, с кем по итогу мы продолжим работу. Нужно сделать слайд «Getting started: AntiGoals» отсюда (см. спойлер Context на странице).

В комментариях прошу не спамить, но нормальные адекватные вопросы задавать можно.

! Скиньте вашему приятелю или другу, если считаете, что ему интересно !

UPD: ого, уже больше 15 заявок. Завтра буду выбирать, отпишу вам.
Please open Telegram to view this post
VIEW IN TELEGRAM
Не мог (не хотел 😀) уснуть, и из интереса решил накопать побольше информации про загадочную gpt2-chatbot, совсем недавно удивившую общественность. Перечитал обновлённый блогпост, новости, перерыл с десяток Reddit-тем, новых интервью Sam Altman, etc.

Тезисно:
— Sam не первый раз говорит, что слово «сюрприз» не должно идти рядом с AI, и OpenAI хотят итеративно улучшать свои технологии, делая их достоянием пользователей (хоть бы и через платный продукт в виде подписки на ChatGPT). Такой путь гораздо лучше для общественности, чем если пару лет не будет новостей, а потом бах, GPT 6, и все сидят такие 😨
— GPT-4 сейчас, полгода назад и на релизе — это три разные модели. Со временем они становились лучше и лучше, как по Эло-рейтингу от LMSYS, где живые люди сами сравнивают генерации моделей и выбирают те, что нравятся им больше, так и по объективным бенчмаркам (например). Вчера вот узнали даже, что OpenAI вроде как не переобучаются конкретно на датасеты для проверки, по крайней мере по математике — доверимся им, что и по другим метрикам никаких грязных трюков нет.
— Последнее улучшение модели было направлено на способности к рассуждению и решению задач, особенно по математике.
— Однако об улучшениях в написании кода не заявлялось. И именно этим выгодно отличается модель gpt2-chatbot. Видел, что люди говорили про разношёрстные вопросы, мол, «она на уровне четвёрки, не лучше», но вот про код...я сам узрел, как с первого раза мне написало очень клёвый пример простого рейтрейсинга сцены с несколькими объектами. БЕЗ ОШИБОК. И большая часть примеров, которыми хвастались люди (и на реддите, и вот даже Denis Sexy IT), где прям ВАУ — это именно примеры с кодом.
— При этом получить модель уровня GPT-4 не так-то и просто, на данный момент это удалось сделать 2.5 компаниям (META'е дадим скидку и предположим, что их LLAMA 3 на 405B, выходящая летом, будет соответствовать). Конечно, может появиться новый игрок, но это маловероятно.
— А теперь самое интересное. Почему можно предположить, что новая модель именно от OpenAI? Тут есть несколько косвенных признаков. Первое: в ней используются те же специальные токены начала/конца реплики, что и у всех моделей OpenAI. Модели Mistral и LLAMA отличаются. Второе: и сама модель так говорит, и в промпте у неё написано, что она от OpenAI. Это, конечно, может быть галлюцинацией, но фронтир модели в таком не были уличены (почти, иногда Mistral грешит) — только те, что были натренированы на синтетике. Третье (и главное): если добиться ошибки сервера своим запросом (например, длиной запроса или его темой, чтобы он не прошёл модерацию) — будет показана ошибка один-в-один, что и у любой другой модели OpenAI. Однако все остальные модели имеют отличные сообщения о возникших неполадках.
— Так что (я уверен на 99%) это модель OpenAI, которая лучше в кодинге, что логично. И тянет на грядущую итерацию, но не GPT-4.5 и тем более не GPT-5. Это подтвердил Sam Altman в ходе своего тура по университетам США, думаю, тут ему можно верить в силу аргументов выше.
— Вероятно, её релиз должен быть совсем скоро, в течение месяца. Как мне видится, через Арену собрали примерную оценку, чтобы на презентации или в релизных заметках написать: «Да, наша модель оч крутая, вот независимое подтверждение на всеми признанном лидерборде». Так как на всё про всё ушло всего 3 дня — делать такую оценку сильно заранее не имеет большого смысла: за это время модель можно дообучить, собрать данные, то да сё. В общем, улучшить. Тогда бы уж ту и проверяли!
🔽 продолжение
Please open Telegram to view this post
VIEW IN TELEGRAM
🔼 продолжение 👆
И на этом можно было бы и закончить пост, сидеть ждать релиза, если бы не три НО.
1) уже как месяца три ходят слухи, что OpenAI готовится к запуску своего поисковика. Предположительно, LLM вместо вас кликает по ссылкам, делает доп. запросы, читает выдачу и формирует ответ. В некотором смысле, это продвинутая реализация уже существующей фичи. Модель, умеющая рассуждать и кодить будет как нельзя кстати!
2) буквально вчера выяснилось, что домен search.openai.com уже занят, для него существует SSL сертификат.
3) главный инсайдер по OpenAI Jimmy Apples написал, что 9-го мая OpenAI проведёт анонс «не новой модели, но поискового движка».

Посмотреть находки ещё одного инсайдера, прямо с гифками и картинками потенциального дизайна, можно в Твиттере тут. Для OpenAI заточка модели под сёрфинг интернета не станет новинкой — ещё в 2021-м они сделали WebGPT, которая искала и объединяла информацию лучше, чем это делали люди. Я про неё целый лонг писал (он был первым!), ознакомиться можно тут: https://habr.com/ru/companies/ods/articles/709222/

Ну теперь вот уж точно сидим ждём!
Please open Telegram to view this post
VIEW IN TELEGRAM
DrEureka: Language Model Guided Sim-To-Real Transfer

Развитие идей Eureka, одной из трёх самых интересных работ за 2023-й год по моему мнению. Результатом выступает модель, обученная полностью в симуляции, и которую можно развернуть на настоящем робо-псе, чтобы тот отыгрывал роль девочки на шаре.

И оригинальная работа, и эта слишком сложны, чтобы тут их взять раскидать на пальцах, поэтому я лишь очень тезисно напишу, что делается, и почему это круто.

В такой задаче много сложностей и вопросов, некоторые из основных:
1) как запрограммировать функцию для обучения, чтобы очень точно описывать наше желание бота научиться стабильно управлять конечностями?
2) как предусмотреть разные сценарии и адаптировать модель к разным поверхностям, внешним условиям, etc.?

Раньше (в эпоху демок Boston Dynamics 10-летней давности) всё прописывалось вручную человеком, это было крайне сложной задачей. Оригинальная Eureka решала первую проблему: в работе GPT-4 подрядили генерировать код, который оценивает качество и предоставляет обратную связь модели во время обучения. Уже тогда LLM показали себя лучше людей — они гораздо лучше оперировали большим количеством сложных переменных (например, углом поворота отдельных конечностей, и прочего). А ещё этот процесс происходит итеративно: LLM видит оценки моделей, обученных максимизировать награду, написанную ей же, и придумывает, что и как изменить/улучшить.

Как вы догадались, DrEureka идёт дальше: предлагается использовать GPT-4 для высвобождения человека от необходимости делать что-то для ответа на второй вопрос. В этих экспериментах LLM ещё и выбирает оптимальные параметры симуляции, в рамках которой учится модель, которую развернут на робо-псе. Скажем, модель может посчитать, что иногда нужно подкрутить гравитацию до 0.98, иногда докинуть пару кило «телу» пса, а иной раз и вовсе затруднить движения конечностями. Как результат обучения в постоянно меняющихся (в рамках разумного) условиях мы получаем очень робастную модель, которая готова к разным ситуациям.

Главная ценность — мы убираем человека из цикла разработки новых навыков, бОльшая часть происходит автономно. Мы говорим LLM сгенерить такие-то и такие-то вещи, ставим симуляцию, пьём кофе и на выходе получаем работающую систему. Следующий шаг — это прикрутить анализ видео из симуляции, чтобы GPT-4 (или будет уже 4.5?) ещё лучше понимала слабые места описываемой стратегии, и точнее меняла функцию награды при обучении.
Media is too big
VIEW IN TELEGRAM
После тестирования на уже существующих задачах исследователи захотели опробовать что-то, чего ещё никто не делал. Нужно было взять такую задачу, для которой люди не решали вышеописанные проблемы (чтобы проверить, насколько масштабируем подход, насколько ему легко генерализоваться). И именно тут им и пришло в голову поставить робо-пса на шар для йоги.

Что интересно, в симуляторе, насколько я понял, не было возможности сделать упругий деформируемый шар, потому они сделали его статическим. И ЭТО СРАБОТАЛО, из-за случайного (на самом деле осмысленного с помощью LLM) выбора параметров при обучении в симуляции пёс научился балансировать. Причём настолько хорошо, что даже если ногой бить по шару — он не упадёт, хоть в симуляции такого и не было!

«Тяжело в учении — легко в бою!» — один из девизов работы. Из-за разнообразия параметров симуляции, робо-пёс мог стоять на шаре в среднем 10 секунд. А в реальной жизни (без дообучения, просто скопировали модель, отвечающую за управление) — 15 секунд. Правда к работе также приложено четырехминутное видео, где есть отрывки сильно длиннее. Как я понял, 15 секунд — это показатель в лабораторных условиях, где пространство ограничено, а сверху привязан трос (мб он немного мешает, хз). Ну или пол просто слишком твёрдый 🤷‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Tesla опубликовали новое видео с Optimus, в котором робот учится укладывать батарейки в ящик.

Но самое интересное в видео — это процесс обучения на человеческих демонстрациях. Первую часть видео с демо я обрезал как раз для того, чтобы сфокусироваться на этом. Люди стоят в рядах в шахматном порядке: 1 бот, 1 человек в в VR-гарнитуре. Оператор видит то, что видят камеры робота, и аккуратно манипулирует своими руками для того, чтобы эти действия перенеслись на робота. Повторить несколько сотен-тысяч раз, и в теории навык готов — теперь бот может делать эту задачу. А чем больше разнообразных задач будет показано, тем большим будет обобщение (про это писал в рамках разбора работы от Google).

Интересно, тренируется ли базовая модель на видео из интернета, и если нет, то какие наработки ведутся в том направлении? Ну, а если трюк с обучением на ютубе и тиктоках не выгорит — тогда нам придется запрягать сотни детей людей в виртуальные миры, чтобы генерировать данные для дообучения 🤷‍♂️Можете представить себе фабрики, где тысячи людей посменно работают в VR? 🤯

Будем ждать технического апдейта в этом году, где (обычно) рассказывают побольше!
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
===Объявление=== В ближайшие 2 месяца мне потребуется помощь. Я немного устал делать презентации для лекций (именно слайды в PowerPoint), уже тяжело смотреть на них, искать картинки, итд. Поэтому я ищу себе помощника (одного), который может взять от меня…
Днём закончил отбор людей, которые помогут мне с презентациями. Всем спасибо, кто откликнулся — пришло 55 заявок, что на 50 больше, чем я ожидал! В итоге, выбрал двух людей (так надёжнее 🙂). Если я не отписал вам в личку — значит, вы не прошли, простите(
Но всем и каждому выражаю благодарность за проделанную работу и отклик!

Решил немного рассказать про то, как делал отбор. Сначала я поигрался с фильтрами — так как кандидатов было много, то я не боялся отсечь кого-то лишнего. Значимую часть убрала фильтрация по языку — спасибо тем, кто честно и искренне заполнил это поле. Немного расчистил мусор, убрал те, где у меня нет доступа к презентациям (и такие были!) и остался один на один с 27 заявками. Это всё ещё больше, чем я ожидал 😥

Что делать и как быть? как выбрать? Я решил воспользоваться решением задачи о разборчивой невесте (представляете, такая есть!). Суть задачи — есть невеста, есть последовательный набор кавалеров. Требуется найти решение, с наибольшей вероятностью приводящее к выбору самого лучшего претендента. Оптимальное решение — отклонить всех первых ~37% кандидатов и затем выбрать первого попавшегося, который будет лучше всех предыдущих 😑😱

Я немного изменил принцип (зачем отклонять???). Сначала открыл случайные 10 (27/2.718) презентаций, чтобы получить примерное представление о том, какое качество стоит ожидать и на что надеяться — прямо как у невесты, нужно было, кхм, прощупать почву. А затем я вернулся в начало списка и прошелся по всем, выставляя оценки от 1 до 10. Было 5 работ с оценкой 7 и одна с оценкой 8. Я перепроверил, что презентации с оценкой 6 действительно мне нравятся чуть меньше, чем 7-ки (чтобы тут никого хорошего не отсечь).

Дальше стоял выбор: как из этого определить финального кандидата или кандидатов? Получилось так:
— сделал скриншоты слайдов (5 штук, решение с 8 баллами сразу отложил)
— разослал их группе людей, на чье мнение опираюсь (размазал ответственность)
— попросил выстроить порядок от лучшего к худшему. Условно получал строчку 1>3=4>2>5, то есть первая лучше третьей и четвертой, которые лучше второй и лучше пятой.
— далее собрал от всех такие цепочки и...скормил их в ChatGPT (😱), попросив написать функцию определения среднеобратного ранга (MRR) для каждого номера презентации. То есть это величина, обратная тому, на каком месте располагаются в ранжировании объекты.
— проверил, что код работает корректно - GPT-4 всё сделала с первого раза!
— иии...всё, осталось только написать в личку людям 👍

Вот так я выбрал исполнителей, а вы узнали сразу про две интересные штуки (невесту и MRR).
Жду GPT-5, чтобы ей аутсорсить процесс ревью и отбора кандидатов, блин.

Будем работать 🫡
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from hypewave
BREAKING: Hades 2 вышла в раннем доступе на PC

С вас 1100 рублей
Либо нас тролят, либо хз — но король вернулся какая-то im-also-a-good-gpt2-chatbot появилась на Арене! Название модели — отсылка к твиттам Sam Altman (1, 2).

Когда увидел на реддите — я подумал, что это кто-то фотошопил, да и в Direct Chat модели нет, на неё лишь можно наткнуться во время сравнения левых и правых ответов.

Возможно, это та же модель, но чуть-чуть иначе обученная, или она меньше, или наоборот больше — хз, я пока сделал один запрос. Формат ответа отличается от того, что я видел (модель не пишет последовательно кусками — выдала всё за раз). Код ещё не запустил, но на глаз выглядит не хуже того, что у меня было в прошлый раз.

Я отвечаю, бегите тестировать запросы на написание кода, очень удивитесь.

[любимым подписчикам которые писали эту новость в чат 6 часов назад — простите, я спал]

UPD: да, нормальный цветной рейтрейсинг с первого раза заработал. Мне не очень понравилась организация кода, там не так легко сцену изменить, и нет глубины рендеринга (сколько раз отслеживать отражение луча). Если судить по одному этому датапоинту, то эта модель немного слабее старой. Но выводы делать рано на самом деле.
Сиолошная
Либо нас тролят, либо хз — но король вернулся какая-то im-also-a-good-gpt2-chatbot появилась на Арене! Название модели — отсылка к твиттам Sam Altman (1, 2). Когда увидел на реддите — я подумал, что это кто-то фотошопил, да и в Direct Chat модели нет, на…
Модель стопроцентно от OpenAI, выкинуло ошибку со ссылкой на их документацию.

Ранее я писал, что gpt2-chatbot тоже некоторые ошибки (которые люди успели получить) отдавал в формате их API. Но прям ссылок на документацию не было.

UPD: не всё так однозначно — подписчик указал, что и для LLAMA-3 иногда такая же ошибка может вылететь. Я видел, что формат ошибок для других моделей другой, и вот ровно такое мне не попадалось на глаза 🤷‍♀️ а может это чисто авторы Арены нас газлайтят, как знать
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Мало кто знает, но из-за меня Денис не пошёл на пробежку 😎
С кем поведёшься...


Achievement unlocked
Please open Telegram to view this post
VIEW IN TELEGRAM
Neuralink поделились обновлением касательно их первого пациента. С момента вживления чипа почти полностью парализованному человеку прошло 100 дней, и с ним всё в порядке.

Через пару недель после операции видел разные обсуждения в ТГ и на реддите, мол, на самом деле там уже ничего не работает, электроды отклеились, и даже что вместо считывания сигнала мозга на самом деле там происходит считывание движений глаз. Однако если верить посту — то всё в порядке. Noland продолжает играть в видеоигры и даже начал обыгрывать своих друзей — причём не только на PC, но и на портативной приставке Nintendo Switch.

Управление можно осуществлять в любом положении — лежа, сидя, на боку и так далее — и это важно, так как метод, с которым он жил несколько лет (специальный стик во рту) сильно ограничивал свободу, но зато увеличивал требование к близким людям вокруг. «Это дало мне возможность снова делать что-то самостоятельно, не нуждаясь в семье в любое время дня и ночи» — говорит Noland.

У пациента регулярно (почти каждый рабочий день) проходят сессии работы с инженерами Neuralink, а в выходные он занимается своими делами — суммарно даже больше, чем в будни! Бывают дни, когда Noland пользуется нейроинтерфейсом по 12 часов в день, а за неделю вообще натекло 69 часов (в среднем по 10 в день). Однако на графике активности действительно видно спад в первой половине марта. Действительно, компания признаёт, что через некоторое время после операции несколько «нитей» (всего их 64, суммарно хранят 1024 электрода) потеряли контакт и перестали считывать сигналы.

Но и инженеры ведь не спят — и в ответ на это они пошаманили с алгоритмами, допилили механизм преобразования сигнала в движения мыши, и теперь всё на уровне даже выше прежнего. Чтобы это оценивать, пациент играет в игру — на огромной сетке то и дело загораются маленькие квадратики, и нужно привести к ним мышку и нажать. Уже во время первой сессии почти сразу после операции у Noland'а был показатель 4.6 BPS (bits-per-second, не знаю, почему bits) — и это был мировой рекорд для нейроинтерфейсов!

...а сейчас этот показатель достигает уже 8, а Noland задаётся целью догнать людей, полноценно оперирующих мышкой (у них этот показатель равен 10). Но в целом можно сказать, что управление мышкой очень точное и быстрое. А в будущем кроме этого способа ввода добавятся и другие — инженеры планируют распространить функциональность Link на управление роборуками, инвалидными колясками и другими технологиями, которые могут помочь повысить независимость людей, живущих с параличом нижних конечностей.
Сиолошная
Neuralink поделились обновлением касательно их первого пациента. С момента вживления чипа почти полностью парализованному человеку прошло 100 дней, и с ним всё в порядке. Через пару недель после операции видел разные обсуждения в ТГ и на реддите, мол, на…
Картинка 1 — как выглядит задача по кликанию по сетке. Я так понимаю квадратики бывают двух цветов, синие и оранжевые, и вероятно это кодирует кнопку мыши, которой нужно на них нажимать (левая и правая)

Картинка 2 — кол-во часов ежедневного использования нейроинтерфейса с момента операции. Оранжевое — использование в свободное время, синее — в «рабочее», во время сессий с исследователями/инженерами.