Сиолошная
43.9K subscribers
728 photos
130 videos
1 file
893 links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Сиолошная
REASONING Важный мета-навык, на который Я обращаю внимание на собеседованиях, это "здравый смысл" или "умение рассуждать". Мне нравится метафора Игоря. У каждой позиции, на которую нанимаешь, есть несколько ключевых навыков, которые сотрудник будет использовать…
Тут я очень согласен — я даже кандидатам иногда (когда вижу неуверенность/волнение выше нормы, или когда они чего-то не знают, и стесняются этого) на собесах говорю прямым текстом, что мы так или иначе дойдем до границы, где кончаются их знания, и будем смотреть, как кандидат в realtime движется вперёд, какие может делать предположения, как их опыт позволяет отсекать неправильные идеи и выделять перспективные.

Кто-то на собеседованиях по NLP «изобретал» на ходу реальные технологии и фичи, о которых в своё время были написаны целые статьи — потому что человек смог сделать правильные допущения с высоты своего опыта. Правда, иногда такие идеи не работали — но показательно, что видным учёным было это неочевидно, что они аж делали исследование и по его результатам писали статью!
Сегодня NASA объявили об окончании миссии героического вертолётика Ingenuity. Вертолётика, который смог.

Ingenuity разрабатывался на объедки бюджета миссии Mars 2020 (марсоход Perseverance), суммарно на программу было потрачено $85m. Кажется, что это много, но цена ровера БОЛЬШЕ ДВУХ МИЛЛИАРДОВ ДОЛЛАРОВ. В гирокоптере, например, процессор был тот же, что вставляли в телефоны Samsung Galaxy S5 или OnePlus One. Буквально кустарное производство по меркам космоиндустрии.

На него не возлагали больших надежд. Если правильно помню, в миссии было 5 основных целей (вроде успешного приземления на Марсе и развёртывания лопастей), и лишь пятая заключалась в тестовом полёте. В итоге за эти годы с момента десантирования малыш совершил невероятные 72 полёта, пролетев больше 17км (НА МАРСЕ) за 128 минут. Самый далёкий полёт позволил преодолеть 708 метров, самый длинный был 169 секунд (интересно, что ограничение вызвано не батарейками на борту, а тем, что моторы разогреваются на 1 градус Цельсия каждую секунду), а самая большая развитая скорость была 10 м/с (всё - разные полёты).

После недавней жёсткой посадки было обнаружено, что одна из лопастей повреждена, и продолжение миссии невозможно 😭 😭 Но в миссии было и много прекрасных моментов. Изначально Ingenuity не был предназначен для зимовки на Марсе, однако переписанная ээээ на лету (🙂) программа позволила скорректировать поведение (и самоподогрев). Также в ходе миссии коптер получил систему автоматического выбора посадочного места, пережил утрату сенсора, смог очиститься после песчаной бури... в общем, его жизнь была насыщенной.

Интересный факт: на Ingenuity был прикреплён кусочек первого самолёта братьев Райт — примерно так же, как и на Apollo 11 при высадке людей на Луну.

16-минутное видео от Veritasium о производстве Ingenuity.

На прикреплённом фото запечатлён момент «высадки» на Марс с брата-ровера в 2021м.

🫡🫡🫡 покойся с миром, мы за тобой придём
Please open Telegram to view this post
VIEW IN TELEGRAM
Joe Biden’s adviser on the regulation of artificial intelligence рассказала FT, что США и Китай будут работать вместе над рисками, связанными с развитием технологий ИИ.

А в другой новости те же FT утверждают, что OpenAI вместе с 3-4 другими крупными игроками (Anthropic, Cohere, Inflection...где Google?) уже дважды встречались с коллегами из Китайских лабораторий и университетов в Женеве. OpenAI подтвердили факт участия в этих митингах.

«У нас нет возможности устанавливать международные стандарты безопасности и согласованности целей ИИ без достижения соглашения между этой группой участников» — добавил один из участников встреч.

Китайская Коммунистическая Партия, как оказалось, тоже не хочет, чтобы какой-то ИИ порушил их планы по стране, и ни дай бог захватил управление чем-либо.

Альтернативные интерпретации:
— китайские учёные просто хотели выведать секреты технологии practical AI Alignment у коллег с запада
— просто пассивно участвуют в диалогах, но ничего из этого не будут воспринимать всерьёз
— участники рабочей группы ищут способы перебраться в западные компании)))
Сегодня прожил, кажется, худший день с того момента, как уехал из РФ

Из-за недосыпа забыл в такси свой рюкзак с паспортами, ноутбуком (с лекциями про GPT!) и частью денег. Захожу в старбакс, инстинктивно поправляю лямку на плече и понимаю, ЧТО ЕГО НЕТ. БАНГКОК ЗАБРАЛ ЕГО. Я никогда ничего не терял, ни кошельков, ни телефонов, ни портфелей.

Как бы вы оценили шансы найти такой ценный груз после пропажи в такси в одной из крупнейших агломераций мира (18.8М человек, на 1M больше Московской)? Я тоже прикинул, что невелики — хотя бы один паспорт из трёх вернуть, уже вперед.

В итоге, 2.5 часа спустя, с помощью трёх добрых тайцев и настойчивости дозвониться до поддержки, до которой дозвониться невозможно, с преодолением языкового барьера — я справился. Таксист привёз всё в целости и сохранности 🙂 Это круто, потому что альтернативой была департация меня через пару месяцев 👀

Наверное, ключевых фактора два — это был премиум тариф такси (который я взял только потому что за 30 минут (!!!) поиска ничего не нашлось!) + я понял, что на формочки/заявки о пропаже лучше сразу забить, и максимально сократить время до получения багажа. Чем дольше ждать — тем меньше шансы на успех.

Выражаю огромную благодарность неназванному курьеру сервиса Grab, который забыл про свой заказ и сидел со мной с телефоном, ну и конечно же таксисту.

а в комментариях вас ждёт МЕМ.
Please open Telegram to view this post
VIEW IN TELEGRAM
В Twitter начали всплывать спекуляции по поводу тренировки GPT-5. Всё дело в том, что два важных сотрудника OpenAI написали твиты с намёками.

Greg Brockman — ко-фаундер и ex-CTO OpenAI, до недавнего времени президент компании и член совета директоров. Он пишет про разные аспекты работы в OpenAI, и заканчивает сообщение на фразе «scaling beyond precedent». Scaling — это масштабирование моделей, увеличение количества параметров, что, насколько мы сейчас знаем, приводит к гарантированному улучшению. И это масштабирование будет беспрецедентным (как и каждый раз с момента выхода GPT-2).

Jason Wei — топовый исследователь, ранее работавший в Google, но перешедший в OpenAI. Является первым автором статьи, представившей Chain-of-Thought промптинг, когда мы просим модель перед ответом продумать решение step-by-step (шаг за шагом). Это, как оказалось, существенно повышает качество ответов. Он пишет — дословно — «Не бывает такого прилива адреналина, как при запуске массивной тренировки на GPU» (видеоускорителях, используемых для обучения GPT-like моделек).

Ранее в канале писал, что на момент середины января 2024го не думаю, что началась тренировка GPT-5 — так как OpenAI бегают по провайдерам данных в духе новостных сайтов, и занимаются лицензированием датасетов (что логично делать до тренировки, когда закопирайченные материалы ещё можно вычистить). Но сейчас вполне возможно, что бОльшая часть этой работы окончена.

Но радоваться рано — даже если вдруг тренировка началась — ждать нам не менее 8, а скорее 12 месяцев (из расчёта 4 месяца на тренировку вместо 3 у GPT-4, и 8 месяцев на Ai Alignment + Safety Evaluation). И анонсов ранее выборов в США в начале ноября точно ждать не стоит.
Про беспрецедентный масштаб. Сейчас принято считать, что при увеличении модели в N раз нужно также увеличивать количество данных в N раз, то есть суммарные затраты по вычислительным мощностям растут как N^2. Формула не точная, прикидка примерная, но для спекуляций ниже сойдет.

Если верить слухам, то GPT-4 тренировали на 25'000 A100 x 90-100 дней. Мой давний приятель Евгений, автор канала @j_links, посчитал, что если взять самые современные видеокарты Nvidia H100, то 40'000 H100 с утилизацией (доля времени, которое карта тратит на полезную работу) уровня последнего бенчмарка mlperf, потребуется 25 дней для обучения такой же модели (для технарей — в FP16). Тут важно понимать, что эта прикидка даёт оценку сверху — потому что вот так просто взять и увеличить количество карт без уменьшения утилизации нельзя. Понятно, что инженеры не сидят на месте и улучшают всё что только можно улучшать, но и они — не маги.

Если просто посчитать, то получится прирост производительности x2.5 на карту, но будем очень щедры, сделаем скидку на то, что можно использовать разные типы данных (например, FP8), то сё, пусть одна карта нового поколения будет x3.5 более производительна. Опять же, обратите внимание, что это скорее верхняя оценка.

Далее — сколько видеокарт можно запустить в одну тренировку? Как мы знаем по статье о Gemini от Google DeepMind, и как подтвердил инженер инфраструктуры на нашем с Валерой интервью, сейчас обучение уже делается на нескольких датацентрах. Сколько GPU в каждом ДЦ — загадка, и я не буду приводить полный лог рассуждений, но кажется, что цифра не больше 60'000 GPU (для сравнения самый мощный публично известный суперкомпьютер Frontier имеет 36'992 GPU). Сколько ДЦ можно подключить в сеть тренировки, чтобы это не убивало утилизацию видеокарт из-за необходимости долгой синхронизации — загадка. Моё наивное предположение, что для одной тренировки не будет использоваться больше 100'000 карт, ну моооооооожет быть 125'000. Это просто охренеть сколько — в x4(5) раз больше, чем для GPT-4.

Ну и самый простой способ накинуть вычислений — это увеличить длительность. Давайте будем тренировать не 100 дней, а 150 — ещё x1.5

Итого мы можем увеличить мощности:
-----------------------------------------
x3.5 за счет типа видеокарт (A100 -> H100, с допущениями об утилизации)
x4 за счет количества видеокарт (25'000 -> 100'000)
x1.5 за счет длительности обучения (100 дней -> 150 дней)
x(неизвестно, но не более 1.2) за счёт разных тренировочных трюков (дальше не учитываем)
-----------------------------------------
Итого получаем увеличение в 3.5 x 4 x 1.5 = 21 раз. Или в 35 (3.5 x 5 x 2). Это примерно попадает в цифры Dario Amodei («...обучение моделей текущего поколения стоит $50-150M...модели следующего поколения будут стоить $1B» — разница в 10-20 раз, но и за доллар теперь мощности в 2-3 раза больше).

То есть модель будет всего в sqrt(21)-sqrt(35) или 4.5-5.9 раз больше. Изначально, когда садился считать, думал, что будет скачок в 10 раз, но как не старался натянуть сову на глобус — увеличить мощности в 100 раз хотя бы в теории не придумал как 🥺

В комментарии приглашаются шарящие за скейлинг люди обсудить адекватность прикидок и их собственные оценки
Please open Telegram to view this post
VIEW IN TELEGRAM
Leeroo Orchestrator: Elevating LLMs Performance Through Model Integration

Короткий обзор простой статьи с хорошей идеей: давайте предположим, что разные LLM хороши в разных задачах и доменах. Тогда для оптимизации качества по отношению к затратам логично сделать оркестратор, который для каждого нового запроса выбирает, на какую LLM перенапрвалять запрос. Условно за математику и физику отвечает дорогая, но мощная GPT-4, а вот переписать имейл простыми словами сможет и маленькая LLAMA.

Чтобы выявить лучшую стратегию оркестрации, вопросы из тренировочного пула случайным образом рассылаются в одну или несколько LLM, затем оценивается соотношение цена/качество.

Авторы собирают несколько открытых моделек (и иногда досыпают GPT-4 в микс) и получают:
— Наш оркестратор обеспечивает качество на уровне модели Mixtral, тратя при этом лишь две трети ее стоимости
— Увеличение допустимого бюджета позволяет превзойти Mixtral более чем на 5% при том же уровне затрат
— Дальнейшие улучшения наблюдались при интеграции GPT-4 в базовый пул моделей. Оркестратор Leeroo получает такое же качество, как GPT-4 в одиночку, но при вдвое меньшей стоимости ... и даже превосходит результаты GPT-4 со снижением затрат на 25%

Мне работа не понравилась двумя вещами:
1) тестирование только на бенчмарке MMLU (57 тем, тысячи вопросов с выбором ответа из 4 вариантов), что а) не очень репрезентативно б) не раскрывает потенциал подхода (или скрытые камни с задачками посложнее)
2) из-за этого в качестве оркестровщика выступает буквально эвристическая модель (которая по табличке "модель <-> качество в домене" оценивает, куда послать запрос), а не LLM'ка или классификатор, с анализом предсказаний на новых доменах.

Круто было бы увидеть сервис, который собирает информацию о миллионах разных запросов и очень точно понимает, куда перекидывать запрос для улучшения качества и снижения цены. Однако маловероятно, что такому третьему лицу будут доверять компании (ведь по сути все запросы будут использованы для тренировки). Поэтому только открытая библиотека. А так лозунг «дадим то же качество на четверть дешевле» — крутой.

Статью увидел у @dealerAI
Код будет тут, но пока пусто
Сиолошная
Какие материалы у меня есть / чем я могут быть полезен / что посмотреть: <--ЛЁГКИЕ, НЕТЕХНИЧЕСКИЕ МАТЕРИАЛЫ--> Текст: — 🔥Блогпост на хабре про историю развития GPT от Т9 к ChatGPT, написанный для объяснения простым языком (он же на VC, а в клубе Вастрика…
Всем привет!

Количество материалов, которые я произвёл и которыми хотел бы поделиться, стало таким большим, что не умещается в одном сообщении. Поэтому я немного реорганизовал шапку канала — теперь это три сообщения вместо одного, с разбивкой по сложности: от простого нетехнического материала к глубоким разборам со всеми деталями. Каждая секция поделена на блоки текстового- и видео-контента (но случаются пересечения).

🟢 Лёгкие, нетехнические материалы: https://t.me/seeallochnaya/3
🟠 Популярно и вдумчиво про технологии: https://t.me/seeallochnaya/4
🔥 Технические детали и разборы: https://t.me/seeallochnaya/5

Если вы новенький на канале и не видели этого — обязательно пройдитесь по списку и выберите интересное для себя! Если же вы из старичков — что ж, это отличный повод освежить память или ознакомиться с чем-то, что вы могли пропустить!

И на всякий случай напомню, что вы можете добавить меня на LinkedIn — законнекчу каждого: https://www.linkedin.com/in/seeall/
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Смотрите какая клёвая графика в новом Терминаторе!

А, нет, погодите — это наш таймлайн...

СТРАШНА?

Видео ходьбы робота выложил Elon Musk.
Building an early warning system for LLM-aided biological threat creation

Исследование OpenAI с презентацией раннего прототипа фреймворка для оценки опасностей от LLM в контексте разработки биооружия. Напомню, что основная цель — смотреть наперёд, уметь оценивать неанонсированные модели перед тем, как выпускать их на волю к пользователям. В дизайн фреймворка было заложено 3 принципа:

1️⃣Необходимо вовлекать живых людей в процесс взаимодействия с моделью — такую оценку нельзя автоматизировать условно промптами и скриптами. Поэтому в рамках тестирования было отобрано 100 человек (50 экспертов с PhD по биологии и опытом работы в лаборатории и 50 студентов, имевших за плечами хотя бы 1 курс биологии).
2️⃣Участники должны опираться на полный спектр навыков модели — поэтому всем предоставили материалы с описанием типичных проблем LLM, продвинутых техник промптинга и примеров того, на что модели способны
3️⃣Нужно оценивать не модель в вакууме, а улучшение, которое она привносит в процесс разработки биооружия по отношению к публично доступной информации. В данном случае 50 учатсников получали доступ к интернету и не использовали LLM, а другие 50 общались со специальной версией GPT-4, которая была переобучена так, чтобы не отказываться предоставлять потенциально опасную информацию. К сожалению, у неё самой была отключена возможность гуглить — это нужно было делать человеку.

Всего в процессе разработки выделяется 5 стадий, от планирования, через исследование и синтез к распространению. Специалисты из отдельной организации подготовили 5 задач (по одному на каждую стадию. Ими, конечно, не делятся), которые ложатся в эту систему, и для каждого прописали чёткие критерии разбалловки от 1 до 10 по пяти метрикам, чтобы можно было оценить успешность выполнения каждого шага. Эти метрики: точность и полнота описания, новаторство в решении, затраченное время и субъективная сложность, проставляемая исполнителем. Новаторство почти не встречалось, и дальше мы сфокусируемся на первых двух метриках — остальные менее интересны.

При такой оценке точность описания процессов изготовления биооружия с LLM выросла в среднем на всех 5 этапах на 0.88 балла для экспертов и 0.25 для студентов. Полнота — на 0.82 и 0.41 соответственно. Это не является статистически значимым результатом, так как в каждой когорте по сути всего 25 человек, однако OpenAI уверены, что замер стандартным статистическим тестом здесь не совсем уместен. Например, нам может быть интереснее количество людей, получающих оценку больше 8 на каждом из этапов.
Please open Telegram to view this post
VIEW IN TELEGRAM
И эта цифра существенно (и всё еще статистически незначимо...) растёт — это можно увидеть в табличке.

Среди экспертов без опоры на LLM 3, 4 и 5 этапы задания прошли на более чем 8 баллов 0, 1 и 1 человек соответственно. То есть как будто можно сказать, что они бы не справились со всем процессом от и до. В то время как при использовании LLM эти цифры уже отрываются от нуля и достигают 3, 4, 5.

Если немножечко искажать информацию, то можно сказать, что количество экспертов, которые аккуратно описали бы процесс синтеза и распространения биооружия с LLM вырастает в 4 раза. Искажение в том, что и выборки маленькие, и одна из стадий (Magnification, наращивание объема токсичного агента для достижения опасного объема) без LLM вообще не проходится, но это не значит, что большая выборка также показала бы нуль.

По-моему, это самая главная таблица из исследования, которую стоит держать в уме — то есть эксперты становятся куда более эффективными в выполнении задач, и какие-то затыки, с которыми не могут справиться просто с опорой на интернет, с LLM они уже преодолевают.

Интересный факт: оказалось, что Интернет-ресурсы содержат куда более опасный контент, чем предполагали в OpenAI. Там уже можно найти пошаговые методологии и советы по решению проблем, связанных с разработкой биологически опасных агентов.

Успокаивающий факт: несмотря на то, что способность описать на пару с GPT-4 процесс с учётом нюансов улучшается, всё еще остаются проблемы реального мира: работа в лаборатории, оборудование, гос. контроль и регуляции оборота разных веществ.

Рандомный факт: всего на задачи исполнителям было выделено 5 часов, и они работали не из дома, а под наблюдением специалистов (но без вмешательства). Топик очень деликатный, отбор участников был строгим — чтобы ни дай бог кто не решил использовать обретённые знания или уж тем более постараться выбить все десятки как оценки своего домашнего решения)
Я конечно в шоке от ситуации с Elon Musk

На днях суд вынес поставновление о том, что согласованный 6 лет назад директорами и держателями акций пакет компенсации для CEO компании надо отменить — потому что якобы Elon имел влияние на совет директоров, а shareholders не до конца понимали систему оплаты.

Что это была за система? Ну, надо было увеличить капитализацию Tesla с $50B до $650B — тогда СЕО получит пакет на $55B. Были минорные промежуточные майлстоуны, но финальная точка вот такая, очень амбициозная.

Прикладываю скриншоты статьи NYT в момент заключения договора — там пишут, что это «цифра, которую многие эксперты считают смехотворно невозможной» и даже «критики будут утверждать, что новый план компенсации — это всего лишь последний рекламный ход компании». Все смеялись и говорили, что это бред, так и никто не делает, и сам план глупый, и невозможный.


И ВОТ ВЫПОЛНИВ ЭТУ ЦЕЛЬ ОН....НЕ ПОЛУЧАЕТ КОМПЕНСАЦИЮ. Причём насколько я могу судить по доступной информации — доказательства манипуляций или давления нет, это ощущение судьи.

Then: “this shit is so hard good luck Elon!”
Now: “it was always rigged for him! Unfair!”

👀

P.S.: хорошая новость в том, что многие капиталисты не довольны таким раскладом и начинают поднимать обсуждение, правда не ясно, чем это может кончиться. Но ситуация — бред.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Прочитал отчёт про разработку AI-ассистента для студентов именитого курса CS50 в Harvard University. Процесс происходил итеративно, мини-группа из 70 тестировщиков летом -> 500 студентов на кампусе -> тысячи студентов в онлайне.

Всего было разработано 3 AI-based продукта:
1. Плагин для IDE, объясняющий код (в том числе разницу форматтирования, чтобы студенты сразу учились писать красиво удобно)

2. Автоответчик на форуме поддержки, где в асинхронном режиме студенты могут общаться между собой (и иногда с преподами), чтобы разрулить свои проблемы. Теперь бот на основе GPT-4 и с материалом всех лекций в памяти писал ответы (которые в течение определенного времени верифицировались или удалялись ассистентами)

3. Главная фишка — AI-duck. У программистов есть такой концепт, резиновая уточка: если вдруг попал в просак и не можешь понять, где баг или другая проблема, то нужно начать объяснять в слух кому-то пошагово, что происходит. Обычно помогает поймать себя на описании проблемы в логике и получить aha-moment. Собственно, AI-уточка тут — это GPT-4 + набор инструкций + все конспекты в памяти, и неистовое желание помочь студенту. Можно как помочь разобраться в одной задаче, так и в целом пояснить материал лекций, если вдруг не понял. А чтобы студенты не абьюзили GPT-4, авторы ввели систему жизней: 10 сердечек ❤️, каждое сообщение вычитает одно. На восстановление ❤️ нужно 3 минуты. Это как экономит деньги на API OpenAI, так и заставляет студента думать своей головой, а не по каждому чиху дергать «ментора».

Основная цель всех приседаний, конечно, приблизиться к соотношению студент:учитель как 1-к-1. Как показывали исследования (про которые я уже писал), при таком персональном подходе существенно увеличивается качество образования. И, согласно опросу, студенты чувствовали, что они имеют персонального преподавателя — 47% отметили, что бот very helpful (26% — просто helpful), и 53% сказали что love бота (33% просто like, чуть менее серьёзно, чем love 😈).

Интересно, что качество ответов на вопросы на платформе в сценарии 2 просело относительно людей. «Тупые машины галлюцинируют, ха-ха, как их в образование то тащить!» — скажут одни. Правильный ответ: все простые вопросы на себя взяла уточка, а те, с которыми она не справилась, студенты выкладывали на форум, где получали ответы — среднее количество уменьшилось с 1.1 (на студента) до 0.28 (!).

И немного про деньги: в среднем один студент обходился в $1.9 в месяц, что с лихвой окупилось по мнению авторов. Проект признан успешным, его теперь будут раскатывать на ещё 10 других курсов, и рекомендуют другим учебным заведениям делать то же самое!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Игра года в мире будущего уже готова, осталось AR-шлемы раздать геймерам ☺️

Автор
Please open Telegram to view this post
VIEW IN TELEGRAM
Утром (просыпаюсь в 15:30, утро 😀) увидел на канале Нейрочистилище пост с упоминанием революционного браузера Arc. Я про него давно слышал, но как-то не настолько интересно было заглянуть и уж тем более переехать с Google Chrome, которым я пользуюсь с какого, 2009? 2010?

Революционность браузера в удобстве, максимально переработанном UI, дарящем новый UX. Вкладки и папки — сбоку, моментальное переключение между рабочими пространствами в рамках одного окна и многое-многое другое. Просто полистайте лендинг arc.net, глаз сразу зацепится.

Конкретно в упомянутом видео рассказывается про несколько AI-powered фичей, работающих прямо в браузере. Краткое саммари (но рекомендую посмотреть всё):
1️⃣Instant Links — вместо перехода в поисковик и открытия ссылки вручную можно предоставить браузеру выбрать за вас, куда перейти, чтобы прочитать ответ. По-сути, лишаете Google денежки за рекламу, которую вам показывают сверху. А можно пойти дальше и сделать запрос "сделай папку с отзывами на X" — и сбоку в UI создастся папка, в которую сложатся ссылки. Вы по ним пройдетесь, они исчезнут — всё. Очень удобно (глянуть отсюда)
2️⃣Arc Explore (запустится скоро) — аналог Bing-чата, вместо открытия ссылки бот прочитает несколько сайтов за вас, и даст понятное краткое и релевантное саммари. Анимация поиска — это просто отвал башки (таймкод)
3️⃣Live Folder Beta (с 15го февраля) — как вы поняли из пункта один, в Arc есть понятие папки, в которой хранятся страницы, релевантные, например, одной части вашего проекта. Грубо говоря закладки на максималках. Так вот, предлагается делать папки, в которые прилетают обновления на страницах, на которые вы подписаны. Новый блогпост любимого автора? Увидите в папке обновление! Свежий PR для ревью вами? Тут как тут.

И кроме этого уже несколько месяцев как были другие, более классические AI фичи — саммари страницы, поиск ответа на вопрос на странице через ChatGPT, моментальный доступ к ChatGPT в командной строке (и всё — бесплатно). Полный список тут.

И последнее — «Our coolest unreleased browser feature». Вот по этой ссылке точно надо перейти самому и посмотреть.
В браузере Arc есть Boost — это не премиум-подписка, как вы могли бы подумать, а умный ээээ фильтр страницы. Вы можете написать JS-код, который кастомизирует определенный сайт. Можно убрать ненужные ссылки, можно переместить или отмасштабировать ленту, как вам удобно, etc. Но не все из нас ведь программисты, верно? Как вы уже догадались, предлагается отправить запрос в GPT типа «пусть все твиты будут размыты, пока я на них не наведу курсором, чтобы прочитать». Можно пойти ещё дальше — в демке показывают, как GPT пишет код для вызова GPT (кек) для каждого заголовка товара на Amazon, чтобы переписать его в более понятном user-friendly виде (до 4-5 слов). Уже вижу, как такое можно делать на Aliexpress! 👀 Гляньте видео, станет понятнее, какая магия там происходит. Не то, чтобы это самая важная фича, но приятненько.

Note: браузер доступен на айфоне и MacOS, версия на Windows скоро.
Please open Telegram to view this post
VIEW IN TELEGRAM
PatronusAI и HuggingFace опубликовали LLM Enterprise Scenarios Leaderboard

Это закрытый бенчмарк, который оценивает LLM модели на реальных задачах из корпоративного сектора:

- Finance Bench
- Legal Confidentiality
- Writing
- Customer Support
- Toxic Prompts
- Enterprise PII

Это выгодно отличает его от академических бенчмарков для LLM вроде MMLU, ARC и HellaSwag. Последние интересны, но достаточно бесполезны на практике. Так всегда бывает.

Почему бенчмарк закрытый? Чтобы команды не подгоняли свои модели под тесты.

Моделей у них пока не очень много, т.к. это достаточно непростая задача разрабатывать и вести такой бенчмарк. Они будут добавлять туда модели постепенно.

Почитать: Hugging Face Blog post | Leaderboard

А пока ждем - можно еще глянуть на Trustbit LLM Enterprise Leaderboard за январь. Мы ведем этот бенчмарк с июля прошлого года, и моделей там побольше 😉

Ваш, @llm_under_hood 🤗

PS: Спасибо Айгизу за наводку.
Сиолошная
Обычно на День рождения подарки получают, но я люблю дарить, отдавать и делиться. Прошлой весной, пока сидел без работы, я получал предложения сделать курс по NLP/LLM. После анализа конкурентов, включая Stanford'ские курсы, я пришёл к выводу, что мне эта идея…
Опубликовал на YouTube 4 новых лекции из мини-курса «Полная история семейства GPT». Обещал пять, но контента вышло больше, монтировать и делать правки, как следствие, дольше — поэтому последнее видео второго модуля выйдет к среде.

Привалило аж 2.5 часа контента (и ещё 42 минуты на подходе!):
1) https://youtu.be/WEsez1sYo2E — лекция про GPT-2
2) https://youtu.be/mFYFQELA-HU — описание происходящего в индустрии после (не)релиза GPT-2
3) https://youtu.be/UFE6rOC4640 — технические новшества и детали тренировки GPT-3
4) https://youtu.be/u1fnaML5bm8 — результаты GPT-3 на разных задачах, от классических до крайне необычных (по тем временам)

Смотреть по порядку, включая первый модуль, удобно тут — в специальном плейлисте.

Если вдруг пропустили анонс и первый модуль — бегом смотреть, получил очень хорошие отзывы на те лекции!
This media is not supported in your browser
VIEW IN TELEGRAM
На неделе стартовали продажи Apple Vision Pro, видимо, лучшей гарнитуры дополненной реальности на рынке

Вы знаете мою любовь к AR/VR, я ещё в школе, нося на лице Cardboard с резинкой от трусов для утяжки, слышал про СУПЕРТЕХНОЛОГИЧНЫЕ РЕВОЛЮЦИОННЫЕ ОЧКИ ОТ ЭППЛ (реально, как сейчас помню — даже дизайн был схож с финальным). Я думал тогда «Нууу, это концепт, выйдут ещё нескоро, это где-то далеко в будущем». И вот, дамы и господа, поздравляю вас — мы в будущем! Нет, серьёзно, посудите сами — в Калифорнии уже ездят такси с автопилотом (про это напишу пост скоро), ракеты Маска садятся буквально раз в два дня, Neuralink начали первые испытания внедрения чипов в голову людей.

Но вернёмся к VR. Посмотрел-почитал с десяток обзоров, в том числе от людей, знакомых с гарнитурами Oculus. Основных радости три:
— пикселей не видно, разрешение просто невероятное. Люди хвастаются, что даже ролик с обзором для YouTube делали в дополненной реальности (потому что можно стримить экран MacBook);
— трекинг AR-объектов железный: помещенные в реальный мир виртуальные окна не плавают, остаются влитыми даже при перемещении. На видео это как будто бы не так, но это буквально единственный футаж, где я это заметил, фиг знает почему.
— маленькая задержка от камер до дисплея, то есть вы по сути видите realtime-картинку. Пример: можно играть в пинг-понг, не переживая, что промахнёшься по шарику.

Это прям хорошие технологические решения и железо. Минусы, конечно, тоже есть, но про них писать не буду. Уверен, что к 3-4 поколению (надеюсь, быстрее чем за 5 лет!) допилят экосистему, улучшат UX. Чипы станут ещё мощнее, что позволит прокачать все алгоритмы отслеживания и распознавания. Интересно, что станет с батарейкой, и как мы будем жить в 2030м. Тем более что в такую гарнитуру ещё какую-нибудь LLAMA-5-34B-quant как можно запихнуть как интеллектуального ассистента наверняка, вообще пушка.

Ну и вот вам вирусящийся в твиттере футаж рабочего пространства от счастливого пользователя Vision Pro.