Сиолошная
51.4K subscribers
954 photos
172 videos
1 file
1.13K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Когда мне было ~19, подруга рассказывала, что однажды взяла отпуск на полгода и поехала по Индии путешествовать — а я так ей завидовал! Думал, вот же люди могут себе позволить, и отдохнуть можно, и повидать мир.

Сбылась мечта дурака — в последние полтора года тема кочевничества по странам стала для меня как никогда акутальной (по понятным причинам). Не скажу, что привык к постоянным перемещениям, но теперь они кажутся простыми. Взял, поехал в аэропорт, туда сюда — готово. Потихоньку начал приближаться к понимании романтики всего процесса 🙂

Среди кочевников есть отдельная группа digital nomad'ов — людей, которые путешествуют по миру и работают удаленно (ха-ха ето же я). Чаще всего для легализации процесса получения зарплаты и оплаты налогов необходимо быть резидентом где-либо. Очень многие знания по теме я подчерпнул в канале Кирилла Куликова @kyrillic.

Кирилл — путешественник со стажем. Он, кажется, начал этим промышлять тогда, когда я в школу ходил 🤨. Из его канала я не то что сам беру информацию — а в прошлом году так и вовсе часто пересылал своим коллегам и приятелям. Ответы варьировались от "да, согласен со всем" до "блин, а чё ты раньше не скинул??". Особенно ценой кажется информация про налоги 😳 хочешь-не хочешь, а платить где-то надо.

Вот я, например, свой план путешествий на 2023й я слизал вот с этого поста Кирилла с фантазиями об идеальном годе номада. Пришлось внести правки касательно Европы, но вышло вполне себе.

А ещё автор пишет (а кто не грешен?) и про LLM/перспективы AGI — мне очень зашел пост про бизнесовую сторону внедрения LLM в процессы. К сожалению, не могу согласиться со всеми точками зрения (например, тут я даже врываюсь в комментарии 😀), но ведь это здорово, когда можно посмотреть на что-то под разными углами!

Но вы не подумайте, @kyrillic это не блог про путешествия. Кирилл является сооснователем компании, прошедшей в YC, и пишет много про менталитет, бизнес и стартапы. Могу смело рекомендовать!
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Автор этого эксперимента уже успел повторить его и для новой Claude 2.1. Если вы пропустили методологию, то читайте тут. Автор признался, что Anthropic связались с ним и предоставили кредиты — ведь на тест пришлось потратить больше $1k! И специалисты из компании…
Апдейт по тестированию in-context retrieval новой модели Anthropic. У исследователей, видимо, немного пригорело, что они дали человеку из твиттера доступ к модели, кредиты, а он взял и показал, что модель плохо выцепляет детали из длинного контекста. Их можно понять...

В общем, в свежем блогпосте они делятся своими тестами. Если немного переделать промпт, добавив первую фразу ответа AI-ассистента «Here is the most relevant sentence in the context:» (см. картинку), то качество вырастает с 27% до 98%. Кроме этого, описывается ещё пара схожих бенмарков, где показывается, что трюк работает. Интересная механика работы LLM, в общем — нужно менять не только свою инструкцию, ну и конструировать первую часть ответа модели.

Бонус: в посте указывается, что Claude 2.1 была обучена с использованием большого количества разметки для задач над длинными документами, которые пользователи находят важными. Например, суммаризация «S-1 length document». Если я правильно загуглил, S-1 — это типовая форма, которую заполняют компании в США при подаче заявки на IPO (в WIki пишут, что на заполнение уходит почти тысяча часов, хоть сама форма и занимает 8 страниц). Эти и десятки прочих документов действительно могут являться хорошим источником качественных данных, для которых можно придумать кучу задач при дообучении моделей — берём на заметку.

UPD: в комментариях указали, что заполненная форма может достигать нескольких сотен страниц (у AirBNB было 300+, к примеру, у WeWork 220).
Сиолошная
Главные результаты: отрыв от стола произошёл быстрее, чем в прошлый раз. Мы не видели фото с места событий, но предполагаемо урона площадке нанесено куда меньше, чем весной. все 33 двигателя работали от первой до последней секунды, ни один не был потерян.…
Команда SpaceX опубликовала двухминутное обзорное видео о втором полёте Starship. В нём же видно, что у команды был обзор с камер на корабле - просто на трансляции их не показывали, немножко переживал.

Вот, например, момент разделения ускорителя и корабля (фото с верхней части бустера, Starship находится около опоры в центре кадра снизу).

Ждём следующий запуск и надеемся, что покажут больше вкусных кадров! В полёт отправится пара Ship 28 + Booster 10
Заметка на полях канала: самое большое разочарование это когда сидишь делаешь один материал/единицу контента, и хочется начать делать ещё 2-3 других, но они просто в список TODO'шек не помещаются уже.
(речь не про посты в канале, а чуть более масштабную работу вроде блогпостов)

Что делатб...может собрать 3-4 человека, давать им темы, объяснять куда и как, и потом просто ревьюить финальные версии?
Рубрика «Мемы и экономика».

Для меня загадка, почему акции гугла подскочили на фоне релиза Gemini и всё еще не упали (в пятницу на закрытии торгов).

Особенно странно, если знать, что основное демо-видео с прикольными юзкейсами было смонтировано, и за кадром использовались другие промпты, более детальные, часто с указанием того, что хочется получить от модели. В новостях даже промелькнул заголовок, что Google БЫЛ РАЗОБЛАЧЁН после обмана, но на самом деле все запросы они описали в блоге (но не в видео, конечно. Судить о поcтупке вам).

[opinions are my own]
Но если честно Google выглядит сейчас слабо с точки зрения пиара. Ясно, что из нескольких сотен миллионов пользователей 98% и знать не будут про это, но всё же. Что мы увидели: за год компания может пересобрать свои отделы, выделить 800 человек — даже основателя компании Sergey Brin вернуть обратно — и сделать модель (не продукт?) как у конкурента. ГОД. Да там уже GPT-5 дотренировалась, господи...👁
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from эйай ньюз
БОЛЬШИЕ НОВОСТИ - Согласован Европеский The AI Act!

TL;DR: На большие AI модели наложено очень много ограничений. Кончилась лафа для компаний, строящих LLM в EU.

Основные последствия The AI Act:

1️⃣Система рисков по уровням: Для систем AI, классифицированных как высокорисковые, были согласованы четкие обязательства и требования прозрачности. Теперь потребуется обязательная оценка потенциально негативных воздействий на здравоозранение, бузопасность, базовые права человека, и общество в целом.

2️⃣ Foundation модели будут регулироваться, если на их обучение ушло как минимум 10^25 flops вычислительной мощности - в эту категорию попадут модели как минимум уровня GPT-3.5.

3️⃣Благодаря немцам, французам и итальянцам удалось добиться значительных поблажек для Open-Source моделей. Это слегка снимает стресс с некоторых компаний которые публикуют опенсорсные модели, включая французскую компанию Mistral и немецкую Aleph Alpha, а также Meta с ее моделями LLaMA. Ян Лекун поспособствовал.

4️⃣ Следующие системы будут запрещены, и у компаний будет всего шесть месяцев, чтобы обеспечить соблюдение:
▪️системы биометрической категоризации, использующие чувствительные характеристики (например, политические, религиозные, философские убеждения, сексуальная ориентация, раса);
▪️ненаправленное скрейпинг изображений лиц из интернета или с камер видеонаблюдения для создания баз данных распознавания лиц;
▪️распознавание эмоций на рабочем месте и в образовательных учреждениях;
▪️социальное скоринг на основе социального поведения или личных характеристик;
▪️ AI, которые манипулируют человеческим поведением, чтобы обойти их свободную волю;
▪️AI, используемый для эксплуатации уязвимостей людей (из-за их возраста, инвалидности, социального или экономического положения).

5️⃣Системы AI высокого риска будут особенно тщательно проверяться на наличие байесов, предвзятости, обеспечивая их недискриминационность и уважение основных прав человека.

6️⃣Поставщики систем AI высокого риска должны вести тщательную документацию, чтобы продемонстрировать свое соответствие регуляциям. Это включает запись методов обучения и используемых наборов данных.

7️⃣ Санкции: Несоблюдение может привести к значительным штрафам, варьирующимся от 35 миллионов евро или 7% от глобального оборота до 7,5 миллиона евро или 1,5% от оборота, в зависимости от нарушения и размера компании.

Усиленные требования к прозрачности могут вызвать проблемы с защитой интеллектуальной собственности, требуя баланса между раскрытием информации и сохранением коммерческой тайны.

Все это потенциально увеличит операционные затраты и наложет значительную административную нагрузку, что потенциально может повлиять на время выхода на рынок новых AI продуктов в Европе.

А скоро, думаю, и другие страны подтянутся со своими законами. В долгосрок выиграют те, кто не так сильно закинет удавку на разработчиков AI. Как же сейчас британские компании радуются, что они не в EU.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня исполняется 30 лет серии DOOM

Эта игра занимает важное место в истории видеоигр благодаря своей новаторской роли в жанре шутеров от первого лица и ее влиянию на игровую культуру. Специально для игры ведущий разработчик и легенда мира программирования John Carmack написал движок id Tech 1 (Doom Engine), из которого после появится Source для Half Life (про неё я как раз недавно писал). Более свежие версии id Tech до сих пор используются в играх, особенно его модификации.

Насколько я помню, DOOM — моя первая игра, до которой дошли руки на компьютере отца на работе. Не знаю, какой это был год, мож папа вспомнит в комментариях 👍

—————————
А John Carmack вообще очень интересная личность. Рекомендую послушать его ПЯТИЧАСОВОЙ подкаст у Lex Fridman (я по частям кое-как осилил). После разработки игр он занимался космосом (даже выиграл призы от Google за достижение целей на пути к Луне), а потом стал CTO Oculus (да, тех, кто делает VR, а теперь и MR гарнитуры). При нём fancy-технология стала доступной массам в удобном форм-факторе. И теперь, в 2019м, он взялся за AI (AGI)...насколько мне известно, отклонил предложения о работе в крупные лаборатории, включая OpenAI. Держим кулачки за его долголетие!

It's crazy that you can ask John Carmack about what seems like any random topic, and he will just start talking about it in the most coherent way for hours.
— комментарий к подкасту
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Real-World Humanoid Locomotion with Reinforcement Learning

Долгое время основной проблемой AI в робототехнике был Sim2Real Gap — разница между симуляцией и реальностью. Можно сколь угодно долго тренировать своих ботов в компьютере, но как только они сталкиваются с жесткой реальностью (типа отходняка в субботу) — мало что работает.

Исследователи из Berkeley показали невероятный результат — они смогли обучиться полностью в симуляции, а затем запустить нейронку на реальном роботе (1.6 метра/45 кг). И всё это end-2-end, без ручного программирования логики. Вы можете спросить: «так а чё, Boston Dynamics нас уже 10 лет таким развлекают?». Да, но у них долгое время вся логика была прописана вручную программистами, и это, как вы понимаете, плохо масштабируется. Обучение новому навыку может занимать год. А тут — всё сделано без вмешательства человека от начала и до конца. Это называется Zero-shot transfer (потому что с нулем дополнительных данных мы пренесли навык из симуляции).

Ключевых отличия от прошлых работ 2:
— масштаб сбора данных. Симуляция и обучение происходят на 4 GPU A100 (очень мало по современным меркам. GPT-4, по слухам, обучали на 25'000!) с помощью специального движка Nvidia IsaacGym, и в сутки генерируется больше 10 миллиардов попыток.
— как и принято в Deep Learning, все ручные эвристики убрали, и отдали на откуп Трансформеру: тот видит только состояние среды и действия из прошлого, и предсказывает, что нужно делать дальше (как GPT предсказывает следующее слово, так и этот — действия для конечностей). Никакого хардкода типа «если впереди ступеньки, то замедлись и подними ногу».

Вот вы читаете новость и радуетесь, а Джон Коннор сморит на вас из будущего с гримасой непонимания 😂😳
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Интересное:
— модель Трансформера имеет всего 1.6m параметров. Сейчас на телефонах запускают нейронки в сотни раз больше (даже в тысячи, но там скорости работы не хватит для робота).
— размахивание руками, которое вы видите на видео, робот выучил сам. Ему показалось, что так будет удобнее, никто это не программировал, и это никак не поощрялось во время обучения.
— более того, движения синхронизированы с ногами, что очень схоже с тем, как ходят люди. Только модель ни разу не видела людей, и никаких байесов в симуляции (кроме естественных физических) в эту сторону тоже нет.
— робот отлично справляется с неожиданными ситуациями, которые существенно отличаются от тренировочных. Выдержать удар мяча, палки, и даже пройтись с пакетом в руке — не проблема. Опять же, «вау»-эффект относительно Boston Dynamics в том, что это всё выучивается очень маленькой моделью очень быстро, и этого даже не было в симуляции. Как вы понимаете, это легко масштабировать без вливания человеческих ресурсов.
— да, даже переступания через ступеньку НЕ БЫЛО в тренировке.
— конечно, робот ходит не только вперед, но и назад, умеет поворачивать.
— в симуляции случайным образом меняли параметры вроде гравитации, задержки сигнала до моторов, массу и десяток других. В теории, это делает модель робастной: она сможет также работать и на Луне, и с неполадками, и вообще умничка.
— модель: Трансформер, метод обучения: PPO. Да, точно такие же, как у ChatGPT 👁 только входы-выходы разные, и поощряемое действие. Круто? Да это же круто!

Сейчас очевидное ограничение — это написание функции награды для агента, чтобы закреплять желаемое поведение. То есть не получится просто кинуть больше GPU и ожидать появления Терминатора. Но мы ждём...да?
Please open Telegram to view this post
VIEW IN TELEGRAM
В конце прошлой недели Mistral выложили торрент с весами для новой модели, а вот буквально час назад опубликовали блогпост с деталями и метриками.

В целом, эта та же модель, за одним очень важным исключением: микстура экспертов. Давайте на пальцах расскажу, что это такое.

Все современные языковыые модели состоят из блоков трансформера. Эти блоки имеют одинаковую архитектуру и «стакаются» друг над другом. Сначала работает первый блок, потом второй и так далее. В каждом блоке есть несколько компонент, один из которых — FeedFroward Layer. Это такая неглубокая, но большая (в ширину) под-нейронка, в которой (как предполагается) хранятся знания модели.

Чем больше эти слои, тем больше весит модель и тем дольше работает. Как бы это исправить? А давайте одну большую сеть распилим на несколько маленьких, и будем динамически (читай: по контексту) определять, с какой из них работать. По слухам, именно так делают в GPT-4: там есть 8 экспертов, и для каждого токена выбирается по 2. Ребята из Франции выбрали ровно такую же схему, поэтому модель называется Mixtral 8x7B.

В чём выигрыш? В том, что во время работы мы не используем все параметры сети, ненужное остаётся в сторонке. И несмотря на то, что в Mixtral формально 45B параметров (их нужно хранить в памяти), в одно и то же время задействуются лишь 12B. То есть время работы модели чуть меньше, чем у LLAMA-13B или любой другой такой, но при этом «банки знаний» существенно больше (см. на график).

Другие изменения:
— теперь говорит на французском, итальянском, немецком и испанском. Видно, что ребята целятся на EU рынок)
— 32 тысяч токенов контекст
— доучили модель на написание кода
— есть instruct-модель (то есть такая, которая умеет следовать вашим инструкциям). Благодаря этому (и экспертам) на бенчмарке MT-bench модель сравнялась с gpt-3.5. Скор 8.30 (из 10) — это лучший показатель среди всех открытых моделей.
Завтра (13 декабря) в 21 по МСК собираемся в гостях у Валеры @cryptovalerii на видео-стрим. Будем обсуждать Large Language Models с инженером из DeepMind, участвовавшим в создании Gemini. Общение будет на русском!

Вопросы на стрим можно оставлять здесь, под этим постом. Держите в уме, что NDA-информацию никто не будет разглашать)

Добавить в календарь, чтобы не забыть.
Извините что долго писал этот пост — я смеялся. Спасибо подписчику за то, что принёс ссылку на блог Microsoft.

Там ребята пишут, что решили поиграть в промпт-инженеров над GPT-4, чтобы сравнить модель по-честному с Geminin Ultra на задачах, которые Google'овцы выбрали для оценки (флекса). Ну, мелкомягкие тоже умеют флексить, бросаясь фразами в духе «Our end-to-end exploration, prompt design, and computing of performance took just a couple of days» 👁

Ну, и сравнили метрики с Gemini Ultra... 👁👁👁 даже жалко немного Google... Где-то разрыв метрик прям ЖЕСТКИЙ, а в MMLU лишь поровнялись.

(Medprompt+ на картинке — это изменённый промпт для одноименной работы. Надо сказать, что это достаточно навороченный приём, но остальные указанные — простые и общие, не требующий глубого копания и тюнинга под задачу)

Все скрипты с промптами доступны на GitHub — ссылка.

Просто рандомный факт: обучение GPT-4 было закончено в августе 2022го, больше года назад 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
Наткнулся на блогпост с объяснением того, как работают Latent Consistency Models (LCM), на пальцах, но для инженеров. Там же даётся короткая вводная про Diffusion Models. Так что если вам хотелось разобраться — то это хорошее место для старта!

LCM — это способ ускорения Diffusion-моделей. В последних, как вы знаете, для генерации изображения делается много последовательных шагов, «наслаивающих» предсказания друг на друга. Чем больше шагов — тем дольше работает. Типичные значения лежат в районе 20-50. LCM показывают, как это можно ужать в 4-5 шагов почти без потери в качестве.

Читать
Автор
Сиолошная
Real-World Humanoid Locomotion with Reinforcement Learning Долгое время основной проблемой AI в робототехнике был Sim2Real Gap — разница между симуляцией и реальностью. Можно сколь угодно долго тренировать своих ботов в компьютере, но как только они сталкиваются…
This media is not supported in your browser
VIEW IN TELEGRAM
В продолжение темы роботов — Tesla выкатили новый ролик с Optimus.

Ему прокачали дизайн (выглядит действительно гуманоидно, разве что спина плоская), облегчили на 10 килограмм, добавили манёвренности — бегает на 30% быстрее (в видео ничего не ускорено), дали сенсоры давления на каждый палец — это вообще вау!

Ролик завораживает, действия получаются почти естественными, а мелкая моторика в примере с перекладыванием яйца — жестб. И этот робот тоже учится в симуляции, навыки — не программируются вручную! А ещё Tesla планирует нарастить мощности суперкомпьютера для обучения нейросетей в 10+ раз в следующем году.

Эх, ждём коллаба GPT-6 и тысяч таких роботов 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from BOGDANISSSIMO
MEDPROMPT

Как выжать максимум из LLM до того как заводить fine-tuning (который дорогой, долгий и сложный)? Ответ: продвинутый prompt engineering. Есть, значит, такой Medprompt, который со страшной силой бьёт бенчмарки на каких-либо узких доменах за счёт довольно простых приёмов.

Нам понадобятся 3 ингредиента:
1. kNN few-shot
2. Chain-of-Thought (CoT)
3. Ensemble choice shuffle

1. kNN few-shot: LLM сильно лучше понимают, что от них хотят, когда даёшь пару примеров (прямо как и люди). kNN few-shot практически тоже самое, что RAG (Retrieval Augmented Generation), с той лишь разницей, что если в RAG мы векторизуем сырую базу знаний (набор документов, разбитых на кусочки), то во few-shot kNN мы векторизуем запросы пар "запрос - ответ". Конкретно в Medprompt по запросу достаём "запрос - рассуждение (CoT) - ответ" (рассуждение и ответ могут быть как прописаны экспертом, так и сгенерированы LLM, а затем провалидированные экспертом).

Вы можете использовать в любом своём приложении few-shot как статичный (руками прописанный в промте), так и динамический (в kNN режиме, когда по запросу пользователя из векторной базы данных достаются похожие примеры запросов с их правильными ответами) – и это гарантированно повысит качество.

2. Chain-of-thought (CoT): цепочка рассуждений – по-простому, мы просто говорим модели подумать перед выбором финального ответа. Например, Before crafting a reply, describe your observations in 3 sentences with clarifying strategy we should choose in <draft></draft> tags. Вариаций как организовать CoT масса. Главное, что это позволяет модели порефлексировать, набросать черновые варианты или выделить, на что обратить внимание, – до того как давать ответ.

CoT также значимо бустит качество генерации практически в любом приложении, переводя модель из режима "ответа сходу" на "обдуманное решение. Ведёт к дополнительным костам и секундам на "токены рассуждения", которые вы вероятно не будете показывать пользователю, но с GPT-4-Turbo цена и время стали приятнее.

#LLMOps
Forwarded from BOGDANISSSIMO
3. Ensemble with choice shuffle. Здесь начинается уже специфика бенчмарков, где на выходе ожидается вариант ответа, выбранный из заранее определённого списка. Если это не кейс вашего приложения, вам эта часть будет бесполезна. Проблема: как показала практика, порядок вариантов, из которых нужно выбирать, статистзначимо смещает выбор варианта при перезапуске генерации много-много раз. Чтобы это обойти, перемешиваем варианты, например, 5 раз и выбираем самый популярный (что требует 5 вызовов, вместо 1, Я ещё не думал в сторону, можно ли оптимизировать косты промпта здесь с помощью Моего любимого магического параметра n, но да ладно).

Вот и весь Medprompt. Даёт какие-то мощные приросты в точности и обгоняет fine-tuned модель от Google, Med-PaLM 2.

Мне в юзкейсах достаточно few-shot kNN + CoT + ещё разной магии, у Меня нет заранее предопределённых вариантов, поэтому нам choice shuffle не актуален. Шаблоны промптов с картинки можно покурить здесь, там ничего сложного. За ссылочки и помощь в разборе спасибо Игорю (@seeallochnaya).

P.S. Поделитесь, а какие из этих техник вы применяете у себя в LLM-продуктах? Мне и другим будет интересно узнать.

#LLMOps
Иииии OpenAI под конец года объявили о запуске второго потока программы Converge, о которой я писал аж в марте. По сути, это стартап-акселератор, участникам которого доступны предварительные версии новых технологий, а также консультации с сотрудниками OpenAI.

Саммари для фаундеров:
— отбирают 10-15 компаний
— начало программы 11го марта, длительность 6 недель
— первая и последняя недели обязательно оффлайн в офисе в Сан-Франциско, компания покрывает расходы на путешествие
— $1M при попадании в программу (судя по описанию — не в кредитах API, и без доли в компании)
— даже если у вас сейчас нет ничего — есть время подготовить хотя бы идею и прототип на костылях
— Дедлайн подачи заявки 26ое января 2024го

Фокус всё еще на трансформацию важных индустрий, однако перечня (как в прошлый раз) нет.

Прочитать анонс тут.