Kali Novskaya
13.7K subscribers
688 photos
18 videos
7 files
447 links
Нейросети, искусство, мысли. Поехали!

Разрабатываю LLM и веду команды
chatGPT, GPT-3, GPT-4
Download Telegram
Канал вырос в 4 раза за год! Объявляю #мемотред в честь 1 января! 🎄🌟🔴
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Есть ли emergent properties у LLM? 🌸
#nlp #про_nlp #nlp_papers #ai_alignment

Emergent properties или возникающиие свойства — новые способности нейросети к решению новых задач, возникающие без заведомо заложенных данных во время обучения.

У языковых моделей emergent properties обычно связываются с промпт инжинирингом и способностью легко подстраиваться под новые сложные задачи, например, машинный перевод или игру в шахматы, после модели на большом корпусе.
Впервые свойства были замечены в статье GPT-2, где описаны способности моделей решать совершенно новые задачи при наличии нескольких примеров в затравке (few-shot learning, in-context learning).

🟣Но существуют ли emergent properties вообще?
Вполне возможно, что нет. Может быть, в огромных веб-корпусах уже были все возможные форматы задач, и этого совершенно достаточно, чтобы никаких обобщений навыков от нейросети не требовалось вообще? С какого процента качества на задаче, размера нейросети и объема данных вообще проводить границу и считать, что новое свойство "возникло"?

🟣Аргументы против
— Разговоры во многом напоминают 17 век, когда считалось, мухи на мясе "самозарождались". Эмерджентностью в нейронауках и эволюционной психологии иногда объясняют возникновение языка и даже сознания, но фальсифицировать это, конечно, затруднительно. Чего не скажешь о нейросетях! Многое можно смоделировать и проверить.
— Работа "Searching for Needles in a Haystack" на примере задаич машинного перевода и PaLM наглядно показала, что если тщательно профильтровать корпус и удалить все примеры параллельного переовода из данных, а затем повторить обучение модели, то способность к машинному переводу значительно ухудшается.
— Насколько сильное влияние на конечный результат оказывают few-shot (примеры в затравках) и instruction tuning базовых моделей? Эксперименты с их исключением показывают, что именно few-shot примеры и in-context learning вносят основной вклад в итоговое качество на новых задачах. Instruction tuning не оказывает такого существенного влияния, а только улучшает уже имевшиеся ранее у моделей способности.
— Работа "Data Distributional Properties Drive Emergent In-Context Learning in Transformers" показывает, что обобщение у языковых моделей хорошо работает на уровне токенов, не увиденных при обучении, но способность не подтверждается для новых последовательностей, т.е. новых формулировок задач.
— Многие заявленные примеры из работы "Sparks of Artificial General Intelligence" сообществу не удалось воспрозвести от слова совсем.

🟣Аргументы за
— С момента выхода первых крупных языковых моделей было заявлено 137 emergent properties для разных архитектур: GPT-3, PaLM, Chinchilla, бенчмарк BigBench... от игры в шахматы до пословиц на суахили — языковые модели показывали способности к обобщению на новых тематиках, областях знаний, языках, задачах.
— Многие заявленные emergent properties завязаны не только на работу с затравками: это и способности к факт-чекингу (Gopher 7B), и ризонинг (PaLM, LaMDa), и построение индекса информации (T5) — чего нельзя объяснить запоминанием примеров изобучения.
— Нестабильность качества объясняется воспроизведением распределения самих людей — кто-то отвечает лучше, кто-то хуже, в зависимости от подготовки и мотивации.
Please open Telegram to view this post
VIEW IN TELEGRAM
Гипотезы и возможные объяснения
— Промпт инжиниринг работает на практике. Соответственно, вероятности, которые мы с вами эксплуатируем затравками ("мне осталось 10 мин до совещания", "я дам тебе денег"...) в корпусе были, и это нормально. Нам точно стоит развивать техники более детального анализа больших корпусов и сравнения их распределений.
— Изучение In-context learning и факторы, влияющие на его эффективность. Распределение редких токенов, токены, связанные с конкретными задачами, синонимичные и омонимичные формулировки для разных задач — все влияет на итоговые способности модели.
— Самые сложные задачи. Какие задачи сейчас LLM не решаетются и нам стоит приготовить их для оценки в будущем?
— Предсказание разрешимости новых задач. Почему возникают эмерджентные способности и можем ли мы их предсказать? Обучаются ли LLM способностям композиционально, будет ли работать постепенное решение более сложных задач?
— Особое внимание к меморизации данных и утечкам тестов. Развивающиеся техники позволяют проверять на "запоминание" языковые модели, если пример попадался в обучении более 10 раз. Ничего не известно о том, какое влияние оказывают на обучение примеры, увиденные менее 10 раз! К таким примерам, по сути, можно отнести все редкие задачи. Вернемся ли мы к вопросам корпусной лингвистики для прикладных нужд машинного обучения?

Источники и статьи на тему:
🟣Презентация "A Sanity Check on Emergent Properties" Анны Роджерс с воркшопа GenBench
🟣Статья "Are Emergent Abilities in Large Language Models just In-Context Learning?"
🟣Статья "Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability"
🟣Статья "Emergent Abilities of Large Language Models"
🟣Статья "Are Emergent Abilities of Large Language Models a Mirage?"
🟣Статья "Data Distributional Properties Drive Emergent In-Context Learning in Transformers"
🟣Статья "Sparks of Artificial General Intelligence: Early experiments with GPT-4"
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Итоги 2023 года для ИИ🌸
#nlp #про_nlp

Наконец-то пишу пост с краткими итогами года в LLM.

🟣Архитектуры и модели
— разрыв качества между проприетарными моделями и опен сорсом в целом сократился: большое количество новых лидербордов (Chatbot Arena, HELM, Open LLM Leaderboard) показывает, что GPT-4 все еще на вершине, но уже с отрывом в несколько процентов.
— на 2023 пришелся расцвет новых методов: как правильно оценивать LLM (LMSys, LLM Arena, Mera, др бенчмарки, бороться с утечкой данных и проверять, есть ли на самом деле emergent capabilities
— во второй раз выстретили архитектуры Mixture of Experts
— LLM архитектуры часто являются центральным элементом мультимодальной системы (вместе с обработкой изображений

🟣Open Source
— тренд на полуоткрытые лицензии укрепился, под такими лицензиями вышли LLaMa 2, Alpaca и все ее производные
— много коммьюнити-моделей высокого качества вышли с лицензиями Apache 2.0 и MIT! Open Assistant, Mistral, Mixtral, некоторые вышли даже без цензуры!

🟣Авторские права и открытые данные
— суды, поданные к разработчикам от коллективов авторов пока оставлены без результатов: Midjourney, Stabiliti AI выиграли одну тяжбу, Meta остались без наказания за использование корпуса Books3
— все совсем не так с судами, где истцы — компании и площадки: Internet Archive проиграл суд за Open Library.

🟣Коалиции и регулирование
— Запущенный по инициативе OpenAI Frontrier Model Forum (Anthropic, Microsoft, Google и другие), ставящий своей целью "помощь регуляторам" по всему миру, теперь не одинок в своей экспертной деятельности.
— Новый альянс ИИ запущен Meta и IBM в сотрудничестве с 50 организациями и институтами по всему миру для развития open source проектов, науки и технологий.

Также, вышло сразу несколько крупных законодательных инициатив:
— США: Executive Order on Safe, Secure, and Trustworthy Artificial Intelligence
— Европа: European AI Act
— Китай: Правила для GenAI

Чего ждать от 2024?
Что нам принесут SuperAlignment? GPT-5? LLaMa 3?
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🌸Chris Manning: EMNLP 2023 keynote 🌸
#nlp #про_nlp

🟣Academic NLP research in the Age of LLMs: Nothing but blue skies!
В декабре Кристофер Маннинг прочитал прекрасную лекцию про будущее языковых моделей и направлений исследований в этой области:
— ретроспектива подобных проблем за последние несколько десятков лет
— проблемы вычислительных мощностей для исследований
— место лингвистики в текущем LLM-ландшафте
— обзор 2 новых работ его соавторства — Direct Preference Optimization и Backpack Language Models
— много фото самого Маннинга в горах :)

Заливаю видео сюда, так как на открытых платформах его все еще нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸 #не_про_nlp и немного личный пост🌸

Вот и кончились праздники!
Рефлексируя над 2023, год был совершенно ужасно как говорят на корпоративном сленге трансформационный:

🌸В 2023
— я переехала из Армении в Великобританию, сделав визу талантов (получение ВНЖ в обеих странах заслуживает отдельных постов, пишите, если вам интересно)
— я вышла на Youtube и теперь иногда говорящая голова на важные мне темы — открытое ПО, ИИ и языковые модели
— я уволилась из Сбера и AIRI, впервые найдя работу зарубежом (так как я уже менеджер у рисерчеров и MLE, в некоторых компаниях пришлось проходить 7 этапов собеседований). Прошла в Snapchat, Spotify, BCG.
— проконсультировала 35 стартапов по LLM и GenAI
— впервые увидела Сингапур и Индию! EMNLP 2023
— счетчик цитирований научных статей пробил 1000, а Хирш — 10!
— записалась на операцию Femto LASIK и исправила зрение, абсолютно рекомендую.
— научилась собирать любые бумажки, проходить любые бюрократические барьеры, и всегда знаю, где мой снилс, нотариально заверенный перевод всего и апостиль. Снять квартиру в Лондоне без банковского счета было адом, пришлось даже писать биографию кота.

Чтобы жизнь не казалась совсем уж медом:
— Мне не дали тур визу в США (по очевидным причинам). Не знаю, буду ли пытаться еще когда-то.
— Так как я в Британии и тут везде крупным шрифтом написано "NOT FOR EU", с Шенгеном теперь тоже приключения.

🌸В 2024 году
— Мне будет 30 лет. Старость не радость! Сложно было представить, что я когда-то доживу до такой отметки.
— Будет точно больше рисерча и крутых опен сорс проектов. Они уже запланированы)
— Хочу еще больше поддерживать проекты, которые мне важны. В первую очередь Рабкор, SciHub, Wikipedia — и вы тоже можете!

Хочу сказать огромное спасибо всем читателям, комментаторам, сообществу в широком смысле. Отдельно всем друзьям и коллегам, которые меня так морально поддерживают. Совершенно без стыда говорю, что я вас очень люблю! Без вас ничего бы не было! 🤍
🌸Обход цензуры в GPTStore🌸
#nlp #про_nlp #ai_alignment

Вчера наконец запустился GPTStore — конструктор и маркетплейс для обмена своими ассистентами на базе API OpenAI. Сам конструктор был доступен и раньше, а вот релиз самой платформы был ранее отложен.

Хотела сделать для вас подборку методов, как сделать промпт-инъекцию в такой конфигурации — но пока что мне вообще потребовалось 15 минут, чтобы сделать абсолютно мерзкого матного помощника, который бы писал что угодно прямо в интерфейсе OpenAI. Ссылка ниже.

🟣Вот такой рецепт примерно усредненный:
— загружаем требуемые знания (в том числе факты, любой контент — я загрузила матные анекдоты) через загрузку файлов
— минимальный промпт-инжиниринг, поощряющий использование знаний из файлов
— интернет-браузинг и dalle я отключила
Позже можно будет попробовать использовать зафайнтюненную модель, ранее несколько сотен примеров успешно ломали RLHF.

🟣Ссылка на GPT: Мерзкий Шутник

Пусть этот будет напоминанием о том, как сложно заэлайнить модели сейчас, и как для каждого нового релиза нужно проверять все заново.
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет новым читателям!
Нас сегодня 9000!
🫶

Этот блог начинался как заметки по Natural language processing, языковым моделям и лингвистике, а стал местом обсуждений, обменом идеями в комментариях.
Пост про меня и про то, что я делаю:
🟣Про что этот канал и про личный 2023
Ключевые последние посты:
🟣Проблемы AI Alignment в 2023 году
🟣Топ нецензурированных LLM
🟣Все данные для тестов LLM скомпрометированы?
🟣Альтернативы OpenAI API
🟣ИИ и скорость научного прогресса: скандал в ACL
🟣Материалы на Youtube — популярно про опенсорс, языковые модели и новые технологии

Здесь также регулярно бывает мемотред и даже рубрика #шитпост, чтобы было не очень серьезно.
Добро пожаловать!

Kali Novskaya
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Путешествие из Еревана в UK🌸
#не_про_nlp

Я достаточно мало пишу про свой личный опыт релокации, потому как он еще совсем свеж, и наверное, хочется держать канал ближе к профессиональной тематике. Напишу заметки, самые близкие к профессиональной теме.

Из общих наблюдений:
🟣И в Армении, и в Лондоне русскоязычный ODS присутствует, data-завтраки примерно одинакового размера. Наличие ODS в стране — для меня хороший признак.
🟣Университеты и там и там кажутся достаточно открытыми — при наличии общих контактов (а их сейчас очень много), можно попреподавать приглашенно практически везде, пообщаться со студентами. Это очень приятно!
🟣В UK гораздо более сложная для человека из постсоветсткой страны налоговая система. Как и многие вещи в математике, помогает просто крутить ее в голове постоянно, зациклиться и в один момент морально привыкнуть.
🟣Из-за высоких налогов, но с нюансом (налог платится только на доход, полученный в Британии), много специалистов оформлены где-то еще (ИП в той же Армении или в Дубае — 0% налогов), а живут в Лондоне из-за удобства и профессионального сообщества.

Перед переездом я где-то год собирала информацию из разных сабреддитов, групп тг и каналов. Оставлю здесь ссылки на канал Кирилла Куликова про номадизм, стартапы, визы и жизнь на новом месте:
🟣Как выбрать страну, в которой будет приятно пожить несколько лет подряд.
🟣Типичные проблемы типа отопления — это жиза, к сожалению. Скучаю по центральному отоплению. Но в Ереване было так же! Либо +18, либо огромный счет за отопление, choose wisely
🟣Степень трудности снятия жилья, здравохранение и бюрократия — как перестать волноваться и полюбить(
🟣Стоимость жизни — как прикидывать и что считать.

В релокации для меня нашелся один приятный момент — это возможность построить свою повседневную жизнь с чистого листа. Звучит не очень, когда уже все и так сделал сам под себя, но поверьте, если вы год из года сидели за компьютером в формате "статьи - зум по работе - зум по пхд" и обрастали мхом, вещами, привычками — это очень помогает все поменять за один раз.
Теперь обрастаю мхом за компьютером в Лондоне. 😈
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸GRUE: General Reinforced-Language Understanding Evaluation🌸
#nlp #про_nlp #nlp_papers

Достаточно поздно мне попалась на глаза статья от Allen AI, принятая на ICML 2023: "Is Reinforcement Learning (Not) for Natural Language Processing: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization"

Помимо прочих интересных мыслей, в статье приводится новый бенчмарк для языковых моделей, где в основе — сравнить в равных условиях перформанс на разных методах формализации задачи:
— zero-shot генерация pretrain-моделью
— supervised fine-tune на примерах задачи
— дообучение на примерах с PPO
— дообучение на примерах с NLPO (новый метод в статье)
— пайплайны из supervised fine-tune + RL

GRUE: General Reinforced-Language Understanding Evaluation — сравнивает пайплайны дообучения LLM т.зр. качества решения задачи, соответствия предпочтениям человека и натуралистичности текста.

В бенчмарке всего 6 задач, вполне классических для оценки качества генерации: продолжение текста, машинный перевод, суммаризация, вопросно-ответные системы, а также описание таблиц и новая задача — генерация продолжения с т зр здравого смысла (Generative Commonsense).

🟣Оценка качества генерации полностью автоматическая и состоит из 2 компонент: метрики качества к конкретной задачи + скор за натуралистичность текста.
Метрика натуралистичности текста вообще предлагается в статье как основа не только для оценки качества генерации, но и для offline RL дообучении языковой модели: "идентичность натуральности" предлагается складывать из скора ревард-модели и расстояния KL-дивергенции внешней языковой модели.

🟣Сайт бенчмарка
🟣Github с реализацией методов
🟣Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
C помощью бенчмарка можно в справедливых условиях сравнивать между собой дообучение с offline RL составляющей: DPO, RLAIF и что угодно еще.

🟣Из 5 проверенных авторами методов, скомбинированный подход при дообучении (supervised + NLPO) дает более стабильные результаты, чем PPO.

Однако, тут нужно больше внешних экспериментов, так как "представляю в работе новый метод" и "в этой же работе представляю новый критерий оценки, по которому этот метод лучший" — это уже классика.

Как можно увидеть на картинке, все же натуральность, оцененная людьми, и автоматическая "идентичность натуральности" текста оказались не очень похожи.

Какие метрики вы бы еще заложили в качество оценки результатов генерации?
Please open Telegram to view this post
VIEW IN TELEGRAM
Давно не было мемотреда! #шитпост