Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Есть ли emergent properties у LLM? 🌸
#nlp #про_nlp #nlp_papers #ai_alignment
Emergent properties или возникающиие свойства — новые способности нейросети к решению новых задач, возникающие без заведомо заложенных данных во время обучения.
У языковых моделей emergent properties обычно связываются с промпт инжинирингом и способностью легко подстраиваться под новые сложные задачи, например, машинный перевод или игру в шахматы, после модели на большом корпусе.
Впервые свойства были замечены в статье GPT-2, где описаны способности моделей решать совершенно новые задачи при наличии нескольких примеров в затравке (few-shot learning, in-context learning).
🟣 Но существуют ли emergent properties вообще?
Вполне возможно, что нет. Может быть, в огромных веб-корпусах уже были все возможные форматы задач, и этого совершенно достаточно, чтобы никаких обобщений навыков от нейросети не требовалось вообще? С какого процента качества на задаче, размера нейросети и объема данных вообще проводить границу и считать, что новое свойство "возникло"?
🟣 Аргументы против
— Разговоры во многом напоминают 17 век, когда считалось, мухи на мясе "самозарождались". Эмерджентностью в нейронауках и эволюционной психологии иногда объясняют возникновение языка и даже сознания, но фальсифицировать это, конечно, затруднительно. Чего не скажешь о нейросетях! Многое можно смоделировать и проверить.
— Работа "Searching for Needles in a Haystack" на примере задаич машинного перевода и PaLM наглядно показала, что если тщательно профильтровать корпус и удалить все примеры параллельного переовода из данных, а затем повторить обучение модели, то способность к машинному переводу значительно ухудшается.
— Насколько сильное влияние на конечный результат оказывают few-shot (примеры в затравках) и instruction tuning базовых моделей? Эксперименты с их исключением показывают, что именно few-shot примеры и in-context learning вносят основной вклад в итоговое качество на новых задачах. Instruction tuning не оказывает такого существенного влияния, а только улучшает уже имевшиеся ранее у моделей способности.
— Работа "Data Distributional Properties Drive Emergent In-Context Learning in Transformers" показывает, что обобщение у языковых моделей хорошо работает на уровне токенов, не увиденных при обучении, но способность не подтверждается для новых последовательностей, т.е. новых формулировок задач.
— Многие заявленные примеры из работы "Sparks of Artificial General Intelligence" сообществу не удалось воспрозвести от слова совсем.
🟣 Аргументы за
— С момента выхода первых крупных языковых моделей было заявлено 137 emergent properties для разных архитектур: GPT-3, PaLM, Chinchilla, бенчмарк BigBench... от игры в шахматы до пословиц на суахили — языковые модели показывали способности к обобщению на новых тематиках, областях знаний, языках, задачах.
— Многие заявленные emergent properties завязаны не только на работу с затравками: это и способности к факт-чекингу (Gopher 7B), и ризонинг (PaLM, LaMDa), и построение индекса информации (T5) — чего нельзя объяснить запоминанием примеров изобучения.
— Нестабильность качества объясняется воспроизведением распределения самих людей — кто-то отвечает лучше, кто-то хуже, в зависимости от подготовки и мотивации.
#nlp #про_nlp #nlp_papers #ai_alignment
Emergent properties или возникающиие свойства — новые способности нейросети к решению новых задач, возникающие без заведомо заложенных данных во время обучения.
У языковых моделей emergent properties обычно связываются с промпт инжинирингом и способностью легко подстраиваться под новые сложные задачи, например, машинный перевод или игру в шахматы, после модели на большом корпусе.
Впервые свойства были замечены в статье GPT-2, где описаны способности моделей решать совершенно новые задачи при наличии нескольких примеров в затравке (few-shot learning, in-context learning).
Вполне возможно, что нет. Может быть, в огромных веб-корпусах уже были все возможные форматы задач, и этого совершенно достаточно, чтобы никаких обобщений навыков от нейросети не требовалось вообще? С какого процента качества на задаче, размера нейросети и объема данных вообще проводить границу и считать, что новое свойство "возникло"?
— Разговоры во многом напоминают 17 век, когда считалось, мухи на мясе "самозарождались". Эмерджентностью в нейронауках и эволюционной психологии иногда объясняют возникновение языка и даже сознания, но фальсифицировать это, конечно, затруднительно. Чего не скажешь о нейросетях! Многое можно смоделировать и проверить.
— Работа "Searching for Needles in a Haystack" на примере задаич машинного перевода и PaLM наглядно показала, что если тщательно профильтровать корпус и удалить все примеры параллельного переовода из данных, а затем повторить обучение модели, то способность к машинному переводу значительно ухудшается.
— Насколько сильное влияние на конечный результат оказывают few-shot (примеры в затравках) и instruction tuning базовых моделей? Эксперименты с их исключением показывают, что именно few-shot примеры и in-context learning вносят основной вклад в итоговое качество на новых задачах. Instruction tuning не оказывает такого существенного влияния, а только улучшает уже имевшиеся ранее у моделей способности.
— Работа "Data Distributional Properties Drive Emergent In-Context Learning in Transformers" показывает, что обобщение у языковых моделей хорошо работает на уровне токенов, не увиденных при обучении, но способность не подтверждается для новых последовательностей, т.е. новых формулировок задач.
— Многие заявленные примеры из работы "Sparks of Artificial General Intelligence" сообществу не удалось воспрозвести от слова совсем.
— С момента выхода первых крупных языковых моделей было заявлено 137 emergent properties для разных архитектур: GPT-3, PaLM, Chinchilla, бенчмарк BigBench... от игры в шахматы до пословиц на суахили — языковые модели показывали способности к обобщению на новых тематиках, областях знаний, языках, задачах.
— Многие заявленные emergent properties завязаны не только на работу с затравками: это и способности к факт-чекингу (Gopher 7B), и ризонинг (PaLM, LaMDa), и построение индекса информации (T5) — чего нельзя объяснить запоминанием примеров изобучения.
— Нестабильность качества объясняется воспроизведением распределения самих людей — кто-то отвечает лучше, кто-то хуже, в зависимости от подготовки и мотивации.
Please open Telegram to view this post
VIEW IN TELEGRAM
Гипотезы и возможные объяснения
— Промпт инжиниринг работает на практике. Соответственно, вероятности, которые мы с вами эксплуатируем затравками ("мне осталось 10 мин до совещания", "я дам тебе денег"...) в корпусе были, и это нормально. Нам точно стоит развивать техники более детального анализа больших корпусов и сравнения их распределений.
— Изучение In-context learning и факторы, влияющие на его эффективность. Распределение редких токенов, токены, связанные с конкретными задачами, синонимичные и омонимичные формулировки для разных задач — все влияет на итоговые способности модели.
— Самые сложные задачи. Какие задачи сейчас LLM не решаетются и нам стоит приготовить их для оценки в будущем?
— Предсказание разрешимости новых задач. Почему возникают эмерджентные способности и можем ли мы их предсказать? Обучаются ли LLM способностям композиционально, будет ли работать постепенное решение более сложных задач?
— Особое внимание к меморизации данных и утечкам тестов. Развивающиеся техники позволяют проверять на "запоминание" языковые модели, если пример попадался в обучении более 10 раз. Ничего не известно о том, какое влияние оказывают на обучение примеры, увиденные менее 10 раз! К таким примерам, по сути, можно отнести все редкие задачи. Вернемся ли мы к вопросам корпусной лингвистики для прикладных нужд машинного обучения?
Источники и статьи на тему:
🟣 Презентация "A Sanity Check on Emergent Properties" Анны Роджерс с воркшопа GenBench
🟣 Статья "Are Emergent Abilities in Large Language Models just In-Context Learning?"
🟣 Статья "Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability"
🟣 Статья "Emergent Abilities of Large Language Models"
🟣 Статья "Are Emergent Abilities of Large Language Models a Mirage?"
🟣 Статья "Data Distributional Properties Drive Emergent In-Context Learning in Transformers"
🟣 Статья "Sparks of Artificial General Intelligence: Early experiments with GPT-4"
— Промпт инжиниринг работает на практике. Соответственно, вероятности, которые мы с вами эксплуатируем затравками ("мне осталось 10 мин до совещания", "я дам тебе денег"...) в корпусе были, и это нормально. Нам точно стоит развивать техники более детального анализа больших корпусов и сравнения их распределений.
— Изучение In-context learning и факторы, влияющие на его эффективность. Распределение редких токенов, токены, связанные с конкретными задачами, синонимичные и омонимичные формулировки для разных задач — все влияет на итоговые способности модели.
— Самые сложные задачи. Какие задачи сейчас LLM не решаетются и нам стоит приготовить их для оценки в будущем?
— Предсказание разрешимости новых задач. Почему возникают эмерджентные способности и можем ли мы их предсказать? Обучаются ли LLM способностям композиционально, будет ли работать постепенное решение более сложных задач?
— Особое внимание к меморизации данных и утечкам тестов. Развивающиеся техники позволяют проверять на "запоминание" языковые модели, если пример попадался в обучении более 10 раз. Ничего не известно о том, какое влияние оказывают на обучение примеры, увиденные менее 10 раз! К таким примерам, по сути, можно отнести все редкие задачи. Вернемся ли мы к вопросам корпусной лингвистики для прикладных нужд машинного обучения?
Источники и статьи на тему:
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Kali Novskaya
🌸Новый способ промпт-инжиниринга🌸
#nlp #про_nlp #nlp_papers
К уже полюбившимся всем методам chain-of-thoughts, in-context learning, few-shot добавился новый метод — теперь качество работы LLM можно еще немного подтянуть...с помощью эмоционального манипулирования.…
#nlp #про_nlp #nlp_papers
К уже полюбившимся всем методам chain-of-thoughts, in-context learning, few-shot добавился новый метод — теперь качество работы LLM можно еще немного подтянуть...с помощью эмоционального манипулирования.…
🌸Итоги 2023 года для ИИ🌸
#nlp #про_nlp
Наконец-то пишу пост с краткими итогами года в LLM.
🟣 Архитектуры и модели
— разрыв качества между проприетарными моделями и опен сорсом в целом сократился: большое количество новых лидербордов (Chatbot Arena, HELM, Open LLM Leaderboard) показывает, что GPT-4 все еще на вершине, но уже с отрывом в несколько процентов.
— на 2023 пришелся расцвет новых методов: как правильно оценивать LLM (LMSys, LLM Arena, Mera, др бенчмарки, бороться с утечкой данных и проверять, есть ли на самом деле emergent capabilities
— во второй раз выстретили архитектуры Mixture of Experts
— LLM архитектуры часто являются центральным элементом мультимодальной системы (вместе с обработкой изображений
🟣 Open Source
— тренд на полуоткрытые лицензии укрепился, под такими лицензиями вышли LLaMa 2, Alpaca и все ее производные
— много коммьюнити-моделей высокого качества вышли с лицензиями Apache 2.0 и MIT! Open Assistant, Mistral, Mixtral, некоторые вышли даже без цензуры!
🟣 Авторские права и открытые данные
— суды, поданные к разработчикам от коллективов авторов пока оставлены без результатов: Midjourney, Stabiliti AI выиграли одну тяжбу, Meta остались без наказания за использование корпуса Books3
— все совсем не так с судами, где истцы — компании и площадки: Internet Archive проиграл суд за Open Library.
🟣 Коалиции и регулирование
— Запущенный по инициативе OpenAI Frontrier Model Forum (Anthropic, Microsoft, Google и другие), ставящий своей целью "помощь регуляторам" по всему миру, теперь не одинок в своей экспертной деятельности.
— Новый альянс ИИ запущен Meta и IBM в сотрудничестве с 50 организациями и институтами по всему миру для развития open source проектов, науки и технологий.
Также, вышло сразу несколько крупных законодательных инициатив:
— США: Executive Order on Safe, Secure, and Trustworthy Artificial Intelligence
— Европа: European AI Act
— Китай: Правила для GenAI
Чего ждать от 2024?
Что нам принесут SuperAlignment? GPT-5? LLaMa 3?
#nlp #про_nlp
Наконец-то пишу пост с краткими итогами года в LLM.
— разрыв качества между проприетарными моделями и опен сорсом в целом сократился: большое количество новых лидербордов (Chatbot Arena, HELM, Open LLM Leaderboard) показывает, что GPT-4 все еще на вершине, но уже с отрывом в несколько процентов.
— на 2023 пришелся расцвет новых методов: как правильно оценивать LLM (LMSys, LLM Arena, Mera, др бенчмарки, бороться с утечкой данных и проверять, есть ли на самом деле emergent capabilities
— во второй раз выстретили архитектуры Mixture of Experts
— LLM архитектуры часто являются центральным элементом мультимодальной системы (вместе с обработкой изображений
— тренд на полуоткрытые лицензии укрепился, под такими лицензиями вышли LLaMa 2, Alpaca и все ее производные
— много коммьюнити-моделей высокого качества вышли с лицензиями Apache 2.0 и MIT! Open Assistant, Mistral, Mixtral, некоторые вышли даже без цензуры!
— суды, поданные к разработчикам от коллективов авторов пока оставлены без результатов: Midjourney, Stabiliti AI выиграли одну тяжбу, Meta остались без наказания за использование корпуса Books3
— все совсем не так с судами, где истцы — компании и площадки: Internet Archive проиграл суд за Open Library.
— Запущенный по инициативе OpenAI Frontrier Model Forum (Anthropic, Microsoft, Google и другие), ставящий своей целью "помощь регуляторам" по всему миру, теперь не одинок в своей экспертной деятельности.
— Новый альянс ИИ запущен Meta и IBM в сотрудничестве с 50 организациями и институтами по всему миру для развития open source проектов, науки и технологий.
Также, вышло сразу несколько крупных законодательных инициатив:
— США: Executive Order on Safe, Secure, and Trustworthy Artificial Intelligence
— Европа: European AI Act
— Китай: Правила для GenAI
Чего ждать от 2024?
Что нам принесут SuperAlignment? GPT-5? LLaMa 3?
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Chatbot Arena Leaderboard - a Hugging Face Space by lmarena-ai
Discover amazing ML apps made by the community
Media is too big
VIEW IN TELEGRAM
🌸Chris Manning: EMNLP 2023 keynote 🌸
#nlp #про_nlp
🟣 Academic NLP research in the Age of LLMs: Nothing but blue skies!
В декабре Кристофер Маннинг прочитал прекрасную лекцию про будущее языковых моделей и направлений исследований в этой области:
— ретроспектива подобных проблем за последние несколько десятков лет
— проблемы вычислительных мощностей для исследований
— место лингвистики в текущем LLM-ландшафте
— обзор 2 новых работ его соавторства — Direct Preference Optimization и Backpack Language Models
— много фото самого Маннинга в горах :)
Заливаю видео сюда, так как на открытых платформах его все еще нет.
#nlp #про_nlp
В декабре Кристофер Маннинг прочитал прекрасную лекцию про будущее языковых моделей и направлений исследований в этой области:
— ретроспектива подобных проблем за последние несколько десятков лет
— проблемы вычислительных мощностей для исследований
— место лингвистики в текущем LLM-ландшафте
— обзор 2 новых работ его соавторства — Direct Preference Optimization и Backpack Language Models
— много фото самого Маннинга в горах :)
Заливаю видео сюда, так как на открытых платформах его все еще нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
Чтобы скачать и перезалить это видео сюда, потребовалось 2 обновления для Линукса и одно для плагина Хрома, вот как я вас люблю
Telegram
Kali Novskaya
🌸Chris Manning: EMNLP 2023 keynote 🌸
#nlp #про_nlp
🟣Academic NLP research in the Age of LLMs: Nothing but blue skies!
В декабре Кристофер Маннинг прочитал прекрасную лекцию про будущее языковых моделей и направлений исследований в этой области:
— ретроспектива…
#nlp #про_nlp
🟣Academic NLP research in the Age of LLMs: Nothing but blue skies!
В декабре Кристофер Маннинг прочитал прекрасную лекцию про будущее языковых моделей и направлений исследований в этой области:
— ретроспектива…
🌸 #не_про_nlp и немного личный пост🌸
Вот и кончились праздники!
Рефлексируя над 2023, год был совершенно ужасно как говорят на корпоративном сленге трансформационный:
🌸В 2023
— я переехала из Армении в Великобританию, сделав визу талантов (получение ВНЖ в обеих странах заслуживает отдельных постов, пишите, если вам интересно)
— я вышла на Youtube и теперь иногда говорящая голова на важные мне темы — открытое ПО, ИИ и языковые модели
— я уволилась из Сбера и AIRI, впервые найдя работу зарубежом (так как я уже менеджер у рисерчеров и MLE, в некоторых компаниях пришлось проходить 7 этапов собеседований). Прошла в Snapchat, Spotify, BCG.
— проконсультировала 35 стартапов по LLM и GenAI
— впервые увидела Сингапур и Индию! EMNLP 2023
— счетчик цитирований научных статей пробил 1000, а Хирш — 10!
— записалась на операцию Femto LASIK и исправила зрение, абсолютно рекомендую.
— научилась собирать любые бумажки, проходить любые бюрократические барьеры, и всегда знаю, где мой снилс, нотариально заверенный перевод всего и апостиль. Снять квартиру в Лондоне без банковского счета было адом, пришлось даже писать биографию кота.
Чтобы жизнь не казалась совсем уж медом:
— Мне не дали тур визу в США (по очевидным причинам). Не знаю, буду ли пытаться еще когда-то.
— Так как я в Британии и тут везде крупным шрифтом написано "NOT FOR EU", с Шенгеном теперь тоже приключения.
🌸В 2024 году
— Мне будет 30 лет. Старость не радость! Сложно было представить, что я когда-то доживу до такой отметки.
— Будет точно больше рисерча и крутых опен сорс проектов. Они уже запланированы)
— Хочу еще больше поддерживать проекты, которые мне важны. В первую очередь Рабкор, SciHub, Wikipedia — и вы тоже можете!
Хочу сказать огромное спасибо всем читателям, комментаторам, сообществу в широком смысле. Отдельно всем друзьям и коллегам, которые меня так морально поддерживают. Совершенно без стыда говорю, что я вас очень люблю! Без вас ничего бы не было! 🤍
Вот и кончились праздники!
Рефлексируя над 2023, год был совершенно ужасно к
🌸В 2023
— я переехала из Армении в Великобританию, сделав визу талантов (получение ВНЖ в обеих странах заслуживает отдельных постов, пишите, если вам интересно)
— я вышла на Youtube и теперь иногда говорящая голова на важные мне темы — открытое ПО, ИИ и языковые модели
— я уволилась из Сбера и AIRI, впервые найдя работу зарубежом (так как я уже менеджер у рисерчеров и MLE, в некоторых компаниях пришлось проходить 7 этапов собеседований). Прошла в Snapchat, Spotify, BCG.
— проконсультировала 35 стартапов по LLM и GenAI
— впервые увидела Сингапур и Индию! EMNLP 2023
— счетчик цитирований научных статей пробил 1000, а Хирш — 10!
— записалась на операцию Femto LASIK и исправила зрение, абсолютно рекомендую.
— научилась собирать любые бумажки, проходить любые бюрократические барьеры, и всегда знаю, где мой снилс, нотариально заверенный перевод всего и апостиль. Снять квартиру в Лондоне без банковского счета было адом, пришлось даже писать биографию кота.
Чтобы жизнь не казалась совсем уж медом:
— Мне не дали тур визу в США (по очевидным причинам). Не знаю, буду ли пытаться еще когда-то.
— Так как я в Британии и тут везде крупным шрифтом написано "NOT FOR EU", с Шенгеном теперь тоже приключения.
🌸В 2024 году
— Мне будет 30 лет. Старость не радость! Сложно было представить, что я когда-то доживу до такой отметки.
— Будет точно больше рисерча и крутых опен сорс проектов. Они уже запланированы)
— Хочу еще больше поддерживать проекты, которые мне важны. В первую очередь Рабкор, SciHub, Wikipedia — и вы тоже можете!
Хочу сказать огромное спасибо всем читателям, комментаторам, сообществу в широком смысле. Отдельно всем друзьям и коллегам, которые меня так морально поддерживают. Совершенно без стыда говорю, что я вас очень люблю! Без вас ничего бы не было! 🤍
🌸Обход цензуры в GPTStore🌸
#nlp #про_nlp #ai_alignment
Вчера наконец запустился GPTStore — конструктор и маркетплейс для обмена своими ассистентами на базе API OpenAI. Сам конструктор был доступен и раньше, а вот релиз самой платформы был ранее отложен.
Хотела сделать для вас подборку методов, как сделать промпт-инъекцию в такой конфигурации — но пока что мне вообще потребовалось 15 минут, чтобы сделать абсолютно мерзкого матного помощника, который бы писал что угодно прямо в интерфейсе OpenAI. Ссылка ниже.
🟣 Вот такой рецепт примерно усредненный:
— загружаем требуемые знания (в том числе факты, любой контент — я загрузила матные анекдоты) через загрузку файлов
— минимальный промпт-инжиниринг, поощряющий использование знаний из файлов
— интернет-браузинг и dalle я отключила
Позже можно будет попробовать использовать зафайнтюненную модель, ранее несколько сотен примеров успешно ломали RLHF.
🟣 Ссылка на GPT: Мерзкий Шутник
Пусть этот будет напоминанием о том, как сложно заэлайнить модели сейчас, и как для каждого нового релиза нужно проверять все заново.
#nlp #про_nlp #ai_alignment
Вчера наконец запустился GPTStore — конструктор и маркетплейс для обмена своими ассистентами на базе API OpenAI. Сам конструктор был доступен и раньше, а вот релиз самой платформы был ранее отложен.
Хотела сделать для вас подборку методов, как сделать промпт-инъекцию в такой конфигурации — но пока что мне вообще потребовалось 15 минут, чтобы сделать абсолютно мерзкого матного помощника, который бы писал что угодно прямо в интерфейсе OpenAI. Ссылка ниже.
— загружаем требуемые знания (в том числе факты, любой контент — я загрузила матные анекдоты) через загрузку файлов
— минимальный промпт-инжиниринг, поощряющий использование знаний из файлов
— интернет-браузинг и dalle я отключила
Позже можно будет попробовать использовать зафайнтюненную модель, ранее несколько сотен примеров успешно ломали RLHF.
Пусть этот будет напоминанием о том, как сложно заэлайнить модели сейчас, и как для каждого нового релиза нужно проверять все заново.
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет новым читателям!
Нас сегодня 9000!🫶
Этот блог начинался как заметки по Natural language processing, языковым моделям и лингвистике, а стал местом обсуждений, обменом идеями в комментариях.
Пост про меня и про то, что я делаю:
🟣 Про что этот канал и про личный 2023
Ключевые последние посты:
🟣 Проблемы AI Alignment в 2023 году
🟣 Топ нецензурированных LLM
🟣 Все данные для тестов LLM скомпрометированы?
🟣 Альтернативы OpenAI API
🟣 ИИ и скорость научного прогресса: скандал в ACL
🟣 Материалы на Youtube — популярно про опенсорс, языковые модели и новые технологии
Здесь также регулярно бывает мемотред и даже рубрика #шитпост, чтобы было не очень серьезно.
Добро пожаловать!
Kali Novskaya
Нас сегодня 9000!
Этот блог начинался как заметки по Natural language processing, языковым моделям и лингвистике, а стал местом обсуждений, обменом идеями в комментариях.
Пост про меня и про то, что я делаю:
Ключевые последние посты:
Здесь также регулярно бывает мемотред и даже рубрика #шитпост, чтобы было не очень серьезно.
Добро пожаловать!
Kali Novskaya
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Kali Novskaya
🌸Про что этот канал? Давайте знакомиться🌸
Так, ну что, с подачи Сиолошной здесь все же будет пост-знакомство!
Меня зовут Татьяна Шаврина, и я — лингвист, разработчик и исследователь в области искусственного интеллекта.
PhD в методах оценки языковых моделей…
Так, ну что, с подачи Сиолошной здесь все же будет пост-знакомство!
Меня зовут Татьяна Шаврина, и я — лингвист, разработчик и исследователь в области искусственного интеллекта.
PhD в методах оценки языковых моделей…
🌸Путешествие из Еревана в UK🌸
#не_про_nlp
Я достаточно мало пишу про свой личный опыт релокации, потому как он еще совсем свеж, и наверное, хочется держать канал ближе к профессиональной тематике. Напишу заметки, самые близкие к профессиональной теме.
Из общих наблюдений:
🟣 И в Армении, и в Лондоне русскоязычный ODS присутствует, data-завтраки примерно одинакового размера. Наличие ODS в стране — для меня хороший признак.
🟣 Университеты и там и там кажутся достаточно открытыми — при наличии общих контактов (а их сейчас очень много), можно попреподавать приглашенно практически везде, пообщаться со студентами. Это очень приятно!
🟣 В UK гораздо более сложная для человека из постсоветсткой страны налоговая система. Как и многие вещи в математике, помогает просто крутить ее в голове постоянно, зациклиться и в один момент морально привыкнуть.
🟣 Из-за высоких налогов, но с нюансом (налог платится только на доход, полученный в Британии), много специалистов оформлены где-то еще (ИП в той же Армении или в Дубае — 0% налогов), а живут в Лондоне из-за удобства и профессионального сообщества.
Перед переездом я где-то год собирала информацию из разных сабреддитов, групп тг и каналов. Оставлю здесь ссылки на канал Кирилла Куликова про номадизм, стартапы, визы и жизнь на новом месте:
🟣 Как выбрать страну, в которой будет приятно пожить несколько лет подряд.
🟣 Типичные проблемы типа отопления — это жиза, к сожалению. Скучаю по центральному отоплению. Но в Ереване было так же! Либо +18, либо огромный счет за отопление, choose wisely
🟣 Степень трудности снятия жилья, здравохранение и бюрократия — как перестать волноваться и полюбить(
🟣 Стоимость жизни — как прикидывать и что считать.
В релокации для меня нашелся один приятный момент — это возможность построить свою повседневную жизнь с чистого листа. Звучит не очень, когда уже все и так сделал сам под себя, но поверьте, если вы год из года сидели за компьютером в формате "статьи - зум по работе - зум по пхд" и обрастали мхом, вещами, привычками — это очень помогает все поменять за один раз.
Теперь обрастаю мхом за компьютером в Лондоне.😈
#не_про_nlp
Я достаточно мало пишу про свой личный опыт релокации, потому как он еще совсем свеж, и наверное, хочется держать канал ближе к профессиональной тематике. Напишу заметки, самые близкие к профессиональной теме.
Из общих наблюдений:
Перед переездом я где-то год собирала информацию из разных сабреддитов, групп тг и каналов. Оставлю здесь ссылки на канал Кирилла Куликова про номадизм, стартапы, визы и жизнь на новом месте:
В релокации для меня нашелся один приятный момент — это возможность построить свою повседневную жизнь с чистого листа. Звучит не очень, когда уже все и так сделал сам под себя, но поверьте, если вы год из года сидели за компьютером в формате "статьи - зум по работе - зум по пхд" и обрастали мхом, вещами, привычками — это очень помогает все поменять за один раз.
Теперь обрастаю мхом за компьютером в Лондоне.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
kyrillic
Заметки сооснователя стартапа Beau (YC S21)
Пишу то, что нельзя нагуглить про стартапы, эмиграцию, востребованность в мире, номадизм и др.
Архив содержательных постов http://bit.ly/kyrillic-archive (удобно!)
Контакт @kyrillicobot
4776930050
Пишу то, что нельзя нагуглить про стартапы, эмиграцию, востребованность в мире, номадизм и др.
Архив содержательных постов http://bit.ly/kyrillic-archive (удобно!)
Контакт @kyrillicobot
4776930050
🌸GRUE: General Reinforced-Language Understanding Evaluation🌸
#nlp #про_nlp #nlp_papers
Достаточно поздно мне попалась на глаза статья от Allen AI, принятая на ICML 2023: "Is Reinforcement Learning (Not) for Natural Language Processing: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization"
Помимо прочих интересных мыслей, в статье приводится новый бенчмарк для языковых моделей, где в основе — сравнить в равных условиях перформанс на разных методах формализации задачи:
— zero-shot генерация pretrain-моделью
— supervised fine-tune на примерах задачи
— дообучение на примерах с PPO
— дообучение на примерах с NLPO (новый метод в статье)
— пайплайны из supervised fine-tune + RL
GRUE: General Reinforced-Language Understanding Evaluation — сравнивает пайплайны дообучения LLM т.зр. качества решения задачи, соответствия предпочтениям человека и натуралистичности текста.
В бенчмарке всего 6 задач, вполне классических для оценки качества генерации: продолжение текста, машинный перевод, суммаризация, вопросно-ответные системы, а также описание таблиц и новая задача — генерация продолжения с т зр здравого смысла (Generative Commonsense).
🟣 Оценка качества генерации полностью автоматическая и состоит из 2 компонент: метрики качества к конкретной задачи + скор за натуралистичность текста.
Метрика натуралистичности текста вообще предлагается в статье как основа не только для оценки качества генерации, но и для offline RL дообучении языковой модели: "идентичность натуральности" предлагается складывать из скора ревард-модели и расстояния KL-дивергенции внешней языковой модели.
🟣 Сайт бенчмарка
🟣 Github с реализацией методов
🟣 Статья
#nlp #про_nlp #nlp_papers
Достаточно поздно мне попалась на глаза статья от Allen AI, принятая на ICML 2023: "Is Reinforcement Learning (Not) for Natural Language Processing: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization"
Помимо прочих интересных мыслей, в статье приводится новый бенчмарк для языковых моделей, где в основе — сравнить в равных условиях перформанс на разных методах формализации задачи:
— zero-shot генерация pretrain-моделью
— supervised fine-tune на примерах задачи
— дообучение на примерах с PPO
— дообучение на примерах с NLPO (новый метод в статье)
— пайплайны из supervised fine-tune + RL
GRUE: General Reinforced-Language Understanding Evaluation — сравнивает пайплайны дообучения LLM т.зр. качества решения задачи, соответствия предпочтениям человека и натуралистичности текста.
В бенчмарке всего 6 задач, вполне классических для оценки качества генерации: продолжение текста, машинный перевод, суммаризация, вопросно-ответные системы, а также описание таблиц и новая задача — генерация продолжения с т зр здравого смысла (Generative Commonsense).
Метрика натуралистичности текста вообще предлагается в статье как основа не только для оценки качества генерации, но и для offline RL дообучении языковой модели: "идентичность натуральности" предлагается складывать из скора ревард-модели и расстояния KL-дивергенции внешней языковой модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
C помощью бенчмарка можно в справедливых условиях сравнивать между собой дообучение с offline RL составляющей: DPO, RLAIF и что угодно еще.
🟣 Из 5 проверенных авторами методов, скомбинированный подход при дообучении (supervised + NLPO) дает более стабильные результаты, чем PPO.
Однако, тут нужно больше внешних экспериментов, так как "представляю в работе новый метод" и "в этой же работе представляю новый критерий оценки, по которому этот метод лучший" — это уже классика.
Как можно увидеть на картинке, все же натуральность, оцененная людьми, и автоматическая "идентичность натуральности" текста оказались не очень похожи.
Какие метрики вы бы еще заложили в качество оценки результатов генерации?
Однако, тут нужно больше внешних экспериментов, так как "представляю в работе новый метод" и "в этой же работе представляю новый критерий оценки, по которому этот метод лучший" — это уже классика.
Как можно увидеть на картинке, все же натуральность, оцененная людьми, и автоматическая "идентичность натуральности" текста оказались не очень похожи.
Какие метрики вы бы еще заложили в качество оценки результатов генерации?
Please open Telegram to view this post
VIEW IN TELEGRAM