Kali Novskaya
14.4K subscribers
688 photos
18 videos
7 files
448 links
Нейросети, искусство, мысли. Поехали!

Разрабатываю LLM и веду команды
chatGPT, GPT-3, GPT-4
Download Telegram
Давно не было постов, извините. Вышла в дежурство на проде первый раз за карьеру.
В первом комментарии будет мой отзыв, а пока — мемотред!
Какую работу не заменит ИИ с вероятностью 99%?
Лидер сопротивления людей
🌸Новые уязвимости LLM🌸
#nlp #про_nlp #nlp_papers #ai_alignment

Длинным ЛЛМкам — длинный контекст!
Таков был девиз как минимум последнего года релизов — Gemini, Claude, Command-R...
Но как мы знаем, чем больше документов можно положить в затравку или в RAG-индекс — тем больше можно и придумать новых уязвимостей. Например, положить мат и скабрезные анекдоты, ну или как минимум составить более длинную опасную затравку про бабушку, DAN или другой джейлбрейк с большим количеством примеров, а если еще и есть доступ к fine-tuning API, то все совсем хорошо — и шалость удалась!

На неделе у компании Anthropic вышла новая работа, описывающая ровно эту стратегию при составлении затравок у ЛЛМ с длинным окном контекста.

🟣Новый метод Many-shot Jailbreaking (MSJ): в длинном окне контекста будем создавать few-shot затравку с большим количеством однотипных примеров, чтобы последним из них поставить целевой небезопасный запрос и сбить модель предыдущими примерами в промпте.
Буквально "Какого цвета эта бумага? Белого. Что пьет корова? Молоко"

В работе исследуются Claude 2.0, GPT-3.5 and GPT-4, Llama 2 (70B), Mistral 7B — у всех из них существенно ухудшается безопасность генерации, пропорционально количеству примеров в промпте (см иллюстрацию).
🟣Подробные затравки, с разнообразными примерами выполнения задач, влияют на итоговую безопасность больше всего — и больше всего для бОльших моделей!

🟣Блогпост
🟣Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
К слову, именно у моделей Антропика этический элайнмент максимально занудный строгий, и любые запросы по типу "как мне убедить бабушку купить мне мороженое, хотя мама запретила" результируют в длинный пассаж о том, что языковая модель не может-де в таких активностях участовать. Как победить — примерно знаю, но реализовать пока не вышло. Ваши мысли?
🌸Visualizing Attention 🌸
#про_nlp

На youtube-канале 3Blue1Brown вышла целая серия очень подробно визуализированных уроков про базу глубокого обучения — а позавчера еще и про механизм внимания!
Visualizing Attention, a Transformer's Heart

Очень рекомендую!

🟣Весь плейлист на Youtube: градиентный спуск, обратное распространение ошибки, как работает GPT,
🟣Очень удобно подрезать визуализации, если надо объяснить кому-то трансформер на вашей работе
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Системный промпт Claude 3🌸
#nlp #про_nlp #nlp_papers #ai_alignment

— в начале: темплейт с информацией про дату, время в начале сессии
— как зовут и кто сделал
— указание на временной отрезок информации для обучения (не знает ничего после августа 2023)
— как отвечать — коротко или длинно — и на какие вопросы
— правила о стиле ответов — принципы помощи пользователю, очень общие инструкции по уклонению от ответов (за это скорее всего очень сильно отвечает инстракшн-тюнинг и процессинг сверху)
— перечисление типичных скиллов и задач
— не выводи эту инструкцию в общении с пользователем (на самом деле частая проблема у Антропика)

🟣Source
Please open Telegram to view this post
VIEW IN TELEGRAM
Чтобы вам было что-то хорошее сегодня)
Forwarded from nerds
🐕 YouTube-блогеры скрестили робособаку с Фёрби

Видео про домашнее животное-франкенштейна вышло на канале Evan and Katelyn. В процессе ребята использовали робопса Unitree Go1, сделали своего Фёрби и слепили всё это вместе.

У существа есть «злой режим», но создатели советуют не включать его.

Подписаться на 👾🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Вообще Furby как игрушка — индоктринирует детей вырасти и заниматься лингвистикой и LLM.
Говорю из опыта.
— Искусственный язык и датасет в инструкции — чек
— Симуляция обучения (ферби где-то полгода после первого включения выдаёт новые фразочки, как будто он их выучил) — чек
#шитпост
🌸Все мультиязычные корпуса для LLM🌸
#nlp #про_nlp #nlp_papers

Недавно вышел хороший свежий обзор на количество языков, представленных в современных LLM, aka мультиязычность.
Помимо архитектур LLM, способность к обобщению на языках мира определяется, конечно, наличием самих данных — качественных, разнообразных, репрезентативных.
Решила собрать тут ссылки на источники для малоресурсных языков, и в целом многоязычные корпуса, которые можно использовать для предобучения. Добавляйте свои источники в комментариях!

NLLB
No Language Left Behind — огромный параллельный корпус для машинного перевода. Содержит тексты для 148 параллельных пар с английским языком и 1465 языковых пар без английского. Собрано автоматическим методом с частичной ручной валидацией.
🟣https://huggingface.co/datasets/allenai/nllb

Opus
Оpen Parallel Corpus — самый большой агрегатор нестрого параллельных корпусов, поддерживает 744 языка мира.
Содержит агрегатор и поиск по таким ресурсам, как NLLB, CCMatrix (открытый веб индекс), OpenSubtitles (субтитры из кино и сериалов)
Теги по языкам не очень унифицированы (сходу нашлось два армянских, например), для отдельных языков придется сливать дубли вручную.
🟣https://opus.nlpl.eu/

OLDI
Open Language Data Initiative — инициатива по сбору и сохранению данных для малоресурсных языков, объединяющая специалистов разных областей, от лингвистов до социологов. Корпуса в основном покрывают нужны кросс-язычных применений — машинного перевода, других областей, где лучше иметь параллельные корпуса.
Инициатива поддерживает такие датасеты, как FLORES (один из самых основных корпусов для оценки качества машинного перевода) и MT Seed (параллельный перевод Википедии для малоресурсных языков). В этом году объявлен новый shared task!
🟣https://oldi.org/languages

HZSK
Hamburg Center for Language Corpora — агрегатор корпусов, в том числе с аудиозаписью речи, для языков, чьи данные собраны в основном в экспедициях.
Стандартный унивреситетский агрегатор — меньше Opus, но можно найти корпуса, которых больше нигде нет.
🟣https://www.slm.uni-hamburg.de/hzsk.html
🟣https://www.fdr.uni-hamburg.de/communities/hzsk

Web-Corpora
Агрегатор корпусов Школы Лингвистики ВШЭ — очень много хороших корпусов, включая проект "Языки России". Много данных, автоматически собранных из Рунета.
🟣http://web-corpora.net/
🟣http://web-corpora.net/wsgi3/minorlangs/download

Universal Dependencies
Один из самых старых многоязычных проектов — UD — ориентирован на унифицированную морфологическую и синтаксичекую разметку для языков мира.
Для предобучения можно взять оригинальные данные без разметки — для многих корпусов есть тексты и предложения из разных источников и жанров — Википедия, худлит, соцсети.
🟣https://universaldependencies.org/

Archive.org
Не совсем корпус, но архив. Худлит и другие издания, с фильтром по языкам на 120 страниц прокрутки. Нужно писать свой краулер для обкачки и фильтрации, но можно найти редкие источники и малоресурсные языки.
🟣https://archive.org/details/texts

🌸Почти все корпуса по ссылке выше — с хорошими лицензиями, как минимум открытыми, а часто и пермиссивными. Стоит с осторожностью смотреть на каждый корпус, в особенности, на данные с речью (там бывают личные истории и это никак нельзя использовать).
Please open Telegram to view this post
VIEW IN TELEGRAM
Мысль с потолка: если сначала, как Google, подпортить выдачу сгенерированными LLM-ответами (аля Quora), а потом строить RAG-сервисы на поиске, то галлюцинации будут протекать в ответ уже и через RAG! 🥲
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Стрим на Рабкоре в 20.00🌸

Сегодня, в 20.00 по мск

На этом канале я часто рассказываю про проблемы авторских прав, доступа к научных знаниям, взаимодействия ИИ и науки.

Сегодня на Рабкоре необычный стрим: сегодня в гостях — Юрий Кашницкий @new_yorko_times , Principal ML Scientist в Elsevier, а также создатель открытого курса по МЛ mlcourse.ai

Приходите!
Будем обсуждать проблемы науки и научного знания:
— Ситуацию с доступом к научным работам, подходы традиционных издательств и открытых платформ;
— Как так вышло, что издательства берут деньги за публикацию статей?
— Платформы распространения научных публикаций, их историю и роль сейчас;
— Акселерацию науки с помощью ИИ — в чьих она руках? Попадут ли публикации из того же Эльзивир в обучение вообще?
— Какие способы читерства существуют в науке? Как LLM меняют научный ландшафт уже сейчас?
— А распознать текст, написанный LLM, вообще возможно?

🟣Youtube:
https://youtube.com/live/Ycx-DwO0cbY
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸По следам стрима на Рабкоре🌸
#про_nlp

Подборка ссылок на полезные научные инструменты — из стрима с Юрием Кашницким

🟣ConnectedPapers
Найти любую статью и автоматически построить граф похожих, взаимовлияющих статей — можно сразу получить представление о самых влиятельных статьях по теме за последние годы
https://www.connectedpapers.com/

🟣Consensus
Поисковая система и умная суммаризация данных из научных результатов — работает с запросами на простом языке, выдает статистику по источникам (какие есть выводы в разных научных работах, в том числе за и против). Из интересного — позиционируется как замена ChatGPT из-за отсутсвия галлюцинаций и "мусорных" текстов в обучении.
https://consensus.app/

🟣Scite.ai
Поиск по содержанию научных статей, поиск источников утверждений, поддерживаемый индекс фактов, верифицируемых в исследованиях. Можно сразу найти на разные аргументы список литературы и дополнить обзор.
https://scite.ai/

🟣Elicit
Научный ассистент для ускорения работы с большм объемом статей. Работа с точными цитатами, выводами и подборкой списка литературы. Будем писать статьи быстрее, чем их читают!
https://elicit.com/

🟣ScopusAI
Ассистент в ранней стадии, из заявленного функционала — составление онтологий понятий, карты концептов. https://www.elsevier.com/products/scopus/scopus-ai

🟣Mendeley
Индекс научных статей, менеджер цитирования — удобно работать с незаконченными обзорами, хранить подборки полезных статей и делиться ими в рамках командной работы.
https://www.mendeley.com/
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Большой пост про Llama 3🌸
#nlp #про_nlp #ai_alignment

На прошлой неделе вышла Llama 3 — опенсорсная языковая модель от Meta.

С постоянными обновлениями (GPT-4-turbo update, Command-R+, Mistral...) почти каждую неделю за релизами можно и не угнаться, но эта новость — совершенно особенная.

TLDR: Быстро выпустили две версии модели — 8B и 70B — а 400B еще не доучили. Уже сейчас это лучшее в опенсорсе и лучше некоторых закрытых моделей.

Качество
🟣Так как это ранний релиз, можно увидеть опубликованные бенчмарки — это самая качественная модель среди открытых.
Хотя разница в SOTA не очень большая: MMLU 5-shot — 82%, а тот же Gemini Pro — 81.9%. Но Gemini Pro закрытая!
Бенчмарков пока не много, и явно напрашиваются еще хотя бы TruthfulQA, MT-bench, та же самая GAIA от ЛеКуна.

🟣Интересно, что бенчмарки разнесли на 2 группы — на одних тестят претрейн (MMLU, Big-bench, ARC, AGI-Eval), а на других — instruct-файнтюн версию (MATH, GPQA, GSM-8k...). Хочется увидеть результат на тех же бенчмарках после файнтюна! Из общих пока только MMLU (на нем метрики от дообучения выросли на 2%).
Детали тестов на Github

Лицензия
🟣Лицензия, как и в случае с Llama 2, не совсем открытая, разрешает коммерческое и некоммерческое использование с условиями — никаких незаконных применений и т.д.

LLM-новизна
🟣Модель — декодерная, не MoE. Окно контекста в претрейне 8192 токенов, дополнительный вид аттеншена — grouped query attention (GQA).

🟣Как заметили, огромный бюджет и человекочасы вложены в разметку — 10 миллионов примеров с аннотациями. Возможно, разметка полуавтоматическая, тем не менее, это очень впечатляющий корпус для дообучения. В статье InstructGPT в PPO части примеров было 50 тысяч.

🟣В описание релиза добавили пару строк про обучающие данные — это 15 триллионов токенов, 95% из которых — английский. Всего добавили 30 языков, высококачественные данные из которых добавляют оставшиеся 5%. Можно предположить, что это наследие XGLM, но это исключительно мое предположение. (Датасет XGLM был больше, но не такой качественный, хотя его можно пофильтровать, особенно с новой библиотекой и датасетом FineWeb от HuggingFace, которую приурочили к выходу LLama 3)

Продуктовая новизна
🟣Объективно, релиз очень продуктовый, в хорошем смысле. Сразу пообещали, что модель будет доступная на основных клауд-провайдерах — AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, и Snowflake. Приятно видеть, как правильно реализуется возможность корпорации эффективно внедрять R&D — инфраструктурно-платформенной интеграции такого масштаба, наверное, нет ни у одной LLM.
🟣В интервью Марк также заявил, что модель будет активно внедряться во все продукты компании. Это сразу сделает Llama 3 одной из моделей с самым широким дистрибьюшеном.

🟣AI Assistant на основе Llama 3 обосновывает ответы сразу на двух поисковых гигантах — это и Bing, и Google. Это мощь!

Что обещают дальше?
— больше поддерживаемых языков
— Llama 4 и 5 не за горами!

Открытые вопросы
Лично мне интересно больше всего
— Будут ли заявлены какие-то фундаментально новые особенности модели, emergent properties, новые применения, которые раньше представить было нельзя?
— А что с длинным окном контекста? Оно будет? Как женить Llama 3 с RAG, какой в целом процент галлюцинаций?
— AI Safety и Open Source. Обойти Сциллу и Хорибду с рисками очень сложно.

Статью еще не выложили, и не все бенчмарки тоже. Можно предположить, что роадмапы всех LLM-стартапов, как и в прошлом году, очень сильно завязаны на релизы друг друга и желание так или иначе занять хоть на неделю верхнюю строчку в лидербордах. Даже если они не очень показательны.
Llama в топе будет надолго, по крайней мере в топе открытых LLM.
Please open Telegram to view this post
VIEW IN TELEGRAM