Давно не было постов, извините. Вышла в дежурство на проде первый раз за карьеру.
В первом комментарии будет мой отзыв, а пока — мемотред!
В первом комментарии будет мой отзыв, а пока — мемотред!
Какую работу не заменит ИИ с вероятностью 99%?
Лидер сопротивления людей
Лидер сопротивления людей
🌸Новые уязвимости LLM🌸
#nlp #про_nlp #nlp_papers #ai_alignment
Длинным ЛЛМкам — длинный контекст!
Таков был девиз как минимум последнего года релизов — Gemini, Claude, Command-R...
Но как мы знаем, чем больше документов можно положить в затравку или в RAG-индекс — тем больше можно и придумать новых уязвимостей. Например, положить мат и скабрезные анекдоты, ну или как минимум составить более длинную опасную затравку про бабушку, DAN или другой джейлбрейк с большим количеством примеров, а если еще и есть доступ к fine-tuning API, то все совсем хорошо — и шалость удалась!
На неделе у компании Anthropic вышла новая работа, описывающая ровно эту стратегию при составлении затравок у ЛЛМ с длинным окном контекста.
🟣 Новый метод Many-shot Jailbreaking (MSJ): в длинном окне контекста будем создавать few-shot затравку с большим количеством однотипных примеров, чтобы последним из них поставить целевой небезопасный запрос и сбить модель предыдущими примерами в промпте.
Буквально "Какого цвета эта бумага? Белого. Что пьет корова? Молоко"
В работе исследуются Claude 2.0, GPT-3.5 and GPT-4, Llama 2 (70B), Mistral 7B — у всех из них существенно ухудшается безопасность генерации, пропорционально количеству примеров в промпте (см иллюстрацию).
🟣 Подробные затравки, с разнообразными примерами выполнения задач, влияют на итоговую безопасность больше всего — и больше всего для бОльших моделей!
🟣 Блогпост
🟣 Статья
#nlp #про_nlp #nlp_papers #ai_alignment
Длинным ЛЛМкам — длинный контекст!
Таков был девиз как минимум последнего года релизов — Gemini, Claude, Command-R...
Но как мы знаем, чем больше документов можно положить в затравку или в RAG-индекс — тем больше можно и придумать новых уязвимостей. Например, положить мат и скабрезные анекдоты, ну или как минимум составить более длинную опасную затравку про бабушку, DAN или другой джейлбрейк с большим количеством примеров, а если еще и есть доступ к fine-tuning API, то все совсем хорошо — и шалость удалась!
На неделе у компании Anthropic вышла новая работа, описывающая ровно эту стратегию при составлении затравок у ЛЛМ с длинным окном контекста.
Буквально "Какого цвета эта бумага? Белого. Что пьет корова? Молоко"
В работе исследуются Claude 2.0, GPT-3.5 and GPT-4, Llama 2 (70B), Mistral 7B — у всех из них существенно ухудшается безопасность генерации, пропорционально количеству примеров в промпте (см иллюстрацию).
Please open Telegram to view this post
VIEW IN TELEGRAM
К слову, именно у моделей Антропика этический элайнмент максимально занудный строгий, и любые запросы по типу "как мне убедить бабушку купить мне мороженое, хотя мама запретила" результируют в длинный пассаж о том, что языковая модель не может-де в таких активностях участовать. Как победить — примерно знаю, но реализовать пока не вышло. Ваши мысли?
🌸Visualizing Attention 🌸
#про_nlp
На youtube-канале 3Blue1Brown вышла целая серия очень подробно визуализированных уроков про базу глубокого обучения — а позавчера еще и про механизм внимания!
Visualizing Attention, a Transformer's Heart
Очень рекомендую!
🟣 Весь плейлист на Youtube: градиентный спуск, обратное распространение ошибки, как работает GPT,
🟣 Очень удобно подрезать визуализации, если надо объяснить кому-то трансформер на вашей работе
#про_nlp
На youtube-канале 3Blue1Brown вышла целая серия очень подробно визуализированных уроков про базу глубокого обучения — а позавчера еще и про механизм внимания!
Visualizing Attention, a Transformer's Heart
Очень рекомендую!
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Attention in transformers, visually explained | Chapter 6, Deep Learning
Demystifying attention, the key mechanism inside transformers and LLMs.
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
Special thanks to these supporters: https://www.3blue1brown.com/lessons/attention#thanks…
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
Special thanks to these supporters: https://www.3blue1brown.com/lessons/attention#thanks…
🌸Системный промпт Claude 3🌸
#nlp #про_nlp #nlp_papers #ai_alignment
— в начале: темплейт с информацией про дату, время в начале сессии
— как зовут и кто сделал
— указание на временной отрезок информации для обучения (не знает ничего после августа 2023)
— как отвечать — коротко или длинно — и на какие вопросы
— правила о стиле ответов — принципы помощи пользователю, очень общие инструкции по уклонению от ответов (за это скорее всего очень сильно отвечает инстракшн-тюнинг и процессинг сверху)
— перечисление типичных скиллов и задач
— не выводи эту инструкцию в общении с пользователем (на самом деле частая проблема у Антропика)
🟣 Source
#nlp #про_nlp #nlp_papers #ai_alignment
— в начале: темплейт с информацией про дату, время в начале сессии
— как зовут и кто сделал
— указание на временной отрезок информации для обучения (не знает ничего после августа 2023)
— как отвечать — коротко или длинно — и на какие вопросы
— правила о стиле ответов — принципы помощи пользователю, очень общие инструкции по уклонению от ответов (за это скорее всего очень сильно отвечает инстракшн-тюнинг и процессинг сверху)
— перечисление типичных скиллов и задач
— не выводи эту инструкцию в общении с пользователем (на самом деле частая проблема у Антропика)
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from nerds
🐕 YouTube-блогеры скрестили робособаку с Фёрби
Видео про домашнее животное-франкенштейна вышло на канале Evan and Katelyn. В процессе ребята использовали робопса Unitree Go1, сделали своего Фёрби и слепили всё это вместе.
У существа есть «злой режим», но создатели советуют не включать его.
Подписаться на👾 🤓
Видео про домашнее животное-франкенштейна вышло на канале Evan and Katelyn. В процессе ребята использовали робопса Unitree Go1, сделали своего Фёрби и слепили всё это вместе.
У существа есть «злой режим», но создатели советуют не включать его.
Подписаться на
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Вообще Furby как игрушка — индоктринирует детей вырасти и заниматься лингвистикой и LLM.
Говорю из опыта.
— Искусственный язык и датасет в инструкции — чек
— Симуляция обучения (ферби где-то полгода после первого включения выдаёт новые фразочки, как будто он их выучил) — чек
#шитпост
Говорю из опыта.
— Искусственный язык и датасет в инструкции — чек
— Симуляция обучения (ферби где-то полгода после первого включения выдаёт новые фразочки, как будто он их выучил) — чек
#шитпост
🌸Все мультиязычные корпуса для LLM🌸
#nlp #про_nlp #nlp_papers
Недавно вышел хороший свежий обзор на количество языков, представленных в современных LLM, aka мультиязычность.
Помимо архитектур LLM, способность к обобщению на языках мира определяется, конечно, наличием самих данных — качественных, разнообразных, репрезентативных.
Решила собрать тут ссылки на источники для малоресурсных языков, и в целом многоязычные корпуса, которые можно использовать для предобучения. Добавляйте свои источники в комментариях!
NLLB
No Language Left Behind — огромный параллельный корпус для машинного перевода. Содержит тексты для 148 параллельных пар с английским языком и 1465 языковых пар без английского. Собрано автоматическим методом с частичной ручной валидацией.
🟣 https://huggingface.co/datasets/allenai/nllb
Opus
Оpen Parallel Corpus — самый большой агрегатор нестрого параллельных корпусов, поддерживает 744 языка мира.
Содержит агрегатор и поиск по таким ресурсам, как NLLB, CCMatrix (открытый веб индекс), OpenSubtitles (субтитры из кино и сериалов)
Теги по языкам не очень унифицированы (сходу нашлось два армянских, например), для отдельных языков придется сливать дубли вручную.
🟣 https://opus.nlpl.eu/
OLDI
Open Language Data Initiative — инициатива по сбору и сохранению данных для малоресурсных языков, объединяющая специалистов разных областей, от лингвистов до социологов. Корпуса в основном покрывают нужны кросс-язычных применений — машинного перевода, других областей, где лучше иметь параллельные корпуса.
Инициатива поддерживает такие датасеты, как FLORES (один из самых основных корпусов для оценки качества машинного перевода) и MT Seed (параллельный перевод Википедии для малоресурсных языков). В этом году объявлен новый shared task!
🟣 https://oldi.org/languages
HZSK
Hamburg Center for Language Corpora — агрегатор корпусов, в том числе с аудиозаписью речи, для языков, чьи данные собраны в основном в экспедициях.
Стандартный унивреситетский агрегатор — меньше Opus, но можно найти корпуса, которых больше нигде нет.
🟣 https://www.slm.uni-hamburg.de/hzsk.html
🟣 https://www.fdr.uni-hamburg.de/communities/hzsk
Web-Corpora
Агрегатор корпусов Школы Лингвистики ВШЭ — очень много хороших корпусов, включая проект "Языки России". Много данных, автоматически собранных из Рунета.
🟣 http://web-corpora.net/
🟣 http://web-corpora.net/wsgi3/minorlangs/download
Universal Dependencies
Один из самых старых многоязычных проектов — UD — ориентирован на унифицированную морфологическую и синтаксичекую разметку для языков мира.
Для предобучения можно взять оригинальные данные без разметки — для многих корпусов есть тексты и предложения из разных источников и жанров — Википедия, худлит, соцсети.
🟣 https://universaldependencies.org/
Archive.org
Не совсем корпус, но архив. Худлит и другие издания, с фильтром по языкам на 120 страниц прокрутки. Нужно писать свой краулер для обкачки и фильтрации, но можно найти редкие источники и малоресурсные языки.
🟣 https://archive.org/details/texts
🌸Почти все корпуса по ссылке выше — с хорошими лицензиями, как минимум открытыми, а часто и пермиссивными. Стоит с осторожностью смотреть на каждый корпус, в особенности, на данные с речью (там бывают личные истории и это никак нельзя использовать).
#nlp #про_nlp #nlp_papers
Недавно вышел хороший свежий обзор на количество языков, представленных в современных LLM, aka мультиязычность.
Помимо архитектур LLM, способность к обобщению на языках мира определяется, конечно, наличием самих данных — качественных, разнообразных, репрезентативных.
Решила собрать тут ссылки на источники для малоресурсных языков, и в целом многоязычные корпуса, которые можно использовать для предобучения. Добавляйте свои источники в комментариях!
NLLB
No Language Left Behind — огромный параллельный корпус для машинного перевода. Содержит тексты для 148 параллельных пар с английским языком и 1465 языковых пар без английского. Собрано автоматическим методом с частичной ручной валидацией.
Opus
Оpen Parallel Corpus — самый большой агрегатор нестрого параллельных корпусов, поддерживает 744 языка мира.
Содержит агрегатор и поиск по таким ресурсам, как NLLB, CCMatrix (открытый веб индекс), OpenSubtitles (субтитры из кино и сериалов)
Теги по языкам не очень унифицированы (сходу нашлось два армянских, например), для отдельных языков придется сливать дубли вручную.
OLDI
Open Language Data Initiative — инициатива по сбору и сохранению данных для малоресурсных языков, объединяющая специалистов разных областей, от лингвистов до социологов. Корпуса в основном покрывают нужны кросс-язычных применений — машинного перевода, других областей, где лучше иметь параллельные корпуса.
Инициатива поддерживает такие датасеты, как FLORES (один из самых основных корпусов для оценки качества машинного перевода) и MT Seed (параллельный перевод Википедии для малоресурсных языков). В этом году объявлен новый shared task!
HZSK
Hamburg Center for Language Corpora — агрегатор корпусов, в том числе с аудиозаписью речи, для языков, чьи данные собраны в основном в экспедициях.
Стандартный унивреситетский агрегатор — меньше Opus, но можно найти корпуса, которых больше нигде нет.
Web-Corpora
Агрегатор корпусов Школы Лингвистики ВШЭ — очень много хороших корпусов, включая проект "Языки России". Много данных, автоматически собранных из Рунета.
Universal Dependencies
Один из самых старых многоязычных проектов — UD — ориентирован на унифицированную морфологическую и синтаксичекую разметку для языков мира.
Для предобучения можно взять оригинальные данные без разметки — для многих корпусов есть тексты и предложения из разных источников и жанров — Википедия, худлит, соцсети.
Archive.org
Не совсем корпус, но архив. Худлит и другие издания, с фильтром по языкам на 120 страниц прокрутки. Нужно писать свой краулер для обкачки и фильтрации, но можно найти редкие источники и малоресурсные языки.
🌸Почти все корпуса по ссылке выше — с хорошими лицензиями, как минимум открытыми, а часто и пермиссивными. Стоит с осторожностью смотреть на каждый корпус, в особенности, на данные с речью (там бывают личные истории и это никак нельзя использовать).
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
градиент обреченный
🔺 Обзор мультиязычных LLM
Вышел довольно любопытный обзор — Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers.
Авторы попытались поделить модели по типу обучения и по доступности обучающих данных. Есть табличка с открытыми…
Вышел довольно любопытный обзор — Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers.
Авторы попытались поделить модели по типу обучения и по доступности обучающих данных. Есть табличка с открытыми…
Мысль с потолка: если сначала, как Google, подпортить выдачу сгенерированными LLM-ответами (аля Quora), а потом строить RAG-сервисы на поиске, то галлюцинации будут протекать в ответ уже и через RAG! 🥲
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Стрим на Рабкоре в 20.00🌸
Сегодня, в 20.00 по мск
На этом канале я часто рассказываю про проблемы авторских прав, доступа к научных знаниям, взаимодействия ИИ и науки.
Сегодня на Рабкоре необычный стрим: сегодня в гостях — Юрий Кашницкий @new_yorko_times , Principal ML Scientist в Elsevier, а также создатель открытого курса по МЛ mlcourse.ai
Приходите!
Будем обсуждать проблемы науки и научного знания:
— Ситуацию с доступом к научным работам, подходы традиционных издательств и открытых платформ;
— Как так вышло, что издательства берут деньги за публикацию статей?
— Платформы распространения научных публикаций, их историю и роль сейчас;
— Акселерацию науки с помощью ИИ — в чьих она руках? Попадут ли публикации из того же Эльзивир в обучение вообще?
— Какие способы читерства существуют в науке? Как LLM меняют научный ландшафт уже сейчас?
— А распознать текст, написанный LLM, вообще возможно?
🟣 Youtube:
https://youtube.com/live/Ycx-DwO0cbY
Сегодня, в 20.00 по мск
На этом канале я часто рассказываю про проблемы авторских прав, доступа к научных знаниям, взаимодействия ИИ и науки.
Сегодня на Рабкоре необычный стрим: сегодня в гостях — Юрий Кашницкий @new_yorko_times , Principal ML Scientist в Elsevier, а также создатель открытого курса по МЛ mlcourse.ai
Приходите!
Будем обсуждать проблемы науки и научного знания:
— Ситуацию с доступом к научным работам, подходы традиционных издательств и открытых платформ;
— Как так вышло, что издательства берут деньги за публикацию статей?
— Платформы распространения научных публикаций, их историю и роль сейчас;
— Акселерацию науки с помощью ИИ — в чьих она руках? Попадут ли публикации из того же Эльзивир в обучение вообще?
— Какие способы читерства существуют в науке? Как LLM меняют научный ландшафт уже сейчас?
— А распознать текст, написанный LLM, вообще возможно?
https://youtube.com/live/Ycx-DwO0cbY
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
НАУКА ДЛЯ ВСЕХ / ЮРИЙ КАШНИЦКИЙ, КАЛИ НОВСКАЯ
На сегодняшнем стриме с гостем Юрием Кашницким, Principal Machine Learning Scientist в научном издательстве Elsevier, Ph.D., создателем открытого курса по машинному обучению mlcourse.ai, поговорим про:
- Ситуацию с доступом к научным работам, подходы традиционных…
- Ситуацию с доступом к научным работам, подходы традиционных…
А мы начинаем стрим!
🟣 https://youtube.com/live/Ycx-DwO0cbY
Вопросы по теме стрима можно задавать в комментариях под этим постом
Вопросы по теме стрима можно задавать в комментариях под этим постом
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
НАУКА ДЛЯ ВСЕХ / ЮРИЙ КАШНИЦКИЙ, КАЛИ НОВСКАЯ
На сегодняшнем стриме с гостем Юрием Кашницким, Principal Machine Learning Scientist в научном издательстве Elsevier, Ph.D., создателем открытого курса по машинному обучению mlcourse.ai, поговорим про:
- Ситуацию с доступом к научным работам, подходы традиционных…
- Ситуацию с доступом к научным работам, подходы традиционных…
🌸По следам стрима на Рабкоре🌸
#про_nlp
Подборка ссылок на полезные научные инструменты — из стрима с Юрием Кашницким
🟣 ConnectedPapers
Найти любую статью и автоматически построить граф похожих, взаимовлияющих статей — можно сразу получить представление о самых влиятельных статьях по теме за последние годы
https://www.connectedpapers.com/
🟣 Consensus
Поисковая система и умная суммаризация данных из научных результатов — работает с запросами на простом языке, выдает статистику по источникам (какие есть выводы в разных научных работах, в том числе за и против). Из интересного — позиционируется как замена ChatGPT из-за отсутсвия галлюцинаций и "мусорных" текстов в обучении.
https://consensus.app/
🟣 Scite.ai
Поиск по содержанию научных статей, поиск источников утверждений, поддерживаемый индекс фактов, верифицируемых в исследованиях. Можно сразу найти на разные аргументы список литературы и дополнить обзор.
https://scite.ai/
🟣 Elicit
Научный ассистент для ускорения работы с большм объемом статей. Работа с точными цитатами, выводами и подборкой списка литературы. Будем писать статьи быстрее, чем их читают!
https://elicit.com/
🟣 ScopusAI
Ассистент в ранней стадии, из заявленного функционала — составление онтологий понятий, карты концептов. https://www.elsevier.com/products/scopus/scopus-ai
🟣 Mendeley
Индекс научных статей, менеджер цитирования — удобно работать с незаконченными обзорами, хранить подборки полезных статей и делиться ими в рамках командной работы.
https://www.mendeley.com/
#про_nlp
Подборка ссылок на полезные научные инструменты — из стрима с Юрием Кашницким
Найти любую статью и автоматически построить граф похожих, взаимовлияющих статей — можно сразу получить представление о самых влиятельных статьях по теме за последние годы
https://www.connectedpapers.com/
Поисковая система и умная суммаризация данных из научных результатов — работает с запросами на простом языке, выдает статистику по источникам (какие есть выводы в разных научных работах, в том числе за и против). Из интересного — позиционируется как замена ChatGPT из-за отсутсвия галлюцинаций и "мусорных" текстов в обучении.
https://consensus.app/
Поиск по содержанию научных статей, поиск источников утверждений, поддерживаемый индекс фактов, верифицируемых в исследованиях. Можно сразу найти на разные аргументы список литературы и дополнить обзор.
https://scite.ai/
Научный ассистент для ускорения работы с большм объемом статей. Работа с точными цитатами, выводами и подборкой списка литературы. Будем писать статьи быстрее, чем их читают!
https://elicit.com/
Ассистент в ранней стадии, из заявленного функционала — составление онтологий понятий, карты концептов. https://www.elsevier.com/products/scopus/scopus-ai
Индекс научных статей, менеджер цитирования — удобно работать с незаконченными обзорами, хранить подборки полезных статей и делиться ими в рамках командной работы.
https://www.mendeley.com/
Please open Telegram to view this post
VIEW IN TELEGRAM
Connectedpapers
Connected Papers | Find and explore academic papers
A unique, visual tool to help researchers and applied scientists find and explore papers relevant to their field of work.
🌸Большой пост про Llama 3🌸
#nlp #про_nlp #ai_alignment
На прошлой неделе вышла Llama 3 — опенсорсная языковая модель от Meta.
С постоянными обновлениями (GPT-4-turbo update, Command-R+, Mistral...) почти каждую неделю за релизами можно и не угнаться, но эта новость — совершенно особенная.
TLDR: Быстро выпустили две версии модели — 8B и 70B — а 400B еще не доучили. Уже сейчас это лучшее в опенсорсе и лучше некоторых закрытых моделей.
Качество
🟣 Так как это ранний релиз, можно увидеть опубликованные бенчмарки — это самая качественная модель среди открытых.
Хотя разница в SOTA не очень большая: MMLU 5-shot — 82%, а тот же Gemini Pro — 81.9%. Но Gemini Pro закрытая!
Бенчмарков пока не много, и явно напрашиваются еще хотя бы TruthfulQA, MT-bench, та же самая GAIA от ЛеКуна.
🟣 Интересно, что бенчмарки разнесли на 2 группы — на одних тестят претрейн (MMLU, Big-bench, ARC, AGI-Eval), а на других — instruct-файнтюн версию (MATH, GPQA, GSM-8k...). Хочется увидеть результат на тех же бенчмарках после файнтюна! Из общих пока только MMLU (на нем метрики от дообучения выросли на 2%).
Детали тестов на Github
Лицензия
🟣 Лицензия, как и в случае с Llama 2, не совсем открытая, разрешает коммерческое и некоммерческое использование с условиями — никаких незаконных применений и т.д.
LLM-новизна
🟣 Модель — декодерная, не MoE. Окно контекста в претрейне 8192 токенов, дополнительный вид аттеншена — grouped query attention (GQA).
🟣 Как заметили, огромный бюджет и человекочасы вложены в разметку — 10 миллионов примеров с аннотациями. Возможно, разметка полуавтоматическая, тем не менее, это очень впечатляющий корпус для дообучения. В статье InstructGPT в PPO части примеров было 50 тысяч.
🟣 В описание релиза добавили пару строк про обучающие данные — это 15 триллионов токенов, 95% из которых — английский. Всего добавили 30 языков, высококачественные данные из которых добавляют оставшиеся 5%. Можно предположить, что это наследие XGLM, но это исключительно мое предположение. (Датасет XGLM был больше, но не такой качественный, хотя его можно пофильтровать, особенно с новой библиотекой и датасетом FineWeb от HuggingFace, которую приурочили к выходу LLama 3)
Продуктовая новизна
🟣 Объективно, релиз очень продуктовый, в хорошем смысле. Сразу пообещали, что модель будет доступная на основных клауд-провайдерах — AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, и Snowflake. Приятно видеть, как правильно реализуется возможность корпорации эффективно внедрять R&D — инфраструктурно-платформенной интеграции такого масштаба, наверное, нет ни у одной LLM.
🟣 В интервью Марк также заявил, что модель будет активно внедряться во все продукты компании. Это сразу сделает Llama 3 одной из моделей с самым широким дистрибьюшеном.
🟣 AI Assistant на основе Llama 3 обосновывает ответы сразу на двух поисковых гигантах — это и Bing, и Google. Это мощь!
Что обещают дальше?
— больше поддерживаемых языков
— Llama 4 и 5 не за горами!
Открытые вопросы
Лично мне интересно больше всего
— Будут ли заявлены какие-то фундаментально новые особенности модели, emergent properties, новые применения, которые раньше представить было нельзя?
— А что с длинным окном контекста? Оно будет? Как женить Llama 3 с RAG, какой в целом процент галлюцинаций?
— AI Safety и Open Source. Обойти Сциллу и Хорибду с рисками очень сложно.
Статью еще не выложили, и не все бенчмарки тоже. Можно предположить, что роадмапы всех LLM-стартапов, как и в прошлом году, очень сильно завязаны на релизы друг друга и желание так или иначе занять хоть на неделю верхнюю строчку в лидербордах. Даже если они не очень показательны.
Llama в топе будет надолго, по крайней мере в топе открытых LLM.
#nlp #про_nlp #ai_alignment
На прошлой неделе вышла Llama 3 — опенсорсная языковая модель от Meta.
С постоянными обновлениями (GPT-4-turbo update, Command-R+, Mistral...) почти каждую неделю за релизами можно и не угнаться, но эта новость — совершенно особенная.
TLDR: Быстро выпустили две версии модели — 8B и 70B — а 400B еще не доучили. Уже сейчас это лучшее в опенсорсе и лучше некоторых закрытых моделей.
Качество
Хотя разница в SOTA не очень большая: MMLU 5-shot — 82%, а тот же Gemini Pro — 81.9%. Но Gemini Pro закрытая!
Бенчмарков пока не много, и явно напрашиваются еще хотя бы TruthfulQA, MT-bench, та же самая GAIA от ЛеКуна.
Детали тестов на Github
Лицензия
LLM-новизна
Продуктовая новизна
Что обещают дальше?
— больше поддерживаемых языков
— Llama 4 и 5 не за горами!
Открытые вопросы
Лично мне интересно больше всего
— Будут ли заявлены какие-то фундаментально новые особенности модели, emergent properties, новые применения, которые раньше представить было нельзя?
— А что с длинным окном контекста? Оно будет? Как женить Llama 3 с RAG, какой в целом процент галлюцинаций?
— AI Safety и Open Source. Обойти Сциллу и Хорибду с рисками очень сложно.
Статью еще не выложили, и не все бенчмарки тоже. Можно предположить, что роадмапы всех LLM-стартапов, как и в прошлом году, очень сильно завязаны на релизы друг друга и желание так или иначе занять хоть на неделю верхнюю строчку в лидербордах. Даже если они не очень показательны.
Llama в топе будет надолго, по крайней мере в топе открытых LLM.
Please open Telegram to view this post
VIEW IN TELEGRAM
Meta AI
Introducing Meta Llama 3: The most capable openly available LLM to date
Today, we’re introducing Meta Llama 3, the next generation of our state-of-the-art open source large language model. In the coming months, we expect to share new capabilities, additional model sizes, and more.