Введение в искусственный интеллект

331 views20:03

Что такое языковая модель? 🎁

Ну, во-первых, это тема моего секретного поста ;) Анбоксинг состоялся, уиии! Такую тему я выбрала, потому что апрельский номер будет во многом посвящен языковым моделям. Раз уж они все ещё из каждого утюга, то чем мой блог не утюг?
А, во-вторых, это алгоритм, который:
1⃣ умеет рассчитывать вероятность появления каждого слова в тексте,
2⃣ умеет на основе этой вероятности предсказывать продолжение текста.
Вот этих двух связанных причинно-следственной связью операций достаточно, чтобы генерировать произведения а-ля Пушкин, отвечать на реплику человека как человек, разбираться в данных, писать код, ставить диагноз. На заре появления маленькие языковые модели были что-то вроде игрушки: “смотрите-ка какую дичь нагенерил наш несмышленыш!” Но потом, пройдя через нейронки, word2vec, мультитаски и трансформеры, языковые модели превратились из маленького котеночка 🐱 в большого и страшного льва 🦁.
Принцип работы языковой модели. Если я вам скажу “Чето есть хочется. Пойдем в…”, то вы, скорее всего, мысленно достроите продолжение: кафе, столовую, магаз и т.п. Потому что это самое типичное продолжение ситуации, которую я задала в своей реплике. Как машине узнать это типичное продолжение? Надо собрать много-много текстов, разбить их на последовательности из двух, трёх, а, может, даже четырех слов, “откусить” последнее слово и рассчитать, как часто оно появляется после предыдущих слов. В примере выше: нужно посчитать, как часто кафе, столовая и магаз появляются после “есть хочется . Пойдем в”. При этом можно убирать из текстов какие-то “шумные” слова типа предлога в и знаки пунктуации. Затем получаем от пользователя какую-то реплику типа “Чето есть хочется”, и наша модель уже сама может сказать “Пойдем в кафе”. Я вот, кстати, в ЖизньМарт зачастила - и это щас не нативная реклама. Как всегда вот вам ноутбучек с кодом: “Поговори с языковой моделью”.
Такая простая модель, как я описала выше, называется частотная. А вот те модели, которые превратились во льва, называются большими: Large Language Models, LLM. Сейчас в тренде именно LLM - даже в ресече. Что на мой взгляд плохо. Во-первых, большую модель дома не создать. Нужны мощности. Какие? Читайте в нашем апрельском номере. Хотя готовые модели есть в открытом доступе, исследователи ограничены решениями, которые создали в индустрии или больших лабораториях. Во-вторых, у учёных нет единого мнения, что считать большой моделью. Недавно я рецензировала статью для Ассоциации компьютерной лингвистики. В ней авторы используют языковую модель BERT. А им прилетает претензия: чё это вы BERT, а не LLM используете? То есть под LLM теперь иногда понимают только большие коммерческие модели типа ChatGPT. В-третьих, если вы в принципе сделали исследование не по генерации, то вам может прилететь претензия - эээ, где LLM? Я с этим столкнулась в другой статье, которую рецензировала: первая половина статьи - изучение лингвистических особенностей авторской речи, вторая - тестирование LLM. Пишу авторам: зачем LLM? Они отвечают: нам так предыдущие рецензенты сказали. То есть это теперь такой экзамен у комьюнити: если ты тру компьютерный лингвист, то покажи, как ты LLM крутить умеешь. Но, знаете, если бы мир был совершен и не было бы таких перекосов, то о чем бы я сейчас вела свой холивар? Ну и, конечно, оставайтесь с нами: мы вас научим крутить LLMами.🌪

ПС. Вторая “Дюна” божественна! Это тоже не реклама.

#база #notebook

Google

small_LM.ipynb

Colaboratory notebook

❤7💅1🦄1

399 viewsedited 07:21