̶с̶а̶м̶̶о̶изолента мёбиуса

Чем отличается мой канал от канала Татьяны Шавриной?
Правильный ответ: Кали постит по воскресеньям музыку, а я нынче пощу поэзию.
Точнее, хочется запостить бессмертный белый стих Андрея Кнышева:

> Розжиг костров, выгул собак, отлов рыбы, отстрел дичи, выпас и выгон скота, а также выполз змей, выпорос свиней, выжереб коней и выкобыл кобыл, вымет икры, вылуп птиц из яиц, выкукол бабочек и выхухол выхухолей, выкур курей и выпрыг кенгурей, обгад ромашек, обдир ягод, выруб леса и вылом веток, выслеж зайца, выпуг тетерева, выхлоп газов, выкидыш мусора, выродок людей и выводок гусей, выплав стали и выплыв сели, выклянч денег, выдох вдоха, вытрус половиков, выпор детей, выпуч глаз, вычих насморка, выкусь накоси и накось выкуси, загляд и залаз в дупла с выкуром оттуда пчёл и распробом мёда запрещён и прекращён в связи с отказом их от высоса нектара после выщипа цветов и выдирга травы.

Нас как NLP-шников может интересовать сочетаемость пар слов, как для практических задач генерации текста, так и просто по фану.
Хотелось бы метод, позволяющий эту сочетаемость измерять, причём даже для новоиспеченных неологизмов типа "выпрыг кенгурей".

Ну и оказывается, что языковые модели (даже "маленькие") это отлично делают, если их правильно спросить. И нет, "правильно спросить" это не про промпт-инжиниринг, а про правильное применение математики.

Как проверить, что фраза "выпрыг кенгурей" составлена логично? Языковые модели умеют измерять вероятность любого текста, но для данного текста эта вероятность будет очень низка, ибо он составлен из очень странных слов. Но если мы поделим вероятность текста на индивидуальные вероятности слов, входящих в него (или вычтем, если в логарифмах), мы получим меру того, насколько текст менее менее странен, чем совокупность отдельных входящих в него слов.

Эта идея - весьма бородата, принадлежит едва ли не Клоду Шеннону, и называется mutual information. Но почему-то её всё ещё приходится переоткрывать.

Прикол данного переоткрытия в том, что вместо подсчёта вероятностей слов и их сочетаний по большому корпусу русского языка, мы вытаскиваем эти вероятности из нейросети. То есть - заменяем огромный объект "все тексты русского языка, включая ещё не написанные" на его приблизительную упрощённую модель, позволяющую ускорить вычисления. На... языковую модель. Да, их смысл именно в этом. А не AGI вот этот ваш всякий.

3.4K viewsedited 09:12