Введение в искусственный интеллект
331 subscribers
63 photos
2 videos
170 links
Просто об искусственном интеллекте и его возможностях. Помогу разобраться в базовых понятиях и создать собственную нейросеть. Рассказываю, что у ИИ под кожей.
Елена Михалькова
Download Telegram
А еще напоминаю про конкурс "Последнее "Что? Где? Когда?" человечества".

Уже 5⃣ участников прислали свои, чем ввели в замешательство 👾🤖. Интеллектуальная битва продлится до 2⃣5⃣ октября включительно. Присылайте вопросы вот сюда.

А пока представляю вам Святослава Косовича - он в жюри моего конкурса и будет выбирать лучшие вопросы 👨‍⚖
Когда-то давно мы со Славой решили делать проект по интеллектуальным соревнованиям между человеком и ИИ. Тогда, в далеком 2022 ИИ почти ничего не могло противопоставить уважаемым знатокам. Но время не стоит на месте.. В общем буду держать вас в курсе новых возможностей больших языковых моделей!

#конкурс #ниипетпроект
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥3👾1
This media is not supported in your browser
VIEW IN TELEGRAM
🎃21
..А у меня два анонса мероприятий, где я буду выступать.
🌏 Участие очное (нужно быть по-питерски культурным и прийти в парадную, минуя поребрики).

1⃣ В одном наукограде Дубна (точнее рядом) есть один лес на берегу Волги. В этом лесу есть один бывший детский лагерь. А в этом бывшем детском лагере проходит ежегодно одна “Летняя школа”. В этой “Летней школе” я выступала с лекцией этим летом и, видимо, буду выступать в следующем году. Так вот.. у “Летней школы” есть “After школа” (это как афтепати и автошкола).
“After школа” пройдет вот уже буквально в это воскресенье 20 октября в особняке Европейского университета в Санкт-Петербурге (набережная Кутузова, 22). Так что если вы в СПб, го. Я там тоже буду - читать лекцию и следить, чтобы молодежь не закидала особняк туалетной бумагой. Псст, там обещают мерч раздавать, и печеньки 😋 Рега туть.

2⃣ 23-24 ноября в Европейском университете пройдет воркшоп “Кино и тексты: анализ сценариев лауреатов кинопремий”, где при помощи методов NLP можно будет сгенерировать идеальный сценарий или обвинить драматургов в плагиате. В общем задачу вы поставите себе сами. Главное, потом красиво презентовать проект. В итоге вы подкачаете свои навыки NLP и заколлабитесь с единомышленниками. Это будет уже второй такой воркшоп по сценариям. Первый проходил 20–21 апреля 2024 г. - вот тут можно посмотреть проекты, которые получились в результате. Рега до 28 октября 2024 года включительно туть.
🔥9
RAG: новое слово в информационном поиске

Вы когда-нибудь задумывались, чем отличается machine reading comprehension от information retrieval? Хорошо, если нет, потому что, если да, то вам знакома головная боль компьютерного лингвиста, который пытается решить проблему точного ответа большой языковой модели на заданный вопрос.
Когда-то давным давно (в 2023 г.) я с двумя дипломниками взялась за разработку системы, которая будет отвечать на вопросы “Своей игры” (викторина такая) на основе данных только из Википедии. Итак, на входе у нас вопрос “Своей игры”; на выходе - как можно более точный ответ: имя, название, реалия, факт.
Как мы подошли к решению? Сначала мы вычленяли из вопроса полнозначные слова и словосочетания. Например, для вопроса “Скажите по-японски короткая песня” (автор вопроса: Юрий Гришов (с)) мы получали комбинации “песня”, “короткая песня”, “по-японски”, “короткая песня по-японски”. Каждую комбинацию мы отсылали через поисковое API Википедии (это обычный поиск по Википедии в правом верхнем углу, где лупа нарисована; но только делается он через компьютерную программу, а не кликанием и вбиванием строки). Затем мы получали много-много ссылок, по которым наш алгоритм проходил и скачивал вики-страницы. Эти страницы делились на абзацы (параграфы), т.е. буквально кусочки текста между двумя символами новой строки (их еще можно назвать чанки, от англ. chunks - кусочки). А дальше нейронная сеть пыталась предсказать, в каком абзаце находится правильный ответ. Получалось плоховато, но для дипломной работы - окау.
В общем, это я вам сейчас описала часть поискового алгоритма, можно сказать, RA - retrieval-augmented. Retrieval - в переводе с английского “добывание”, это слово в ИТ обычно указывает на задачу информационного поиска (information retrieval), т.е. того, что делают поисковики Yandex, Google и иже с ними. Augmented обычно означает “намешанный с чем-то”, от английского глагола to augment - увеличивать. Т.е. мы берем запрос юзера и добавляем ему контекста, например, вики-страниц, на которых может содержаться ответ. А вот оставшаяся буква G отвечает за generation, т.е. генерацию финального ответа при помощи языковой модели, желательно большой. Тут как раз и понадобляется алгоритм machine reading comprehension, т.е. умение модели из текста вычленить нужный кусочек (span) с ответом и облечь его в форму, которую ждет пользователь.
Это не единственный способ сделать RAG. И, конечно, я умолчала о творческих муках от настройки нейронки на поиск нужного абзаца. Если хотите таких подробностей, то рекомендую вот этот пост на Хабре.
Когда нужен RAG? Когда у вас есть специфический набор фактов, документов и прочей неструктурированной (хаотической такой) информации и этот набор постоянно обновляется. Т.е. вам не хотелось бы каждый раз переобучать модэл, т.к. это долго.

#база #ниипетпроект
🍾5👍2
Дорогие читатели, хочу представить вам ещё одного члена компетентного жюри, которое будет оценивать ваши вопросы в конкурсе "Последнее "Что? Где? Когда?" человечества".
🧐 Алексей Абрамов - автор комиксов о хитром собакене (кстати, это он изображён у Алексея на футболке). Алексей работает пресс-секретарем общественной организации 🫂. Любит музыку 80-х📻, средневековые ереси 🔮 и кино🎥. Он давно играет в ЧГК и другие спортивные версии викторин и даже является одним из авторов, создавших тестовый датасет к задаче "CheGeKa" в бенчмарке MERA.
Напоминаю, что мы с жюри ждем ваши вопросы до 25 октября включительно. На кону.. автомобиль! промокод на курс по Питону для научных исследований и серты в Читай-город.

#конкурс
🐳3
И.. барабанная дробь.. Еще один член жюри в моем конкурсе "Последнее "Что? Где? Когда?" человечества" - Дроздова Анастасия Олеговна, кандидат филологических наук, старший преподаватель Тюменского госуниверситета, исследователь русской литературы, в особенности творчества Владимира Набокова, фанатского творчества и интерпретаций русской классики.
Анастасия в прошлом тоже была заядлым ЧГКшником, но переключилась на другие хобби (бокс, например - я серьезно). Но все еще иногда поигрывает, ведь ЧГКшник однажды - ЧГКник форева
((ඏ.̫ඏ*))
❤‍🔥8😍4💘1
Цифровое забвение. Как спасти контент от вымирания?

Был у меня пост про ИИ-слизь - бессмысленный и бесполезный сгенерированный контент, который грозится поглотить весь Интернет. Но есть и ещё один процесс, который угрожает трушному цифровому контенту - физическое уничтожение.
А, может, и ну его, этот тру контент?.. Для начала разберемся, что я имею в виду, говоря “трушный” (от английского true, истинный). ЮНЕСКО (всемирная организация, которая занимается сохранением любого наследия в принципе) относит к цифровому наследию цифровые материалы, которые требуют заботы - производства, обслуживания и управления для сохранения. К примеру, недавно стало известно о серьезной скоротечной болезни и смерти создателя пиратской библиотеки Флибуста. Пользователи боялись, что с его уходом библиотека прекратит существование, но ее перенял другой admin - проект продолжит жить и радовать читателей, которые ограничены в средствах на покупку книг.
А, может, и ну ее, эту Флибусту?.. В Интернете можно найти буквально цифровое искусство. Вот пример цифровой поэзии, где текст неотделим от мультимедийной оболочки. Если уж мы храним искусство на физических носителях, пусть даже и не все согласны с его ценностью, то цифровое искусство тут ничем в плане требования его хранить не отличается.
Тогда давайте хранить только искусство? А мы сейчас не можем точно сказать, что ещё будет ценно завтра. Например, точно будут ценны старые веб-сайты, которые были созданы до генеративного искусственного интеллекта, чтобы уметь отличать генеративный контент. Понятно, что все не сохранишь. Поэтому существуют отдельные проекты, нацеленные на сохранение конкретных ресурсов, не обязательно Интернет. Под сохранение могут попасть старые компьютерные программы, носители с данными (диски, дискеты), документация. Проект Internet Archive содержит уже более миллиарда файлов. Их подпроект Wayback Machine (Машина времени) создан специально для вебсайтов. А вот тут можно походить по первому в мире веб-сайту (бережно восстановлен). cern в его названии указывает на ЦЕРН, организацию, которая собрала Большой адронный коллайдер, где работал создатель Интернета Тимоти Бернес-Ли. Ну, а я вам ранее рассказывала про проект Европейского университета в Санкт-Петербурге narod.ru, который хранит копии десятков тысяч сайтов, размещенных под этим доменом.
Можно ли предсказать, что останется в памяти, чтобы не хранить слишком много и не уничтожить что-то важное? Есть такое направление исследований - memory studies, исследования памяти. Но точно, конечно, никто предсказать не сможет. Вот тут можно почитать, как изучают память сегодня.

#эссеиистика
❤‍🔥4👍2
А я напоминаю, что сегодня последний день, чтобы отправить ваш вопрос и спасти человечество от слишком умного искусственного интеллекта. Вот в фильме "Москва-Кассиопея" детская загадка уничтожала роботов. А ещё я думаю, что спортивные викторины вроде "Что? Где? Когда?" это богатое культурное наследие на русском языке. Поэтому я периодически скачиваю новые вопросы из базы и храню на данный момент уже более 380 000 вопросов, ответов и комментариев к ним.
Кстати, хочу представить последнего члена жюри в моем конкурсе - Виктор Бызов. Он работает преподавателем машинного обучения в ВятГУ (г. Киров) и тоже заядлый ЧГКшник. Мы вместе пишем статью о том, как большие языковые модели могут (или не могут) раскусывать ЧГКшные вопросы. Ваши вопросы нам очень помогут, потому что их нет в Интернете.

#конкурс
👍4
Конвертируем PDF в DOC при помощи Тессеракта - без смс и регистрации

OCR (optical character recognition) - это область на стыке компьютерной лингвистики и компьютерного зрения, которая занимается автоматическим распознаванием текста, символов на изображениях.
Бывает, что бесплатные онлайн конвертеры PDF файлов в текстовые не могут распознать текст либо делают это плохо. А потом еще и просят залогиниться и задонатить. Мы с моим соавтором Александром Жмыховым представляем вашему вниманию ноутбучек с еще одним способом превратить PDF в DOC без смс, но с регистрацией в Google Colaboratory. Для этого вам понадобится всего лишь одна библиотека Pytesseract, в народе просто Тессеракт. Она давно развивается и на ней доступно уже более 100 языков и около 40 письменностей! Александр рекомендует этот полезный и мощный инструмент для сбора данных из большой коллекции картинок (Откуда вы, Александр, их взяли? Опять фотографировали книги в магазине вместо того, чтобы их покупать?..).
Если тематика OCR соберет 10 позитивных реакций или у нас закончатся идеи для контент-плана, то Александр обещает еще посты о том, как до-настраивать OCR в Тессеракте и как распознавать картинки в тексте (а не наоборот).

ПС. Всех с днем страшной тыквы! 🎃

#notebook
❤‍🔥221
Барабанная дробь...! Итоги конкурса вопросов "Последнее "Что? Где? Когда?" человечества":

🥇 Золото взял вопрос о поэме XX века (17 баллов от жюри).
🥈 Серебро - у вопроса о резидентах одного интересного дома (13 баллов).
🥉 Бронзу забирают два вопроса, набравшие по 11 баллов - вопрос о необычном способе покончить с собой и вопрос о рекламном плакате Macdonalds.

Если вы узнали свой вопрос, напишите мне в ЛС тот никнейм, который вы указали, заполняя форму - вас ждет вот это самое: 🏆... и вечная слава!

А тем временем мы с коллегами выяснили, что большие языковые модели очень неравномерно отвечают на вопросы ЧГК. Например, одна модель берет много вопросов из одного пакета, но совсем не может в другой. И угадать, какая модель справится лучше со следующим вопросом, очень сложно.
В общем, будем держать вас в курсе наших научных поисков!

#конкурс
🎉13
Word sense disambiguation: как сопоставить слово с его словарным значением

Word Sense Disambiguation (WSD) – это автоматическое определение словарного значения многозначного слова через его контекст. Есть такая расхожая фраза у компьютерных лингвистов You shall know a word by the company it keeps - "Слово можно понять по тем словам, рядом с которыми оно стоит" (эта фраза отсылает к теории лингвиста Джона Руперта Фёрса). Один из самых популярных алгоритмов WSD был предложен Майклом Леском вот в этой статье 1986 г. Рассмотрим его пример со словом pine cone (сосновая шишка). Наша задача: понять, какие определения слов pine и cone используются именно в этом сочетании.
☝️ Получим все значения слов pine и cone из электронного словаря. Леск использовал Oxford Advanced Learner’s Dictionary.
🌲pine
Дерево хвойной породы.
Тосковать.
🔺 cone
Твердое тело, сужающееся к вершине.
Плод некоторых хвойных деревьев.
✌️ Посмотрим, какие полнозначные слова из этих определений совпадают. Два определения имеют общий элемент хвойный.
🖖 Выбираем определения, у которых больше всего совпадений - первое у pine и второе у cone.
Этот пример - классический cherry-picking (чери-пикинг): когда алгоритм демонстрируется на очень ярком примере, то может возникнуть ложное ощущение его супер-эффективности. В своем ноутбуке я разбираю алгоритм Леска более подробно - там видны подводные. А также привожу пример немного другой задачи: автоматическое выявление фитонимов - слов, которые называют растения (вообще любые растения - как класс). Для поиска фитонимов я взяла пример из этноботанической базы данных Фитолекс (Phytolex), которую разрабатывает моя коллега по Европейскому университету в СПб Кира Коваленко. Про Фитолекс можно читать в телеграмме.
Эта задача отчасти похожа на более известную задачу - определения именованных сущностей. Аналогичным образом можно взять любой класс вещей и автоматически определять в тексте его экземпляры. В общем жмякайте 🫵

А на этом посту я завершаю октябрьский номер нашего журнала. Спасибо моему соавтору Александру Жжж. 🐝 за оперативную помощь в написании постов. Скоро вывесим новый анонс! Кстати, если вас интересует какая-то конкретная тема - пишите в комментариях. Осветим 💫

#база #notebook
10
Следующий номер нашего журнала выйдет, видимо, в декабре. А пока...
Лайфхак № 3. Как запускать модели ELMo при помощи Simple Elmo

💡 Что такое семантическая близость слов, мы писали тут. Когда-то был Word2Vec. Потом GloVe, FastText и... ненадолго, до восшествия на трон компьютерной семантики Берта (BERT), воцарилась модель ELMo... ELMo изменила представление о векторной семантике, и технологии быстро свернули в сторону языковых моделей.
ELMo - языковая модель (Embeddings from Language Model), которая позволяет извлекать контекстуализированные векторные представления слов: в отличие от Word2Vec и GloVe вектор слова в ней зависит от контекста, в котором это слово оказалось. Поэтому ELMo вектора лучше делать для сочетаний слов, например, предложений, и для задач, где контекст решает (например, Word Sense Disambiguation, о котором мы писали выше). Статья, с которой все началось, тут.
В нашем с Александром Жжж. ноутбуке мы рассказываем о том, как запускать модели ELMo от RusVectōrēs. Жжжмякайте!🐝

#лайфхакИИ
6
Ну что, коллеги, выпустим постов и проводим 2024 год. Итак, анонс на декабрь:

7️⃣ К истории термина LSTM. Лингвистический след в нейронках
1️⃣1️⃣ Почему токены меньше слова. И какие секреты модели может раскрыть ее токенизатор
1️⃣4️⃣ Сравнение инструментов OCR (новые карточки от Александра 🐝)
1️⃣8️⃣ Что такое “читабельность” текста и как ее измерить?
2️⃣1️⃣ Делаем корпуса параллельными при помощи Bert
2️⃣5️⃣ Структурирование неструктурированного - ИИ-горизонты современных баз данных
2️⃣8️⃣ Александр 🐝 делится своим проектом: словарь тибетского языка и его диалектов
3️⃣1️⃣ Традиционное поздравление Елены Владимировны 🥂Мой новогодний дзынь!🎄🎉

А еще скоро у нас будет анонс мероприятия и пара лайфхацков. В общем, не переключайтесь 📺
6🔥1
К истории термина LSTM. Лингвистический след в нейронках

Мне всегда было сложно понять, в чем ценность суммаризации - сведения текста к его выжимке, краткому содержанию, сути (по-английски обычно используют термин gist, джист). С моей точки зрения, текст - это такая же целая штука, как животное или растение. Вот в чем суть (gist) ромашки или воробья? И разве можно суммаризировать встречу Болконского с дубом? Но если отойти от сути джиста, то можно представить ситуации, в которых большой текст нужно свести к малому для какой-то цели. Я в таких случаях вспоминаю свой 11 класс. Экзамен по русскому сдавать надо, а “Войну и мир” читать времени нет. Следовательно, берем краткое содержание и делаем вид, что читали полный текст - проверять все равно будут по отдельным значимым фактам либо по аргументам из учебника литературы, которые приходится учить, т.к. оспариванию внутри системы образования они не подлежат. Получается, суммаризация отвечает на вопрос: что в среднем останется в голове у множества людей, после того как они прочтут текст? В статье “Toward a Model of Text Comprehension and Production” (“К модели восприятия и создания текста”, 1978 г.) Уолтер Кинч и Тойн ван Дейк, знаменитые американские дискурсологи, называют этот остаток “текстобаза” (text base, текст бейз). Что мы имеем в сухом остатке после чтения текста? Кинч и ван Дейк предполагают, что это то, что нельзя мысленно достроить на основании прошлого опыта. Например, если Иван Царевич прискакал к камню, значит, у него есть лошадь и он умеет ездить верхом. Ехал он, скорее всего, по дороге. А вот понять, сам он поехал или его отправили за чем-то, мы не можем, поэтому информация, что его отправил Царь-отец за молодильными яблоками тоже является частью вселенной текстобазы. Еще важно отметить, что эта информация как бы связывает текст воедино - без нее джист рассыпается, не ощущается как нечто цельное, осмысленное и истинное. Кинч и ван Дейк считают, что, когда мы читаем текст, мы складываем его небольшими кусочками (скорее всего, предложениями) в кратковременную память (short-term memory, шот-тём мЕмори), а потом после отсечения всей информации, которую можно восстановить или додумать, мы складываем текстобазу в долговременную память (long-term memory, лон-тём мЕмори). Причем отгрузка в долговременную память происходит, когда у нас закончился буфер в кратковременной. Вдохновившись работами дискурсологов… Точнее, не вдохновившись, т.к. они их не цитируют, Зепп Хохрайтер и Юрген Шмидхубер в статье “Long short-term memory” (“Долго-кратковременная память”, сокращенно LSTM) воплотили этот принцип в одноименном алгоритме. А за несколько лет до них в 1994 г. Йошуа Бенжио со товарищи признали, что, если при обучении нейросети вида RNN не сгружать кратковременные последовательности (sequences, сиквенсиз), которые репрезентируют информацию, из памяти, то их представление в сети как бы “затухает”. На деле получается, что ЭВМ не хватает памяти и возможностей хранить оооочень длинные последовательности чисел, которые представляют собой репрезентацию сущностей и связей между ними (это называется "затухание градиента").
Вот что интересно. Если бы Бенжио, Хохрайтер и Шмидхубер прочитали статью Кинча и ван Дейка, то быстрее сообразили бы, как сделать LSTM из RNN. С другой стороны, они могли зачитаться и перегрузиться теорией дискурса и вместо разработки нейросетей сидели бы и откисали где-нибудь на пляже. У меня есть статья, где я пересказываю несколько идей Кинча и ван Дейка - я точно помню, что я писала, вдохновившись их статьей, но я… забыла процитировать ее в списке литературы! Остается только понять и простить - Бенжио, Хохрайтера, Шмидхубера и меня 😅

#база #эссеиистика
🔥3
А вы модель учить могли бы на тройке ирисовых групп

А что это у вас на носу? Правильно, Новый год 🎄 Если вдруг к 29 декабря вы успеете совершить все приготовления, купить овощи и колбасу для оливье 🥗 (я, кстати, с индейкой готовлю), отдраить плинтусы и нарядить елку, то приходите к нам на Новогодний NLP-огонек! 💫 А если не успеете, то подключайтесь онлайн и слушайте нас в наушниках 🎧, пока пылесосите кота.

Что будет? Два коротких воркшопа по 30 минут “Обзор технологий Text-To-Speech (TTS)” и “Распознавание каламбуров при помощи TTS”. После каждого воркшопа 15 минут решаем практическое задание. Во время и после воркшопов будем пить чай с имбирным печеньем🍪 и делиться лайфхаками и историями из жизни искусственного интеллекта и компьютерной лингвистики👾

Где и когда?
29.12.2024 (воскресенье), 13:00–14:30
DISCIPLINA COFFEESHOP на ул. 8 Марта, 2/1 (1 этаж Школы перспективных исследований ТюмГУ)

Что еще за Новогодний NLP-огонек, и кто это все делает? Мы, то есть я👩‍🏫, мои соавторы этого канала Артем Пищулин👨 и Александр Жмыхов🐝, студентка магистратуры “Прикладная лингвистика” в ТюмГУ Лилия Свинцицкая🪷 и моя коллега из Европейского университета в Санкт-Петербурге Яна Сосновская🌲, зовем всех неравнодушных к NLP и компьютерной лингвистике на воскресные митапы-посиделки. Проходить они будут 1-2 раза в месяц оффлайн в Тюмени. И еще можно подключиться онлайн. Называется наш NLP-кружок Quick-to-Code. Присоединяйтесь к каналу в тг, где можно будет следить за новостями и объявлениями кружка.

🚶‍♀️‍➡️🚶‍♂️‍➡️Просто приходите 29-го без смс и регистрации (или подключайтесь по ссылке, которая будет в канале кружка).
8🔥3👍1
Сравнение инструментов OCR

Ранее мы с Александром писали про инструмент распознавания текста (OCR) Tesseract. Сегодня у нас новые карточки. На этот раз мы провели сравнение Тессеракта с двумя другими - ABBYY FineReader и EasyOCR. И поняли, что сравнивать инструменты OCR по качеству распознавания картинки довольно бессмысленно. Во-первых, они все развиваются, так что сегодня качество одно, завтра - лучше. Во-вторых, они по-разному доступны: за какие-то нужно платить, а какие-то прогать, настраивать и дообучать, но качество будет как у платных. В-третьих, многое зависит от ваших данных. В общем наш непрошенный совет такой: работайте с тем, что есть и что вам милее 🥰 По сути это и не совет никакой. Зато в наших карточках вы, возможно, узнаете что-то новое про старый-добрый OCR.
И, конечно, куда же без ноутбучека. На этот раз запускаем и тестим EasyOCR.

#notebook #карточкИИ
4👍2