Введение в искусственный интеллект
331 subscribers
63 photos
2 videos
170 links
Просто об искусственном интеллекте и его возможностях. Помогу разобраться в базовых понятиях и создать собственную нейросеть. Рассказываю, что у ИИ под кожей.
Елена Михалькова
Download Telegram
TPU versus GPU. Или сколько видеокарт нужно, чтобы достичь Sota

И снова барабанная дробь.. Представляю вам своего соавтора - Александра Жмыхова 👨‍🎓 Александр учится в ТюмГУ в магистратуре "Прикладная лингвистика", работает в библиотеке и помогает мне с поиском информации. Его пост на тему TPU невозможен без картинок. Поэтому мы поместили его в карточки. Листайте 🍁

#база #карточкИИ
🙏8
Прилагаем к посту про TPU ноутбучек с кодом для переключения на GPU и TPU и проверкой, что карты подключены.

А также напоминаю уже от себя, что:
1️⃣ у нас в канале идет конкурс на лучший вопрос для языковой модели, который поставит ее в тупик
2️⃣ в субботу в 16:00-18:00 (по московскому времени) я делаю занятие по QA - вопрос-ответным системам. Регистрация туть. Ссылка на подключение (чтобы подключиться, нужна регистрация) туть.

#notebook
👍4
Введение в искусственный интеллект pinned «Последнее "Что? Где? Когда?" человечества Есть один разработчик больших языковых моделей для русского языка по имени Илья Гусев (работает сеньором по маш.обучу в компании Booking.com). Я давно фанат его моделей - выложены тут. У Ильи есть канал. А в этом…»
ИИ-слизь. Теория метрового Интернета

ИИ-слизь - это метафора, которая отсылает к идее, зародившейся в 2010-е, когда алгоритмы машинного перевода и генерации текста стали достаточно эффективными, чтобы в коммуникации заменять человека. Например, в 2014 был первый случай, когда алгоритм прошел тест Тьюринга. По данным современного исследования компании Amazon 57.1% предложений в их корпусе из текстов, скачанных из Интернета, имеют переводной аналог на двух и более языках - явно не миллиарды людей-переводчиков это сделали. А большинство трафика на сайтах и в соцсетях создают боты.
🧐 Так что же такое ИИ-слизь? Идея ИИ-слизи заключается в том, что современный Интернет настолько наполнен сгенерированным контентом и накрутками, что там почти не осталось ничего трушного, оригинального, произведенного людьми. То есть “мертвый” означает “неживой”, “произведенный искусственной жизнью”.
🙁 И что теперь, не пользоваться Интернетом? Никому не доверять? Человек, как любое живое существо, при изменениях в среде реагирует и перестраивается. Мои личные практики такие. Я перестала заходить в комментарии к постам в соцсетях, потому что мне неинтересно играть в игру “угадай бота по комментарию”. И когда я отстаиваю свою точку зрения на какое-то общественное явление, я не привожу аргументы вроде “Смотрите, что в Интернете думает по этому поводу большинство”, “Посмотрите, сколько подписчиков у такого-то канала” или “Вон сколько лайков поставили на такое-то сообщение”. Я думаю, человечество выработает новые практики общения так, чтобы было неважно, есть в сети ИИ-слизь или нет.
😱 А Интернет реально умрет? Как говорил президент Сноу в “Голодных играх”: “Действие рождает противодействие, помните об этом, мистер Мелларк!” Методы распознавания сгенерированного контента совершенствуются. Так что, если человечество захочет вычистить слизь из Интернета или хотя бы просто помечать ее на сайтах и в соцсетях, то оно с этой задачей справится. К сожалению, пока люди позволяют авгиевым конюшням наполняться слизью, пропадает трушный, олдфаговый контент из старого Интернета. Сохранить его важно, чтобы отличать ИИ от не-ИИ. Например, в Европейском университете в Санкт-Петербурге, где я сейчас работаю, есть проект по сохранению цифрового наследия платформы narod.ru. 👾

#эссеиистика
6👾4👍2
Пока мы с редколлегией решаем судьбу октябрьского номера, рубрика Лайфхак!
Лайфхак № 2. Находим синонимы при помощи API RusVectores

💡 Что такое семантическая близость слов и как ее вычисляет алгоритм word2vec, можно почитать в моем посте тут. А если вы уже про нее знаете или понимаете интуитивно, как работает автоматическое выявление семантически близких слов, или просто хотите пощелкать ноутбук, то вот мой ноутбучек с лайфхаком, как это сделать при помощи АПИ проекта RusVectores. Оказывается, достаточно лишь (кликбейт) сделать хорошую URL-ссылку и отправить запрос при помощи библиотеки requests.

#лайфхакИИ
👍2🔥1
А вот и анонс на остаток октября 2024

19 RAG: новое слово в информационном поиске
23 Цифровое забвение. Как спасти контент от вымирания?
26 Конвертируем PDF в DOC при помощи Тессеракта - без смс и регистрации
30 Word sense disambiguation: как сопоставить слово с его словарным значением
🔥4
А еще напоминаю про конкурс "Последнее "Что? Где? Когда?" человечества".

Уже 5⃣ участников прислали свои, чем ввели в замешательство 👾🤖. Интеллектуальная битва продлится до 2⃣5⃣ октября включительно. Присылайте вопросы вот сюда.

А пока представляю вам Святослава Косовича - он в жюри моего конкурса и будет выбирать лучшие вопросы 👨‍⚖
Когда-то давно мы со Славой решили делать проект по интеллектуальным соревнованиям между человеком и ИИ. Тогда, в далеком 2022 ИИ почти ничего не могло противопоставить уважаемым знатокам. Но время не стоит на месте.. В общем буду держать вас в курсе новых возможностей больших языковых моделей!

#конкурс #ниипетпроект
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥3👾1
This media is not supported in your browser
VIEW IN TELEGRAM
🎃21
..А у меня два анонса мероприятий, где я буду выступать.
🌏 Участие очное (нужно быть по-питерски культурным и прийти в парадную, минуя поребрики).

1⃣ В одном наукограде Дубна (точнее рядом) есть один лес на берегу Волги. В этом лесу есть один бывший детский лагерь. А в этом бывшем детском лагере проходит ежегодно одна “Летняя школа”. В этой “Летней школе” я выступала с лекцией этим летом и, видимо, буду выступать в следующем году. Так вот.. у “Летней школы” есть “After школа” (это как афтепати и автошкола).
“After школа” пройдет вот уже буквально в это воскресенье 20 октября в особняке Европейского университета в Санкт-Петербурге (набережная Кутузова, 22). Так что если вы в СПб, го. Я там тоже буду - читать лекцию и следить, чтобы молодежь не закидала особняк туалетной бумагой. Псст, там обещают мерч раздавать, и печеньки 😋 Рега туть.

2⃣ 23-24 ноября в Европейском университете пройдет воркшоп “Кино и тексты: анализ сценариев лауреатов кинопремий”, где при помощи методов NLP можно будет сгенерировать идеальный сценарий или обвинить драматургов в плагиате. В общем задачу вы поставите себе сами. Главное, потом красиво презентовать проект. В итоге вы подкачаете свои навыки NLP и заколлабитесь с единомышленниками. Это будет уже второй такой воркшоп по сценариям. Первый проходил 20–21 апреля 2024 г. - вот тут можно посмотреть проекты, которые получились в результате. Рега до 28 октября 2024 года включительно туть.
🔥9
RAG: новое слово в информационном поиске

Вы когда-нибудь задумывались, чем отличается machine reading comprehension от information retrieval? Хорошо, если нет, потому что, если да, то вам знакома головная боль компьютерного лингвиста, который пытается решить проблему точного ответа большой языковой модели на заданный вопрос.
Когда-то давным давно (в 2023 г.) я с двумя дипломниками взялась за разработку системы, которая будет отвечать на вопросы “Своей игры” (викторина такая) на основе данных только из Википедии. Итак, на входе у нас вопрос “Своей игры”; на выходе - как можно более точный ответ: имя, название, реалия, факт.
Как мы подошли к решению? Сначала мы вычленяли из вопроса полнозначные слова и словосочетания. Например, для вопроса “Скажите по-японски короткая песня” (автор вопроса: Юрий Гришов (с)) мы получали комбинации “песня”, “короткая песня”, “по-японски”, “короткая песня по-японски”. Каждую комбинацию мы отсылали через поисковое API Википедии (это обычный поиск по Википедии в правом верхнем углу, где лупа нарисована; но только делается он через компьютерную программу, а не кликанием и вбиванием строки). Затем мы получали много-много ссылок, по которым наш алгоритм проходил и скачивал вики-страницы. Эти страницы делились на абзацы (параграфы), т.е. буквально кусочки текста между двумя символами новой строки (их еще можно назвать чанки, от англ. chunks - кусочки). А дальше нейронная сеть пыталась предсказать, в каком абзаце находится правильный ответ. Получалось плоховато, но для дипломной работы - окау.
В общем, это я вам сейчас описала часть поискового алгоритма, можно сказать, RA - retrieval-augmented. Retrieval - в переводе с английского “добывание”, это слово в ИТ обычно указывает на задачу информационного поиска (information retrieval), т.е. того, что делают поисковики Yandex, Google и иже с ними. Augmented обычно означает “намешанный с чем-то”, от английского глагола to augment - увеличивать. Т.е. мы берем запрос юзера и добавляем ему контекста, например, вики-страниц, на которых может содержаться ответ. А вот оставшаяся буква G отвечает за generation, т.е. генерацию финального ответа при помощи языковой модели, желательно большой. Тут как раз и понадобляется алгоритм machine reading comprehension, т.е. умение модели из текста вычленить нужный кусочек (span) с ответом и облечь его в форму, которую ждет пользователь.
Это не единственный способ сделать RAG. И, конечно, я умолчала о творческих муках от настройки нейронки на поиск нужного абзаца. Если хотите таких подробностей, то рекомендую вот этот пост на Хабре.
Когда нужен RAG? Когда у вас есть специфический набор фактов, документов и прочей неструктурированной (хаотической такой) информации и этот набор постоянно обновляется. Т.е. вам не хотелось бы каждый раз переобучать модэл, т.к. это долго.

#база #ниипетпроект
🍾5👍2
Дорогие читатели, хочу представить вам ещё одного члена компетентного жюри, которое будет оценивать ваши вопросы в конкурсе "Последнее "Что? Где? Когда?" человечества".
🧐 Алексей Абрамов - автор комиксов о хитром собакене (кстати, это он изображён у Алексея на футболке). Алексей работает пресс-секретарем общественной организации 🫂. Любит музыку 80-х📻, средневековые ереси 🔮 и кино🎥. Он давно играет в ЧГК и другие спортивные версии викторин и даже является одним из авторов, создавших тестовый датасет к задаче "CheGeKa" в бенчмарке MERA.
Напоминаю, что мы с жюри ждем ваши вопросы до 25 октября включительно. На кону.. автомобиль! промокод на курс по Питону для научных исследований и серты в Читай-город.

#конкурс
🐳3
И.. барабанная дробь.. Еще один член жюри в моем конкурсе "Последнее "Что? Где? Когда?" человечества" - Дроздова Анастасия Олеговна, кандидат филологических наук, старший преподаватель Тюменского госуниверситета, исследователь русской литературы, в особенности творчества Владимира Набокова, фанатского творчества и интерпретаций русской классики.
Анастасия в прошлом тоже была заядлым ЧГКшником, но переключилась на другие хобби (бокс, например - я серьезно). Но все еще иногда поигрывает, ведь ЧГКшник однажды - ЧГКник форева
((ඏ.̫ඏ*))
❤‍🔥8😍4💘1
Цифровое забвение. Как спасти контент от вымирания?

Был у меня пост про ИИ-слизь - бессмысленный и бесполезный сгенерированный контент, который грозится поглотить весь Интернет. Но есть и ещё один процесс, который угрожает трушному цифровому контенту - физическое уничтожение.
А, может, и ну его, этот тру контент?.. Для начала разберемся, что я имею в виду, говоря “трушный” (от английского true, истинный). ЮНЕСКО (всемирная организация, которая занимается сохранением любого наследия в принципе) относит к цифровому наследию цифровые материалы, которые требуют заботы - производства, обслуживания и управления для сохранения. К примеру, недавно стало известно о серьезной скоротечной болезни и смерти создателя пиратской библиотеки Флибуста. Пользователи боялись, что с его уходом библиотека прекратит существование, но ее перенял другой admin - проект продолжит жить и радовать читателей, которые ограничены в средствах на покупку книг.
А, может, и ну ее, эту Флибусту?.. В Интернете можно найти буквально цифровое искусство. Вот пример цифровой поэзии, где текст неотделим от мультимедийной оболочки. Если уж мы храним искусство на физических носителях, пусть даже и не все согласны с его ценностью, то цифровое искусство тут ничем в плане требования его хранить не отличается.
Тогда давайте хранить только искусство? А мы сейчас не можем точно сказать, что ещё будет ценно завтра. Например, точно будут ценны старые веб-сайты, которые были созданы до генеративного искусственного интеллекта, чтобы уметь отличать генеративный контент. Понятно, что все не сохранишь. Поэтому существуют отдельные проекты, нацеленные на сохранение конкретных ресурсов, не обязательно Интернет. Под сохранение могут попасть старые компьютерные программы, носители с данными (диски, дискеты), документация. Проект Internet Archive содержит уже более миллиарда файлов. Их подпроект Wayback Machine (Машина времени) создан специально для вебсайтов. А вот тут можно походить по первому в мире веб-сайту (бережно восстановлен). cern в его названии указывает на ЦЕРН, организацию, которая собрала Большой адронный коллайдер, где работал создатель Интернета Тимоти Бернес-Ли. Ну, а я вам ранее рассказывала про проект Европейского университета в Санкт-Петербурге narod.ru, который хранит копии десятков тысяч сайтов, размещенных под этим доменом.
Можно ли предсказать, что останется в памяти, чтобы не хранить слишком много и не уничтожить что-то важное? Есть такое направление исследований - memory studies, исследования памяти. Но точно, конечно, никто предсказать не сможет. Вот тут можно почитать, как изучают память сегодня.

#эссеиистика
❤‍🔥4👍2
А я напоминаю, что сегодня последний день, чтобы отправить ваш вопрос и спасти человечество от слишком умного искусственного интеллекта. Вот в фильме "Москва-Кассиопея" детская загадка уничтожала роботов. А ещё я думаю, что спортивные викторины вроде "Что? Где? Когда?" это богатое культурное наследие на русском языке. Поэтому я периодически скачиваю новые вопросы из базы и храню на данный момент уже более 380 000 вопросов, ответов и комментариев к ним.
Кстати, хочу представить последнего члена жюри в моем конкурсе - Виктор Бызов. Он работает преподавателем машинного обучения в ВятГУ (г. Киров) и тоже заядлый ЧГКшник. Мы вместе пишем статью о том, как большие языковые модели могут (или не могут) раскусывать ЧГКшные вопросы. Ваши вопросы нам очень помогут, потому что их нет в Интернете.

#конкурс
👍4
Конвертируем PDF в DOC при помощи Тессеракта - без смс и регистрации

OCR (optical character recognition) - это область на стыке компьютерной лингвистики и компьютерного зрения, которая занимается автоматическим распознаванием текста, символов на изображениях.
Бывает, что бесплатные онлайн конвертеры PDF файлов в текстовые не могут распознать текст либо делают это плохо. А потом еще и просят залогиниться и задонатить. Мы с моим соавтором Александром Жмыховым представляем вашему вниманию ноутбучек с еще одним способом превратить PDF в DOC без смс, но с регистрацией в Google Colaboratory. Для этого вам понадобится всего лишь одна библиотека Pytesseract, в народе просто Тессеракт. Она давно развивается и на ней доступно уже более 100 языков и около 40 письменностей! Александр рекомендует этот полезный и мощный инструмент для сбора данных из большой коллекции картинок (Откуда вы, Александр, их взяли? Опять фотографировали книги в магазине вместо того, чтобы их покупать?..).
Если тематика OCR соберет 10 позитивных реакций или у нас закончатся идеи для контент-плана, то Александр обещает еще посты о том, как до-настраивать OCR в Тессеракте и как распознавать картинки в тексте (а не наоборот).

ПС. Всех с днем страшной тыквы! 🎃

#notebook
❤‍🔥221
Барабанная дробь...! Итоги конкурса вопросов "Последнее "Что? Где? Когда?" человечества":

🥇 Золото взял вопрос о поэме XX века (17 баллов от жюри).
🥈 Серебро - у вопроса о резидентах одного интересного дома (13 баллов).
🥉 Бронзу забирают два вопроса, набравшие по 11 баллов - вопрос о необычном способе покончить с собой и вопрос о рекламном плакате Macdonalds.

Если вы узнали свой вопрос, напишите мне в ЛС тот никнейм, который вы указали, заполняя форму - вас ждет вот это самое: 🏆... и вечная слава!

А тем временем мы с коллегами выяснили, что большие языковые модели очень неравномерно отвечают на вопросы ЧГК. Например, одна модель берет много вопросов из одного пакета, но совсем не может в другой. И угадать, какая модель справится лучше со следующим вопросом, очень сложно.
В общем, будем держать вас в курсе наших научных поисков!

#конкурс
🎉13
Word sense disambiguation: как сопоставить слово с его словарным значением

Word Sense Disambiguation (WSD) – это автоматическое определение словарного значения многозначного слова через его контекст. Есть такая расхожая фраза у компьютерных лингвистов You shall know a word by the company it keeps - "Слово можно понять по тем словам, рядом с которыми оно стоит" (эта фраза отсылает к теории лингвиста Джона Руперта Фёрса). Один из самых популярных алгоритмов WSD был предложен Майклом Леском вот в этой статье 1986 г. Рассмотрим его пример со словом pine cone (сосновая шишка). Наша задача: понять, какие определения слов pine и cone используются именно в этом сочетании.
☝️ Получим все значения слов pine и cone из электронного словаря. Леск использовал Oxford Advanced Learner’s Dictionary.
🌲pine
Дерево хвойной породы.
Тосковать.
🔺 cone
Твердое тело, сужающееся к вершине.
Плод некоторых хвойных деревьев.
✌️ Посмотрим, какие полнозначные слова из этих определений совпадают. Два определения имеют общий элемент хвойный.
🖖 Выбираем определения, у которых больше всего совпадений - первое у pine и второе у cone.
Этот пример - классический cherry-picking (чери-пикинг): когда алгоритм демонстрируется на очень ярком примере, то может возникнуть ложное ощущение его супер-эффективности. В своем ноутбуке я разбираю алгоритм Леска более подробно - там видны подводные. А также привожу пример немного другой задачи: автоматическое выявление фитонимов - слов, которые называют растения (вообще любые растения - как класс). Для поиска фитонимов я взяла пример из этноботанической базы данных Фитолекс (Phytolex), которую разрабатывает моя коллега по Европейскому университету в СПб Кира Коваленко. Про Фитолекс можно читать в телеграмме.
Эта задача отчасти похожа на более известную задачу - определения именованных сущностей. Аналогичным образом можно взять любой класс вещей и автоматически определять в тексте его экземпляры. В общем жмякайте 🫵

А на этом посту я завершаю октябрьский номер нашего журнала. Спасибо моему соавтору Александру Жжж. 🐝 за оперативную помощь в написании постов. Скоро вывесим новый анонс! Кстати, если вас интересует какая-то конкретная тема - пишите в комментариях. Осветим 💫

#база #notebook
10
Следующий номер нашего журнала выйдет, видимо, в декабре. А пока...
Лайфхак № 3. Как запускать модели ELMo при помощи Simple Elmo

💡 Что такое семантическая близость слов, мы писали тут. Когда-то был Word2Vec. Потом GloVe, FastText и... ненадолго, до восшествия на трон компьютерной семантики Берта (BERT), воцарилась модель ELMo... ELMo изменила представление о векторной семантике, и технологии быстро свернули в сторону языковых моделей.
ELMo - языковая модель (Embeddings from Language Model), которая позволяет извлекать контекстуализированные векторные представления слов: в отличие от Word2Vec и GloVe вектор слова в ней зависит от контекста, в котором это слово оказалось. Поэтому ELMo вектора лучше делать для сочетаний слов, например, предложений, и для задач, где контекст решает (например, Word Sense Disambiguation, о котором мы писали выше). Статья, с которой все началось, тут.
В нашем с Александром Жжж. ноутбуке мы рассказываем о том, как запускать модели ELMo от RusVectōrēs. Жжжмякайте!🐝

#лайфхакИИ
6