Введение в искусственный интеллект – Telegram

Введение в искусственный интеллект

331 subscribers

63 photos

2 videos

170 links

Просто об искусственном интеллекте и его возможностях. Помогу разобраться в базовых понятиях и создать собственную нейросеть. Рассказываю, что у ИИ под кожей.
Елена Михалькова

Download Telegram

About

Blog

Apps

Platform

Введение в искусственный интеллект

331 subscribers

Введение в искусственный интеллект

TPU versus GPU. Или сколько видеокарт нужно, чтобы достичь Sota

И снова барабанная дробь.. Представляю вам своего соавтора - Александра Жмыхова 👨‍🎓 Александр учится в ТюмГУ в магистратуре "Прикладная лингвистика", работает в библиотеке и помогает мне с поиском информации. Его пост на тему TPU невозможен без картинок. Поэтому мы поместили его в карточки. Листайте 🍁

#база #карточкИИ

🙏8

331 views13:27

Введение в искусственный интеллект

Прилагаем к посту про TPU ноутбучек с кодом для переключения на GPU и TPU и проверкой, что карты подключены.

А также напоминаю уже от себя, что:
1️⃣ у нас в канале идет конкурс на лучший вопрос для языковой модели, который поставит ее в тупик
2️⃣ в субботу в 16:00-18:00 (по московскому времени) я делаю занятие по QA - вопрос-ответным системам. Регистрация туть. Ссылка на подключение (чтобы подключиться, нужна регистрация) туть.

#notebook

👍4

397 views13:36

Введение в искусственный интеллект

Введение в искусственный интеллект pinned «Последнее "Что? Где? Когда?" человечества Есть один разработчик больших языковых моделей для русского языка по имени Илья Гусев (работает сеньором по маш.обучу в компании Booking.com). Я давно фанат его моделей - выложены тут. У Ильи есть канал. А в этом…»

17:29

Введение в искусственный интеллект

ИИ-слизь. Теория метрового Интернета

ИИ-слизь - это метафора, которая отсылает к идее, зародившейся в 2010-е, когда алгоритмы машинного перевода и генерации текста стали достаточно эффективными, чтобы в коммуникации заменять человека. Например, в 2014 был первый случай, когда алгоритм прошел тест Тьюринга. По данным современного исследования компании Amazon 57.1% предложений в их корпусе из текстов, скачанных из Интернета, имеют переводной аналог на двух и более языках - явно не миллиарды людей-переводчиков это сделали. А большинство трафика на сайтах и в соцсетях создают боты.
🧐 Так что же такое ИИ-слизь? Идея ИИ-слизи заключается в том, что современный Интернет настолько наполнен сгенерированным контентом и накрутками, что там почти не осталось ничего трушного, оригинального, произведенного людьми. То есть “мертвый” означает “неживой”, “произведенный искусственной жизнью”.
🙁 И что теперь, не пользоваться Интернетом? Никому не доверять? Человек, как любое живое существо, при изменениях в среде реагирует и перестраивается. Мои личные практики такие. Я перестала заходить в комментарии к постам в соцсетях, потому что мне неинтересно играть в игру “угадай бота по комментарию”. И когда я отстаиваю свою точку зрения на какое-то общественное явление, я не привожу аргументы вроде “Смотрите, что в Интернете думает по этому поводу большинство”, “Посмотрите, сколько подписчиков у такого-то канала” или “Вон сколько лайков поставили на такое-то сообщение”. Я думаю, человечество выработает новые практики общения так, чтобы было неважно, есть в сети ИИ-слизь или нет.
😱 А Интернет реально умрет? Как говорил президент Сноу в “Голодных играх”: “Действие рождает противодействие, помните об этом, мистер Мелларк!” Методы распознавания сгенерированного контента совершенствуются. Так что, если человечество захочет вычистить слизь из Интернета или хотя бы просто помечать ее на сайтах и в соцсетях, то оно с этой задачей справится. К сожалению, пока люди позволяют авгиевым конюшням наполняться слизью, пропадает трушный, олдфаговый контент из старого Интернета. Сохранить его важно, чтобы отличать ИИ от не-ИИ. Например, в Европейском университете в Санкт-Петербурге, где я сейчас работаю, есть проект по сохранению цифрового наследия платформы narod.ru. 👾

#эссеиистика

Интерфакс

Компьютерная программа прошла тест Тьюринга впервые в мире

Авторами искусственного интеллекта стали программисты из России

❤6👾4👍2

374 views20:00

Введение в искусственный интеллект

Пока мы с редколлегией решаем судьбу октябрьского номера, рубрика Лайфхак!
Лайфхак № 2. Находим синонимы при помощи API RusVectores

💡 Что такое семантическая близость слов и как ее вычисляет алгоритм word2vec, можно почитать в моем посте тут. А если вы уже про нее знаете или понимаете интуитивно, как работает автоматическое выявление семантически близких слов, или просто хотите пощелкать ноутбук, то вот мой ноутбучек с лайфхаком, как это сделать при помощи АПИ проекта RusVectores. Оказывается, достаточно лишь (кликбейт) сделать хорошую URL-ссылку и отправить запрос при помощи библиотеки requests.

#лайфхакИИ

Введение в искусственный интеллект

Как работает word2vec

Возвращаюсь к вопросу про эмбеддинги и word2vec, который, как оказалось, не достаточно понимаю сама, чтобы объяснить простыми словами. А про word2vec (ворд-ту-век) надо знать любому уважающему себя компьютерному лингвисту. ⠜⠣⡃⠎⢡ ⢄⢘⠃…

👍2🔥1

373 viewsedited 12:13

Введение в искусственный интеллект

А вот и анонс на остаток октября 2024

19 RAG: новое слово в информационном поиске 
23 Цифровое забвение. Как спасти контент от вымирания? 
26 Конвертируем PDF в DOC при помощи Тессеракта - без смс и регистрации 
30 Word sense disambiguation: как сопоставить слово с его словарным значением

🔥4

311 views05:47

Введение в искусственный интеллект

А еще напоминаю про конкурс "Последнее "Что? Где? Когда?" человечества".

Уже 5⃣ участников прислали свои❓, чем ввели в замешательство 👾🤖. Интеллектуальная битва продлится до 2⃣5⃣ октября включительно. Присылайте вопросы вот сюда.

А пока представляю вам Святослава Косовича - он в жюри моего конкурса и будет выбирать лучшие вопросы 👨‍⚖
Когда-то давно мы со Славой решили делать проект по интеллектуальным соревнованиям между человеком и ИИ. Тогда, в далеком 2022 ИИ почти ничего не могло противопоставить уважаемым знатокам. Но время не стоит на месте.. В общем буду держать вас в курсе новых возможностей больших языковых моделей!

#конкурс #ниипетпроект

Последнее "Что? Где? Когда?" человечества

Уважаемые знатоки и любители загадок!
Этот конкурс я придумала вслед за создателями "Последнего экзамена человечества". https://agi.safe.ai/submit
Я хочу протестировать современные языковые модели на тему того, как успешно они решают вопросы в стиле викторины…

🔥3

365 viewsedited 06:18

Введение в искусственный интеллект

This media is not supported in your browser

VIEW IN TELEGRAM

0:40

356 views06:18

🔥3👾1

Введение в искусственный интеллект

This media is not supported in your browser

VIEW IN TELEGRAM

0:50

332 views06:18

🎃2❤1

Введение в искусственный интеллект

..А у меня два анонса мероприятий, где я буду выступать.
🌏 Участие очное (нужно быть по-питерски культурным и прийти в парадную, минуя поребрики).

1⃣ В одном наукограде Дубна (точнее рядом) есть один лес на берегу Волги. В этом лесу есть один бывший детский лагерь. А в этом бывшем детском лагере проходит ежегодно одна “Летняя школа”. В этой “Летней школе” я выступала с лекцией этим летом и, видимо, буду выступать в следующем году. Так вот.. у “Летней школы” есть “After школа” (это как афтепати и автошкола).
“After школа” пройдет вот уже буквально в это воскресенье 20 октября в особняке Европейского университета в Санкт-Петербурге (набережная Кутузова, 22). Так что если вы в СПб, го. Я там тоже буду - читать лекцию и следить, чтобы молодежь не закидала особняк туалетной бумагой. Псст, там обещают мерч раздавать, и печеньки 😋 Рега туть.

2⃣ 23-24 ноября в Европейском университете пройдет воркшоп “Кино и тексты: анализ сценариев лауреатов кинопремий”, где при помощи методов NLP можно будет сгенерировать идеальный сценарий или обвинить драматургов в плагиате. В общем задачу вы поставите себе сами. Главное, потом красиво презентовать проект. В итоге вы подкачаете свои навыки NLP и заколлабитесь с единомышленниками. Это будет уже второй такой воркшоп по сценариям. Первый проходил 20–21 апреля 2024 г. - вот тут можно посмотреть проекты, которые получились в результате. Рега до 28 октября 2024 года включительно туть.

ЛШ поток

⠑⡤⢤⣠⢐⣐

Мы закончили с Москвой, на очереди — Санкт-Петербург!

На берегах Невы (буквально) «After школа» пройдет в следующее воскресенье 20 октября. Обязательно зарегистрируйтесь по ссылке ниже:

РЕГИСТРАЦИЯ

Осенний фестиваль ЛШ в Санкт-Петербурге пройдет…

🔥9

348 views21:09

Введение в искусственный интеллект

RAG: новое слово в информационном поиске

Вы когда-нибудь задумывались, чем отличается machine reading comprehension от information retrieval? Хорошо, если нет, потому что, если да, то вам знакома головная боль компьютерного лингвиста, который пытается решить проблему точного ответа большой языковой модели на заданный вопрос.
Когда-то давным давно (в 2023 г.) я с двумя дипломниками взялась за разработку системы, которая будет отвечать на вопросы “Своей игры” (викторина такая) на основе данных только из Википедии. Итак, на входе у нас вопрос “Своей игры”; на выходе - как можно более точный ответ: имя, название, реалия, факт.
Как мы подошли к решению? Сначала мы вычленяли из вопроса полнозначные слова и словосочетания. Например, для вопроса “Скажите по-японски короткая песня” (автор вопроса: Юрий Гришов (с)) мы получали комбинации “песня”, “короткая песня”, “по-японски”, “короткая песня по-японски”. Каждую комбинацию мы отсылали через поисковое API Википедии (это обычный поиск по Википедии в правом верхнем углу, где лупа нарисована; но только делается он через компьютерную программу, а не кликанием и вбиванием строки). Затем мы получали много-много ссылок, по которым наш алгоритм проходил и скачивал вики-страницы. Эти страницы делились на абзацы (параграфы), т.е. буквально кусочки текста между двумя символами новой строки (их еще можно назвать чанки, от англ. chunks - кусочки). А дальше нейронная сеть пыталась предсказать, в каком абзаце находится правильный ответ. Получалось плоховато, но для дипломной работы - окау.
В общем, это я вам сейчас описала часть поискового алгоритма, можно сказать, RA - retrieval-augmented. Retrieval - в переводе с английского “добывание”, это слово в ИТ обычно указывает на задачу информационного поиска (information retrieval), т.е. того, что делают поисковики Yandex, Google и иже с ними. Augmented обычно означает “намешанный с чем-то”, от английского глагола to augment - увеличивать. Т.е. мы берем запрос юзера и добавляем ему контекста, например, вики-страниц, на которых может содержаться ответ. А вот оставшаяся буква G отвечает за generation, т.е. генерацию финального ответа при помощи языковой модели, желательно большой. Тут как раз и понадобляется алгоритм machine reading comprehension, т.е. умение модели из текста вычленить нужный кусочек (span) с ответом и облечь его в форму, которую ждет пользователь.
Это не единственный способ сделать RAG. И, конечно, я умолчала о творческих муках от настройки нейронки на поиск нужного абзаца. Если хотите таких подробностей, то рекомендую вот этот пост на Хабре.
Когда нужен RAG? Когда у вас есть специфический набор фактов, документов и прочей неструктурированной (хаотической такой) информации и этот набор постоянно обновляется. Т.е. вам не хотелось бы каждый раз переобучать модэл, т.к. это долго.

#база #ниипетпроект

RAG (Retrieval Augmented Generation) — простое и понятное объяснение

Меня все время спрашивают, что такое RAG (в контексте больших языковых моделей) и я все время хочу дать ссылку на статью на habr, где бы простыми словами, но тем не менее...

🍾5👍2

326 viewsedited 12:55

Введение в искусственный интеллект

Дорогие читатели, хочу представить вам ещё одного члена компетентного жюри, которое будет оценивать ваши вопросы в конкурсе "Последнее "Что? Где? Когда?" человечества".
🧐 Алексей Абрамов - автор комиксов о хитром собакене (кстати, это он изображён у Алексея на футболке). Алексей работает пресс-секретарем общественной организации 🫂. Любит музыку 80-х📻, средневековые ереси 🔮 и кино🎥. Он давно играет в ЧГК и другие спортивные версии викторин и даже является одним из авторов, создавших тестовый датасет к задаче "CheGeKa" в бенчмарке MERA.
Напоминаю, что мы с жюри ждем ваши вопросы до 25 октября включительно. На кону.. ~~автомобиль!~~ промокод на курс по Питону для научных исследований и серты в Читай-город.

#конкурс

MERA Новый открытый бенчмарк для русского языка для оценки фундаментальных моделей

Независимый бенчмарк MERA собирает всех игроков индустрии и академии в одном месте: исследования способностей фундаментальных моделей, создание единой системы для замеров всех моделей и стандартов.

🐳3

331 viewsedited 20:38

Введение в искусственный интеллект

❤3🍓2

355 views20:38

Введение в искусственный интеллект

И.. барабанная дробь.. Еще один член жюри в моем конкурсе "Последнее "Что? Где? Когда?" человечества" - Дроздова Анастасия Олеговна, кандидат филологических наук, старший преподаватель Тюменского госуниверситета, исследователь русской литературы, в особенности творчества Владимира Набокова, фанатского творчества и интерпретаций русской классики.
Анастасия в прошлом тоже была заядлым ЧГКшником, но переключилась на другие хобби (бокс, например - я серьезно). Но все еще иногда поигрывает, ведь ЧГКшник однажды - ЧГКник форева
((ඏ.̫ඏ*))

❤‍🔥8😍4💘1

311 viewsedited 09:45

Введение в искусственный интеллект

Цифровое забвение. Как спасти контент от вымирания?

Был у меня пост про ИИ-слизь - бессмысленный и бесполезный сгенерированный контент, который грозится поглотить весь Интернет. Но есть и ещё один процесс, который угрожает трушному цифровому контенту - физическое уничтожение.
А, может, и ну его, этот тру контент?.. Для начала разберемся, что я имею в виду, говоря “трушный” (от английского true, истинный). ЮНЕСКО (всемирная организация, которая занимается сохранением любого наследия в принципе) относит к цифровому наследию цифровые материалы, которые требуют заботы - производства, обслуживания и управления для сохранения. К примеру, недавно стало известно о серьезной скоротечной болезни и смерти создателя пиратской библиотеки Флибуста. Пользователи боялись, что с его уходом библиотека прекратит существование, но ее перенял другой admin - проект продолжит жить и радовать читателей, которые ограничены в средствах на покупку книг.
А, может, и ну ее, эту Флибусту?.. В Интернете можно найти буквально цифровое искусство. Вот пример цифровой поэзии, где текст неотделим от мультимедийной оболочки. Если уж мы храним искусство на физических носителях, пусть даже и не все согласны с его ценностью, то цифровое искусство тут ничем в плане требования его хранить не отличается.
Тогда давайте хранить только искусство? А мы сейчас не можем точно сказать, что ещё будет ценно завтра. Например, точно будут ценны старые веб-сайты, которые были созданы до генеративного искусственного интеллекта, чтобы уметь отличать генеративный контент. Понятно, что все не сохранишь. Поэтому существуют отдельные проекты, нацеленные на сохранение конкретных ресурсов, не обязательно Интернет. Под сохранение могут попасть старые компьютерные программы, носители с данными (диски, дискеты), документация. Проект Internet Archive содержит уже более миллиарда файлов. Их подпроект Wayback Machine (Машина времени) создан специально для вебсайтов. А вот тут можно походить по первому в мире веб-сайту (бережно восстановлен). cern в его названии указывает на ЦЕРН, организацию, которая собрала Большой адронный коллайдер, где работал создатель Интернета Тимоти Бернес-Ли. Ну, а я вам ранее рассказывала про проект Европейского университета в Санкт-Петербурге narod.ru, который хранит копии десятков тысяч сайтов, размещенных под этим доменом.
Можно ли предсказать, что останется в памяти, чтобы не хранить слишком много и не уничтожить что-то важное? Есть такое направление исследований - memory studies, исследования памяти. Но точно, конечно, никто предсказать не сможет. Вот тут можно почитать, как изучают память сегодня.

#эссеиистика

Введение в искусственный интеллект

ИИ-слизь. Теория метрового Интернета

ИИ-слизь - это метафора, которая отсылает к идее, зародившейся в 2010-е, когда алгоритмы машинного перевода и генерации текста стали достаточно эффективными, чтобы в коммуникации заменять человека. Например, в 2014…

❤‍🔥4👍2

339 viewsedited 18:55

Введение в искусственный интеллект

А я напоминаю, что сегодня последний день, чтобы отправить ваш вопрос и спасти человечество от слишком умного искусственного интеллекта. Вот в фильме "Москва-Кассиопея" детская загадка уничтожала роботов. А ещё я думаю, что спортивные викторины вроде "Что? Где? Когда?" это богатое культурное наследие на русском языке. Поэтому я периодически скачиваю новые вопросы из базы и храню на данный момент уже более 380 000 вопросов, ответов и комментариев к ним.
Кстати, хочу представить последнего члена жюри в моем конкурсе - Виктор Бызов. Он работает преподавателем машинного обучения в ВятГУ (г. Киров) и тоже заядлый ЧГКшник. Мы вместе пишем статью о том, как большие языковые модели могут (или не могут) раскусывать ЧГКшные вопросы. Ваши вопросы нам очень помогут, потому что их нет в Интернете.

#конкурс

Последнее "Что? Где? Когда?" человечества

Уважаемые знатоки и любители загадок!
Этот конкурс я придумала вслед за создателями "Последнего экзамена человечества". https://agi.safe.ai/submit
Я хочу протестировать современные языковые модели на тему того, как успешно они решают вопросы в стиле викторины…

👍4

419 views19:11

Введение в искусственный интеллект

Конвертируем PDF в DOC при помощи Тессеракта - без смс и регистрации

OCR (optical character recognition) - это область на стыке компьютерной лингвистики и компьютерного зрения, которая занимается автоматическим распознаванием текста, символов на изображениях.
Бывает, что бесплатные онлайн конвертеры PDF файлов в текстовые не могут распознать текст либо делают это плохо. А потом еще и просят залогиниться и задонатить. Мы с моим соавтором Александром Жмыховым представляем вашему вниманию ноутбучек с еще одним способом превратить PDF в DOC без смс, но с регистрацией в Google Colaboratory. Для этого вам понадобится всего лишь одна библиотека Pytesseract, в народе просто Тессеракт. Она давно развивается и на ней доступно уже более 100 языков и около 40 письменностей! Александр рекомендует этот полезный и мощный инструмент для сбора данных из большой коллекции картинок (Откуда вы, Александр, их взяли? Опять фотографировали книги в магазине вместо того, чтобы их покупать?..).
Если тематика OCR соберет 10 позитивных реакций или у нас закончатся идеи для контент-плана, то Александр обещает еще посты о том, как до-настраивать OCR в Тессеракте и как распознавать картинки в тексте (а не наоборот).

ПС. Всех с днем страшной тыквы! 🎃

#notebook

OCR_with_tesseract

❤‍🔥22❤1

443 views20:54

Введение в искусственный интеллект

Барабанная дробь...! Итоги конкурса вопросов "Последнее "Что? Где? Когда?" человечества":

🥇 Золото взял вопрос о поэме XX века (17 баллов от жюри).
🥈 Серебро - у вопроса о резидентах одного интересного дома (13 баллов).
🥉 Бронзу забирают два вопроса, набравшие по 11 баллов - вопрос о необычном способе покончить с собой и вопрос о рекламном плакате Macdonalds.

Если вы узнали свой вопрос, напишите мне в ЛС тот никнейм, который вы указали, заполняя форму - вас ждет вот это самое: 🏆... и вечная слава!

А тем временем мы с коллегами выяснили, что большие языковые модели очень неравномерно отвечают на вопросы ЧГК. Например, одна модель берет много вопросов из одного пакета, но совсем не может в другой. И угадать, какая модель справится лучше со следующим вопросом, очень сложно.
В общем, будем держать вас в курсе наших научных поисков!

#конкурс

🎉13

389 viewsedited 11:44

Введение в искусственный интеллект

Word sense disambiguation: как сопоставить слово с его словарным значением

Word Sense Disambiguation (WSD) – это автоматическое определение словарного значения многозначного слова через его контекст. Есть такая расхожая фраза у компьютерных лингвистов You shall know a word by the company it keeps - "Слово можно понять по тем словам, рядом с которыми оно стоит" (эта фраза отсылает к теории лингвиста Джона Руперта Фёрса). Один из самых популярных алгоритмов WSD был предложен Майклом Леском вот в этой статье 1986 г. Рассмотрим его пример со словом pine cone (сосновая шишка). Наша задача: понять, какие определения слов pine и cone используются именно в этом сочетании.
☝️ Получим все значения слов pine и cone из электронного словаря. Леск использовал Oxford Advanced Learner’s Dictionary.
🌲pine
➖ Дерево хвойной породы.
➖ Тосковать.
🔺 cone
➖ Твердое тело, сужающееся к вершине.
➖ Плод некоторых хвойных деревьев.
✌️ Посмотрим, какие полнозначные слова из этих определений совпадают. Два определения имеют общий элемент хвойный.
🖖 Выбираем определения, у которых больше всего совпадений - первое у pine и второе у cone.
Этот пример - классический cherry-picking (чери-пикинг): когда алгоритм демонстрируется на очень ярком примере, то может возникнуть ложное ощущение его супер-эффективности. В своем ноутбуке я разбираю алгоритм Леска более подробно - там видны подводные. А также привожу пример немного другой задачи: автоматическое выявление фитонимов - слов, которые называют растения (вообще любые растения - как класс). Для поиска фитонимов я взяла пример из этноботанической базы данных Фитолекс (Phytolex), которую разрабатывает моя коллега по Европейскому университету в СПб Кира Коваленко. Про Фитолекс можно читать в телеграмме.
Эта задача отчасти похожа на более известную задачу - определения именованных сущностей. Аналогичным образом можно взять любой класс вещей и автоматически определять в тексте его экземпляры. В общем жмякайте 🫵

А на этом посту я завершаю октябрьский номер нашего журнала. Спасибо моему соавтору Александру Жжж. 🐝 за оперативную помощь в написании постов. Скоро вывесим новый анонс! Кстати, если вас интересует какая-то конкретная тема - пишите в комментариях. Осветим 💫

#база #notebook

❤10

596 viewsedited 17:30

Введение в искусственный интеллект

Следующий номер нашего журнала выйдет, видимо, в декабре. А пока...
Лайфхак № 3. Как запускать модели ELMo при помощи Simple Elmo

💡 Что такое семантическая близость слов, мы писали тут. Когда-то был Word2Vec. Потом GloVe, FastText и... ненадолго, до восшествия на трон компьютерной семантики Берта (BERT), воцарилась модель ELMo... ELMo изменила представление о векторной семантике, и технологии быстро свернули в сторону языковых моделей.
ELMo - языковая модель (Embeddings from Language Model), которая позволяет извлекать контекстуализированные векторные представления слов: в отличие от Word2Vec и GloVe вектор слова в ней зависит от контекста, в котором это слово оказалось. Поэтому ELMo вектора лучше делать для сочетаний слов, например, предложений, и для задач, где контекст решает (например, Word Sense Disambiguation, о котором мы писали выше). Статья, с которой все началось, тут.
В нашем с Александром Жжж. ноутбуке мы рассказываем о том, как запускать модели ELMo от RusVectōrēs. Жжжмякайте!🐝

#лайфхакИИ

Введение в искусственный интеллект

Как работает word2vec

Возвращаюсь к вопросу про эмбеддинги и word2vec, который, как оказалось, не достаточно понимаю сама, чтобы объяснить простыми словами. А про word2vec (ворд-ту-век) надо знать любому уважающему себя компьютерному лингвисту. ⠜⠣⡃⠎⢡ ⢄⢘⠃…

❤6

385 viewsedited 12:07