Введение в искусственный интеллект
331 subscribers
63 photos
2 videos
170 links
Просто об искусственном интеллекте и его возможностях. Помогу разобраться в базовых понятиях и создать собственную нейросеть. Рассказываю, что у ИИ под кожей.
Елена Михалькова
Download Telegram
Семилетки прочитали мой предыдущий пост и сообщили, что Хаги-ваги и аниматроники уже не в моде. Сейчас у них популярны Скибиди-туалеты (вот недавно появился Астра-туалет, который по прогнозам может победить всех трёх Титанов 🥴), а также Терка (причем она уже года три как держится в трендах). Потерянное поколение 😏
😁11
Трансформеры уже здесь
Чето я всю рабочую неделю делала всякую bureaucracy и потом chill, так что за выхи выложу аж целых три поста. А в понедельник будет объявление о новых активностях (интенсивы и не только) на ближайший семестр. А теперь о…

Вот ведь что такое языковая модель?.. ChatGPT, например, это большая языковая модель плюс функционал чат-бота плюс интерфейс приложения. И ещё есть API, для разработчиков: чтобы без интерфейса обмениваться сообщениями с моделью. Чат-бот - это рамка диалога с пользователем. Она обеспечивает интуитивно понятный формат общения. Например, по ней мы сразу понимаем, что через этого бота можно заказать пиццу, а в этом боте можно вырастить собственную капибару. Интерфейс и API нужны как медиум, форма обмена сообщениями. Остаётся языковая модель.
Так что такое языковая модель? Это программа, которая по введённой строке догадывается, что должно быть дальше. Если я скажу, что люблю макароны с.. и тут резко прервусь, то, скорее всего, вы подумаете: “котлетой”, “курицей”, “сосиской” (а я то думала “пюрешкой” 🍲). Или если спросить человека, сколько сейчас времени, то он ответит что-то типичное в формате “без пятнадцати три”.
Как научить языковую модель предсказывать следующее слово? Кто про эмбеддинги читал, то уже, наверно, предугадал, что можно поступить похожим образом, как в word2vec. Берём корпус, разбираем на пары слов и учим нейросеть предсказывать правое слово по левому. Получилось, нам не нужно даже веса из модели (эмбеддинги) вытаскивать. Есть и другой более простой вариант - цепи Маркова. Берём из корпуса слова по отдельности, а также сочетания из двух и трёх слов подряд (это наши иксы) и берём следующее слово, которое идёт после этих слов и сочетаний (игреки). А затем просто рассчитываем, какой игрек наиболее часто встречается после каждого икса. Так и будет рассчитывать модель свой ответ на наш запрос - будет искать наиболее частое слово, которое встретилось в корпусе, после тех, что она получила в нашем запросе. Причем учитывать она будет максимум три последних слова, если такое сочетание есть среди ее иксов.
Минус такого подхода заключается в том, что в речи мы учитываем гораздо больше параметров, чем последние несколько слов.
Как сделать языковую модель более умной? Во-первых, конечно, пусть она не только три слова до заданного помнит. Пусть помнит много всего и до, и после. Во-вторых, пусть она пропускает какие-то слова, потому что речь варьируется. Важное для понимания слово может стоять где-то недалеко в контексте, например после стоп-слова, знака препинания, междометия типа “эээ”, “аммм”. Трансформер - эта такая архитектура нейронной сети, которая оценивает важность сочетаний в более широком контексте, с пропусками. Для этого в ней есть механизм под названием “внимание” (attention, этЕншн).
Языковые модели на цепях Маркова или word2vec’ах не требуют больших ресурсов. А вот трансформерам, чтобы учесть очень много сочетаний, нужны большие мощности. Обучить трансформер в домашних условиях не получится - требуется много видеокартов (примерно как в криптомайнинге). Поэтому такие модели называют большими(-пребольшими).

#база
👍5
От коллеги пришла предложка: это залипательная визуализация структуры большой языковой модели. Жмякайте "пробел" (синяя клавиша внизу страницы) и наблюдайте магию современной инженерной мысли.
LLM Visualization
https://bbycroft.net/llm
🔥5
Новые имена: Татьяна Шаврина
Вот, собсна, ее блог. Эй, стойте, не жмякайте! Сначала прочитайте мой пост 😁

Итак, Татьяну я лично не встречала (только по почте переписывалась), но знаю как очень активного компьютерного лингвиста с массой крутых и, что важнее, реализованных проектов. Ее история про то, что мы все тоже можем, если захотим. И про то, что мы все тоже можем участвовать в продолжениях этих проектов.
В первый раз я о Татьяне и ее проектах прочитала в блоге на vc.ru. Они с командой из SberDevices создали GPT-3 для русского языка. Это было важным событием, т.к. ещё и полгода не прошло с публикации статьи о том, в чем преимущество и как устроено новое поколение языковых моделей GPT (в ChatGPT, вроде бы, используют GPT-3.5). Судя по комментариям к посту, первая версия была не очень понятливая. Но, учитывая, что аналогов не было, а в научных статьях всегда все излагается довольно путано, это было настоящее событие. Модель доработали. Неслучайно, Сбер - один из самых ИИ-продвинутых российских бизнесов.
В этом же посте упоминается Russian SuperGLUE - ещё один проект Татьяны с ее командой (которая, кстати, называлась AGI NLP; AGI - как Artificial General Intelligence, интеллект, который равен человеческому). А вот пост, анонсировавший Russian SuperGLUE. Кстати, зацените команду на фото. Половина - девчонки. Это прям редкость для подобных проектов. GLUE расшифровывается как General Language Understanding Evaluation. Это коллекция задач на понимание естественного языка, например русского, которые должны решаться при помощи одной и той же программы. То есть разработчику нужно создать, например, языковую модель, которая и на вопросы отвечает, и даёт определение слову по контексту, и делает логический вывод, и ещё несколько разных задач. Коллекцию также называют бенчмарк. Ее цель - выявить, на что уже сейчас способны технологии. В ещё одном бенчмарке, который делала Татьяна, TAPE, есть и предложенная мной задача: автоматический ответ на вопросы интеллектуальных викторин.
Ещё немного о проектах есть вот в этом посте Татьяны.
В общем я это к чему. Участвовать в покорении бенчмарков, тренировать языковые модели, создавать собственные датасеты и задачи вполне реально и без мощностей Сбера. У меня тоже есть вот всяких датасетов - заходите. Может, вам что-то покажется интересным для ресеча - обращайтесь, проконсультирую. А можем и курсовую написать или диплом.

#эссеиистика
3
Старые имена: Грейс Хоппер

Вот ведь что такое “компилятор”?.. До 1952 года программы для компьютеров писали только на машинном коде. Они состояли из таблиц с символами, записанных на перфокарты (например, такое: 18B2:0100 6A 00 68 4B 01 66 83 7E-E0 00 74 05 B8 4C 01 EB). Понять, что там написано, можно было только разобравшись с бинарным кодом и выучив наизусть довольно много инструкций. (Если хотите это сделать сами, то мне понравился вот этот древний тьюториал по машинному коду.) Грейс Хоппер, сотрудница лаборатории в компании “Eckert-Mauchly Computer Corporation”, упростила свою работу с программами тем, что сначала на машинном коде создала несколько базовых программ, например возведение числа в степень, а потом придумала для каждой программы интуитивно понятное название и уже его использовала для более быстрой и компактной записи кода. Так появилась программа-компилятор, которая переводит скрипты (тексты программ) с языка программирования верхнего уровня (где инструкции более-менее интуитивно понятны) в машинный код. И чуть позже на основе этой идеи возник высокоуровневый язык COBOL. У Гугла был дудл на эту тему - так я, собственно, и узнала про Грейс Хоппер. И примерно тут же узнала, что это она изобрела термин “баг” (bug - жук) и “дебаггинг” (устранение ошибок в коде). А первый баг был молью, которая прилипла на перфокарту.
Про Грейс Хоппер много написано и без меня. Мне понравились изложения ее биографии тут и тут. Она была дипломированным математиком. После развода и с началом Второй мировой решила пойти во флот. Ее направили на работу в лабораторию. Сменив за жизнь несколько лабораторий, она дослужилась до чина контр-адмирала младшего ранга. Участвовала даже в Манхэттенском проекте. (Кто тут еще не смотрел “Оппенгеймер”? Бегом искать на лордфилмз. Только не устанавливайте один-икс-бет - это ловушка 🥴)
В общем есть такие истории, про которые думаешь, “Это что, и вправду так было?”. У Грейс Хоппер даже прозвище есть: Amazing Grace. С одной стороны, это слова из христианского гимна. Переводится как “О, благодать”. С другой, amazing означает “удивительная, невероятная”. Таким же открытием для меня когда-то стала история Маргарет Хамильтон. Это математик и программист, которая возглавляла команду, написавшую код для американской миссии по высадке на Луну. То есть буквально на ее (с ее командой) коде летали все эти конструкции, в которых сидели астронавты. Ну и еще одна история, удивившая меня не меньше, это фильм “Скрытые фигуры” про трех афроамериканок, которые реально работали в NASA в 1960-е на значимых должностях. Правда, согласно Википедии, тема расовой сегрегации в фильме была намеренно усилена. Но факты о должностях и проектах - подлинные.
В общем, как много в мире удивительного. Продолжая тему дневного поста: как сделать классный проект по ИИ, даже если ты вообще не выглядишь как типичный айтишник? Рецепт: берешь и делаешь, параллельно получая (само-)образование по айти.

#эссеиистика #чепосмотреть
🫡5
Уважаемые подписчики! Итак, что я планирую на новый семестр.

1⃣ Продолжим интенсивиться по вопросам ИИ.
2⃣ Мы со Славой Косовичем из Smart Games пишем подкаст про ИИ в интеллектуальном спорте. Будет визуально 👀 и аудиально 🎉
3⃣ Слышали ли вы про Open Data Science? Это комьюнити и полностью бесплатная платформа для образования, соревнований и проектов. Попробую открыть хаб в Тюмени. Are you with me?
4⃣ Пора пробудить Кракена провести новый дататон в ТюмГУ - соревнование по анализу данных. О первом можно прочитать здесь.

И да пребудет с нами Скайнет! 🧑‍💻🦾
👍5🥰1👨‍💻1
This media is not supported in your browser
VIEW IN TELEGRAM
💘4
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
❤‍🔥3
Ну... про серию подкастов я не уверена, но один будет точно 😎
👍1🫡1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥2
Вот как раз слои текста мы и будем разбирать. Это, кстати, одно из направлений ИИ - вытаскивать логику, которая привела к выдаче конкретного ответа.
😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и напоследок.. Надеюсь, вам понравился Олег 😊
1🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
1🤝1
Ах да, чат-бот, который мы упомянули, можно потыкать вот здесь @iq_utmn_bot . Правда, он недавно переехал на новый сервер, поэтому в нем могут быть технические шоколадки 🤧
👍21
Dalle, Midjourney, Stable Diffusion, Kandinsky
Осторожно! Этот пост написан неспециалистом в области компьютерного зрения. Все совпадения с реальными технологиями случайны. Во время написания поста пострадало одно животное - Олег. Из него вылезла часть наполнителя.

Не перестаю удивляться, в какое время мы живем! Так сказать, what a time to be alive! Оказывается для него даже название есть: ИИшная весна, или ИИшный бум. Согласно Википедии, связан он с такими областями, как биомедицина, компьютерное зрение, компьютерная лингвистика и технологии обработки звука (странно, что до сих пор нет термина компьютерная акустика). Я бы еще добавила до кучи дата майнинг. Лично я специализируюсь на компьютерной лингвистике. Но если уж делать канал про введение в ИИ, то остальные области тоже как-то придется освещать. Сегодня поосвещаю компьютерное зрение (CV - computer vision, компьЮтэ вИжен).
Самым ярким событием в CV, по моему мнению, было автоматическое распознавание чисел. Сверточную нейронную сеть, которая определяет по изображению, какие числа написаны, создал французский ученый Ян ЛеКун. Это прямо было вау! Вот видео, сделанное в 1989 г. (!), с демонстрацией работы алгоритма. С бумом технологий компьютерной лингвистики в CV появилось новое интересное направление: привязывание картинки к высказыванию. Начиналось все с генерации подписей и поиска картинок по ключевым словам, но потом плавно перешло к генерации изображений по текстовому описанию.
В 2019-2020 гг., пока бушевал ковид, айтишники наконец получили возможность легально работать из дома и открыли ящик Пандоры из text-to-image алгоритмов. То есть таких алгоритмов, которые на вход принимают описание того, что должно быть на изображении, например “котик”, а на выходе дают сгенерированную картинку, которая по их мнению максимально отвечает описанию. Из-за использования в алгоритмах случайных чисел котики каждый раз будут немного другими.
👆 5 января 2021 - демонстрация DALLe от OpenAI. Очень большой бум! Все были в полном восторге от реалистичности изображений.
Февраль 2022 - релиз первой версии Midjourney от одноименной лаборатории из Сан-Франциско.
🖖 Август 2022 - релиз Stable Diffusion, первой модели text-to-image с открытым исходным кодом. Сделано в Германии. Их сайт.
👍 Первая версия сети Kandinsky от Сбера была получена летом 2022 на основе ruDALL-E XL, которая была доступна в виде сервиса генерации изображений еще в ноябре 2021. Поиграться с Kandinsky можно тут. Не забудьте зарегаться!
Как работает text-to-image? Оставлю этот вопрос для отдельного поста в феврале.

#эссеиистика
🔥3
А вот таким был мой первый аватар в этом канале, созданный с помощью Kandinsky. Ластиком удаляем часть головы и пишем промпт "голова робота с красным лазером вместо глаза" (кажется, что-то такое).
Всем творческих успехов!
❤‍🔥7🔥1