Введение в искусственный интеллект
331 subscribers
63 photos
2 videos
170 links
Просто об искусственном интеллекте и его возможностях. Помогу разобраться в базовых понятиях и создать собственную нейросеть. Рассказываю, что у ИИ под кожей.
Елена Михалькова
Download Telegram
Энтропия в теории информации
Пишу этот пост в ожидании второй серии второго сезона “Локи”.
В этот раз начну с вопроса “Почему?” Потому что после линейной регрессии надо переходить к логистической, а там есть логарифмы и мера кросс-энтропии, а в энтропии тоже есть один логарифм. Так что вот заодно и вспомню, что такое логарифм.
Но если более серьезно отнестись к этому вопросу, то потому что в NLP меру энтропии часто используют для описания лингвистических данных. Например, при помощи энтропии можно вычислять устойчивые словосочетания. А еще она часто встречается в машобуче. Языковые модели, которые порождают текст, можно оценить с точки зрения того, насколько предсказуемый результат они дали. От человека в диалоге мы ожидаем, что он и останется в рамках привычного (на вопрос “как дела?” мы ждем что-то вроде “норм” или “ок” или “хорошо”), и что-то новое нам скажет. Иначе, если речь абсолютно предсказуема, то и говорить было незачем.
Итак, энтропия - это некая мера. Она оценивает, сколько новой информации можно получить от источника. (Я сейчас именно об энтропии в теории информации пишу. Физику - она там тоже есть - не рассматриваем.) Вот предположим у нас есть человек, который говорит только “норм”. Какой вопрос ему не задай, получишь один и тот же ответ. Вероятность получить “норм” равна 1, а энтропия равна 0, т.к. новой информации ноль.
Допустим, человек выучил еще один ответ: “все плохо”. Если он будет в половине случаев говорить “норм”, а в другой “все плохо”, то вероятность получить либо то, либо то будет ½. Ответы - это несовместные события. Они образуют полную группу, т.е. других вариантов ответа нет. Сумма их вероятностей равна 1. Можем ли мы угадать ответ? Будем угадывать в 50% случаев - если будем случайно предполагать, “норм “ или нет. Причем сначала у нас не будет ровно 50% попаданий, но со временем мы все ближе будем приближаться к этой цифре. Вот это типичный случай, когда энтропия равна 1. То есть система ведет себя абсолютно непредсказуемо. Сплошной хаос.
А теперь будет немного головоломки: предположим, наш человек вдруг влюбился и теперь в 70% случаев говорит, что у него все норм - он просто посчастливел процентов эдак на 30 - стал ли он при этом более предсказуем? Чтобы оценить это, давайте научимся считать энтропию. Сначала посчитаем вероятность первого ответа: p = 0.7. Умножим ее на логарифм этой вероятности по основанию 2: log(p). Получилось ~-0.52. Сделаем то же самое со вторым ответом, вероятность которого 0.3. Получаем ~-0.36. Суммируем: ~-0.88. Умножим на -1, чтобы попасть в диапазон от 0 до 1. В итоге мы получили ~0.88 - неопределенность системы уменьшилась, т.к. один из двух ответов мы стали получать чаще. Энтропия падает. От любви в человеке снизился хаос, и он постепенно превращается в робота. Уиии!
В расчетах, которые мы произвели, есть тонкость: во-первых, берется логарифм по основанию 2; во-вторых, результат умножается на -1. Это для того, чтобы энтропия попала в диапазон от 0 до 1. В этот раз демонстрация не в ноутбуке, а в гугл-таблице. Ну и если хотите узнать об энтропии в физике, то мне понравился вот этот пост от хабровчанина.
Всех с наступившей пятницей, 13е! Где моя бензопила? 🤔

#база
3👌1
Внимание, конкурс!
Начну опять издалека. У меня сегодня не осталось сил на кружочек, поэтому я решила поизучать вопрос, почему у логарифма в энтропии основание = 2. Я пошарила в тырнете и нашла много ответов про то, что так сложилось исторически (тут и тут, например). Когда я делала таблицу для расчета энтропии в гугл-таблицах для системы из двух несовместных событий (два ответа: "норм" и "все плохо"), при расчете p*log2(p) для вероятностей с шагом 0.1 (0.1, 0.2, 03...) получалось, что для вероятности 0.5 половина энтропии будет равна тоже 0.5. И это ложится в концепцию. Но потом я на втором листе сделала то же самое для p*log10(p) (то есть взяла основание логарифма: 10), и получилось, что энтропия будет равна 1 только для вероятности.. догадайтесь.. 0.1 (т.е. 1/10). Делаем то же для log5(p) - получаем 0.2. У меня в табличке получается, что основание для логарифма для системы из N несовместных событий должно быть равно количеству этих событий (N), чтобы энтропия была равна 1, когда они равновероятны. См. второй лист моей гуглотаблички. И поскольку со мной не согласен Интернет (ну или я что-то напутала в расчетах энтропии), то я объявляю конкурс: кто разрешит эту загадку, получит от меня бумажный приз - эль книго. Я, правда, пока не знаю, какое, но точно новое, в обложке. Важный критерий: ответ нужно разжевать простым русским языком и добавить расчеты в гуглотабличу для наглядности!
Си ю туморроу (в кружочке)! 🥱

#база
👍2
Forwarded from Elena Mikhalkova
This media is not supported in your browser
VIEW IN TELEGRAM
👍4🔥3❤‍🔥1🤯1
Так кто же такой Томаш Миколов?
Странно, вроде бы, за ответами на такие вопросы надо идти в Википедию. Но статья про Томаша Миколова в Википедии очень кратко описывает его достижения, ограничиваясь тем, что он создал word2vec и был команде разработчиков fastText. А ведь он потом еще создал doc2vec!..
В общем давным-давно, когда люди прозябали без нормальных алгоритмов понимания человеческой речи компьютером, Томаш Миколов опубликовал статью “Эффективная оценка репрезентаций слов в векторном пространстве”. В этой статье он с соавторами описал алгоритм векторной репрезентации семантики слов: великий и прекрасный word2vec. Что умеет word2vec:
- Он может самостоятельно определить, к чему Лондон относится так же, как Москва к России.
- Он знает, что “королева - женщина = король”.
- Он понимает, что хомяки и суслики по смыслу ближе друг к другу, чем хомяки и алгебра.
- Он видит, что в начале 20 века у слов “красные”, “белые” и “зеленые” возникли новые значения.
- Он точно знает, чему равен косинус угла между томатом и философией (--0.001, кстати, по НКРЯ и Википедии - слова пишите через пробел).
Если бы не word2vec, не было бы и таких крутых языковых моделей, типа ChatGPT. Т.к. именно от этого алгоритма пошло широкое шагание по миру алгоритмов, которые выучивают смысл слова через его соседей в большом множестве текстов. А алгоритм doc2vec позволяет векторизовать смысл не только отдельных слов, но и целых текстов.
Кстати, это именно Томаш был на обложке нашего октябрьского анонса.🦸‍♂️
3
🥱 Логистическая регрессия
Опять пишу пост за полночь 🌙 А дело в том, что тема, казавшаяся достаточной для одного поста, оказалась гораздо более обширной. Итак, кратко про логистическую регрессию.
Во-первых, зачем?
Во-первых-первых, для классификации. Самый простой и быстрый способ после линейной регрессии. Но зачастую более эффективный. Линейная регрессия находит такое уравнение прямой, при котором эта прямая наиболее близко проходит ко всем точкам массива. Логистическая вместо прямой использует сигмоиду - функцию, график которой напоминает латинскую S. На деле такая форма лучше приближает значения массива, ближе проходит к заданным точкам и, следовательно, меньше ошибается - если у массива точек есть ядро, где их много и они тесно сидят рядом, в отличии от периферии на границе классов.
Во-первых-вторых, логрег - это самая простая однослойная нейронная сеть. По сути глубокие сети - это слои таких вот разных классификаторов, которые пережевывают и выплевывают результат следующему слою.
Во-вторых, чем она отличается от линейной?
Я, конечно, создала ноутбучек, чтобы проиллюстрировать, чем. Но вкратце: это надстройка над идеей линейной регрессии. Да, звучит странно, но это именно такая вот модификация линрега при помощи дополнительных расчетов. В ней тоже есть минимизация ошибки - минимизация расстояний от реальных точек массива до линии регрессии. Только в отличие от линрега в логреге линия - кривая, в форме буквы S. Как и у линрега, здесь тоже есть коэффициенты k и b, которые определяют положение линии регрессии в многомерном пространстве. Они называются w - как weights, веса, и b, который почему-то расшифровывают как bias.
💫
Без знакомства с логистической регрессией к нейронным сетям приступать противопоказано. Это база. Ну и как всегда я сделала ноутбучек с кодом. В нем подробно расписана внутрянка logreg vulgaris - обычной логистической регрессии без лишних наворотов.

#база #notebook
🙏2
💐5 датасетов, о которых вы должны знать

Внимательный читатель, наверно, заметил, что я пропустила четверговый пост. А все потому, что у нас с товарищами горел дедлайн по статье. Если вам интересно узнать побольше о проектах, которые я сейчас делаю, то вот тут есть мое интервью. А ещё, прежде чем я перейду к теме поста 😊, у меня два анонса на завтра:
1. Я уже записала кружочек на завтра. Со мной будет Гузель Чапарова, руководитель магистратуры про ИИ и не только в Передовой инженерной школе ТюмГУ.
2. Для тех, кто не успевает читать мои посты и учиться искусственному интеллекту, но хочет это делать... Барабанная дробь... 4 и 5 ноября (да, там типо праздники) я проведу в СоцГуме два оффлайн интенсива: основы Питона и основы машинного обучения. Официальное объявление с формой регистрации скину завтра.

Ну а теперь про датасеты. Для начала, что такое датасет? Этот термин возник в машинном обучении. Так называют набор размеченных данных, который используют для обучения и тестировании модели машинного обучения с целью выполнить какую-нибудь экспертную задачу, например, определить номера машин на фото или продать гараж. Размеченные данные - это когда у всех или некоторых элементов датасета есть метка, например "рост", "вес", "длина чашелистика", "корневая морфема" и т.п. Часто датасет делят на три части:
- train (тренировочный, для непосредственно обучения)
- dev (developer, "разработчиковый", для промежуточного тестирования во время обучения)
- test (тестовый, чтобы проверить модель после обучения)
Некоторые датасеты прославились тем, что сделали известными какие-то алгоритмы, которые быстро и эффективно решали задачу.
5️⃣ Номер пять в нашем списке датасет sales.csv из Google Colaboratory. Для тех, кто почему-то еще не подключал Google Диск к своему коду, колаб подготовил файл с данными о продажах домов. Бери и запускай нейросеть out of the box - реально удобно!
4️⃣ HAHA - датасет испаноязычных твитов, которые содержат и не содержат юмор. В мире он не сильно известен, но я мучаю им своих студентов, когда обучаю их NLP 😈. Просто на испанском мало кто из студентов говорит, но при этом берешь готовые инструменты и получаешь решение. И так можно с любым в мире языком. Границ нет!
3️⃣ Данные пассажиров с Титаника, включая, кто из них выжил. По выражению одного хабровчанина "это самое разбираемое и описываемое задание с Kaggle для новичков" (на Кегле его и ищите). Я тут поспорю, т.к. есть ещё номер один из нашего списка, но о нем позже. Про Титаник скажу, что да, если начали шатать машобуч, берите смело.
2️⃣ MNIST: 60К картинок размерностью 28 на 28 пикселей, на которых изображены рукописные цифры от 0 до 9. С ними прославился Ян Лекун и машинное зрение при помощи глубоких нейросетей.
1️⃣ Ну и конечно, номер один в моем списке - великие и ужасные ирисы Фишера. Надеюсь, вы их уже запомнили и пересчитали. Как я люблю говорить, с них началось шагание ИИ по миру.

Всем счастливого машобуча и увидимся завтра! 👋

#база #спискии
👍3
Итак, воскресный кружочек! У меня в гостях (точнее, я у нее - в Передовой инженерной школе) руководитель магистратуры по анализу данных и ИИ Гузель Чапарова.💫
This media is not supported in your browser
VIEW IN TELEGRAM
👍3🔥2
Дайджест новинок в области ИИ
1⃣ Летом Сбер выкатил новую версию своей нейросети Kandinsky 2.2. Они улучшили качество фотографичных изображений. До этого у них в основном такие рисованные мультяшки получались, типа графических иллюстраций. А недавно они и анимацию добавили - пока в тестовом режиме. Кстати, команда разработчиков прошла на демо-сессию на конференцию EMNLP в Сингапуре (в мире NLP это большой почет и уважение). А мы туда же не прошли с научной статьей. Но ничего, мы уже переподали статью на другую крутую конфу.
2⃣ Виндовсы, Эпплы и Гуглы активно переходят на ИИзацию интерфейсов взаимодействия с пользователем. Это светится почти в каждом анонсе нового девайса или системы. Вот, пожалуйста, оцените обзор одиннадцатой Винды. Скоро тыкать по экрану или стучать по клавишам мы будем в редких случаях ностальгии по началу XX века. Все остальное - голосом и мимикой. Прямо как в обожаемом мною фильме “Пассажиры” (Эх, вот бы провести годик в одиночестве на космическом корабле, но в зато люксовых условиях!..) Так что, если вы инвестор, возможно, пора вкладываться в стартапы, которые переводят речь в текст и наоборот. 📈🤷‍♀️💰
3⃣ GPT-4v теперь умеет обрабатывать не только текст, но и изображения. Например, она может дать точные названия мебели из Икеи, попавшей на фото. Полезно, если вы любите продавать старое барахло на Авито.
4⃣ Инсайдер из OpenAI опубликовал в Твиттере запись о том, что к 2025 году компания планирует выкатить AGI, то есть такую модель с искусственным интеллектом, которая обойдет в решении любой (или почти любой) задачи любого (или почти любого) человека. Ну, типа, будет такой же разумной, как Tars из Интерстеллара или робот-бармен Артур из упомянутых “Пассажиров”. Будем посмотреть.
5⃣ Новости из мира людей: вдруг вы пропустили, но... Илон Маск переименовал Твиттер в X. И как теперь это произносить? “Икс”? То есть не твитнуть, а икснуть? А как теперь сказать “твит”?

#байкиизсклепа
3
Как обещала, отправляю анонс по интенсиву, который проведу 4 и 5 ноября в СоцГуме ТюмГУ. Завтра буду спамить его по всем собранным за годы проведения Школы компьютерной лингвистики каналам, а пока, можно сказать, эксклюзив только для подписчиков 😉

Интенсив по Питону и машинному обучению

Приглашаем вас на бесплатный интенсив по основам языка программирования Python (первый трек) и машинному обучению (второй трек). Занятия пройдут 4 и 5 ноября 2023 г. в Институте социально-гуманитарных наук ТюмГУ в очном и дистанционном форматах. Можно посетить оба трека или выбрать один из двух.Число мест для очных участников: 40. На площадке вас будут консультировать наши волонтеры.
Подключение онлайн будет осуществляться через Яндекс Телемост.
Расписание занятий (оба дня одинаковое):
1 урок 10:00-11:30
Кофе-брейк
2 урок 11:45-13:15
Обед
3 урок 15:00-16:30
Перерыв
4 урок 16:45-18:00
18:00-18:15 - обратная связь об интенсиве
Уровень сложности: начинающий.
При себе иметь:
- ноутбук, позволяющий wi-fi доступ в Интернет (можно будет подключиться к сети ТюмГУ);
- аккаунт Google либо предустановленный Jupyter Notebook или Anaconda;
- если вы будете работать в облачной среде программирования Google Colaboratory, то на ноутбуке должен быть браузер Google Chrome;
- очным участникам: паспорт или любой другой документ удостоверяющий личность.
NB! Регистрация до 24:00 2 ноября 2023 (включительно). Мы подтвердим ваше участие через электронную почту.
Занятия бесплатные. Если вы посетите 70% занятий и выполните проверочный тест после интенсива, то сможете получить удостоверение о прохождении образовательного курса (повышение квалификации). До Нового года студенты и сотрудники ТюмГУ могут оформить его бесплатно. Подробности вышлем по электронной почте после регистрации.

Регистрируемся тут! 🥳📋

#ниипетпроект
7👍1
🤘Учимся уважать Python Django

Я люблю говаривать, что лучший на свете вводный тьюториал в Питон находится тут, на Джанго Гёрлз. Django Girls - это такая некоммерческая организация, которая вдохновляет девчонок по всему миру заниматься программированием. Девчонок в программировании и правда немного. Одно из последних масштабных исследований за 2022 год показало, что их 27.6%. Но их число растет.
А почему это вообще проблема? Девчонков и среди космонавтов меньшинство, зато в балете они доминируют. Проблема в том, что цифровые технологии проникают во все сферы жизни, массово меняя повседневные практики: от покупок в магазинах до оформления паспорта. Их за это еще называют сквозными. Так вот при разработке такой технологии, если разработчики будут представителями только одной какой-то узкой социальной группы, то они заложат в технологию так называемый bias (бАяс - ударение на А, “предвзятость”).
Как баяс возникает на практике? Создать систему, которая заменяет человека в экспертной работе, чаще всего можно множеством разных способов. Однобокий взгляд небольшой консолидированной во мнении группы, скорее всего, выберет именно такой подход, который максимально удобен и приятен другим представителям этой группы. Если задача более-менее однозначная, типа определить номер машины, то тут вряд ли баяс скажется. Но вот если вопрос стоит в том, чтобы дать человеку ипотеку или поставить оценку за сочинение на ЕГЭ (а цифра и сюда уже активно проникает), то избавление от баяса для всеобщего блага и процветания становится кардинально важным.
С появлением ИИ это стало еще более очевидно. Например, первые попытки выкатить большую генеративную языковую модель всем твиттерянам закончились тем, что модель начала отмачивать расистские и сексистские шутки. Microsoft (мелко-мягкие) потом долго извинялись. Django Girls - это одна из инициатив, которая пытается пробудить интерес к Питону через максимально понятные тьюториалы с примерами (на эту тему есть мемасик про Питон, скину дальше). Плюс они организуют events (ивенты, мероприятия). Вот 4 ноября будет workshop (воркшоп, мастерская) в Челябинске.
Почему гёрлз выбрали не просто Питон, а какое-то Джанго? Ну, вообще, выбрали и выбрали, захотелось так. Имеют право. Но тут есть и посыл: Django - это фреймворк для создания веб-сайтов и приложений. То есть вы не просто Питон поизучаете, но сможете быстро запустить собственный проект. Питон все больше используют именно для веб-технологий, потому что в нем много инструментов, которые out of the box (достал и тут же пользуешься) позволяют и запрос обработать, и аналитику собрать, и ИИ подключить.
А я напоминаю, что провожу собственный воркшоп по основам Питона и ИИ - тоже 4 и 5 ноября, прям как Джанго-девчонки. Скоро выкачу темы занятий. Рега туть.

#эссеиистика #girlpower
5
тот самый мемасик
6👍1🤮1
Дорогие подпИИсчики!
Я интенсивно готовлюсь к интенсиву по Python и искусственному интеллекту, поэтому пропустила пост на этой неделе. Постараюсь наверстать завтра.
А пока напоминаю вам, что у нас идет регистрация. И не просто напоминаю, а в кружочках! Спасибо Музейному комплексу Словцова, что дали посниматься с экспонатами. Выставки реально класс и атмосфера тоже 👍
Всех с приближающимся Хэллоуином! 🎃
2
This media is not supported in your browser
VIEW IN TELEGRAM
2❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
❤‍🔥22
This media is not supported in your browser
VIEW IN TELEGRAM
2❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
2❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
2❤‍🔥1👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
2❤‍🔥1🔥1🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
2❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
2❤‍🔥1