Введение в искусственный интеллект
331 subscribers
63 photos
2 videos
170 links
Просто об искусственном интеллекте и его возможностях. Помогу разобраться в базовых понятиях и создать собственную нейросеть. Рассказываю, что у ИИ под кожей.
Елена Михалькова
Download Telegram
Продолжу тему: что такое ИИ? (философский длиннопост)
Если вы почитали Википедию, как я советовала ранее, то у вас уже точно есть собственное уверенное представление об этом вопросе. (Да, я реально считаю, что Википедии достаточно для азов.) Мое экспертное мнение, скорее всего, с вашим пересечется, но лишь частично. The truth is out there.
Мое вхождение в ИИ началось с проекта по комьютерному юмору: мне захотелось создать собственную систему распознавания юмора, основанную на концепции инвективных имен. Эту концепцию я предложила в кандидатской диссертации. Оказалось, что распознавание юмора - это так называемая ИИ-полная (AI-complete) задача. За этим термином кроется сосуществование в представлениях об ИИ двух противоположностей: "ИИ может обладать сознанием, как человек", и "ИИ только делает вид, имитирует сознание". Всем известный тест Тьюринга должен показать, что сознание есть. И, наоборот, логический эксперимент Китайская комната поддерживает теорию имитации.
Так вот с точки зрения полного ИИ (aka сильного, hard) распознавать юмор он сможет, когда станет "действительно мыслящим" - как человек.
В моем недавнем примере с рубильником вместо машины можно представить и человека, который делает монотонную, рутинную работу. О таком человеке, скорее всего, скажут, что он низко-квалифицирован и вообще туповат для более интеллектуальных задач. При этом, чем больше он ошибается, становится нерутинным - недостаточно монотонно дергает рубильник, тем хуже получается результат. И беднягу будут сильнее ругать за тупизну. А вот его начальник, который решает, сколько раз и в каких случаях дергать рубильник, считается уважаемым человеком, экспертом в заводских делах.
Таким образом, умная машина - это та, которая выходит за рамки рутины, но не как-то случайно, а так, что это приводит к улучшению результата. The better the result, the smarter the machine.
Программу, которая распознает юмор, я в итоге написала. Она это делает не идеально (есть более сильные конкуренты), но вполне себе наравне с не-в-совершенстве-говорящими-на-английском людьми. Да и проект все еще развивается - думаю, мы сможем лучше. Главное тут то, что мне не нужна действительно думающая машина для решения очень трудных экспертных задач. Но сама разработка алгоритма дала мне очень много для понимания природы юмора.
Некоторые современные программы типа ChatGPT позволяют измерить свой IQ. По разным оценкам он уже выше 120. Привет, Элджернон!

#база
#иипетпроект
🔥41
Написав прошлый пост, я подумала, что интеллектуальность ИИ можно оценить ещё и через сравнение с поведением человека по отношению к окружающей среде. Условно можно разделить это поведение на три типа (я с этим делением столкнулась на каком-то тренинге от нашего hr-отдела; откуда у него ноги растут, не знаю, но оно реально щас хорошо все проиллюстрирует):
- консервативное среда меняется, но я буду дергать рубильник как мои деды сто лет назад
- реактивное среда поменялась, надо подстроиться (и в воздухе переобуться; эйчары, кстати, это хорошо умеют)
- проактивное неизвестно, как там поменяется среда завтра; попробую уже сейчас сколотить себе бункер со всеми удобствами, чтобы меня это задело по минимуму.
Консервативная машина только и умеет, что дергать рубильник. Умная подстраивается под меняющийся мир с его растущими запросами. Проактивная плюнет на это дело, положит людей в капсулы и будет использовать как батарейки.
3
ДорогИИе подписчики! Пока идёт лето и контент-план на академический год ещё не готов, позвольте представить вам своего соавтора и админа этого канала: Артём Пищулин - студент направления «Информационные системы и технологии», в ближайшем будущем преподаватель, интересуется анализом данных и связкой данных с ИИ. В этом канале будет помогать писать посты и мониторить маты, если вдруг вы затеете дискуссию ;) А мне маты можно? Пока не решила.
(Артём говорит, что подключит бота, который будет искать маты вместо него. Ждём!)
Ну а вот так мы выглядим в повседневной жизни.
👍71🔥1
Сентябрь горит, убийца плачет, календарь перевернуть мы не успели, зато у нас готов контент-план на месяц, уииии! План такой:

Сентябрь 2023
14 Бинарная классификация
17 А кто такие фиксики компьютерные лингвисты?
19 Anaconda - фу (на самом деле нет)
21 Линейная регрессия
24 Популярные каналы про ИИ
26 10 советов как достичь SOTA
28 Что такое NLP? (И как не путать его с НЛП и НЛО)

И сегодня по просьбе Артема, которому надо сделать домашку по бинарной классификации (да, этот пост “заказной”, но админов тоже надо кормить), разжевываю именно эту тему.
Начну с главного слова в теме: классификация - почему это про ИИ? Искусственный интеллект принято определять как класс задач, в которых автомат может заменить человека без потери эффективности. Классификация, наряду с кластеризацией и прогнозированием, это одна из таких типичнейших задач, где ИИ активно применяется. Кроме того, с нее удобно начинать обучение. Задача классификации ставится так: есть объекты нескольких классов (про них мы уже знаем, что они принадлежат именно этим классам) и есть признаки этих объектов (длина, ширина, вкус, цвет..); а теперь надо на основании того, что нам известно об объектах классов, классифицировать новые объекты, при условии, что мы у них те же самые признаки померяли. Пример: есть три класса ирисов (цветочки такие) - Ирис щетинистый (Iris setosa), Ирис виргинский (Iris virginica) и Ирис разноцветный (Iris versicolor). (Кто ж их так назвал то?) У них есть 4 признака: длина и ширина чашелистика (вот-зе-хелл-из-зыс?) и длина и ширина лепестка (ну это более-менее понятно). Берем по 40 экземпляров каждого класса и обучаем ИИчко, а затем на еще 10 проверяем, насколько хорошо оно обучилось. Как проверить, хорошо ли, это тема отдельного номера нашего замечательного журнала. А пока попробуем просто понять: вот у нас (40+10)*3=150 ирисов - этого вообще достаточно, чтобы создать хороший классификатор? Зависит от задачи. С датасета ирисов Фишера, про который был мой пример, началось широкое шагание ИИ по миру. Этот маленький датасет и простенький к нему алгоритм линейной регрессии дают понимание, как легко, за считанные доли секунд ИИ может решить задачу, для которой потребовались бы часы ручного труда.
Классификация ирисов по трем классам называется multiclass (многоклассовой). Если класса два, то классификация binary (бинарная). На практике мультиклассовая классификация часто сводится именно к задаче бинарного по-классового сравнения (этот или этот? - ну, скорее, этот.. - ок, тогда этот или вот этот?..).
Завершаю пост традиционным колаб-ноутбуком. Прожимайте треугольнички и классифицируйте. А на подумать: разберитесь, что в моем ноутбуке изображено на картинке и что за scikit-learn такой, зачем он все еще нужен, когда есть всякие пайторчи и керастензорфлоу.

#база
#notebook
👍31
А кто такие Фиксики компьютерные лингвисты?
Придирчивый читатель, наверно, спросит, есть ли смысл описывать компьютерных лингвистов, не рассказав о том, что такое компьютерная лингвистика (computer/computational linguistics, CL). А смысл я в этом вижу такой: через рассказ о профессии я попробую донести, что такое, с моей точки зрения, есть сегодня компьютерная лингвистика. Мой рассказ основан исключительно на собственном опыте и опыте людей, которых я знаю или читаю в блогах про ИИ. Вот только я не уверена, что компьютерный лингвист - это именно профессия.
CL появилась недавно; люди, которые ее двигают, это ученые, исследователи по призванию, а на деле они работают преподавателями, сотрудниками лабораторий, ИТ-девелоперами или вообще не работают, а учатся. Итак, есть две большие сферы, где люди могут быть компьютерными лингвистами: academia и industry, но работают они там не (или не совсем) лингвистами. А если человек представляется как «компьютерный лингвист», то его понимают, скорее, так: «На работе я вынужден делать всякие обязанности типа вести пары, рецензировать статьи для журналов и параллельно могу решать задачи обработки естественного языка и/или публиковать статьи по CL. Возможно, в универе/лабе/компании больше никого, кроме меня, не нашлось, чтобы этим заниматься. Когда у меня получается что-то действительно значимое, то… хм.. в моих должностных обязанностях ничего не меняется, но я могу устроиться в вуз или компанию получше, т.к. у меня в анамнезе появляется успешный кейс внедрения или статья в сборнике Ассоциации компьютерной лингвистики (ACL)». Ну и, конечно, поиск по хх.ру тоже не даёт вакансий для «компьютерного лингвиста». При этом из каждого утюга слышится, как важна CL сегодня и как она улучшает производительность труда. В чем же дело? Вроде все просто: наймите сотрудников и пусть они вам внедрят чат-боты, умный поиск и прочее. На практике, если технология успешно внедрена, то для ее поддержки компьютерный лингвист не особо нужен. Держать лингвиста на целую ставку не требуется. В науке, если закончился грант, где были задачи в области CL, лингвист становится просто преподавателем или исследователем без гранта и, вполне вероятно, следующий его проект будет вообще не по CL - смотря, что подвернётся. Больше всего шансов, что вы будете заниматься CL профессионально, ИМХО, в крупных компаниях типа FANG, где есть отделы для научных исследований, ресеча (research). Они могут себе позволить такую роскошь. Потому что, как проходит день, если вы компьютерный лингвист? Вы много сидите и думаете, возможно, даже читаете, а потом пишете один абзац в статью. Или вы очень много плохо кодите, так что тру разрабы ужасаются или громко смеются. И главное, совершенно непонятно, как это оценить в зарплате.
Итак, CL - это молодая область науки на стыке ИТ и лингвистики, в которой, по моему мнению, очень много интересного, но совершенно непонятно, что из этого будет полезно. Поэтому ни рынок, ни наука пока не могут сформулировать четкие требования к профессии компьютерного лингвиста. Реально какие-то Фиксики получаются: их как бы нет, но кто-то их иногда видит и даже с ними разговаривает. Так что, если вы решили освоить CL как профессию, то будьте готовы, что это просто один из навыков, который, если вам повезёт, вы будете как можно чаще использовать в работе.

#эссеиистика
🫡1
Anaconda фу?
Недавно в одном из чатов, где много студентов-ойтишнегов мы, точнее я, с ними сцепились на тему, нужно ли ставить Анаконду, если пишешь диплом по ИИ. Я считаю, что нужно, если вы любите упрощать сложное там, где это возможно.
Anaconda - это коллекция популярных инструментов для data science (анализа данных) и с недавних пор облачный сервис. Я пользуюсь ею локально: устанавливаю программный пакет даже на ноутбук, т.к. занимает он немного и производительность у него высокая, и пишу код в среде разработки Jupyter (Юпитер) или в PyCharm (Пайчарм). Иногда залажу в R. Никакими другими средами разработки я больше не пользуюсь вот уже много лет. Ведь у меня есть Анаконда, а у нее есть интерфейс для доступа к этим инструментам. Благодаря поддержке своих разработчиков, обновляет она все сама, без конфликтов между версиями инструментов. И вообще реально делает датасаенс проще. На моем личном опыте я узнала про это вот так.
Давным-давно я очень мучилась, ставя библиотеки для Питона на Виндовс. И Виндовс тоже мучился, ведь он не создан для разработки. Проблемы вылазили на каждом шагу. Вводишь в терминале pip install (или pip2? или pip3?) и молишься, чтобы прокатило. Anaconda имеет файлик установки как для Виндовс, так и для Макоси. Жмяк в юзер-френдли интерфейсе на кнопочку Install, и все происходит. Ну, правда, не всегда совсем все и сразу. Например, я не смогла сейчас поставить Анаконду для юзера, чье имя пользователя написано кириллицей. Пришлось ставить ее для всех пользователей в папку C:/Program Files. Но мы ж справились 😊
Пользователи Линукса, как никто другой, знают, как важно иногда переустанавливать ОС. Вот переустановил ты Линукс и, считай, весь твой Питон со всеми библиотеками, которые работали без конфликтов друг с другом и со своими версиями, слетел. Надо ставить все заново. А тут открываешь Анаконду, а в ней уже большинство библиотек есть. Мне, например, постоянно нужны pandas, matplotlib, SpaCy, NLTK, Scikit-learn, Keras. Поставил, открыл, пользуешься. Никаких тебе “sudo apt-get install”, “откати к другой версии питона”, ”системные рекваерменты не удовлетворены”... (Да, иногда есть траблы, например, с настройкой версии Питона, но это уже тонкая материя не для начинающих, а для прохаванных датасаентистов. Которые не одну змею съели и даже не две.)
Мой главный вывод: подводных тупо меньше, чем если ставить все, что есть в Анаконде по отдельности. Так что, на самом деле, не “фу”, а “фууух, спасибо, что делаешь жизнь проще”. Вот тут перечислено, что есть в бесплатной версии Анаконды. Установочка для виндовс тут (не забудьте про кириллицу).
ПС. У Анаконды есть платная версия, в которой ИИ помогает разрабу писать код. И это не реклама. Никто не стал бы мне платить за пост в канале, где меньше ста человек 😁

#эссеиистика
🔥4👍2
А Артем делится с вами красивой картинкой линейной регрессии, которую только что сделал в Jupyter
👨‍💻3
Линейная регрессия без формул
В посте про бинарную классификацию я говорила о том, что хорошо, когда классы, представленные в виде массива (множества, скопления) точек, ну к примеру, в двумерном пространстве, линейно разделимы. Вот у этих ирисов длина и ширина лепестка меньше стольки-то миллиметров, а вот у этих больше. То есть между двумя скоплениями точек можно провести линию, которая отделяет два класса. Но когда мы с вами строили линейную регрессию в колабе, то там принцип был несколько иной. Линия была не разграничителем, а трендом, который проходил максимально близко ко всем точкам массива данных. В какой-то момент этот тренд (прямая линия) был ближе к классу 0, а потом приблизился к классу 1. Смысл регрессии, как статистического метода, в том, чтобы предсказать, куда примерно будет двигаться, направляться массив точек в многомерном пространстве. Нужно это для того, чтобы, например, предсказать, как пойдут дела у новых точек, которые мы еще не померяли. Или определить к какому классу линия тренда ближе в данной конкретной точке. Вот этот второй кейс и используется в классификации при помощи линейной регрессии.
Как построить этот тренд? Повторю: в основе концепции лежит представление о том, что тренд - это прямая линия, которая наиболее близка всем точкам заданного массива. Если у нас будет всего одна точка, то тут тренда особо не построишь. Через эту точку можно провести бесконечное количество прямых. Если есть две точки, то прямая пройдет ровно через них. А вот если три и более, то существует только одна такая прямая, расстояние до которой стремится к минимуму (..если точки не образуют симметричный многогранник, но для статистических данных из полей, где цветут ирисы, это прям очень маловероятно). См. пикчу над этим постом. Метод поиска такой прямой (да и кривой тоже, если мы решим искать нелинейный тренд, например, параболу) называется метод наименьших квадратов. Почему квадраты? При вычислении, если от точки на линии тренда отнимать расстояние до точки, которая лежит выше нее, то получится отрицательное число. В итоге часть расстояний будут положительными, а часть отрицательными - непорядок; они ж друг друга аннигилируют. Поэтому расстояния берутся в квадрат.
Что важно понимать про прямую?
🥇 То, что уравнение прямой (y=k*x+b обещала же без формул, а это что??) характеризуется двумя параметрами:
наклон прямой (k - coefficient)..
🤸‍♀️и ее сдвиг относительно оси Y в точке 0 (b - intercept; насколько выше или ниже нуля прямая пересекает ось Y).
🥈 И то, что сумма расстояний от этой прямой до каждой точки массива стремится к минимуму.
Задача минимизации расстояний для двумерного массива (у класса есть только один признак) решается при помощи дифференциальных уравнений в частных производных (страшно, очень страшно..🙀). Производная равна нулю в точках минимума и максимума. В нашем случае есть только минимум (одна прямая с минимальным расстоянием до точек). Дифференцируем сначала по k, потом по b (или наоборот, кому как хочется). Составляем систему из двух уравнений и находим сначала k, а потом b (или наоборот). Если же массив трех- и более -мерный, то придется дифференцировать матрицы. Там тоже не очень сложно, но раздел науки, который этим занимается - линейная алгебра (в народе линал) - в школе не изучают (по крайней мере пока), поэтому, если вы зашли в ИИ из гуманитарных дисциплин, то этот материал придется осваивать самостоятельно. Либо воспользоваться готовыми формулами в экселе или питоне. Ну, по крайней мере, вы теперь понимаете, почему машобуч и линал ходят рука об руку.
Я начала было рисовать красивый колаб-ноутбук с формулами, чтобы проиллюстрировать вычисление уравнения линейной регрессии, но меня позвали на квиз. Отдыхать тоже надо. Поэтому ноутбук выйдет отдельным постом.

#база
🔥6
Мы тут по контент-плану немного не вписались в график. В воскресенье должен был выйти пост "Популярные каналы про ИИ", но он не вышел, т.к. пришлось писать план для магистратуры по ИИ в гуманитарных науках, которую мы очень стараемся открыть через год в СоцГуме. Зато у меня готов ноутбук с регрессией. Надеюсь, он прояснит, как она работает. Не забывайте сохранить его к себе на гуглодиск. Ну и пикча в тему.
Всем гуд найт! Не работайте по ночам. Говорят, это вредно.😇 🥱

#notebook
3
10 советов как достичь SOTA
Идем по графику и разбираем сегодня, что такое соревнование в мире машинлернинга.
Термин SOTA (сОта) активно используется в такой области искусственного интеллекта, как machine learning (машинное обучение). Означает он одно слово “state-of-the-art”, буквально “состояние развития”. Под “art” (искусство) имеется в виду искусство решения проблем при помощи инженерии. Берем живую проблему и решаем ее искусственными методами. Обычно проблемы в живом мире очень сложные, многофакторные, поэтому с кондачка их со стопроцентным успехом не решить. Приходится сравнивать разные “арты”, методы, алгоритмы, чтобы найти тот, который справится лучше всех. Анализ решений приводит обычно к выяснению, что проблема решается вот уже на таком уровне эффективности. Ниже этой эффективности падать смысла нет. Правда, эффективность тоже можно по-разному померить, да и рассказать про негативный результат (мы попробовали такое-то, а оно не работает) тоже бывает полезно, но об этом будут отдельные посты.
Получается, SOTA - это своего рода результат соревнования за самое эффективное решение. Решения можно собрать по разным научным статьям и отчетам, но гораздо удобнее, если они публикуются в одном месте. Существуют платформы для соревнований в машинлернинге. Там можно и задачу опубликовать, и свое решение, часто вместе с кодом. За результаты разрабы получают не только символические медальки, но и денюжку, и возможность опубликовать статью.
Самая известная платформа для соревнований за медальку и денюжку: Kaggle (Кегл). Не так давно в вакансиях стали упоминать, что медальки на Кегле являются положительным бонусом к основным скилам.
Ученые меряются решениями на CodaLab. Там можно посмотреть и executable papers, т.е. статьи с кодом, который можно выполнить и получить тот же результат, который зарепорчен (to report - “опубликовать, заявить”) в статье.
Но тру компьютерные лингвисты соревнуются, конечно, на SemEval (семевАл, почти как “сеновал”). Это ежегодное соревнование по актуальным, трендовым задачам в области NLP. По итогам соревнования есть хороший шанс выпустить статью в материалах Ассоциации компьютерной лингвистики (ACL), крупнейшего объединения комп. лингвистов в мире.
Так как же достичь SOTA? Итак, советы от Жака Фреско. Важно, они относятся к какой-то выбранной вами области ИИ. Можно, наверно, преуспеть во многом, но мой путь в ИИ был довольно узко-задачным. Советы:
1. Тут довольно банально - надо подточить навыки, скилы (МООКи, вот это все).
2. Найдите какую-то научную мысль, загадку, которая вас прям ведет, прям вот хочется ее разгадать. И пытайтесь разгадать. В этот момент ваши скиллы бустятся прям космически.
3. Попробуйте маленькое без конкретной даты окончания соревнование на Кегле, например, MNIST. Повисите там в турнирной таблице. Поймете, что это не страшно, даже если вы где-то внизу висите - всем пофиг.
4. Найдите более серьезное соревнование, в котором хотите участвовать всерьез.
5. Найдите товарища или команду таких же амбициозных товарищей. Желательно, чтобы у них были разные суперспособности и чтобы у них было все в порядке с софт-скилами.
6. Запаситесь валокордином и кока-колой. Научитесь плакать, если вы еще не умеете этого делать.
7. Приготовьтесь морально и подготовьте ваших близких и друзей, что пока вы участвуете в соревновании, у вас не будет личной жизни и есть риск, что вы на кого-нибудь кинетесь.
8. Пишите код и тестите на странице соревнования. Очень много. Вот встали утром, поели и арбайтен.
9. Но не забывайте про здоровье. Иначе вы тупо сгорите. Выиграете что-то или нет - это всегда лотерея. А вот здоровье уже не вернуть.
10. Не забывайте про шаманский бубен. Ну или таро, свечку поставить. Короче, любой magic (мэджик), который вам помогает по жизни.
Good luck! И помните: the odds are never in our favour!
💪
#база #эссеиистика
🔥4
Сегодня будет пост по базе, а затем... барабанная дробь... анонс на октябрь. Из удивительного: я решила позаписывать кружочки - буду делать это по воскресеньям.

Итак, база: что такое NLP и как не путать его с НЛП и НЛО?

NLP - Natural Language Processing, или обработка естественного языка - от CL (комп. лингвистики) отличается тем, что занимается практическими задачами и не пытается при этом постичь природу человеческой речи. Вот есть задача перевести текст. Берем и переводим, хоть пословно. Главное, чтобы работало. Важно: речь идет именно об автоматической обработке, без рук, а также о естественном языке, т.е. том, который естественным путем возник в человеческом сообществе (машинный код или сигнальная система не подойдут).
НЛП - нейро-лингвистическое программирование - ох... Это что-то вроде коллекции советов или неких практик, как убедить человека сделать то, что вы хотите. К сожалению, я знаю много людей, которые считают это наукой. Нет, НЛП в научном сообществе не признают за науку. Если говорить именно о лингвистике, то оно наиболее близко к прагматике (в особенности теории речевых актов) и психолингвистике. А тру нейролингвистика вообще совсем другим занимается. Все эти советы и практики из НЛП (может, они и не плохие) не подкреплены научными экспериментами или какой-то иной доказательной базой. Иногда там излагается просто здравый смысл.
НЛО - неопознанный летающий объект, а также журнал "Новое литературное обозрение". Журнал был раньше хороший, а сейчас перестал мне нравиться. Неопознанные летающие объекты действительно существуют. Вопрос "Веришь ли ты в НЛО?" не корректен в том смысле, что НЛО - это такой же термин, как "искусственный интеллект". Есть документально зафиксированные показания о летающих объектах, чье происхождение не было установлено. Это вовсе не значит, что там именно инопланетяне сидели. Может быть, метеозонд или погодное явление.

Как не путать эти три аббревиатуры? Ну, как и все остальное: если чисто внутри себя попутали, то и фиг с ним, а если боитесь быть непонятым, расшифруйте аббревиатуру собеседнику 😁 🤗

#база #эссеиистика
1
Анонс на октябрь

1 Популярные каналы про ИИ
🧑‍🎓3 Какую магистратуру по ИИ я делаю в ТюмГУ
📈5 Коллеряция, корреряция и коллеляция
🗿8 Глокая куздра и другие способы сойти за компьютерного лингвиста
🙅‍♀️10 Устанавливаем размерность данных без линейки и рулетки
🤷12 Энтропия в теории информации
🤔15 Кто такой Томаш Миколов?
🥱17 Логистическая (!) регрессия
💐19 5 датасетов, о которых вы должны знать
📰22 Обзор последних новостей в области ИИ
🛠24 Учимся уважать Python Django
🏅26 Как оценить эффективность ИИ
🌚29 Что делать, если вы пишете на R?
🌈31 Многоклассовая классификация

А еще со мной вышло интервью в local newspaper "Тюменский курьер". Я там, как всегда, рассуждаю об ИИ...
7
This media is not supported in your browser
VIEW IN TELEGRAM
👍82🔥1
Популярные каналы про ИИ
Я календарь переверну, и.. OMG (оу-эм-джи) уже октябрь! (Это можно пропеть, кстати.) Вы заметили, как горят костры рябин на нашем первом видеве?
Итак, список популярных каналов про ИИ (иии… им мы открываем новую рубрику #спискии):
Метаверсище и ИИще Канал дедули по имени Сергей Цыпцын. Он давно в ИИ. Выпустил две книжки, организовывал CG Event (большую индустриальную конференцию по компьютерной графике). В computer vision (CV, компьютерное зрение) он точно разбирается. О канале пишет, что “...это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий”. Но это именно они - новости из мира ИИ, особенно касаемо графики.
Эйай ньюз Канал Артёма Санакоева: PhD (доктор наук, который как кандидат наук в России; это ступень после магистратуры) в области computer vision, гуру соревнований на Кегле (Kaggle Competition Master, был в топ-50). Делает AI Research (исследования, науку) “в одной из FAANG компаний” (FAANG = Facebook + Amazon + Apple + Netflix + Google). Пишет тоже про новости. Особой разницы с предыдущим каналом не вижу. Читаю оба, чтобы ничего не пропустить.
Kali Novskaya Персональный канал Татьяны Шавриной, которая первая со своей командой сделала GPT3 для русского языка (это такая модель-предшественник ChatGPT). В канал постит актуалочку про NLP.
Сиолошная Ведет канал Котенков Игорь (опыт работы в Яндексе, АлиЭкспресс и Пятерочке, ой то есть X5 Retail Group). Специализируется на машин лернинге, дата саенсе и NLP. У канала есть чат.
AbstractDL Канал Антона Разжигаева. Работает в Сбере. Тоже спец по computer vision. Он делал, например, Kandinsky 2.2 - нейросеть, которая рисует и дорисовывает. https://fusionbrain.ai/editor/ Тоже новости про CV, NLP и AI, но постит довольно редко. Зато есть инсайды сберовских мероприятий (“В этом году я помогаю организовать соревнование мультимодальных чатботов.”) Есть свой тг-бот Нейро Конфуций: @neural_chat_bot
Sberloga Канал data-сообщества Сбера. Почти что профсоюз сберовских дата-аналитиков. В основном постят мемасики и что-то про свои проекты. Там не очень много контента, но…
Sberloga in Data ..но у них есть чат. Болталка для жителей Сбера, которые про датасаенс и ИИ. Что интересного в этом чате: могут быть новости про разные активности в Сбере, например DataFest. А еще там иногда меряются зарплатами и куда удалось устроиться после Сбера.
GigaChat Еще немного не-рекламы Сбера. У них есть тг-бот: “Нейро­сетевая модель от Сбера. Умеет отвечать на вопросы, вести диалог, писать код, рисовать. И всё на русском языке!”
@gigachat_bot
Small Data Science for Russian Adventurers Авторский канал Александра Дьяконова. Это очень известный препод из МГУ, правда, теперь он работает в Центральном университете (универ от банка Тинькофф). Тоже был в топе на Кегле. В канале рассказывает об очень тонких тонкостях и очень сложных сложностях. Разбирает разные методы, технологии. Задает задачки на подумать. Зато если вы почувствуете, что понимаете его, значит, вы уже выучили базу про ИИ.
DLStories Нейронные сети и ИИ Еще один канал, где много разборов. Есть длиннопосты как у нас. Часто бывают разборы научных статей, тоже с тонкостями. Это надо понимать, если вы уже решили пойти в Research. Авторку зовут Татьяна, она учится в Лондоне. Больше ничего про нее не знаю.
Conversations Club Канал о новостях и инсайтах рынка разговорного AI от команды конференции Conversations (это такая индустриальная конференция). У них очень много годноты про чатботы. Постят редко но метко.
Есть еще два канала в моем списке, но они только для очень совершеннолетних, поэтому под плашкой. Там всякие хохмы, связанные с миром ИИ и ресерча, поэтому есть мат. Просто, если вы в разработке, а тем более в ИИ, то без мата очень тяжело - постоянно все глючит и не работает, как надо. В общем, уберите детей от экрана:
https://t.me/NeuralShit
https://t.me/ebaresearch

#спискии #чепочитать
👍3
Ииии… я успеваю запрыгнуть в последние минуты третьего октября, чтобы запостить на тему: “Какую магистратуру по ИИ я делаю в ТюмГУ”.
Я реально являюсь руководителем рабочей группы по разработке магистратуры под примерным названием “Искусственный интеллект в истории, лингвистике и филологии”. Цель у нас: связать такие инженерные дисциплины, как NLP, Computer Vision и Data Science, с гуманитарными науками. На что это будет похоже? Это будут проекты и кейсы, решения конкретных задач, которые возникают в гуманитарных науках и требуют цифровых скиллов. В общем, мы в группе говорим, что это "гуманитаристика здорового человека" 😅
На деле будем создавать лингвистические корпуса и датасеты, умные реконструкции археологических находок, экскурсии с дополненной реальностью и, конечно, рассуждать об этике ИИ. А затем обернем результаты работы в научные статьи, веб-приложения и даже стартапы.
А еще мы обратились к индустрии - крупным компаниям типа AIRI от Сбера и средней крупности типа Just AI, чтобы они тоже накидали нам кейсов и рассказали, каких специалистов в области ИИ им не хватает. Надеемся, что у них найдутся задачи на стыке ИИ и гуманитарных наук.
Если все пойдет по плану, то магистратура откроется уже в следующем году.
Вот такая очередная не-реклама. Сегодня коротко, зато точно без формул 😀

#иипетпроект
👍7
📈 Коллеряция, корреряция и коллеляция
С моей точки зрения, самая большая проблема с корреляцией заключается в том, что невозможно объяснить, почему в первом случае два РР, а во втором один Л. Ну зачем два Р? Сколько краски можно было сэкономить, сколько энергии на нажатии клавиши Р! Но если уж две Р, то почему всего одна Л? Это же надо запоминать. Как "параллельный", точнее, наоборот. А зачем в "робототехнике" два ОТ? Ведь можно же говорить нормально: "роботехника"...
А вторая по важности проблема в том, что написать про корреляцию без формул или кода будет крайне неудобно. Поэтому я сделала ноутбучек с кодом, но без формул.., но со ссылками.., где все подробно расписано. Жмякайте!
А, да, я же забыла объяснить, почему это в принципе важно, знать про линейную корреляцию. ИИ - это не только про нейросети. Точнее, есть такое представление:
- берешь задачу,
- ищешь нейросеть, которая эффективно решает подобную задачу,
- подлаживаешь код под свою задачу,
- вжух! F-score=99.99 (пишешь статью в Scopus'е, получаешь Нобелевскую премию..).
Вполне возможно, что у меня какой-то специфический жизненный путь, но он меня научил тому, что без анализа данных подобрать нейросеть или какой-то другой алгоритм, который успешно решает ИИ-задачу, можно, только если точно так же уже сделали 10 тысяч китайских и индийских программистов. Следовательно, для нетривиальных (фронтирных) задач данные надо изучать. Одна из особенностей данных, которая влияет на подбор ИИ-алгоритма и его эффективность, это взаимосвязь признаков, линейная коллерряция (дурацкое слово). Оценить ее позволяет коэффициент коллерряции.
И вот еще маленький отрывок из моего ноутбука (ссылка выше):
Линейная корреляция (тут правильно это слово написано) - это представление о линейной зависимости между данными. Обычно за пример берут рост и вес. Интуитивно понятно, что чем выше рост, тем больше у человека вес. То есть зависимость между двумя этими величинами прямая. Пример обратной зависимости: чем больше человек курит, тем меньше проживет. И, наконец, есть величины линейно независимые (одно растет, а другое нет... прям как некоторые виды ирисов). Дальше жмякайте ноутбучек. Кстати, со смартфона колаб-ноутбуки тоже неплохо открываются. Только запустить вряд ли получится.
Всем счастливых выходных! В воскресенье будет наше с Артемом традиционное видеообращение (с моего нового телефона🤳😊).

#база #notebook
3
Итак, ставшие традиционными воскресные кружочки! Первый пошел..🚀
This media is not supported in your browser
VIEW IN TELEGRAM