Введение в искусственный интеллект – Telegram

Введение в искусственный интеллект

331 subscribers

63 photos

2 videos

170 links

Просто об искусственном интеллекте и его возможностях. Помогу разобраться в базовых понятиях и создать собственную нейросеть. Рассказываю, что у ИИ под кожей.
Елена Михалькова

Download Telegram

About

Blog

Apps

Platform

Введение в искусственный интеллект

331 subscribers

Введение в искусственный интеллект

Сравнение инструментов OCR

Ранее мы с Александром писали про инструмент распознавания текста (OCR) Tesseract. Сегодня у нас новые карточки. На этот раз мы провели сравнение Тессеракта с двумя другими - ABBYY FineReader и EasyOCR. И поняли, что сравнивать инструменты OCR по качеству распознавания картинки довольно бессмысленно. Во-первых, они все развиваются, так что сегодня качество одно, завтра - лучше. Во-вторых, они по-разному доступны: за какие-то нужно платить, а какие-то прогать, настраивать и дообучать, но качество будет как у платных. В-третьих, многое зависит от ваших данных. В общем наш непрошенный совет такой: работайте с тем, что есть и что вам милее 🥰 По сути это и не совет никакой. Зато в наших карточках вы, возможно, узнаете что-то новое про старый-добрый OCR.
И, конечно, куда же без ноутбучека. На этот раз запускаем и тестим EasyOCR.

#notebook #карточкИИ

❤4👍2

356 views15:04

Введение в искусственный интеллект

Что такое “читабельность” текста и как ее измерить?

Кажется, в предновогодней суете мы пропустили пост про токены - он выйдет следующим.

Возвращаясь ко Льву Толстому, почему “Войну и мир” так трудно читать? Не только в старших классах; в любом возрасте читатели хвастаются, если осилили ее. Один из отягчающих факторов - знаменитые толстовские предложения.
Почему длинное предложение тяжело читать? Уважаемые читатели, возможно, помнят статью “К модели восприятия и создания текста” (1978 г.) Уолтера Кинча и Тойна ван Дейка (о ней я писала тут), в которой авторы утверждают, что нам характерно делить текст на кусочки (chunks, чанки), заполняя ими свою кратковременную (short term) память. Для этого на письме текст бьется на фразы, предложения, абзацы, главы и т.д. - они нам подсказывают, где лучше расставлять границы чанков. Длинное предложение запутывает нас вместо того, чтобы указать на эти границы.
А почему бы не писать весь текст в одно длинное предложение? Почему недостаточно запятых и абзацев? Предложения являются лингвистической универсалией. Как и слова, предложения можно найти в любом языке мира. Есть разные версии на тему необходимости предложений, в том числе об их связи с особенностями нашей памяти. Как в устной речи мы общаемся фразами, закладывая в них более-менее завершенную мысль (Кинч и ван Дейк сказали бы "пропозицию"), так в письменной мы раскладываем мысли по предложениям. В статье Кинча и ван Дейка есть целый параграф, посвященный читабельности текста (readability, ридабИлити). Чем легче текст, тем быстрее читатель его прочитывает и тем лучше потом отвечает на фактические вопросы о тексте.
Что может усложнять текст помимо длинных предложений? В основном длинные слова, если считать в буквах или в слогах. Еще можно учитывать редкость слов. Также нужно учитывать, кто читает. Многие метрики читабельности предлагают шкалу: от детей и учащихся разных ступеней образования до профессуры и узких специалистов.
Зачем рассчитывать читабельность? Авторы сочинений, писатели, журналисты подстраиваются под свою аудиторию. Авторы учебников по литературе или преподаватели иностранных языков составляют списки текстов для учеников разных ступеней. Государственные деятели хотели бы, чтобы важные государственные тексты были понятны большинству населения.

Хороший разбор популярных метрик читабельности см. з десь.

Важно, что метрики часто содержат константы, которые для разных языков свои. Для русского есть издавна известный онлайн-инструмент Текстометр. Я взяла текст этого поста и прогнала его через Текстометр. Получилось вот что: 45 баллов из 100. Достаточно простой текст, подойдет для возраста 11-12 лет (5-6 класс). Значит, и для телеграмм-поста сгодится 😁 А еще я сделала ноутбучек, который наглядно показывает, что такое толстовское предложение и насколько оно длиннее, чем, например, астафьевское - листайте!

#база #notebook

Введение в искусственный интеллект

К истории термина LSTM. Лингвистический след в нейронках

Мне всегда было сложно понять, в чем ценность суммаризации - сведения текста к его выжимке, краткому содержанию, сути (по-английски обычно используют термин gist, джист). С моей точки зрения, текст…

❤8

312 viewsedited 21:43

Введение в искусственный интеллект

Почему токены меньше слова. И какие секреты модели может раскрыть ее токенизатор (Часть 1)

Да будет последовательность постов декабрьского номера восстановлена.

Что такое токен? Кстати, я люблю пропевать фразу “Что такое токен? Это токен.” под мотив песни “Что такое осень” группы ДДТ. Это отрезок текста - он может быть длиною в один символ, а может быть целым словом. Это может быть и техническое слово, которое мы с вами не прочитаем - оно нужно, например, для более компактного хранения текстовых данных (как в алгоритме Byte-Pair Encoding, BPE). Тогда токен становится даже не символом, а байтом. В больших языковых моделях этот отрезок есть одна единичка словаря модели. Т.е. модели общаются не словами, а токенами, потому что таким образом можно описать все возможные морфологические версии слов: кот, кота, коту, котом… Подробнее о том, почему нужен такой словарь и как он устроен, я писала тут. О токенах в больших языковых моделях можно прочитать тут.

Что такое токенизатор модели? Перед обучением модели сначала производится токенизация, т.е. разбиение корпуса текстов на токены (без повторов). Сделать это можно очень разными способами, поэтому модель привязана к ее токенизатору. Нам же токенизатор нужен, чтобы перевести наш запрос в токены и ответ модели в текст. При этом в коде мы обычно обращаемся к модели и токенизатору по отдельности, что может запутать. Не позволяйте себя обмануть! Модель и ее токенизатор together forever 👩‍❤️‍👨 Важно, что токенизаторы настроены токенизировать текст наиболее оптимально, т.е. используя минимальное количество токенов.

Если я не хочу заморачиваться с внутрянкой моделей, что мне нужно знать о токенизаторе? Если вы пишете короткие запросы бесплатным моделям, то не заморачивайтесь. Однако обратите внимание, что диалог с моделью (когда вы отвечаете ей на ее ответ, а она отвечает вам и так далее) это и не диалог вовсе. Модель не запоминает, что вы ей сказали - она берет весь ваш с ней предыдущий диалог, включая ее собственные ответы, соединяет это в новый запрос и отвечает уже на него. Т.е. в обработку она берет все токены ваших и ее предыдущих ответов. Так что, если вы пишете длинные запросы и вступаете в диалог, то нужно знать, на сколько токенов токенизатор побьет ваш текст. От этого зависит, влезет ли ваш текст в input (входную строку) модели и сколько вы заплатите за обработку, если модель платная - оплата обычно идет по-токен-но. Вот здесь на английском есть 10 советов, как оптимизировать свои запросы - мне они показались годными.

Продолжение следует..

Введение в искусственный интеллект

Векторизация признаков

Начну с вопроса, ставшего традиционным: зачем? ИИ-алгоритмы на вход получают числовые данные. Поэтому, даже если ваш объект исследования на первый взгляд не описать числом, надо как-то извернуться и… Ну, описать вобщемта. Вот у нас…

👍2

246 viewsedited 14:26

Введение в искусственный интеллект

Визуализация токенизации одного предложения вот этим приложением

👍2

189 views14:27

Введение в искусственный интеллект

Так какие секреты модели может раскрыть ее токенизатор? (Часть 2)

Но мне, как ученому-моченому, интереснее, конечно, что мы можем сказать о внутренностях модели по ее токенизатору. Смотрите на картинке выше: Gemini от Google пословно разбила знаменитое предложение Хомского "Colorless green ideas sleep furiously", отделив при этом точку (пунктуационный символ) - красиво! И тут же Gemini как-то не очень красиво поступает с русскими словами “бесцветные” и “яростно”, разбивая каждое на три токена. Получается, в словаре модели нет слова “яростно” - есть три сочетания “я”, “ро” и “стно”, в эмбеддингах которых, возможно, запомнилось, что вместе они “яростно”. Скорее всего, это случилось потому, что “яростно” очень редко встречалось в корпусе текстов - токенизаторы берут только n самых частых токенов. Но “яростно” довольно частое слово в русском. Значит, скорее всего, в целом русского языка в корпусе модели было мало. Возьмем другую модель и видим, что она вообще разбила текст почти побуквенно, т.е. редкие английские слова попадались ей чаще, чем частые русские.
В статье “Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?” (“Исследуя смесь данных: Что BPE токенизаторы рассказывают об их тренировочных данных?”) авторы из Университета Вашингтона и Института искусственного интеллекта Пола Аллена (кстати, очень известное академическое заведение в области ИИ) предлагают линейный алгоритм, который позволяет вычислить, какой процент составили тексты какой-либо категории в тренировочной выборке модели. К категориям можно отнести разные естественные языки, темы и жанры текстов, эпохи, когда они были созданы, языки программирования. Составляем корпус текстов, например, на русском, и алгоритм предсказывает, сколько русского было в тренировке у модели; или составляем литературный корпус; или корпус из кода на питоне и т.д. Авторы, например, рассчитали, что GPT-4o меньше обучалась на английском, чем ее предшественники, а Gpt-3.5 и Claude тренировались в основном на коде, а не на текстах на естественных языках.
В другой статье “Exploring the Impact of Training Data Distribution and Subword Tokenization on Gender Bias in Machine Translation” (“Исследуя влияние распределения тренировочных данных и токенизации на подслова на дискриминацию по половому признаку в машинном переводе”) авторы заметили то же, что случилось выше с “яростно” - женские названия профессий попадают в корпуса недостаточно часто, чтобы образовать отдельный токен. Следовательно, модель учится связывать их с контекстом, где вероятнее будут упоминаться именно мужчины, работающие в данной профессии. А потом вы жалуетесь, что языковая модель не дала вам кредит из-за того, что слишком женственны, молоды или говорите с акцентом.
В общем, токенизатор хранит некоторые секреты, а наука их раскрывает - за это я ее и люблю 💖

#база #эссеиистика

Ai2: Truly open breakthrough AI

Ai2, founded by Paul Allen and led by Ali Farhadi, conducts high-impact research and engineering to tackle key problems in artificial intelligence.

🎄5

255 viewsedited 14:27

Введение в искусственный интеллект

Немного новостей в перерыве между постами.

1️⃣ В субботу в 16:00 по московскому времени пройдет последнее в этом году заседание кружка NLP P.S., который ведет моя коллега из ЕУ Яна Сосновская. В этот раз будет сложная тема на стыке нейробиологии, математики и искусственного интеллекта.
🧠💻Есть такой комплекс математических методов "активный вывод". Он пытается предсказать решения мозга, когда мозг сопоставляет свои прогнозы с данными, которые получил от окружающей среды.
🎅Представлять тему будет разработчик ИИ, сооснователь Botkin AI и BrainGarden Олег Бухвалов.
Подробности и регистрация - в чате кружка NLP P.S. https://t.me/nlp_ps

2️⃣ Давным-давно, кажется, ~~в прошлую пятницу~~ прошлой весной я участвовала в проекте "Алфавит СоцГума" в ТюмГУ. И, кажется, неплохо сказала мысль про гуманитариев в цифре. Делюсь мыслью 🤓 https://vk.com/video-765867_456239230

Буква Ц #алфавитсоцгума

Watch Буква Ц #алфавитсоцгума 29 s from 3 December 2024 online in HD for free in the VK catalog without signing up! Views: 676. Likes: 10.

❤4

306 views11:36

Введение в искусственный интеллект

Делаем корпуса параллельными при помощи Bert
Эту тему предложил Александр 🐝 - он изучает древние языки при помощи цифровых и количественных методов.

Сегодня делимся инструментом для создания параллельных корпусов — библиотекой lingtrain. Она позволяет легко собирать и обрабатывать тексты на разных известных ей (sic!) языках, чтобы потом использовать их для перевода, анализа лингвистических данных или других задач.
Что такое параллельный корпус? Это коллекция текстов с одинаковым содержанием, но на разных языках - обычно речь идет о переводах одного текста, но это также могут быть очень близкие версии исходного текста. Тексты должны быть выровнены, т.е. разбиты на части, например, предложения, и каждой части должна быть сопоставлена ее версия из параллельного текста. Процедура выравнивания называется alignment (элАйнмент).
Зачем нужно параллелить тексты? Наверно, самым ярким событием в лингвистике, где параллельные тексты дали возможность для прорывного открытия, была расшифровка Розеттского камня. На камне были выбиты три версии одного текста, созданного в 196 году до н. э. В двух было использовано разное египетское письмо, включая иероглифы, а в третьей - письмо на древнегреческом языке. Имена “Клеопатра” и “Птолемей” были обведены в текстах рамкой и так стали первыми словами, которые удалось прочитать в египетском иероглифическом письме. Дальше пошло-поехало, ученые перевели соседние с именами слова, и в первой половине 19 в. египетская иероглифика была расшифрована.
Зачем нужно параллелить тексты в начале 21 века? Новая веха в использовании параллельных текстов случилась с изобретением статистического метода машинного перевода - разработчики Google Translate запараллелили документы из международного права (ООН и Европарламента) и создали переводчик, который ищет наиболее похожий текст в корпусе и в качестве перевода предлагает его параллельную версию на другом языке.
Зачем нужно параллелить тексты сегодня? Все то же, что выше (расшифровка, машинный перевод), но есть и задачи, которые появились в связи с ростом числа параллельных корпусов. Можно, например, устанавливать языковое родство по степени сходства параллельных текстов.
А если у меня неизвестный / новый / редкий язык? Это уже другая история.. Может, Александр про нее напишет.

Ну и, конечно, ноутбучек с кодом от Александра 🐝

#база #notebook

❤6👍3

288 viewsedited 12:04

Введение в искусственный интеллект

Александр 🐝 делится своим проектом: словарь тибетского языка и диалектов
Не устаю напоминать, что у меня в канале в этом году появился соавтор. Александр Жмыхов учится в магистратуре "Прикладная лингвистика" (ТюмГУ), программирует на Java, R, JavaScript и Python. Сегодня публикую им самим написанную историю о его проекте тибетского словаря.
Недавно на страсессии в ИТМО (стратсессия - это что-то вроде круглого стола с обсуждением перспектив чего-нибудь) директор DH Центра ИТМО Полина Колозариди сказала мысль, которая мне очень понравилась: многие цифровые проекты становятся судьбой человека, который их начал. Вот и Александр сегодня (в метафорическо-ироничной форме письма) делится своей судьбой. Он попросил меня не редактировать его текст в этот раз, т.к. "это личное". Выпускаю без купюр!

Где-то месяц назад на календаре ко мне в подвал пришёл админ и попросил рассказать вам о моем личном опыте работы с таким уникальным, маленьким и малоизвестным языком — тибетским. Естественно, за это мне пообещали свидание с семьёй и даже покормить, так что с удовольствием делюсь своим, безусловно, важным опытом. А вам — отчёт о том, какой я лодырь, с элементами веселья.
1⃣ Почему тибетский язык?
🅰 Так получилось, что я немного знал санскрит, а стилистически мне нравится алфавит абугида; из-за этого мне изначально стало интересно, как вообще тибетский язык записывается и читается. Видите ли, в отличие от привычных нам правил нашего родного русского диалекта сербского языка (то есть "пиши, как говоришь — читай, как написано"), в тибетском всё устроено совершенно иначе. Здесь работает примерно такая парадигма: "читай так, как читают ушибленные жизнью братья алкоголики; пиши так, как писали аж в VIII веке".
Аллегория, может, и грубовата, но если говорить без шуток, то тибетское письмо застыло и не реформировалось с того времени, как было создано, а вот правила произношения успели измениться, как это бывает в любом языке. Возможно, наши самые "успешные" подписчики-гуманитарии сейчас вспомнят французский язык, как пример такой же хаотичности, но хочу вас заверить — французский даже рядом не стоял, если сравнивать с азиатскими горцами. Другими словами, тибетский язык меня лично зацепил своей экзотичностью плюс тем, что я хоть немного в теме и представляю контекст.
🅱 Кроме того, волею судеб я учился на направлении, пропитанном востоком, так что изучение азиатских языков и культур для меня вообще не западло. Я в этом контексте давно прокажённый, и мне уже в целом норм. Ну, в целом.

Продолжение следует..

❤1

217 views12:46

Введение в искусственный интеллект

2⃣ Что мне удалось насобирать за всё это время (если точнее, за 4 месяца упорной работы) для комплексного анализа тибетского языка?
Кратко говоря, удалось найти готовые корпусные данные и датасеты с текстами и речами на тибетском языке. Но до них пока дело не дошло — они лежат и ждут своего часа. Также я собрал три разномерных словаря тибетских диалектов:
➖ кхамского (или камского), на котором говорят в предгорьях тибетского плато на юго-востоке,
➖ амдосского — архаичного диалекта на северных окраинах тибетского плато,
➖ столичного диалекта Лхасы.
Все эти словари находятся в открытом доступе, и их может найти любой желающий. Но зачем?
Я перепарсил эти словари и унифицировал их в табличном формате, чтобы было проще обрабатывать данные. Понятное дело, в некоторых случаях словари пришлось дорабатывать: например, словарь лхасского диалекта пришлось дополнить фонетической записью. И, конечно, это была не ручная работа по заполнению всех 8 тысяч слов (зачем мне такие издевательства?). Вместо этого я использовал библиотеку для Python, написанную тибетологами для тибетологов, которая позволяет автоматически генерировать фонетическую транскрипцию конкретно для этого диалекта.
Немного цифр:
➖ словарь кхамского диалекта насчитывает около 2000 слов,
➖ амдосского — около 4000,
➖ лхасского — порядка 8000 слов.
Речь, конечно, о плюс-минус точных данных, но сути дела это не меняет. Нам всё равно нужно как-то с этим всем работать. А чтобы успешно работать с такими словарями, надо сначала установить цели — что я, собственно, и сделал.
Итак, моя цель — написать абсолютно научную и чрезвычайно общественно полезную работу, посвящённую исследованию фонетики тибетского языка. Конечным продуктом должна стать реконструкция тибетского до-письменного языка (ну, или хотя бы того языка, на котором говорили, когда письменность только появилась). Поэтому мне нужно собрать не просто "много слов" и "много букв", а как можно больше примеров употребления каждого звука в разных контекстах. Причём 2000 или даже 500 таких примеров будет достаточно, если они все уникальны.
Словари я активно использую для игр с цифровыми методами. Пришлось даже погрузиться в советские опусы о количественной лингвистике, статистике и всяком таком. Пока что получилось доказать, что большинство методов, увы, нерабочие и ничего полезного не дают. Однако есть и положительные результаты. Например:
➖ удалось выделить базовые гласные, которые есть во всех диалектах, уточнив их частотность;
➖ удалось установить разницу в частотности употребления звуков в разных диалектах.
Ну, например: А ВЫ ЗНАЛИ, что в лхасском тибетском звук /u/ встречается чаще, чем в амдосском?** Конечно, это ещё не предел всей работы, но даже такие маленькие открытия уже дают почву для размышлений.
Вот так, шутя и с налётом трагизма, я пришёл к тому, что изучаю относительно маленький, но культурно значимый язык. Не будем забывать, что тибетский — это язык буддизма и древней цивилизации. Впереди меня ждёт огромное количество экспериментов, открытий и новых шуток, которыми я обязательно буду делиться. Но это уже в новом году. А пока — всех с наступающим! 🎄🎉

#эссеИИстика

🎅4❤2🎄2

286 viewsedited 12:47

Введение в искусственный интеллект

Кто идёт на первый митап Ктуца - обратите внимание, смена локации 👆

Кто онлайн - ссылка на подключение уже в канале🤳

257 views07:07

Введение в искусственный интеллект

Forwarded from Q2C

Внимание всем, кто будет оффлайн - у нас смена локации❗️

Встречаемся в Кофеин, Республики, 46. Заходите и поднимайтесь на второй этаж. Мы слева у окна.
https://2gis.ru/tyumen/geo/70000001066027036

(А Disciplina закрыта до 7 января.)

299 views07:07

Введение в искусственный интеллект

Quick-to-Code — сообщество энтузиастов обработки естественного языка (NLP) родом из Тюменского государственного университета.

Здесь ты найдёшь:
• полезные материалы
• анонсы встреч
• записи подкастов
• и многое другое!

Welcome to the club, buddy🥴

После новогодней ночи, которую мы решили провести, гуляя по заснеженной Тюмени, у меня наконец-то оттаяли руки, чтобы отправить новогоднее поздравление! ❄ Вместе со мной вас поздравляют Лиля - глава тюменского кружка компьютерной лингвистики Quick-2-Code и мой со-админ Артем. На нас дует ледяной ветер, так что мы немного снеговики ☃

❤‍🔥8

248 views14:08

Введение в искусственный интеллект

This media is not supported in your browser

VIEW IN TELEGRAM

0:52

249 views14:08

❤‍🔥6

Введение в искусственный интеллект

И как всегда немного бекстейджа. Мы попытались сделать еще дубль - тут камеру уже держала я. Камера перестала дрожать, но стало почти не видно мост

🍾2

265 views14:13

Введение в искусственный интеллект

This media is not supported in your browser

VIEW IN TELEGRAM

0:18

267 views14:13

❤‍🔥5

Введение в искусственный интеллект

А потом мы просто забыли все слова и пошли домой пить чай ☕ и играть в фанты.

В общем, 2025 год будет годом компьютерной лингвистики. По крайней мере, мы так считаем ✍

🎄2❤1

265 views14:18

Введение в искусственный интеллект

This media is not supported in your browser

VIEW IN TELEGRAM

0:14

278 views14:18

❤‍🔥5

Введение в искусственный интеллект

Структурирование неструктурированного - ИИ-горизонты современных баз данных
С декабря остался у меня один задуманный пост. Он оказался более тяжеловесным, чем хотелось в предновогодней суете. Так что на чиле-расслабоне январских каникул выпускаю кракена.
Это теоретическая прелюдия. В следующем посте будет пример с кодом.

Современные базы данных это не только таблицы вроде Microsoft Access (Кролики - это не только ценный мех…). В них структурированная информация часто соседствует с неструктурированной. В классических БД, реляционных, всю картину мира можно было уложить в двумерные таблицы с полями, ограниченными определенной длиной и вмещающими данные определенного формата. Но, т.к. мир гораздо сложнее, современные БД нацелены не только на мгновенное структурирование этого мира, но и на сохранение любых данных в виде цифрового отпечатка. В результате объем информации растет и появляются инструменты, которые помогают ориентироваться в нем, например NoSQL. Есть и совсем новые концепции хранения и структурирования. Например, “озеро данных” (data lake, дЕйта лейк) просто хранит кучу файлов в разных форматах, а цифровые инструменты помогают структурировать эту информацию под конкретный запрос.
А чем тут поможет искусственный интеллект? Он может, как и любой язык запросов к базам данных и файловым хранилищам, структурировать все, до чего дотянется. Даете ему двумерную таблицу и спрашиваете, какие тренды в ней наблюдаются. ИИ отвечает вам аналитическим обзором. Даете несколько файлов (тексты, аудио, видео) - ИИ знакомится с содержанием и может ответить на любой вопрос, вроде “на каком языке написаны тексты?” или “в каком жанре написана музыка?”. Под каждую такую задачу можно написать отдельную ИИ-систему (классическое машинное обучение, глубокие нейронные сети и т.д.), но проще всего конечному пользователю взаимодействовать с ИИ в виде больших языковых моделей (БЯМ).
Что можно спросить у ИИ? Практика показывает, что вас ограничивает только ваша креативность. Из того, что меня удивило в прошлом году:
➖ здесь модель делает финансовый прогноз на основе табличных данных
➖ в этой статье авторы просят БЯМ дать научный анализ полученных в исследовании диаграмм (нет бы самим ноуку писать)
И что, прям хорошо делает? Ошибается периодически, конечно. Например, плохо видит бимодальное распределение - когда на графике две вершины (я запамятовала, в какой статье я это читала). Но, как известно, топовые БЯМы уже достигли уровня хорошего студента-бакалавра (об этом весь конец прошлого года дискутировали: это уже AGI или еще нет?). Так что, если у вас есть коллекция из террабайта данных, а миллиона бакалавров, чтобы ее прошерстить нет, то сойдет. Часто ошибается в математических подсчетах - но корпорации активно это исправляют. И что точно пока не может: нарисовать диаграмму на основе вашей таблицы. Есть разные приблуды, как это сделать. Например, модель может написать код, который сгенерит такую диаграмму.
Хотя в 21 веке говорить, “точно” опасно. Вполне возможно, вчера в каком-нибудь ресерч-институте вместо того, чтобы настраивать свой work-life balance (вок-лайф бЭлэнс, баланс между личной жизнью и работой) покорили очередную вершину.

#эссеиистика #база

Кролики - это не только ценный мех

А. Моисеенко и А. Данилец. Кролики - это не только ценный мех. Миниатюра с которой все началось
Очень смешно

❤3

250 viewsedited 09:04

Введение в искусственный интеллект

Структурирование неструктурированного
Практический пример с экосистемой Google

Я решила сделать свой игрушечный пример - демонстрацию того, как БЯМ может структурировать неструктурированное. Будем делать это при помощи эко-системы Google. Ранее я писала о том, как подключить ChatGPT к Google Spreadsheets при помощи расширения "ChatGPT in Google Sheets and Docs". Т.к. пробный период истек, я… ну как всегда… нашла другое такое же приложение. Оно похуже (нельзя обращаться к данным в нескольких ячейках, нужно пихать все в одну), но есть более гибкий тарифный план: 9 баксов за миллион токенов - это когда пробный период истечет. И напоминаю, что с ChatGPT в гуглотаблицах можно чатиться без ВПН, т.к. гуглотаблицы сидят на американских серверах. Это как Ютуб смотреть в Роблоксе или как разговаривать с ботами на основе ChatGPT в телеграмме. Но чем мне важны именно гуглотаблицы: в них можно при помощи Google Colaboratory положить сразу много информации в ячейки. По сути мы можем налить целое озеро данных на свой гугл-диск - без смс, но с регистрацией.
Итак, первым делом я добавила мое новое любимое расширение SheetGPT (легко же завоевать мою благосклонность) в свои гуглотаблицы и зарегалась на сайте приложения, получив доступ к пробному периоду. Далее создаю гуглотаблицу - кликайте по ссылке, там результат моих действий. В ней запускаю расширение SheetGPT во вкладке “Расширения”. На первом листе в этом файле в колонке A данные, с которыми я прошу ChatGPT поработать; в остальных колонках ее ответы. На всякий случай я скопировала результаты на второй лист - там только полученные ответы, без формул.
Сначала я провела эксперимент с таблицей распределения отзывов с МегаМаркета и Вайльдберриз, которую мы использовали в статье, вышедшей в прошлом году. Результат нормальный. Нам и самим хватило мыслей, о чем писать, но если бы у нас случился идейный кризис, то ответы модели нас бы порадовали.
Потом я попросила модель нарисовать диаграмму по таблице - получилось креативно, но чисто for fun. В прошлом году завирусился ИИ-сгенерированный рисунок мыши, поданный как научная инфографика и опубликованный в Nature. Статью, конечно, отозвали. В общем, уважаемое комьюнити - с диаграммами и инфографикой пока погодите генерить. Рисунки скину дальше.
А теперь создаем озеро файлов. Вот в этом ноутбучеке я беру пять файлов, кладу их на гугл-диск и извлекаю из них текстовую выжимку. Помещаю все это в промпт, который скидываю в ячейку в свою гуглотаблицу. Теперь можно задавать к файлам вопросы, например, на каких языках напиманы тексты, есть ли там классика и т.п. Единственное, с чем я не согласна из ответов ChatGPT, так это то, что “Васюткино озеро” Астафьева - это не классическое произведение. Хотя, может быть, это вкусовщина.

#notebook

Введение в искусственный интеллект

Лайфхак № 1. Добавляем ChatGPT в гуглотаблицы (Google Sheets), чтобы вместо запросов к данным писать промпты

💡 Регистрируем аккаунт в Google, если еще не..
💡 Включаем ВПН
💡 Логинимся в OpenAI с Google ID
💡 Создаем гуглотаблицу
💡 Заходим в гуглотаблице в…

❤4

296 viewsedited 09:30

Введение в искусственный интеллект

Иллюстрации к предыдущему посту:
- слева: диаграмма, которую чат-гпт нарисовала по моей таблице,
- справа: та история с мышью. Более подробно тут.

❤2

276 viewsedited 09:42