Введение в искусственный интеллект

Если вам интересно, какую магистратуру я делаю в Европейском университете в Санкт-Петербурге, то подключайтесь к нашему с коллегами онлайну 1 марта. Предупреждаю, может возникнуть желание в нее поступить 😎

🍾3

288 views04:40

Введение в искусственный интеллект

Forwarded from Европейский. Просто о сложном

🌻

1 марта приглашаем на день открытых дверей Школы вычислительных социальных наук в Европейском университете в Санкт-Петербурге.

Вы узнаете:
🟠как определить программу, которая подойдет именно вам
🟠что нужно (и не нужно) делать, чтобы подготовиться к вступительным испытаниям
🟠какие темы вы сможете выбрать для будущих исследований
🟠кем и где вы сможете работать после обучения
🟠как получить максимальную скидку, стипендию и решить жилищный вопрос на время обучения

Руководители магистерских и аспирантских программ по экономике, социологии и прикладной информатике расскажут о проектах и планах Школы, о направлениях научно-исследовательской деятельности и ответят на все ваши вопросы о поступлении.

➡️ Мероприятие пройдёт в формате онлайн. Начало в 16:00. Подробная программа и регистрация по ссылке.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥1

327 views04:40

Введение в искусственный интеллект

О профессии “промпт-инженер”

Почему я не пишу посты в свой канал при помощи больших языковых моделей? Ведь могла бы взять любую модель на чатбот-арене, дать ей промпт “Напиши пост о профессии промпт-инженер” и получила бы неплохой контент. Когда-то у меня была лекция о креативности языковых моделей. Одна из ее основных идей заключалась в том, что, если вы и так хорошо пишете, то модель сделает ваш текст менее оригинальным и полезным. А я скромно считаю, что пишу лучше, чем ChatGPT.

Тогда какие профессиональные навыки может заменить промптинг? На этот вопрос я обычно отвечаю “рутинные”. Например, не так давно я писала о промптах, которые можно использовать, чтобы генерировать тесты для своих учебных материалов. Так же рутинно можно генерировать рабочие программы дисциплин, которые строятся по определенному шаблону. Не с нуля, конечно, а, например, задав им определенный тематический план. Можно писать аннотации к своим статьям и подбирать для них ключевые слова, делать краткие выжимки из работ других авторов, редактировать свой текст. Но это все примеры, в которых действующее лицо - человек, который сам владеет компетенцией (учитель, преподаватель, ученый) и пишет промпт, чтобы облегчить рутинные задачи в собственной сфере.

Кто же такой промпт-инженер? Какая у него специализация? Первый раз о такой профессии я прочитала на сайте ИТ-компании, которая делает свою языковую модель. Они искали “настройщиков”, тестировщиков и людей, которые будут проверять уязвимости в их продукте. Причем обращались в том числе к выпускникам лингвистических факультетов. Было это в ковидные времена, то есть по меркам прогресса довольно давно. Я еще подумала, что наконец-то у лингвистов появится новая профессиональная ниша, помимо преподавания, перевода и разметки данных. Потом я заметила, что промпт-инженеров ищут не только крупные компании, которые тратят миллионы на обучение своей модели, но и стартапы, которые разрабатывают свои приложения. В случае с готовыми приложениями, которые генерируют тесты, например, на основе вашей презентации, в бэкэнде (то есть в коде) приложения зашиты промпты с детальной инструкцией для модели, что она должна сделать с вашим запросом. Промпт-инженер должен был настраивать модель при помощи разных техник, чтобы результат генерации был эффективным. Лингвисты, вроде как, подходят на эту роль лучше всего.

А что сейчас? Мне кажется, отдельная профессия все-таки не сформировалась. Судя по вакансиям, которых немного, промпт-инженеры должны уметь программировать, писать нейросети и обладать смежными техническими навыками. Я думаю, это потому, что, во-первых, овладеть технологией создания хорошего промпта может каждый, не только лингвист. Более того, есть даже языковые модели, которые сами за ваc промпт напишут. Как “двое из ларца одинаковы с лица”: одна модель дает запрос, а другая тут же отвечает. Во-вторых, как и в целом в ИТ, вот вы хорошо написали промпт и запустили приложение, т.е. по сути завершили проект, и что дальше будете делать? Отсюда и спрос на дополнительные навыки либо предложения временной занятости в проекте.
Но прекарность и мультинавыки - это тренд не только в ИТ. Посмотрим, как будет дальше.

Кстати, я обещала привести еще примеры промптов для генерации тестов. Я создала вот такой сайт, где можно подробно ознакомиться с задачей и моими промптами.

#эссеиистика

Введение в искусственный интеллект

Как измерить креативность AI
Этот пост я написала сама. По мотивам Летней школы в Дубне

Есть такой вид развлечения: угадывать, какой контент был сгенерирован, а какой создан человеком. Несмотря на то, что у продуктов генерации есть особенности, которые часто…

👍6🔥3❤1

352 viewsedited 17:46

Введение в искусственный интеллект

My prompt is longer than yours. Или зачем нужны такие длинные промпты
Я тут немного пропала и не постила, а все потому что готовлю серию мероприятий - причем не только в Питере. О мероприятиях напишу в следующем посте, а сейчас пора добить февральские темы.

Почему не нужно следовать интуитивному желанию написать промпт для большой языковой модели так, как хочется?.. А почему не нужно? Если вас устроил ответ модели, то все ок, вы написали хороший короткий промпт. Я считаю вредным меряться длиной промптов, Хирша и прочих KPI, т.к. люди уже давно доказали, что любую метрику можно хакнуть.
Но, если вас все же не устроил ответ модели, значит, это повод задуматься о несовершенстве не только самой модели, но и вашего промпта. Ибо “что посеешь, то и пожнешь”, или “мусор на входе - мусор на выходе” (garbage in - garbage out, гАбидж ин гАбидж Аут). Можно, не удаляя диалога с моделью, объяснить ей, чем вас не устроил ее ответ, и попросить сделать задание снова. Но, если это не сработало, промпт можно доработать вот так.

💫 Дать развернутую инструкцию, что и как нужно делать, подробно описать результат, которого ждете. В общем не скупиться на слова. А если, говоря словами известной песни, words don’t come easy to you, или слова нелегко приходят на ум, попросите саму модель написать вам промпт к вашей задаче. Затем перезапустите диалог и проверьте ее промпт. Если все еще недостаточно хорошо, скорректируйте результат вручную или попросите модель снова отредактировать промпт. Получится модель, которая кусает сама себя за промпт 🐉

💫 Попробовать разные речевые жанры. Например, для доработки научного текста помогают формальный язык и вежливые обращения (пожалуйста, будь добра, спасибо), можно вычитать в своем промпте опечатки и стилистические ошибки. Это связано с тем, кто каждое слово в диалоге подтягивает за собой статистически значимые связи с другими словами. Формальный язык обычно используют в энциклопедиях, новостях; вежливые обращения “подтягивают” благожелательность. А вот для креативных задач вроде написания сказки подойдут всякие шутки-прибаутки.

💫 Попробовать внушить модели, что она некая личность, персонаж и говорит от его лица; попросить ее поиграть с вами в ролевую игру. Опять же персонаж зависит от жанра, которому будет принадлежать желаемый вами сгенерированный текст. Этот эффект усилит то, что вы выражаете в собственном тоне. Это, кстати, один из методов хакинга моделей - они “заигрываются” и начинают подтягивать недопустимую информацию. Но разработчики усиленно работают над тем, чтобы такого не происходило.

💫 Дать модели один или несколько хороших примеров. Это техника few-shot (фью шот) промптинга. Начинайте с одного примера, а если его недостаточно, то попробуйте увеличить число примеров, но не сильно. Судя по кейсам, с которыми я знакома, восемь-десять примеров - это максимум.

💫 Дайте модели текст-опору, из которого она почерпнет факты и информацию, на которую будет опираться. Это помогает, если у вас узкая предметная область или модель ошибается в фактах в вашей задаче. Если помните, что такое machine reading comprehension (машинное усвоение навыка чтения), то вычитывать информацию и генерить на ее основе текст - это базовая функция языковых моделей, с ней они справляются успешно.

Хотя можно попробовать и просто сменить модель. Например, известно, что Claude Sonnet хорошо умеет писать стихи, а ChatGPT решать математику.

Всем удачного промптинга! 🍀

#спискИИ

🔥3😎1

334 viewsedited 14:22

Введение в искусственный интеллект

Дорогие подпИИсчики! 💐

Хочу поделиться своими планами на апрель, т.к., возможно, вы захотите ко мне присоединиться. А план такой: провести уже наконец-то обещанные в кружочках канала интенсивы 🤪
Вот честно, если б я когда-то не обещала, то сейчас наверняка делала бы что-то другое 😁
Часть интенсивов у нас получилась по договоренности с вузами: вход строго по инвайтам, фейс-, дресс-, эйдж- и даже нэйл- (nail, ногти) контроль 😷👮 А вот два - полный разгуляй, хиппи-стайл и вообще приходи, кто хочет 👨‍🎤 но... надо будет зарегистрироваться в LeaderID, т.к. проводить их мы будем в Точках кипения.
Итак, барабанная дробь, приходите ко мне ~~лечиться~~ учиться на интенсив ~~по здоровой генерации научных работ при помощи ИИ~~ "Цифровые инструменты в социальных и гуманитарных науках":

08.04. с 10:00 до 14:00 - Точка кипения в Ельцин-Центре, г. Екатеринбург - рега
10.04. с 12:00 до 16:00 - Точка кипения в Технопарке, г. Тюмень - рега

По традиции в рекламное сообщение нужно добавить отзывы довольных клиентов. Но.. это не рекламное сообщение, а комьюнити-менеджмент. Ведь я зову вас стать частью сообщества ученых, которые бережно трансформируют науку под давлением технического прогресса 🧐👾
Но довольное комьюнити я вам все-таки буду присылать в свой канал в виде фоточек с интенсивов. Потому что мне давно хотелось повод под вот эту песню выкладывать, как мы с искусственным интеллектом тусим по разным городам.

Ах да, это бисплатна 🤑 Всем, кто досидит до конца, выдадим электронный сертификат участника от ЕУСПб 📜

В общем, увидимся!

#меропрИИятия

leader-id.ru

Европейский университет СПб. Цифровые инструменты в социальных и гуманитарных науках: ИИ

Leader-ID — платформа для лидеров. Здесь 4+ млн пользователей, бесплатные образовательные мероприятия и коворкинги. Leader-ID помогает запускать технологические проекты.

🔥4

413 viewsedited 12:35

Введение в искусственный интеллект

Введение в искусственный интеллект pinned «Дорогие подпИИсчики! 💐 Хочу поделиться своими планами на апрель, т.к., возможно, вы захотите ко мне присоединиться. А план такой: провести уже наконец-то обещанные в кружочках канала интенсивы 🤪 Вот честно, если б я когда-то не обещала, то сейчас наверняка…»

13:32

Введение в искусственный интеллект

Апрельское пощение будет посвящено не только моему турне, но и мультимодальным языковым моделям. Начну с поста, который мы с Артемом сделали по следам первого заседания Тюменского NLP-кружка Quick-to-Code. Здесь в карточках - введение в моделирование звучащей речи при помощи нейросетей.

#карточкИИ #база

🔥5

269 views11:17

Введение в искусственный интеллект

Это олимпиада для поступающих в магистратуру ПАНДАН, которой я сейчас соруковожу с Иваном Бибиловым из Яндекс Образования.

222 viewsedited 13:16

Введение в искусственный интеллект

Forwarded from Школа вычислительных социальных наук в Европейском

Две хорошие новости про Олимпиаду ADAlympics от команды программы «Прикладной Анализ Данных и Искусственный Интеллект»

новость 1: Коллеги написали несколько советов, как не бояться олимпиадных заданий и на что обращать внимание в первую очередь

новость 2: Прием заявок на олимпиаду продлили до 6 апреля, поэтому советы придутся как раз кстати — у вас еще целых 12 дней на то, чтобы прислать нам эссе ✉️

Слово коллегам:

Олимпиадные задания часто кажутся сложными, требующими ответственности и вызывающими дискомфорт из-за соревновательного духа. Отчасти это правда. Но только отчасти. Участвуя в олимпиаде, вы проверяете свои навыки в решении нестандартных задач и оцениваете текущие знания. Такая практика важна для самоанализа и подготовки к реальным ситуациям, например, к поиску работы, стажировок и других интересных возможностей. Собеседования нужны не только для трудоустройства, но и для того, чтобы понять, насколько вы готовы справляться с нетипичными задачами в профессиональной сфере. Так и олимпиада — это хороший способ потренироваться.

В первом задании олимпиады Adalympics нужно проанализировать сводные графики и диаграммы по разным показателям сиротства в России. (Данные заботливо предоставил официальный партнер ADAlympics, дата-журналистский проект «Если быть точным»)

На что стоит ориентироваться при написании решения:

⏺Подойдите к ответам творчески и аналитически. Попытайтесь в свободной форме подумать о предложенной задаче.
⏺Предложите своё объяснение проблемы, поставленной в задании.
⏺Обратите внимание на разницы представленных показателей. Возможно, они дадут вам больше информации для ответа.
⏺Как вы можете объяснить представленную динамику? Попробуйте поискать источники, помогающие объяснить это.
⏺Возможно, вы знаете теории, которые могут помочь объяснить предложенную вами догадку? Расскажите нам о ней в тексте ответа.

Что важно для проверяющей комиссии:

📍Прежде всего, важно то, как вы думаете. Изложите ваши рассуждения в тексте, постарайтесь писать структурировано и последовательно.
📍Отвечайте прямо на поставленный вопрос задания, дополните свой ответ пояснениями и обоснованиями.
📍Используйте и ссылайтесь на источники. Исследователи опираются на чужие исследования. Найдите, изучите, перескажите их выводы и находки. Работа с источниками — необходимая часть работы исследователя и аналитика.
📍И не забывайте указывать ссылки 🧡

После таких советов олимпиадное задание кажется уже не таким и сложным ✨

Ждем ваши заявки до 6 апреля
Подробности на сайте ADAlympics

⏺

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

267 views13:16

Введение в искусственный интеллект

Мультимодальные модели и другие скороговорки 21 века
Апрельское пощение я буду делать без анонсов постов, т.к. я в дороге и тут случается много неожиданного.

Вот ведь что такое мультимодальность? Мульти (multi), с английского, “много”; модальность (modality), с английского, ну в общем-то модальность. Тут нужен лингвистический контекст.
В лингвистике модальность высказывания - это собирательное понятие, которое указывает на то, что в процессе коммуникации важно не только, какие звуки мы произносим или буквы пишем/печатаем, но и с какой интонацией, использовали ли капслок, говорим ли о реальных вещах или воображаем, какие эмоции при этом у нас на лице, как мы жестикулируем, показываем ли пальцем на картинку, а может, вообще поем. Модальность - это все дополнительные источники информации, которые наслаиваются на сообщение, добавляя ему смыслы.
В компьютерной лингвистике мультимодальные языковые модели могут анализировать и генерировать данные из разных источников: не только печатный текст, но и звуковые файлы, изображения и видео. Т.е. используют четыре модальности, доступные сейчас почти каждому гаджету: текст, аудио, графика и видео.

Первыми появились, конечно, текстовые языковые модели (text-to-text, текст на входе и на выходе), т.к. у них относительно простой принцип работы. Потом для обучения текстовых моделей стали использовать архитектуру “трансформер”. Затем примерно параллельно в задачах распознавания и генерации звуков и изображений начали применять трансформеры таким образом, чтобы кодирование текстовой информации было связано с аудио и графическими данными. Ведь то и то можно представить в виде числового ряда и поместить в одну большую таблицу - матрицу эмбеддингов (векторов, в которых сжато хранится информация обо всех данных, с которыми встретилась модель). Аудио - это точки (Герцы, зарегистрированные датчиками частоты), графика - цвет пикселя, например, в палитре RGB, где он представлен тремя числами. Последними подключились генераторы видео, т.к. они требуют обработки большого объема данных.

В моделях (и их названиях) заложено, что и во что должно перетекать:

🗣 text-to-speech (текст ту спич, текст-в речь): генерация звучащей речи, озвучка текста
📝 speech-to-text (спич ту текст, речь в текст): расшифровка звучащей речи
🧑‍🎨 text-to-image (текст ту Имидж, текст в изображение), text-to-video (текст ту вИдео, текст в видео): генерация изображения или видео на основе текста-запроса (промпта)
👩‍🎤 image-text-to-text: генерация текста по запросу, в котором есть и изображение, и текст

А также image-to-image, video-to-text, text-to-3D и многие другие. Берем разные модальности и придумываем задачу, в которой они связаны, например, распознать объекты на картинке и назвать их словами - вот вам и image-to-text. Появляются и модели-универсалы, которые могут вообще во все модальности сразу: any-to-any (Эни ту Эни, любые в любые). На платформе HuggingFace, где живут языковые модели, можно посмотреть на все разнообразие мультимодальных задач.

А я завершаю пост парой мультимодальных ноутбучеков, которые можно запустить в Google Colaboratory:
text-to-speech
text-to-image
image-text-to-text

#база #notebook

Введение в искусственный интеллект

🔥5

287 viewsedited 10:45

Введение в искусственный интеллект

Немного апдейтов:

1⃣ Вчера я психанула на модель Llava "image-text-to-text", т.к. ноутбучек, который всегда запускался, сказал, что в нем ошибки в установке библиотек. Но сегодня, бахнув кофейку, я таки его запустила. И... вот еще одна мультимодальная модель, которая запускается в Google Colaboratory (а не на сотне Nvidia GeForce за 300К 💰 в наносекунду): зэ ноутбук (я его и в прошлый пост сейчас добавлю).

2⃣ Не устаю напоминать (особенно после выпитого ☕), что у нас завтра интенсив в Екатеринбурге, а 10-го в Тюмени. Если вы еще не записались + можете + хочете прийти, то вот мой вдохновляющий кружок из Еката. И ссылки на регу (можно регаться с ВК ID):
➖ 8 апреля 10:00-14:00 Точка кипения в Ельцин-центре, Екатеринбург: рега
➖ 10 апреля 12:00 - 16:00 Точка кипения в Технопарке, Тюмень: рега

3⃣ В апреле в Европейском университете в Санкт-Петербурге, где я сейчас работаю, проходят дни открытых дверей. Об этом тоже в кружочке и на сайте ЕУСПб. Мероприятия туть.

#меропрИИятия

Google

image-text-to-text.ipynb

Colab notebook

🔥5

353 views09:23

Введение в искусственный интеллект

This media is not supported in your browser

VIEW IN TELEGRAM

0:50

341 views09:24

❤14

Введение в искусственный интеллект

Турне по регионам закончилось еще в понедельник, но с него осталось много материалов, идей, контактов и запросов, на которые я попробую ответить в следующих постах. А пока делюсь с вами своей любимой фотой из Точки кипения в Тюмени - это я показываю, как правильно тыкать в экран планшета, чтобы выбрать нужную модель на чатбот-арене.

А еще завтра в ЕУСПб (универе, где работаю) пройдет лекция (оф- и онлайн) "Когда ИИ надевает очки, или как мультимодальные языковые модели учатся видеть?" от нашего исследователя Александра Сергеева - это как раз по теме моих апрельских постов. Залейтайте! Ссылка на регу.

🔥10

332 views13:48

Введение в искусственный интеллект

А у меня..

1⃣ ..новые зумеры 😁 Мы с ними были на кружке NLP в субботу. Занятие было по мультимодальным моделям. Вел его исследователь Школы вычислительных наук ЕУСПб Александр Сергеев. Вот тут чат кружка - там постятся анонсы встреч.

2⃣ ..сакура на Литейном цветет. После кружка мы как раз пошли на нее посмотреть.

3⃣ ..месяц постов по мультимодальным моделям и в связи с этим ноутбучек по визуально-языковой модели Qwen 2.5 VL для запросов к картинкам. Ноутбук сделан по материалам Александра с заседания кружка.

4⃣ ..анонс открытой лекции «Тонкое искусство промпта: как эффективно общаться с языковыми моделями», которую я буду читать завтра в ЕУСПб. Если вы внимательно читаете мой канал, то местами вам будет скучновато 😅

5⃣ ..пустые строки между абзацами - Евгений, смотрите, я улучшаю свой UX 😇

#notebook #меропрИИятия

NLP P.S.

Этот чат — сообщество людей, интересующихся компьютерными методами анализа текстов.

Спам и оскорбления участников строго запрещены и караются блокировкой.

❤6

356 views10:12

Введение в искусственный интеллект

This media is not supported in your browser

VIEW IN TELEGRAM

0:52

325 views10:12

❤5

Введение в искусственный интеллект

Новоприбывшим

После наших с коллегами интенсивов с no-code приложениями в канал пришли ребята, которые не факт, что кодят. Поэтому я хочу немного пояснить вам за свой хэштег #notebook - т.е. ноутбуки с кодом, которые я сюда регулярно скидываю.

В программировании на Python (питоне - языке программирования, который является одним из самых популярных в мире, во многом потому что на нем есть простые и понятные инструменты для запуска искусственного интеллекта) ноутбуки, они же notebooks, это файлы с кодом, который можно запускать не весь сразу, а по частям. Запуск кода по частям полезен, например, при обработке данных - когда вы еще не очень понимаете, что хотите делать с данными, и пробуете разные методы.

В браузере можно запускать ноутбуки с кодом, не заморачиваясь с установкой программ для профессионального написания кода. Я пользуюсь приложением Google Colaboratory (он же колаб, Colab), но есть и другие. Колаб мне нравится тем, что достаточно зайти в свой гугл-аккаунт и можно создавать ноутбуки, запускать их и делиться ими прямо в браузере на гугл-диске (облачном хранилище файлов от Google). Вот здесь неплохое описание основ работы в колабе на русском языке.

Ну и вам не обязательно кодить, чтобы посмотреть мои ноутбуки - открываете файлы по ссылке и смотрите: код в ячейке и его результат под ячейкой. Но если вдруг вы хотите попробовать себя в программировании на Python, то я рекомендую вот этот тьюториал от Django Girls.

NB! Если будете кодить в колабе, то создавайте ячейку и пишите в нее код без вот этих стрелочек. То есть у вас будет не такое:

>>> name = 'Maria'
>>> name

а вот такое:

name = 'Maria'
name

И затем запускайте ячейку, жмякая на ▶.
Вопросы можно кидать в комментарии под этот пост - чем смогу, помогу.

#база

Google

Google Colab

🫡4

390 views09:34

Введение в искусственный интеллект

GOT-OCR2: Мультимодальная модель для распознавания текста
Майские прошли, шашлыки пожарены и съедены, пора продолжить пощение. Завершаю апрельскую тематику о мультимодальных моделях постом с обзором модельки GOT-OCR2.

OCR (optical character recognition) - это область на стыке компьютерной лингвистики и компьютерного зрения, которая занимается автоматическим распознаванием текста, символов на изображениях.

⬆ На входе: pdf или картинка.
⬇ На выходе: текст, который там изображен, причем хорошо бы, чтобы он был отформатирован как в оригинале.

Факторы, которые осложняют распознавание:
👅 разные и (в особенности) редкие языки,
🎼 символьные языки, например, нотная грамота,
🖋 рукописный текст и особенности почерка,
📰 старинные и редкие шрифты,
🌪сложная структура документа, например, разная ширина столбцов в таблице.

Я с моим давним соавтором Александром Ж.🐝 разбирала здесь две OCR библиотеки, основанные на машинном обучении: EasyOCR и Tesseract. Авторы библиотеки GOT-OCR2, основанной на мультимодальной языковой модели, предложили идею универсального распознавателя любых символов: General OCR Theory (общая теория распознавания символов).
Вместе с Александром Сергеевым, моим коллегой из ЕУСПБ, мы запустили GOT-OCR2 в Google Colab и…
Да, страницы вордовских файлов (или любых других текстовых редакторов), сохраненные как изображения, может хорошо. Улавливает структуру документа, если, например, две колонки. Также может ноты и формулы. Но… совсем не может, если качество изображения чуть хуже, чем скан или текстовый документ, переведенный в картинку. Да и для изображений в высоком качестве с привычной структурой проигрывает тому же EasyOCR.

В общем, чудеса (и общие теории всего) бывают понемногу. Но вот все равно - ноутбучек. Вдруг вам надо формулы попарсить или ноты.

ПС. А в следующем посте буду разбирать, как парсить сайты при помощи больших языковых моделей. Спойлер: это можно делать промптами - без кода. Но просто кинуть модели ссылку на чатбот-арене не получится.
Надеюсь, это было достаточно кликбейтно 😉 Stay tuned!

#notebook

Введение в искусственный интеллект

Сравнение инструментов OCR

Ранее мы с Александром писали про инструмент распознавания текста (OCR) Tesseract. Сегодня у нас новые карточки. На этот раз мы провели сравнение Тессеракта с двумя другими - ABBYY FineReader и EasyOCR. И поняли, что сравнивать…

❤5🔥4

338 views14:17

Введение в искусственный интеллект

Парсинг с LLM. Начало

Не так давно в Интернете завирусились видео, где ИИ-управляемый компьютер заходит на разные сайты, собирает с них нужную информацию и в итоге выполняет какую-нибудь задачу вроде бронирования лучшего отеля для отпуска. Мой внутренний маркетолог говорит, что это техгиганты вроде Microsoft выпустили на рынок версии сервисов, частично управляемых при помощи ИИ, и следом запустили эти вирусные видео. Но это не значит, что я думаю, что ИИ в гаджетах - фу. Я давно подсела на смартфоны Pixel от Google, которые напичканы ИИшкой. И это реально ощущается. Например, он фильтрует спам-звонки, а в режиме “Без звука” все равно звонит, если это кто-то из семьи. И на фотках у него я всегда красотка 💅 Ну почти 😀 Мне, кстати, из вирусных видео больше всего понравилось то, где одна программа позвонила другой и они “перешли на на высокоскоростную аудиосвязь под названием GGWave”, которая для человеческого уха звучит как загрузка модема из нулевых - чисто восстание машин.

И кажется, что спарсить данные с сайта при помощи ИИ - это уже вполне типовая задача: пусть модель пройдет по ссылке и выполнит задание. Но тут мы натыкаемся на несколько технических сложностей..

Парсинг сайта - это задача, которая включает несколько подзадач:
👆 пройти по ссылке, т.е. отправить запрос в Интернет,
✌ получить ответ сервера в виде веб-страницы,
🖖 прочитать HTML-код с веб-страницы, а также другие виды данных и кода, если они там есть (это могут быть JSON, XML, JavaScript и т.д.),
✋ выбрать нужную информацию,
👋 передать информацию пользователю в запрошенном виде.

Такие универсальные парсеры уже созданы. Но они не в “свободном доступе”.

🦾 GPT4 с плагином WebPilot, который есть только в платных версиях ChatGPT, делает маркетинговые исследования, отчеты, проводит анализ данных или просто структурирует данные на странице по вашему запросу (например, “выведи списком все комментарии к товару”). Если хотите узнать о нем побольше, спросите GPT4 на чатбот-арене.

🦿 Microsoft Copilot, встроенный в Windows 11, помогает анализировать содержимое веб-страниц (вот, например, выбрать вам самый выгодный отель), но тоже не является полноценным парсером. Он действует как ваш секретарь и помощник в рутинных, привычных задачах, спектр которых ограничен тем, что производители смогли проверить и оценить, как “выполняется на достаточно высоком уровне, чтобы запустить это в прод”.

А нам, исследователям, нужно несколько иное: собрать из массы неструктурированных данных на веб-странице то, что нужно именно нам, и как-то это уложить в структуру, таблицу, например.

На этой ноте вводный пост в эту тему заканчиваю. Надеюсь, забайтила 😉
Кстати, кто на чатбот-арене с моделями общается, спросите у o3, как с нею парсить веб. Возможно, вас ее ответ удовлетворит В своих дальнейших постах я буду делать примерно то же самое, просто разберу конкретные кейсы и обойду подводные, о которых o3 умалчивает.

#эссеИИстика

Афиша

Два ИИ-помощника созвонились и пообщались на непонятном людям языке

Компания-разработчик ElevenLabs выпустила ролик о коммуникационной системе GibberLink. В нем один виртуальный ассистент с искусственным интеллектом звонит другому.

🔥6❤1

350 views08:46

About

Blog

Apps

Platform