My prompt is longer than yours. Или зачем нужны такие длинные промпты
Я тут немного пропала и не постила, а все потому что готовлю серию мероприятий - причем не только в Питере. О мероприятиях напишу в следующем посте, а сейчас пора добить февральские темы.
Почему не нужно следовать интуитивному желанию написать промпт для большой языковой модели так, как хочется?.. А почему не нужно? Если вас устроил ответ модели, то все ок, вы написали хороший короткий промпт. Я считаю вредным меряться длиной промптов, Хирша и прочих KPI, т.к. люди уже давно доказали, что любую метрику можно хакнуть.
Но, если вас все же не устроил ответ модели, значит, это повод задуматься о несовершенстве не только самой модели, но и вашего промпта. Ибо “что посеешь, то и пожнешь”, или “мусор на входе - мусор на выходе” (garbage in - garbage out, гАбидж ин гАбидж Аут). Можно, не удаляя диалога с моделью, объяснить ей, чем вас не устроил ее ответ, и попросить сделать задание снова. Но, если это не сработало, промпт можно доработать вот так.
💫 Дать развернутую инструкцию, что и как нужно делать, подробно описать результат, которого ждете. В общем не скупиться на слова. А если, говоря словами известной песни, words don’t come easy to you, или слова нелегко приходят на ум, попросите саму модель написать вам промпт к вашей задаче. Затем перезапустите диалог и проверьте ее промпт. Если все еще недостаточно хорошо, скорректируйте результат вручную или попросите модель снова отредактировать промпт. Получится модель, которая кусает сама себя за промпт 🐉
💫 Попробовать разные речевые жанры. Например, для доработки научного текста помогают формальный язык и вежливые обращения (пожалуйста, будь добра, спасибо), можно вычитать в своем промпте опечатки и стилистические ошибки. Это связано с тем, кто каждое слово в диалоге подтягивает за собой статистически значимые связи с другими словами. Формальный язык обычно используют в энциклопедиях, новостях; вежливые обращения “подтягивают” благожелательность. А вот для креативных задач вроде написания сказки подойдут всякие шутки-прибаутки.
💫 Попробовать внушить модели, что она некая личность, персонаж и говорит от его лица; попросить ее поиграть с вами в ролевую игру. Опять же персонаж зависит от жанра, которому будет принадлежать желаемый вами сгенерированный текст. Этот эффект усилит то, что вы выражаете в собственном тоне. Это, кстати, один из методов хакинга моделей - они “заигрываются” и начинают подтягивать недопустимую информацию. Но разработчики усиленно работают над тем, чтобы такого не происходило.
💫 Дать модели один или несколько хороших примеров. Это техника few-shot (фью шот) промптинга. Начинайте с одного примера, а если его недостаточно, то попробуйте увеличить число примеров, но не сильно. Судя по кейсам, с которыми я знакома, восемь-десять примеров - это максимум.
💫 Дайте модели текст-опору, из которого она почерпнет факты и информацию, на которую будет опираться. Это помогает, если у вас узкая предметная область или модель ошибается в фактах в вашей задаче. Если помните, что такое machine reading comprehension (машинное усвоение навыка чтения), то вычитывать информацию и генерить на ее основе текст - это базовая функция языковых моделей, с ней они справляются успешно.
Хотя можно попробовать и просто сменить модель. Например, известно, что Claude Sonnet хорошо умеет писать стихи, а ChatGPT решать математику.
Всем удачного промптинга! 🍀
#спискИИ
Я тут немного пропала и не постила, а все потому что готовлю серию мероприятий - причем не только в Питере. О мероприятиях напишу в следующем посте, а сейчас пора добить февральские темы.
Почему не нужно следовать интуитивному желанию написать промпт для большой языковой модели так, как хочется?.. А почему не нужно? Если вас устроил ответ модели, то все ок, вы написали хороший короткий промпт. Я считаю вредным меряться длиной промптов, Хирша и прочих KPI, т.к. люди уже давно доказали, что любую метрику можно хакнуть.
Но, если вас все же не устроил ответ модели, значит, это повод задуматься о несовершенстве не только самой модели, но и вашего промпта. Ибо “что посеешь, то и пожнешь”, или “мусор на входе - мусор на выходе” (garbage in - garbage out, гАбидж ин гАбидж Аут). Можно, не удаляя диалога с моделью, объяснить ей, чем вас не устроил ее ответ, и попросить сделать задание снова. Но, если это не сработало, промпт можно доработать вот так.
💫 Дать развернутую инструкцию, что и как нужно делать, подробно описать результат, которого ждете. В общем не скупиться на слова. А если, говоря словами известной песни, words don’t come easy to you, или слова нелегко приходят на ум, попросите саму модель написать вам промпт к вашей задаче. Затем перезапустите диалог и проверьте ее промпт. Если все еще недостаточно хорошо, скорректируйте результат вручную или попросите модель снова отредактировать промпт. Получится модель, которая кусает сама себя за промпт 🐉
💫 Попробовать разные речевые жанры. Например, для доработки научного текста помогают формальный язык и вежливые обращения (пожалуйста, будь добра, спасибо), можно вычитать в своем промпте опечатки и стилистические ошибки. Это связано с тем, кто каждое слово в диалоге подтягивает за собой статистически значимые связи с другими словами. Формальный язык обычно используют в энциклопедиях, новостях; вежливые обращения “подтягивают” благожелательность. А вот для креативных задач вроде написания сказки подойдут всякие шутки-прибаутки.
💫 Попробовать внушить модели, что она некая личность, персонаж и говорит от его лица; попросить ее поиграть с вами в ролевую игру. Опять же персонаж зависит от жанра, которому будет принадлежать желаемый вами сгенерированный текст. Этот эффект усилит то, что вы выражаете в собственном тоне. Это, кстати, один из методов хакинга моделей - они “заигрываются” и начинают подтягивать недопустимую информацию. Но разработчики усиленно работают над тем, чтобы такого не происходило.
💫 Дать модели один или несколько хороших примеров. Это техника few-shot (фью шот) промптинга. Начинайте с одного примера, а если его недостаточно, то попробуйте увеличить число примеров, но не сильно. Судя по кейсам, с которыми я знакома, восемь-десять примеров - это максимум.
💫 Дайте модели текст-опору, из которого она почерпнет факты и информацию, на которую будет опираться. Это помогает, если у вас узкая предметная область или модель ошибается в фактах в вашей задаче. Если помните, что такое machine reading comprehension (машинное усвоение навыка чтения), то вычитывать информацию и генерить на ее основе текст - это базовая функция языковых моделей, с ней они справляются успешно.
Хотя можно попробовать и просто сменить модель. Например, известно, что Claude Sonnet хорошо умеет писать стихи, а ChatGPT решать математику.
Всем удачного промптинга! 🍀
#спискИИ
🔥3😎1
Дорогие подпИИсчики! 💐
Хочу поделиться своими планами на апрель, т.к., возможно, вы захотите ко мне присоединиться. А план такой: провести уже наконец-то обещанные в кружочках канала интенсивы 🤪
Вот честно, если б я когда-то не обещала, то сейчас наверняка делала бы что-то другое 😁
Часть интенсивов у нас получилась по договоренности с вузами: вход строго по инвайтам, фейс-, дресс-, эйдж- и даже нэйл- (nail, ногти) контроль 😷👮 А вот два - полный разгуляй, хиппи-стайл и вообще приходи, кто хочет 👨🎤 но... надо будет зарегистрироваться в LeaderID, т.к. проводить их мы будем в Точках кипения.
Итак, барабанная дробь, приходите ко мнелечиться учиться на интенсив по здоровой генерации научных работ при помощи ИИ "Цифровые инструменты в социальных и гуманитарных науках":
08.04. с 10:00 до 14:00 - Точка кипения в Ельцин-Центре, г. Екатеринбург - рега
10.04. с 12:00 до 16:00 - Точка кипения в Технопарке, г. Тюмень - рега
По традиции в рекламное сообщение нужно добавить отзывы довольных клиентов. Но.. это не рекламное сообщение, а комьюнити-менеджмент. Ведь я зову вас стать частью сообщества ученых, которые бережно трансформируют науку под давлением технического прогресса 🧐👾
Но довольное комьюнити я вам все-таки буду присылать в свой канал в виде фоточек с интенсивов. Потому что мне давно хотелось повод под вот эту песню выкладывать, как мы с искусственным интеллектом тусим по разным городам.
Ах да, это бисплатна 🤑 Всем, кто досидит до конца, выдадим электронный сертификат участника от ЕУСПб 📜
В общем, увидимся!
#меропрИИятия
Хочу поделиться своими планами на апрель, т.к., возможно, вы захотите ко мне присоединиться. А план такой: провести уже наконец-то обещанные в кружочках канала интенсивы 🤪
Вот честно, если б я когда-то не обещала, то сейчас наверняка делала бы что-то другое 😁
Часть интенсивов у нас получилась по договоренности с вузами: вход строго по инвайтам, фейс-, дресс-, эйдж- и даже нэйл- (nail, ногти) контроль 😷👮 А вот два - полный разгуляй, хиппи-стайл и вообще приходи, кто хочет 👨🎤 но... надо будет зарегистрироваться в LeaderID, т.к. проводить их мы будем в Точках кипения.
Итак, барабанная дробь, приходите ко мне
08.04. с 10:00 до 14:00 - Точка кипения в Ельцин-Центре, г. Екатеринбург - рега
10.04. с 12:00 до 16:00 - Точка кипения в Технопарке, г. Тюмень - рега
По традиции в рекламное сообщение нужно добавить отзывы довольных клиентов. Но.. это не рекламное сообщение, а комьюнити-менеджмент. Ведь я зову вас стать частью сообщества ученых, которые бережно трансформируют науку под давлением технического прогресса 🧐👾
Но довольное комьюнити я вам все-таки буду присылать в свой канал в виде фоточек с интенсивов. Потому что мне давно хотелось повод под вот эту песню выкладывать, как мы с искусственным интеллектом тусим по разным городам.
Ах да, это бисплатна 🤑 Всем, кто досидит до конца, выдадим электронный сертификат участника от ЕУСПб 📜
В общем, увидимся!
#меропрИИятия
leader-id.ru
Европейский университет СПб. Цифровые инструменты в социальных и гуманитарных науках: ИИ
Leader-ID — платформа для лидеров. Здесь 4+ млн пользователей, бесплатные образовательные мероприятия и коворкинги. Leader-ID помогает запускать технологические проекты.
🔥4
Введение в искусственный интеллект pinned «Дорогие подпИИсчики! 💐 Хочу поделиться своими планами на апрель, т.к., возможно, вы захотите ко мне присоединиться. А план такой: провести уже наконец-то обещанные в кружочках канала интенсивы 🤪 Вот честно, если б я когда-то не обещала, то сейчас наверняка…»
Апрельское пощение будет посвящено не только моему турне, но и мультимодальным языковым моделям. Начну с поста, который мы с Артемом сделали по следам первого заседания Тюменского NLP-кружка Quick-to-Code. Здесь в карточках - введение в моделирование звучащей речи при помощи нейросетей.
#карточкИИ #база
#карточкИИ #база
🔥5
Это олимпиада для поступающих в магистратуру ПАНДАН, которой я сейчас соруковожу с Иваном Бибиловым из Яндекс Образования.
Forwarded from Школа вычислительных социальных наук в Европейском
Две хорошие новости про Олимпиаду ADAlympics от команды программы «Прикладной Анализ Данных и Искусственный Интеллект»
новость 1: Коллеги написали несколько советов, как не бояться олимпиадных заданий и на что обращать внимание в первую очередь
новость 2: Прием заявок на олимпиаду продлили до 6 апреля, поэтому советы придутся как раз кстати — у вас еще целых 12 дней на то, чтобы прислать нам эссе✉️
Слово коллегам:
В первом задании олимпиады Adalympics нужно проанализировать сводные графики и диаграммы по разным показателям сиротства в России. (Данные заботливо предоставил официальный партнер ADAlympics, дата-журналистский проект «Если быть точным»)
На что стоит ориентироваться при написании решения:
⏺ Подойдите к ответам творчески и аналитически. Попытайтесь в свободной форме подумать о предложенной задаче.
⏺ Предложите своё объяснение проблемы, поставленной в задании.
⏺ Обратите внимание на разницы представленных показателей. Возможно, они дадут вам больше информации для ответа.
⏺ Как вы можете объяснить представленную динамику? Попробуйте поискать источники, помогающие объяснить это.
⏺ Возможно, вы знаете теории, которые могут помочь объяснить предложенную вами догадку? Расскажите нам о ней в тексте ответа.
Что важно для проверяющей комиссии:
📍 Прежде всего, важно то, как вы думаете. Изложите ваши рассуждения в тексте, постарайтесь писать структурировано и последовательно.
📍 Отвечайте прямо на поставленный вопрос задания, дополните свой ответ пояснениями и обоснованиями.
📍 Используйте и ссылайтесь на источники. Исследователи опираются на чужие исследования. Найдите, изучите, перескажите их выводы и находки. Работа с источниками — необходимая часть работы исследователя и аналитика.
📍 И не забывайте указывать ссылки 🧡
После таких советов олимпиадное задание кажется уже не таким и сложным✨
Ждем ваши заявки до 6 апреля
Подробности на сайте ADAlympics
⏺
новость 1: Коллеги написали несколько советов, как не бояться олимпиадных заданий и на что обращать внимание в первую очередь
новость 2: Прием заявок на олимпиаду продлили до 6 апреля, поэтому советы придутся как раз кстати — у вас еще целых 12 дней на то, чтобы прислать нам эссе
Слово коллегам:
Олимпиадные задания часто кажутся сложными, требующими ответственности и вызывающими дискомфорт из-за соревновательного духа. Отчасти это правда. Но только отчасти. Участвуя в олимпиаде, вы проверяете свои навыки в решении нестандартных задач и оцениваете текущие знания. Такая практика важна для самоанализа и подготовки к реальным ситуациям, например, к поиску работы, стажировок и других интересных возможностей. Собеседования нужны не только для трудоустройства, но и для того, чтобы понять, насколько вы готовы справляться с нетипичными задачами в профессиональной сфере. Так и олимпиада — это хороший способ потренироваться.
В первом задании олимпиады Adalympics нужно проанализировать сводные графики и диаграммы по разным показателям сиротства в России. (Данные заботливо предоставил официальный партнер ADAlympics, дата-журналистский проект «Если быть точным»)
На что стоит ориентироваться при написании решения:
Что важно для проверяющей комиссии:
После таких советов олимпиадное задание кажется уже не таким и сложным
Ждем ваши заявки до 6 апреля
Подробности на сайте ADAlympics
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Мультимодальные модели и другие скороговорки 21 века
Апрельское пощение я буду делать без анонсов постов, т.к. я в дороге и тут случается много неожиданного.
Вот ведь что такое мультимодальность? Мульти (multi), с английского, “много”; модальность (modality), с английского, ну в общем-то модальность. Тут нужен лингвистический контекст.
В лингвистике модальность высказывания - это собирательное понятие, которое указывает на то, что в процессе коммуникации важно не только, какие звуки мы произносим или буквы пишем/печатаем, но и с какой интонацией, использовали ли капслок, говорим ли о реальных вещах или воображаем, какие эмоции при этом у нас на лице, как мы жестикулируем, показываем ли пальцем на картинку, а может, вообще поем. Модальность - это все дополнительные источники информации, которые наслаиваются на сообщение, добавляя ему смыслы.
В компьютерной лингвистике мультимодальные языковые модели могут анализировать и генерировать данные из разных источников: не только печатный текст, но и звуковые файлы, изображения и видео. Т.е. используют четыре модальности, доступные сейчас почти каждому гаджету: текст, аудио, графика и видео.
Первыми появились, конечно, текстовые языковые модели (text-to-text, текст на входе и на выходе), т.к. у них относительно простой принцип работы. Потом для обучения текстовых моделей стали использовать архитектуру “трансформер”. Затем примерно параллельно в задачах распознавания и генерации звуков и изображений начали применять трансформеры таким образом, чтобы кодирование текстовой информации было связано с аудио и графическими данными. Ведь то и то можно представить в виде числового ряда и поместить в одну большую таблицу - матрицу эмбеддингов (векторов, в которых сжато хранится информация обо всех данных, с которыми встретилась модель). Аудио - это точки (Герцы, зарегистрированные датчиками частоты), графика - цвет пикселя, например, в палитре RGB, где он представлен тремя числами. Последними подключились генераторы видео, т.к. они требуют обработки большого объема данных.
В моделях (и их названиях) заложено, что и во что должно перетекать:
🗣 text-to-speech (текст ту спич, текст-в речь): генерация звучащей речи, озвучка текста
📝 speech-to-text (спич ту текст, речь в текст): расшифровка звучащей речи
🧑🎨 text-to-image (текст ту Имидж, текст в изображение), text-to-video (текст ту вИдео, текст в видео): генерация изображения или видео на основе текста-запроса (промпта)
👩🎤 image-text-to-text: генерация текста по запросу, в котором есть и изображение, и текст
А также image-to-image, video-to-text, text-to-3D и многие другие. Берем разные модальности и придумываем задачу, в которой они связаны, например, распознать объекты на картинке и назвать их словами - вот вам и image-to-text. Появляются и модели-универсалы, которые могут вообще во все модальности сразу: any-to-any (Эни ту Эни, любые в любые). На платформе HuggingFace, где живут языковые модели, можно посмотреть на все разнообразие мультимодальных задач.
А я завершаю пост парой мультимодальных ноутбучеков, которые можно запустить в Google Colaboratory:
text-to-speech
text-to-image
image-text-to-text
#база #notebook
Апрельское пощение я буду делать без анонсов постов, т.к. я в дороге и тут случается много неожиданного.
Вот ведь что такое мультимодальность? Мульти (multi), с английского, “много”; модальность (modality), с английского, ну в общем-то модальность. Тут нужен лингвистический контекст.
В лингвистике модальность высказывания - это собирательное понятие, которое указывает на то, что в процессе коммуникации важно не только, какие звуки мы произносим или буквы пишем/печатаем, но и с какой интонацией, использовали ли капслок, говорим ли о реальных вещах или воображаем, какие эмоции при этом у нас на лице, как мы жестикулируем, показываем ли пальцем на картинку, а может, вообще поем. Модальность - это все дополнительные источники информации, которые наслаиваются на сообщение, добавляя ему смыслы.
В компьютерной лингвистике мультимодальные языковые модели могут анализировать и генерировать данные из разных источников: не только печатный текст, но и звуковые файлы, изображения и видео. Т.е. используют четыре модальности, доступные сейчас почти каждому гаджету: текст, аудио, графика и видео.
Первыми появились, конечно, текстовые языковые модели (text-to-text, текст на входе и на выходе), т.к. у них относительно простой принцип работы. Потом для обучения текстовых моделей стали использовать архитектуру “трансформер”. Затем примерно параллельно в задачах распознавания и генерации звуков и изображений начали применять трансформеры таким образом, чтобы кодирование текстовой информации было связано с аудио и графическими данными. Ведь то и то можно представить в виде числового ряда и поместить в одну большую таблицу - матрицу эмбеддингов (векторов, в которых сжато хранится информация обо всех данных, с которыми встретилась модель). Аудио - это точки (Герцы, зарегистрированные датчиками частоты), графика - цвет пикселя, например, в палитре RGB, где он представлен тремя числами. Последними подключились генераторы видео, т.к. они требуют обработки большого объема данных.
В моделях (и их названиях) заложено, что и во что должно перетекать:
🗣 text-to-speech (текст ту спич, текст-в речь): генерация звучащей речи, озвучка текста
📝 speech-to-text (спич ту текст, речь в текст): расшифровка звучащей речи
🧑🎨 text-to-image (текст ту Имидж, текст в изображение), text-to-video (текст ту вИдео, текст в видео): генерация изображения или видео на основе текста-запроса (промпта)
👩🎤 image-text-to-text: генерация текста по запросу, в котором есть и изображение, и текст
А также image-to-image, video-to-text, text-to-3D и многие другие. Берем разные модальности и придумываем задачу, в которой они связаны, например, распознать объекты на картинке и назвать их словами - вот вам и image-to-text. Появляются и модели-универсалы, которые могут вообще во все модальности сразу: any-to-any (Эни ту Эни, любые в любые). На платформе HuggingFace, где живут языковые модели, можно посмотреть на все разнообразие мультимодальных задач.
А я завершаю пост парой мультимодальных ноутбучеков, которые можно запустить в Google Colaboratory:
text-to-speech
text-to-image
image-text-to-text
#база #notebook
Telegram
Введение в искусственный интеллект
Апрельское пощение будет посвящено не только моему турне, но и мультимодальным языковым моделям. Начну с поста, который мы с Артемом сделали по следам первого заседания Тюменского NLP-кружка Quick-to-Code. Здесь в карточках - введение в моделирование звучащей…
🔥5
Немного апдейтов:
1⃣ Вчера я психанула на модель Llava "image-text-to-text", т.к. ноутбучек, который всегда запускался, сказал, что в нем ошибки в установке библиотек. Но сегодня, бахнув кофейку, я таки его запустила. И... вот еще одна мультимодальная модель, которая запускается в Google Colaboratory (а не на сотне Nvidia GeForce за 300К 💰 в наносекунду): зэ ноутбук (я его и в прошлый пост сейчас добавлю).
2⃣ Не устаю напоминать (особенно после выпитого ☕), что у нас завтра интенсив в Екатеринбурге, а 10-го в Тюмени. Если вы еще не записались + можете + хочете прийти, то вот мой вдохновляющий кружок из Еката. И ссылки на регу (можно регаться с ВК ID):
➖ 8 апреля 10:00-14:00 Точка кипения в Ельцин-центре, Екатеринбург: рега
➖ 10 апреля 12:00 - 16:00 Точка кипения в Технопарке, Тюмень: рега
3⃣ В апреле в Европейском университете в Санкт-Петербурге, где я сейчас работаю, проходят дни открытых дверей. Об этом тоже в кружочке и на сайте ЕУСПб. Мероприятия туть.
#меропрИИятия
1⃣ Вчера я психанула на модель Llava "image-text-to-text", т.к. ноутбучек, который всегда запускался, сказал, что в нем ошибки в установке библиотек. Но сегодня, бахнув кофейку, я таки его запустила. И... вот еще одна мультимодальная модель, которая запускается в Google Colaboratory (а не на сотне Nvidia GeForce за 300К 💰 в наносекунду): зэ ноутбук (я его и в прошлый пост сейчас добавлю).
2⃣ Не устаю напоминать (особенно после выпитого ☕), что у нас завтра интенсив в Екатеринбурге, а 10-го в Тюмени. Если вы еще не записались + можете + хочете прийти, то вот мой вдохновляющий кружок из Еката. И ссылки на регу (можно регаться с ВК ID):
➖ 8 апреля 10:00-14:00 Точка кипения в Ельцин-центре, Екатеринбург: рега
➖ 10 апреля 12:00 - 16:00 Точка кипения в Технопарке, Тюмень: рега
3⃣ В апреле в Европейском университете в Санкт-Петербурге, где я сейчас работаю, проходят дни открытых дверей. Об этом тоже в кружочке и на сайте ЕУСПб. Мероприятия туть.
#меропрИИятия
Google
image-text-to-text.ipynb
Colab notebook
🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
❤14
Турне по регионам закончилось еще в понедельник, но с него осталось много материалов, идей, контактов и запросов, на которые я попробую ответить в следующих постах. А пока делюсь с вами своей любимой фотой из Точки кипения в Тюмени - это я показываю, как правильно тыкать в экран планшета, чтобы выбрать нужную модель на чатбот-арене.
А еще завтра в ЕУСПб (универе, где работаю) пройдет лекция (оф- и онлайн) "Когда ИИ надевает очки, или как мультимодальные языковые модели учатся видеть?" от нашего исследователя Александра Сергеева - это как раз по теме моих апрельских постов. Залейтайте! Ссылка на регу.
А еще завтра в ЕУСПб (универе, где работаю) пройдет лекция (оф- и онлайн) "Когда ИИ надевает очки, или как мультимодальные языковые модели учатся видеть?" от нашего исследователя Александра Сергеева - это как раз по теме моих апрельских постов. Залейтайте! Ссылка на регу.
🔥10
А у меня..
1⃣ ..новые зумеры 😁 Мы с ними были на кружке NLP в субботу. Занятие было по мультимодальным моделям. Вел его исследователь Школы вычислительных наук ЕУСПб Александр Сергеев. Вот тут чат кружка - там постятся анонсы встреч.
2⃣ ..сакура на Литейном цветет. После кружка мы как раз пошли на нее посмотреть.
3⃣ ..месяц постов по мультимодальным моделям и в связи с этим ноутбучек по визуально-языковой модели Qwen 2.5 VL для запросов к картинкам. Ноутбук сделан по материалам Александра с заседания кружка.
4⃣ ..анонс открытой лекции «Тонкое искусство промпта: как эффективно общаться с языковыми моделями», которую я буду читать завтра в ЕУСПб. Если вы внимательно читаете мой канал, то местами вам будет скучновато 😅
5⃣ ..пустые строки между абзацами - Евгений, смотрите, я улучшаю свой UX 😇
#notebook #меропрИИятия
1⃣ ..новые зумеры 😁 Мы с ними были на кружке NLP в субботу. Занятие было по мультимодальным моделям. Вел его исследователь Школы вычислительных наук ЕУСПб Александр Сергеев. Вот тут чат кружка - там постятся анонсы встреч.
2⃣ ..сакура на Литейном цветет. После кружка мы как раз пошли на нее посмотреть.
3⃣ ..месяц постов по мультимодальным моделям и в связи с этим ноутбучек по визуально-языковой модели Qwen 2.5 VL для запросов к картинкам. Ноутбук сделан по материалам Александра с заседания кружка.
4⃣ ..анонс открытой лекции «Тонкое искусство промпта: как эффективно общаться с языковыми моделями», которую я буду читать завтра в ЕУСПб. Если вы внимательно читаете мой канал, то местами вам будет скучновато 😅
5⃣ ..пустые строки между абзацами - Евгений, смотрите, я улучшаю свой UX 😇
#notebook #меропрИИятия
Telegram
NLP P.S.
Этот чат — сообщество людей, интересующихся компьютерными методами анализа текстов.
Спам и оскорбления участников строго запрещены и караются блокировкой.
Спам и оскорбления участников строго запрещены и караются блокировкой.
❤6
This media is not supported in your browser
VIEW IN TELEGRAM
❤5
Новоприбывшим
После наших с коллегами интенсивов с no-code приложениями в канал пришли ребята, которые не факт, что кодят. Поэтому я хочу немного пояснить вам за свой хэштег #notebook - т.е. ноутбуки с кодом, которые я сюда регулярно скидываю.
В программировании на Python (питоне - языке программирования, который является одним из самых популярных в мире, во многом потому что на нем есть простые и понятные инструменты для запуска искусственного интеллекта) ноутбуки, они же notebooks, это файлы с кодом, который можно запускать не весь сразу, а по частям. Запуск кода по частям полезен, например, при обработке данных - когда вы еще не очень понимаете, что хотите делать с данными, и пробуете разные методы.
В браузере можно запускать ноутбуки с кодом, не заморачиваясь с установкой программ для профессионального написания кода. Я пользуюсь приложением Google Colaboratory (он же колаб, Colab), но есть и другие. Колаб мне нравится тем, что достаточно зайти в свой гугл-аккаунт и можно создавать ноутбуки, запускать их и делиться ими прямо в браузере на гугл-диске (облачном хранилище файлов от Google). Вот здесь неплохое описание основ работы в колабе на русском языке.
Ну и вам не обязательно кодить, чтобы посмотреть мои ноутбуки - открываете файлы по ссылке и смотрите: код в ячейке и его результат под ячейкой. Но если вдруг вы хотите попробовать себя в программировании на Python, то я рекомендую вот этот тьюториал от Django Girls.
NB! Если будете кодить в колабе, то создавайте ячейку и пишите в нее код без вот этих стрелочек. То есть у вас будет не такое:
а вот такое:
И затем запускайте ячейку, жмякая на ▶.
Вопросы можно кидать в комментарии под этот пост - чем смогу, помогу.
#база
После наших с коллегами интенсивов с no-code приложениями в канал пришли ребята, которые не факт, что кодят. Поэтому я хочу немного пояснить вам за свой хэштег #notebook - т.е. ноутбуки с кодом, которые я сюда регулярно скидываю.
В программировании на Python (питоне - языке программирования, который является одним из самых популярных в мире, во многом потому что на нем есть простые и понятные инструменты для запуска искусственного интеллекта) ноутбуки, они же notebooks, это файлы с кодом, который можно запускать не весь сразу, а по частям. Запуск кода по частям полезен, например, при обработке данных - когда вы еще не очень понимаете, что хотите делать с данными, и пробуете разные методы.
В браузере можно запускать ноутбуки с кодом, не заморачиваясь с установкой программ для профессионального написания кода. Я пользуюсь приложением Google Colaboratory (он же колаб, Colab), но есть и другие. Колаб мне нравится тем, что достаточно зайти в свой гугл-аккаунт и можно создавать ноутбуки, запускать их и делиться ими прямо в браузере на гугл-диске (облачном хранилище файлов от Google). Вот здесь неплохое описание основ работы в колабе на русском языке.
Ну и вам не обязательно кодить, чтобы посмотреть мои ноутбуки - открываете файлы по ссылке и смотрите: код в ячейке и его результат под ячейкой. Но если вдруг вы хотите попробовать себя в программировании на Python, то я рекомендую вот этот тьюториал от Django Girls.
NB! Если будете кодить в колабе, то создавайте ячейку и пишите в нее код без вот этих стрелочек. То есть у вас будет не такое:
>>> name = 'Maria'
>>> name
а вот такое:
name = 'Maria'
name
И затем запускайте ячейку, жмякая на ▶.
Вопросы можно кидать в комментарии под этот пост - чем смогу, помогу.
#база
Google
Google Colab
🫡4
GOT-OCR2: Мультимодальная модель для распознавания текста
Майские прошли, шашлыки пожарены и съедены, пора продолжить пощение. Завершаю апрельскую тематику о мультимодальных моделях постом с обзором модельки GOT-OCR2.
OCR (optical character recognition) - это область на стыке компьютерной лингвистики и компьютерного зрения, которая занимается автоматическим распознаванием текста, символов на изображениях.
⬆ На входе: pdf или картинка.
⬇ На выходе: текст, который там изображен, причем хорошо бы, чтобы он был отформатирован как в оригинале.
Факторы, которые осложняют распознавание:
👅 разные и (в особенности) редкие языки,
🎼 символьные языки, например, нотная грамота,
🖋 рукописный текст и особенности почерка,
📰 старинные и редкие шрифты,
🌪сложная структура документа, например, разная ширина столбцов в таблице.
Я с моим давним соавтором Александром Ж.🐝 разбирала здесь две OCR библиотеки, основанные на машинном обучении: EasyOCR и Tesseract. Авторы библиотеки GOT-OCR2, основанной на мультимодальной языковой модели, предложили идею универсального распознавателя любых символов: General OCR Theory (общая теория распознавания символов).
Вместе с Александром Сергеевым, моим коллегой из ЕУСПБ, мы запустили GOT-OCR2 в Google Colab и…
Да, страницы вордовских файлов (или любых других текстовых редакторов), сохраненные как изображения, может хорошо. Улавливает структуру документа, если, например, две колонки. Также может ноты и формулы. Но… совсем не может, если качество изображения чуть хуже, чем скан или текстовый документ, переведенный в картинку. Да и для изображений в высоком качестве с привычной структурой проигрывает тому же EasyOCR.
В общем, чудеса (и общие теории всего) бывают понемногу. Но вот все равно - ноутбучек. Вдруг вам надо формулы попарсить или ноты.
ПС. А в следующем посте буду разбирать, как парсить сайты при помощи больших языковых моделей. Спойлер: это можно делать промптами - без кода. Но просто кинуть модели ссылку на чатбот-арене не получится.
Надеюсь, это было достаточно кликбейтно 😉 Stay tuned!
#notebook
Майские прошли, шашлыки пожарены и съедены, пора продолжить пощение. Завершаю апрельскую тематику о мультимодальных моделях постом с обзором модельки GOT-OCR2.
OCR (optical character recognition) - это область на стыке компьютерной лингвистики и компьютерного зрения, которая занимается автоматическим распознаванием текста, символов на изображениях.
⬆ На входе: pdf или картинка.
⬇ На выходе: текст, который там изображен, причем хорошо бы, чтобы он был отформатирован как в оригинале.
Факторы, которые осложняют распознавание:
👅 разные и (в особенности) редкие языки,
🎼 символьные языки, например, нотная грамота,
🖋 рукописный текст и особенности почерка,
📰 старинные и редкие шрифты,
🌪сложная структура документа, например, разная ширина столбцов в таблице.
Я с моим давним соавтором Александром Ж.🐝 разбирала здесь две OCR библиотеки, основанные на машинном обучении: EasyOCR и Tesseract. Авторы библиотеки GOT-OCR2, основанной на мультимодальной языковой модели, предложили идею универсального распознавателя любых символов: General OCR Theory (общая теория распознавания символов).
Вместе с Александром Сергеевым, моим коллегой из ЕУСПБ, мы запустили GOT-OCR2 в Google Colab и…
Да, страницы вордовских файлов (или любых других текстовых редакторов), сохраненные как изображения, может хорошо. Улавливает структуру документа, если, например, две колонки. Также может ноты и формулы. Но… совсем не может, если качество изображения чуть хуже, чем скан или текстовый документ, переведенный в картинку. Да и для изображений в высоком качестве с привычной структурой проигрывает тому же EasyOCR.
В общем, чудеса (и общие теории всего) бывают понемногу. Но вот все равно - ноутбучек. Вдруг вам надо формулы попарсить или ноты.
ПС. А в следующем посте буду разбирать, как парсить сайты при помощи больших языковых моделей. Спойлер: это можно делать промптами - без кода. Но просто кинуть модели ссылку на чатбот-арене не получится.
Надеюсь, это было достаточно кликбейтно 😉 Stay tuned!
#notebook
Telegram
Введение в искусственный интеллект
Сравнение инструментов OCR
Ранее мы с Александром писали про инструмент распознавания текста (OCR) Tesseract. Сегодня у нас новые карточки. На этот раз мы провели сравнение Тессеракта с двумя другими - ABBYY FineReader и EasyOCR. И поняли, что сравнивать…
Ранее мы с Александром писали про инструмент распознавания текста (OCR) Tesseract. Сегодня у нас новые карточки. На этот раз мы провели сравнение Тессеракта с двумя другими - ABBYY FineReader и EasyOCR. И поняли, что сравнивать…
❤5🔥4
Парсинг с LLM. Начало
Не так давно в Интернете завирусились видео, где ИИ-управляемый компьютер заходит на разные сайты, собирает с них нужную информацию и в итоге выполняет какую-нибудь задачу вроде бронирования лучшего отеля для отпуска. Мой внутренний маркетолог говорит, что это техгиганты вроде Microsoft выпустили на рынок версии сервисов, частично управляемых при помощи ИИ, и следом запустили эти вирусные видео. Но это не значит, что я думаю, что ИИ в гаджетах - фу. Я давно подсела на смартфоны Pixel от Google, которые напичканы ИИшкой. И это реально ощущается. Например, он фильтрует спам-звонки, а в режиме “Без звука” все равно звонит, если это кто-то из семьи. И на фотках у него я всегда красотка 💅 Ну почти 😀 Мне, кстати, из вирусных видео больше всего понравилось то, где одна программа позвонила другой и они “перешли на на высокоскоростную аудиосвязь под названием GGWave”, которая для человеческого уха звучит как загрузка модема из нулевых - чисто восстание машин.
И кажется, что спарсить данные с сайта при помощи ИИ - это уже вполне типовая задача: пусть модель пройдет по ссылке и выполнит задание. Но тут мы натыкаемся на несколько технических сложностей..
Парсинг сайта - это задача, которая включает несколько подзадач:
👆 пройти по ссылке, т.е. отправить запрос в Интернет,
✌ получить ответ сервера в виде веб-страницы,
🖖 прочитать HTML-код с веб-страницы, а также другие виды данных и кода, если они там есть (это могут быть JSON, XML, JavaScript и т.д.),
✋ выбрать нужную информацию,
👋 передать информацию пользователю в запрошенном виде.
Такие универсальные парсеры уже созданы. Но они не в “свободном доступе”.
🦾 GPT4 с плагином WebPilot, который есть только в платных версиях ChatGPT, делает маркетинговые исследования, отчеты, проводит анализ данных или просто структурирует данные на странице по вашему запросу (например, “выведи списком все комментарии к товару”). Если хотите узнать о нем побольше, спросите GPT4 на чатбот-арене.
🦿 Microsoft Copilot, встроенный в Windows 11, помогает анализировать содержимое веб-страниц (вот, например, выбрать вам самый выгодный отель), но тоже не является полноценным парсером. Он действует как ваш секретарь и помощник в рутинных, привычных задачах, спектр которых ограничен тем, что производители смогли проверить и оценить, как “выполняется на достаточно высоком уровне, чтобы запустить это в прод”.
А нам, исследователям, нужно несколько иное: собрать из массы неструктурированных данных на веб-странице то, что нужно именно нам, и как-то это уложить в структуру, таблицу, например.
На этой ноте вводный пост в эту тему заканчиваю. Надеюсь, забайтила 😉
Кстати, кто на чатбот-арене с моделями общается, спросите у o3, как с нею парсить веб. Возможно, вас ее ответ удовлетворит В своих дальнейших постах я буду делать примерно то же самое, просто разберу конкретные кейсы и обойду подводные, о которых o3 умалчивает.
#эссеИИстика
Не так давно в Интернете завирусились видео, где ИИ-управляемый компьютер заходит на разные сайты, собирает с них нужную информацию и в итоге выполняет какую-нибудь задачу вроде бронирования лучшего отеля для отпуска. Мой внутренний маркетолог говорит, что это техгиганты вроде Microsoft выпустили на рынок версии сервисов, частично управляемых при помощи ИИ, и следом запустили эти вирусные видео. Но это не значит, что я думаю, что ИИ в гаджетах - фу. Я давно подсела на смартфоны Pixel от Google, которые напичканы ИИшкой. И это реально ощущается. Например, он фильтрует спам-звонки, а в режиме “Без звука” все равно звонит, если это кто-то из семьи. И на фотках у него я всегда красотка 💅 Ну почти 😀 Мне, кстати, из вирусных видео больше всего понравилось то, где одна программа позвонила другой и они “перешли на на высокоскоростную аудиосвязь под названием GGWave”, которая для человеческого уха звучит как загрузка модема из нулевых - чисто восстание машин.
И кажется, что спарсить данные с сайта при помощи ИИ - это уже вполне типовая задача: пусть модель пройдет по ссылке и выполнит задание. Но тут мы натыкаемся на несколько технических сложностей..
Парсинг сайта - это задача, которая включает несколько подзадач:
👆 пройти по ссылке, т.е. отправить запрос в Интернет,
✌ получить ответ сервера в виде веб-страницы,
🖖 прочитать HTML-код с веб-страницы, а также другие виды данных и кода, если они там есть (это могут быть JSON, XML, JavaScript и т.д.),
✋ выбрать нужную информацию,
👋 передать информацию пользователю в запрошенном виде.
Такие универсальные парсеры уже созданы. Но они не в “свободном доступе”.
🦾 GPT4 с плагином WebPilot, который есть только в платных версиях ChatGPT, делает маркетинговые исследования, отчеты, проводит анализ данных или просто структурирует данные на странице по вашему запросу (например, “выведи списком все комментарии к товару”). Если хотите узнать о нем побольше, спросите GPT4 на чатбот-арене.
🦿 Microsoft Copilot, встроенный в Windows 11, помогает анализировать содержимое веб-страниц (вот, например, выбрать вам самый выгодный отель), но тоже не является полноценным парсером. Он действует как ваш секретарь и помощник в рутинных, привычных задачах, спектр которых ограничен тем, что производители смогли проверить и оценить, как “выполняется на достаточно высоком уровне, чтобы запустить это в прод”.
А нам, исследователям, нужно несколько иное: собрать из массы неструктурированных данных на веб-странице то, что нужно именно нам, и как-то это уложить в структуру, таблицу, например.
На этой ноте вводный пост в эту тему заканчиваю. Надеюсь, забайтила 😉
Кстати, кто на чатбот-арене с моделями общается, спросите у o3, как с нею парсить веб. Возможно, вас ее ответ удовлетворит В своих дальнейших постах я буду делать примерно то же самое, просто разберу конкретные кейсы и обойду подводные, о которых o3 умалчивает.
#эссеИИстика
Афиша
Два ИИ-помощника созвонились и пообщались на непонятном людям языке
Компания-разработчик ElevenLabs выпустила ролик о коммуникационной системе GibberLink. В нем один виртуальный ассистент с искусственным интеллектом звонит другому.
🔥6❤1
Парсинг с LLM: веб-скрейпинг
Продолжаю тему сбора данных из Интернета при помощи больших языковых моделей (LLM). В июне постить буду мало, т.к. аврал - защиты магдиссов и прочая бюрократия. А на июль запланировала… (дочитайте до конца и узнаете 😁)
Вот ведь что такое веб-скрейпинг?.. Как всегда издалека. Сайты бывают статическими и динамическими. Статический сайт - это документ, навроде обычного текстового документа, который авторы создают и редактируют. Статический сайт уже отредактировали как надо и выложили в открытый доступ в сети Интернет, а вы его из Интернета скачали и открыли у себя на компьютере. Расширение (тип) этого документа будет html (а не docx, например). Если вам нужно вытащить информацию из статического сайта, достаточно просто… (кликбейт 😉):
👆 открыть нужный вам сайт в браузере,
✌ нажать Ctrl+A, чтобы выделить весь текст на странице,
🖖 нажать Ctrl+C, чтобы скопировать этот текст,
✊ пойти на чатбот-арену и открыть диалог с любой моделью,
🖐 написать промпт “Ниже приведен текст сайта. Собери из него (к примеру) все имена актеров, сыгравших в фильмах о Гарри Поттере / названия фигур в шахматах / способы сбора данных с сайта”. И дальше жмякаете Ctrl+V, чтобы вставить текст с сайта и наслаждаетесь магией.
Проблемы на этом пути я нашла две.
🦶 Как понять, что сайт статический? На нем в текстовом виде, пусть даже и с гиперссылками, по которым можно перейти на другие страницы, представлена вся нужная вам информация. То есть вам не нужно скроллить вниз или что-то нажимать, чтобы открылись еще какие-то поля, посты, объявления.
🦶🦶 На сайте может быть очень много текста - LLMка такое не пережует. А сколько пережует? Ну, страниц 20-30, если на чатбот-арене. Можно спросить у самой модели, какой максимальный размер у ее контекста, и подавать текст порциями.
Чтобы справиться с этой проблемой:
😷 Сохраняете промпт.
☕ Вставляете текст с сайта в обычный текстовый документ.
💊 Начинаете новый диалог с моделью и в него вставляете промпт плюс какой-то перевариваемый кусок текста с вашего сайта.
👩🔬 Результаты парсинга тоже складываете в отдельный документ, а потом сводите их вместе в табличку или список.
А теперь.. Динамический сайт - это такой сайт, который нигде в качестве готового документа не хранится. Он генерируется (!) в ответ на ваши действия на странице. Например, вы парсите на Авито все книги о Гарри Поттере и листаете вниз до конца, пока объявления не “прогрузятся” - вот пример. На динамических сайтах сначала скролите и жмякайете, пока весь нужный вам текст не откроется. А теперь можно жмякать Ctrl+A и Ctrl+C, чтобы скопировать этот текст. Дальше поступаете как со статическим сайтом.
Поздравляю, вы освоили веб-скрейпинг - искусство добычи данных с сайтов разными подручными методами! 🎉
Ну и в завершение поста… А на июль я запланировала запостить подкаст а-а-а.. современном смысле ИИ-технологий, который мы записали еще в феврале. Посмотрим, насколько он уже устарел 😁
#лайфхак #база
Продолжаю тему сбора данных из Интернета при помощи больших языковых моделей (LLM). В июне постить буду мало, т.к. аврал - защиты магдиссов и прочая бюрократия. А на июль запланировала… (дочитайте до конца и узнаете 😁)
Вот ведь что такое веб-скрейпинг?.. Как всегда издалека. Сайты бывают статическими и динамическими. Статический сайт - это документ, навроде обычного текстового документа, который авторы создают и редактируют. Статический сайт уже отредактировали как надо и выложили в открытый доступ в сети Интернет, а вы его из Интернета скачали и открыли у себя на компьютере. Расширение (тип) этого документа будет html (а не docx, например). Если вам нужно вытащить информацию из статического сайта, достаточно просто… (кликбейт 😉):
👆 открыть нужный вам сайт в браузере,
✌ нажать Ctrl+A, чтобы выделить весь текст на странице,
🖖 нажать Ctrl+C, чтобы скопировать этот текст,
✊ пойти на чатбот-арену и открыть диалог с любой моделью,
🖐 написать промпт “Ниже приведен текст сайта. Собери из него (к примеру) все имена актеров, сыгравших в фильмах о Гарри Поттере / названия фигур в шахматах / способы сбора данных с сайта”. И дальше жмякаете Ctrl+V, чтобы вставить текст с сайта и наслаждаетесь магией.
Проблемы на этом пути я нашла две.
🦶 Как понять, что сайт статический? На нем в текстовом виде, пусть даже и с гиперссылками, по которым можно перейти на другие страницы, представлена вся нужная вам информация. То есть вам не нужно скроллить вниз или что-то нажимать, чтобы открылись еще какие-то поля, посты, объявления.
🦶🦶 На сайте может быть очень много текста - LLMка такое не пережует. А сколько пережует? Ну, страниц 20-30, если на чатбот-арене. Можно спросить у самой модели, какой максимальный размер у ее контекста, и подавать текст порциями.
Чтобы справиться с этой проблемой:
😷 Сохраняете промпт.
☕ Вставляете текст с сайта в обычный текстовый документ.
💊 Начинаете новый диалог с моделью и в него вставляете промпт плюс какой-то перевариваемый кусок текста с вашего сайта.
👩🔬 Результаты парсинга тоже складываете в отдельный документ, а потом сводите их вместе в табличку или список.
А теперь.. Динамический сайт - это такой сайт, который нигде в качестве готового документа не хранится. Он генерируется (!) в ответ на ваши действия на странице. Например, вы парсите на Авито все книги о Гарри Поттере и листаете вниз до конца, пока объявления не “прогрузятся” - вот пример. На динамических сайтах сначала скролите и жмякайете, пока весь нужный вам текст не откроется. А теперь можно жмякать Ctrl+A и Ctrl+C, чтобы скопировать этот текст. Дальше поступаете как со статическим сайтом.
Поздравляю, вы освоили веб-скрейпинг - искусство добычи данных с сайтов разными подручными методами! 🎉
Ну и в завершение поста… А на июль я запланировала запостить подкаст а-а-а.. современном смысле ИИ-технологий, который мы записали еще в феврале. Посмотрим, насколько он уже устарел 😁
#лайфхак #база
Arena | Benchmark & Compare the Best AI Models
Chat with multiple AI models side-by-side. Compare ChatGPT, Claude, Gemini, and other top LLMs. Crowdsourced benchmarks and leaderboards.
🎉4❤1🔥1
Парсинг с LLM: глубокий анализ сайтов
В завершение темы о парсинге сайтов с LLM-ками расскажу, как поглубже заглянуть в их внутрянку, но сначала..
Парсинг Авито больше не так прост, как когда я писала предыдущий пост 🥴
Напомню, что, чтобы спарсить только текст с динамической страницы вроде поиска Авито по объявлениям, нужно:
👆 доскроллить ручками до низа страницы, чтобы они подгрузились. Если надоело скроллить, ставим себе ментальную галочку - “скролю до ста / тысячи / N товаров / до 1 минуты”.
✌ выделить весь текст на странице (Ctrl+A) и скопировать в буфер (Ctrl+C)
🖖 вставить текст из буфера в чат с моделью и отправить ей, как свое обычное сообщение.
Дальше задаем любые вопросы о тексте.
Однако с недавних пор при выделении текста на странице поиска Авито браузер зависает, т.к. даже просто текста на ней слишком много, чтобы он поместился в буфер. В основном текст содержит адреса фотографий и какие-то непонятные куски скрипта, в общем шум.Разработчики Авито, что у вас случилось? Вот у Озона такого нет, и страницы копируются нормально.
Поэтому.. лайфхак от моей любимой модели о3(если я когда-нибудь решу выйти замуж за LLM, то это будет о3 - надеюсь, это мужик) :
👆 качаем расширение “Copy As Plain Text” (есть для разных браузеров)
✌ вместо Ctrl+C используем расширение и копируем чистый текст, без мусора. В Chrome для этого надо кликнуть правой кнопкой мыши на выделенный текст и жмякнуть в открывшемся меню на иконку с расширением.
А теперь о более сложных способах вытаскивать инфу из сайтов. Все, что мы обычно открываем в вебе и выглядит как сайт, в основном написано на языке разметки html. Этот язык отражает структуру текста: название страницы, заголовки параграфов, основная информация и т.д. Возможно, вам захочется задать вопросы именно к сайту с учетом его структуры - т.е., чтобы модель учла, какие заголовки, подзаголовки и прочие разделы и элементы есть на сайте.
👆 Беру код страницы с сайта Rotten Tomatos. Мне захотелось посмотреть, какие супергеройские фильмы получили максимально лучшие отзывы критиков.
✌ Жмякаю правой кнопкой мыши на страницу и выбираю "Просмотр кода страницы".
🖖 Перехожу в открывшуюся вкладку с кодом и копирую все в буфер.
👊 Вставляю код в сообщение на чатбот-арене (приходится его сократить, т.к. не влезает в ограничения на объем) и:
➡ прошу вытащить все заголовки второго уровня - получаю список фильмов
➡ прошу рассказать мне о структуре документа - пишет, какие есть разделы и скрипты на сайте, как он сделан и т.п.
➡ прошу написать парсер на питоне для этой страницы, парсер запускаю в Google Colaboratory. Работает! Данные складываются в красивую табличку в формате .csv. Парсер тут. Мой запрос и ответы моделек тут.
Ну и, конечно, я попросила написать парсер для многострадального Авито, скормив кусок кода модельке.. После 15-20 безуспешных попыток Авито не распарсился. Тогда я пошла к Perplexity - он сам парсит html по ссылкам. Обзор книг о Гарри Поттере получился норм, я довольна.
В общем ИМХО с парсингом в 2025 году стоит напрягаться, чтобы получить очень чистые качественные данные, а для грубого обзора вполне сойдут чатбот-арена и Perplexity.
#база #лайфхакИИ
В завершение темы о парсинге сайтов с LLM-ками расскажу, как поглубже заглянуть в их внутрянку, но сначала..
Парсинг Авито больше не так прост, как когда я писала предыдущий пост 🥴
Напомню, что, чтобы спарсить только текст с динамической страницы вроде поиска Авито по объявлениям, нужно:
👆 доскроллить ручками до низа страницы, чтобы они подгрузились. Если надоело скроллить, ставим себе ментальную галочку - “скролю до ста / тысячи / N товаров / до 1 минуты”.
✌ выделить весь текст на странице (Ctrl+A) и скопировать в буфер (Ctrl+C)
🖖 вставить текст из буфера в чат с моделью и отправить ей, как свое обычное сообщение.
Дальше задаем любые вопросы о тексте.
Однако с недавних пор при выделении текста на странице поиска Авито браузер зависает, т.к. даже просто текста на ней слишком много, чтобы он поместился в буфер. В основном текст содержит адреса фотографий и какие-то непонятные куски скрипта, в общем шум.
Поэтому.. лайфхак от моей любимой модели о3
👆 качаем расширение “Copy As Plain Text” (есть для разных браузеров)
✌ вместо Ctrl+C используем расширение и копируем чистый текст, без мусора. В Chrome для этого надо кликнуть правой кнопкой мыши на выделенный текст и жмякнуть в открывшемся меню на иконку с расширением.
А теперь о более сложных способах вытаскивать инфу из сайтов. Все, что мы обычно открываем в вебе и выглядит как сайт, в основном написано на языке разметки html. Этот язык отражает структуру текста: название страницы, заголовки параграфов, основная информация и т.д. Возможно, вам захочется задать вопросы именно к сайту с учетом его структуры - т.е., чтобы модель учла, какие заголовки, подзаголовки и прочие разделы и элементы есть на сайте.
👆 Беру код страницы с сайта Rotten Tomatos. Мне захотелось посмотреть, какие супергеройские фильмы получили максимально лучшие отзывы критиков.
✌ Жмякаю правой кнопкой мыши на страницу и выбираю "Просмотр кода страницы".
🖖 Перехожу в открывшуюся вкладку с кодом и копирую все в буфер.
👊 Вставляю код в сообщение на чатбот-арене (приходится его сократить, т.к. не влезает в ограничения на объем) и:
➡ прошу вытащить все заголовки второго уровня - получаю список фильмов
➡ прошу рассказать мне о структуре документа - пишет, какие есть разделы и скрипты на сайте, как он сделан и т.п.
➡ прошу написать парсер на питоне для этой страницы, парсер запускаю в Google Colaboratory. Работает! Данные складываются в красивую табличку в формате .csv. Парсер тут. Мой запрос и ответы моделек тут.
Ну и, конечно, я попросила написать парсер для многострадального Авито, скормив кусок кода модельке.. После 15-20 безуспешных попыток Авито не распарсился. Тогда я пошла к Perplexity - он сам парсит html по ссылкам. Обзор книг о Гарри Поттере получился норм, я довольна.
В общем ИМХО с парсингом в 2025 году стоит напрягаться, чтобы получить очень чистые качественные данные, а для грубого обзора вполне сойдут чатбот-арена и Perplexity.
#база #лайфхакИИ
Rotten Tomatoes
100 Best Superhero Movies Ranked (The Fantastic Four: First Steps, Superman)
See what got inducted into the legion of Fresh, from Avengers to Batman to Mystery Men and beyond!
👍3🔥3❤1👀1
Выхожу из отпуска и.. объявляю анонс на вторую половину августа:
1⃣9⃣ Почему не наступает эра Скайнет. Новости, тренды
2⃣1⃣ Я тебя по API вычислю
2⃣3⃣ Суверенный ИИ versus дискурс эффективности
2⃣6⃣ Не зря ли я переплачиваю за “пожалуйста” и запятые в промптах?
2⃣8⃣ ИИ-ученый: какое знание синтезируют генеративные модели
3⃣0⃣ Вымрут ли джуны?
#анонс
1⃣9⃣ Почему не наступает эра Скайнет. Новости, тренды
2⃣1⃣ Я тебя по API вычислю
2⃣3⃣ Суверенный ИИ versus дискурс эффективности
2⃣6⃣ Не зря ли я переплачиваю за “пожалуйста” и запятые в промптах?
2⃣8⃣ ИИ-ученый: какое знание синтезируют генеративные модели
3⃣0⃣ Вымрут ли джуны?
#анонс
👍5🔥2❤1