Если вам интересно, какую магистратуру я делаю в Европейском университете в Санкт-Петербурге, то подключайтесь к нашему с коллегами онлайну 1 марта. Предупреждаю, может возникнуть желание в нее поступить 😎
🍾3
Forwarded from Европейский. Просто о сложном
Вы узнаете:
Руководители магистерских и аспирантских программ по экономике, социологии и прикладной информатике расскажут о проектах и планах Школы, о направлениях научно-исследовательской деятельности и ответят на все ваши вопросы о поступлении.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥1
О профессии “промпт-инженер”
Почему я не пишу посты в свой канал при помощи больших языковых моделей? Ведь могла бы взять любую модель на чатбот-арене, дать ей промпт “Напиши пост о профессии промпт-инженер” и получила бы неплохой контент. Когда-то у меня была лекция о креативности языковых моделей. Одна из ее основных идей заключалась в том, что, если вы и так хорошо пишете, то модель сделает ваш текст менее оригинальным и полезным. А я скромно считаю, что пишу лучше, чем ChatGPT.
Тогда какие профессиональные навыки может заменить промптинг? На этот вопрос я обычно отвечаю “рутинные”. Например, не так давно я писала о промптах, которые можно использовать, чтобы генерировать тесты для своих учебных материалов. Так же рутинно можно генерировать рабочие программы дисциплин, которые строятся по определенному шаблону. Не с нуля, конечно, а, например, задав им определенный тематический план. Можно писать аннотации к своим статьям и подбирать для них ключевые слова, делать краткие выжимки из работ других авторов, редактировать свой текст. Но это все примеры, в которых действующее лицо - человек, который сам владеет компетенцией (учитель, преподаватель, ученый) и пишет промпт, чтобы облегчить рутинные задачи в собственной сфере.
Кто же такой промпт-инженер? Какая у него специализация? Первый раз о такой профессии я прочитала на сайте ИТ-компании, которая делает свою языковую модель. Они искали “настройщиков”, тестировщиков и людей, которые будут проверять уязвимости в их продукте. Причем обращались в том числе к выпускникам лингвистических факультетов. Было это в ковидные времена, то есть по меркам прогресса довольно давно. Я еще подумала, что наконец-то у лингвистов появится новая профессиональная ниша, помимо преподавания, перевода и разметки данных. Потом я заметила, что промпт-инженеров ищут не только крупные компании, которые тратят миллионы на обучение своей модели, но и стартапы, которые разрабатывают свои приложения. В случае с готовыми приложениями, которые генерируют тесты, например, на основе вашей презентации, в бэкэнде (то есть в коде) приложения зашиты промпты с детальной инструкцией для модели, что она должна сделать с вашим запросом. Промпт-инженер должен был настраивать модель при помощи разных техник, чтобы результат генерации был эффективным. Лингвисты, вроде как, подходят на эту роль лучше всего.
А что сейчас? Мне кажется, отдельная профессия все-таки не сформировалась. Судя по вакансиям, которых немного, промпт-инженеры должны уметь программировать, писать нейросети и обладать смежными техническими навыками. Я думаю, это потому, что, во-первых, овладеть технологией создания хорошего промпта может каждый, не только лингвист. Более того, есть даже языковые модели, которые сами за ваc промпт напишут. Как “двое из ларца одинаковы с лица”: одна модель дает запрос, а другая тут же отвечает. Во-вторых, как и в целом в ИТ, вот вы хорошо написали промпт и запустили приложение, т.е. по сути завершили проект, и что дальше будете делать? Отсюда и спрос на дополнительные навыки либо предложения временной занятости в проекте.
Но прекарность и мультинавыки - это тренд не только в ИТ. Посмотрим, как будет дальше.
Кстати, я обещала привести еще примеры промптов для генерации тестов. Я создала вот такой сайт, где можно подробно ознакомиться с задачей и моими промптами.
#эссеиистика
Почему я не пишу посты в свой канал при помощи больших языковых моделей? Ведь могла бы взять любую модель на чатбот-арене, дать ей промпт “Напиши пост о профессии промпт-инженер” и получила бы неплохой контент. Когда-то у меня была лекция о креативности языковых моделей. Одна из ее основных идей заключалась в том, что, если вы и так хорошо пишете, то модель сделает ваш текст менее оригинальным и полезным. А я скромно считаю, что пишу лучше, чем ChatGPT.
Тогда какие профессиональные навыки может заменить промптинг? На этот вопрос я обычно отвечаю “рутинные”. Например, не так давно я писала о промптах, которые можно использовать, чтобы генерировать тесты для своих учебных материалов. Так же рутинно можно генерировать рабочие программы дисциплин, которые строятся по определенному шаблону. Не с нуля, конечно, а, например, задав им определенный тематический план. Можно писать аннотации к своим статьям и подбирать для них ключевые слова, делать краткие выжимки из работ других авторов, редактировать свой текст. Но это все примеры, в которых действующее лицо - человек, который сам владеет компетенцией (учитель, преподаватель, ученый) и пишет промпт, чтобы облегчить рутинные задачи в собственной сфере.
Кто же такой промпт-инженер? Какая у него специализация? Первый раз о такой профессии я прочитала на сайте ИТ-компании, которая делает свою языковую модель. Они искали “настройщиков”, тестировщиков и людей, которые будут проверять уязвимости в их продукте. Причем обращались в том числе к выпускникам лингвистических факультетов. Было это в ковидные времена, то есть по меркам прогресса довольно давно. Я еще подумала, что наконец-то у лингвистов появится новая профессиональная ниша, помимо преподавания, перевода и разметки данных. Потом я заметила, что промпт-инженеров ищут не только крупные компании, которые тратят миллионы на обучение своей модели, но и стартапы, которые разрабатывают свои приложения. В случае с готовыми приложениями, которые генерируют тесты, например, на основе вашей презентации, в бэкэнде (то есть в коде) приложения зашиты промпты с детальной инструкцией для модели, что она должна сделать с вашим запросом. Промпт-инженер должен был настраивать модель при помощи разных техник, чтобы результат генерации был эффективным. Лингвисты, вроде как, подходят на эту роль лучше всего.
А что сейчас? Мне кажется, отдельная профессия все-таки не сформировалась. Судя по вакансиям, которых немного, промпт-инженеры должны уметь программировать, писать нейросети и обладать смежными техническими навыками. Я думаю, это потому, что, во-первых, овладеть технологией создания хорошего промпта может каждый, не только лингвист. Более того, есть даже языковые модели, которые сами за ваc промпт напишут. Как “двое из ларца одинаковы с лица”: одна модель дает запрос, а другая тут же отвечает. Во-вторых, как и в целом в ИТ, вот вы хорошо написали промпт и запустили приложение, т.е. по сути завершили проект, и что дальше будете делать? Отсюда и спрос на дополнительные навыки либо предложения временной занятости в проекте.
Но прекарность и мультинавыки - это тренд не только в ИТ. Посмотрим, как будет дальше.
Кстати, я обещала привести еще примеры промптов для генерации тестов. Я создала вот такой сайт, где можно подробно ознакомиться с задачей и моими промптами.
#эссеиистика
Telegram
Введение в искусственный интеллект
Как измерить креативность AI
Этот пост я написала сама. По мотивам Летней школы в Дубне
Есть такой вид развлечения: угадывать, какой контент был сгенерирован, а какой создан человеком. Несмотря на то, что у продуктов генерации есть особенности, которые часто…
Этот пост я написала сама. По мотивам Летней школы в Дубне
Есть такой вид развлечения: угадывать, какой контент был сгенерирован, а какой создан человеком. Несмотря на то, что у продуктов генерации есть особенности, которые часто…
👍6🔥3❤1
My prompt is longer than yours. Или зачем нужны такие длинные промпты
Я тут немного пропала и не постила, а все потому что готовлю серию мероприятий - причем не только в Питере. О мероприятиях напишу в следующем посте, а сейчас пора добить февральские темы.
Почему не нужно следовать интуитивному желанию написать промпт для большой языковой модели так, как хочется?.. А почему не нужно? Если вас устроил ответ модели, то все ок, вы написали хороший короткий промпт. Я считаю вредным меряться длиной промптов, Хирша и прочих KPI, т.к. люди уже давно доказали, что любую метрику можно хакнуть.
Но, если вас все же не устроил ответ модели, значит, это повод задуматься о несовершенстве не только самой модели, но и вашего промпта. Ибо “что посеешь, то и пожнешь”, или “мусор на входе - мусор на выходе” (garbage in - garbage out, гАбидж ин гАбидж Аут). Можно, не удаляя диалога с моделью, объяснить ей, чем вас не устроил ее ответ, и попросить сделать задание снова. Но, если это не сработало, промпт можно доработать вот так.
💫 Дать развернутую инструкцию, что и как нужно делать, подробно описать результат, которого ждете. В общем не скупиться на слова. А если, говоря словами известной песни, words don’t come easy to you, или слова нелегко приходят на ум, попросите саму модель написать вам промпт к вашей задаче. Затем перезапустите диалог и проверьте ее промпт. Если все еще недостаточно хорошо, скорректируйте результат вручную или попросите модель снова отредактировать промпт. Получится модель, которая кусает сама себя за промпт 🐉
💫 Попробовать разные речевые жанры. Например, для доработки научного текста помогают формальный язык и вежливые обращения (пожалуйста, будь добра, спасибо), можно вычитать в своем промпте опечатки и стилистические ошибки. Это связано с тем, кто каждое слово в диалоге подтягивает за собой статистически значимые связи с другими словами. Формальный язык обычно используют в энциклопедиях, новостях; вежливые обращения “подтягивают” благожелательность. А вот для креативных задач вроде написания сказки подойдут всякие шутки-прибаутки.
💫 Попробовать внушить модели, что она некая личность, персонаж и говорит от его лица; попросить ее поиграть с вами в ролевую игру. Опять же персонаж зависит от жанра, которому будет принадлежать желаемый вами сгенерированный текст. Этот эффект усилит то, что вы выражаете в собственном тоне. Это, кстати, один из методов хакинга моделей - они “заигрываются” и начинают подтягивать недопустимую информацию. Но разработчики усиленно работают над тем, чтобы такого не происходило.
💫 Дать модели один или несколько хороших примеров. Это техника few-shot (фью шот) промптинга. Начинайте с одного примера, а если его недостаточно, то попробуйте увеличить число примеров, но не сильно. Судя по кейсам, с которыми я знакома, восемь-десять примеров - это максимум.
💫 Дайте модели текст-опору, из которого она почерпнет факты и информацию, на которую будет опираться. Это помогает, если у вас узкая предметная область или модель ошибается в фактах в вашей задаче. Если помните, что такое machine reading comprehension (машинное усвоение навыка чтения), то вычитывать информацию и генерить на ее основе текст - это базовая функция языковых моделей, с ней они справляются успешно.
Хотя можно попробовать и просто сменить модель. Например, известно, что Claude Sonnet хорошо умеет писать стихи, а ChatGPT решать математику.
Всем удачного промптинга! 🍀
#спискИИ
Я тут немного пропала и не постила, а все потому что готовлю серию мероприятий - причем не только в Питере. О мероприятиях напишу в следующем посте, а сейчас пора добить февральские темы.
Почему не нужно следовать интуитивному желанию написать промпт для большой языковой модели так, как хочется?.. А почему не нужно? Если вас устроил ответ модели, то все ок, вы написали хороший короткий промпт. Я считаю вредным меряться длиной промптов, Хирша и прочих KPI, т.к. люди уже давно доказали, что любую метрику можно хакнуть.
Но, если вас все же не устроил ответ модели, значит, это повод задуматься о несовершенстве не только самой модели, но и вашего промпта. Ибо “что посеешь, то и пожнешь”, или “мусор на входе - мусор на выходе” (garbage in - garbage out, гАбидж ин гАбидж Аут). Можно, не удаляя диалога с моделью, объяснить ей, чем вас не устроил ее ответ, и попросить сделать задание снова. Но, если это не сработало, промпт можно доработать вот так.
💫 Дать развернутую инструкцию, что и как нужно делать, подробно описать результат, которого ждете. В общем не скупиться на слова. А если, говоря словами известной песни, words don’t come easy to you, или слова нелегко приходят на ум, попросите саму модель написать вам промпт к вашей задаче. Затем перезапустите диалог и проверьте ее промпт. Если все еще недостаточно хорошо, скорректируйте результат вручную или попросите модель снова отредактировать промпт. Получится модель, которая кусает сама себя за промпт 🐉
💫 Попробовать разные речевые жанры. Например, для доработки научного текста помогают формальный язык и вежливые обращения (пожалуйста, будь добра, спасибо), можно вычитать в своем промпте опечатки и стилистические ошибки. Это связано с тем, кто каждое слово в диалоге подтягивает за собой статистически значимые связи с другими словами. Формальный язык обычно используют в энциклопедиях, новостях; вежливые обращения “подтягивают” благожелательность. А вот для креативных задач вроде написания сказки подойдут всякие шутки-прибаутки.
💫 Попробовать внушить модели, что она некая личность, персонаж и говорит от его лица; попросить ее поиграть с вами в ролевую игру. Опять же персонаж зависит от жанра, которому будет принадлежать желаемый вами сгенерированный текст. Этот эффект усилит то, что вы выражаете в собственном тоне. Это, кстати, один из методов хакинга моделей - они “заигрываются” и начинают подтягивать недопустимую информацию. Но разработчики усиленно работают над тем, чтобы такого не происходило.
💫 Дать модели один или несколько хороших примеров. Это техника few-shot (фью шот) промптинга. Начинайте с одного примера, а если его недостаточно, то попробуйте увеличить число примеров, но не сильно. Судя по кейсам, с которыми я знакома, восемь-десять примеров - это максимум.
💫 Дайте модели текст-опору, из которого она почерпнет факты и информацию, на которую будет опираться. Это помогает, если у вас узкая предметная область или модель ошибается в фактах в вашей задаче. Если помните, что такое machine reading comprehension (машинное усвоение навыка чтения), то вычитывать информацию и генерить на ее основе текст - это базовая функция языковых моделей, с ней они справляются успешно.
Хотя можно попробовать и просто сменить модель. Например, известно, что Claude Sonnet хорошо умеет писать стихи, а ChatGPT решать математику.
Всем удачного промптинга! 🍀
#спискИИ
🔥3😎1
Дорогие подпИИсчики! 💐
Хочу поделиться своими планами на апрель, т.к., возможно, вы захотите ко мне присоединиться. А план такой: провести уже наконец-то обещанные в кружочках канала интенсивы 🤪
Вот честно, если б я когда-то не обещала, то сейчас наверняка делала бы что-то другое 😁
Часть интенсивов у нас получилась по договоренности с вузами: вход строго по инвайтам, фейс-, дресс-, эйдж- и даже нэйл- (nail, ногти) контроль 😷👮 А вот два - полный разгуляй, хиппи-стайл и вообще приходи, кто хочет 👨🎤 но... надо будет зарегистрироваться в LeaderID, т.к. проводить их мы будем в Точках кипения.
Итак, барабанная дробь, приходите ко мнелечиться учиться на интенсив по здоровой генерации научных работ при помощи ИИ "Цифровые инструменты в социальных и гуманитарных науках":
08.04. с 10:00 до 14:00 - Точка кипения в Ельцин-Центре, г. Екатеринбург - рега
10.04. с 12:00 до 16:00 - Точка кипения в Технопарке, г. Тюмень - рега
По традиции в рекламное сообщение нужно добавить отзывы довольных клиентов. Но.. это не рекламное сообщение, а комьюнити-менеджмент. Ведь я зову вас стать частью сообщества ученых, которые бережно трансформируют науку под давлением технического прогресса 🧐👾
Но довольное комьюнити я вам все-таки буду присылать в свой канал в виде фоточек с интенсивов. Потому что мне давно хотелось повод под вот эту песню выкладывать, как мы с искусственным интеллектом тусим по разным городам.
Ах да, это бисплатна 🤑 Всем, кто досидит до конца, выдадим электронный сертификат участника от ЕУСПб 📜
В общем, увидимся!
#меропрИИятия
Хочу поделиться своими планами на апрель, т.к., возможно, вы захотите ко мне присоединиться. А план такой: провести уже наконец-то обещанные в кружочках канала интенсивы 🤪
Вот честно, если б я когда-то не обещала, то сейчас наверняка делала бы что-то другое 😁
Часть интенсивов у нас получилась по договоренности с вузами: вход строго по инвайтам, фейс-, дресс-, эйдж- и даже нэйл- (nail, ногти) контроль 😷👮 А вот два - полный разгуляй, хиппи-стайл и вообще приходи, кто хочет 👨🎤 но... надо будет зарегистрироваться в LeaderID, т.к. проводить их мы будем в Точках кипения.
Итак, барабанная дробь, приходите ко мне
08.04. с 10:00 до 14:00 - Точка кипения в Ельцин-Центре, г. Екатеринбург - рега
10.04. с 12:00 до 16:00 - Точка кипения в Технопарке, г. Тюмень - рега
По традиции в рекламное сообщение нужно добавить отзывы довольных клиентов. Но.. это не рекламное сообщение, а комьюнити-менеджмент. Ведь я зову вас стать частью сообщества ученых, которые бережно трансформируют науку под давлением технического прогресса 🧐👾
Но довольное комьюнити я вам все-таки буду присылать в свой канал в виде фоточек с интенсивов. Потому что мне давно хотелось повод под вот эту песню выкладывать, как мы с искусственным интеллектом тусим по разным городам.
Ах да, это бисплатна 🤑 Всем, кто досидит до конца, выдадим электронный сертификат участника от ЕУСПб 📜
В общем, увидимся!
#меропрИИятия
leader-id.ru
Европейский университет СПб. Цифровые инструменты в социальных и гуманитарных науках: ИИ
Leader-ID — платформа для лидеров. Здесь 4+ млн пользователей, бесплатные образовательные мероприятия и коворкинги. Leader-ID помогает запускать технологические проекты.
🔥4
Введение в искусственный интеллект pinned «Дорогие подпИИсчики! 💐 Хочу поделиться своими планами на апрель, т.к., возможно, вы захотите ко мне присоединиться. А план такой: провести уже наконец-то обещанные в кружочках канала интенсивы 🤪 Вот честно, если б я когда-то не обещала, то сейчас наверняка…»
Апрельское пощение будет посвящено не только моему турне, но и мультимодальным языковым моделям. Начну с поста, который мы с Артемом сделали по следам первого заседания Тюменского NLP-кружка Quick-to-Code. Здесь в карточках - введение в моделирование звучащей речи при помощи нейросетей.
#карточкИИ #база
#карточкИИ #база
🔥5
Это олимпиада для поступающих в магистратуру ПАНДАН, которой я сейчас соруковожу с Иваном Бибиловым из Яндекс Образования.
Forwarded from Школа вычислительных социальных наук в Европейском
Две хорошие новости про Олимпиаду ADAlympics от команды программы «Прикладной Анализ Данных и Искусственный Интеллект»
новость 1: Коллеги написали несколько советов, как не бояться олимпиадных заданий и на что обращать внимание в первую очередь
новость 2: Прием заявок на олимпиаду продлили до 6 апреля, поэтому советы придутся как раз кстати — у вас еще целых 12 дней на то, чтобы прислать нам эссе✉️
Слово коллегам:
В первом задании олимпиады Adalympics нужно проанализировать сводные графики и диаграммы по разным показателям сиротства в России. (Данные заботливо предоставил официальный партнер ADAlympics, дата-журналистский проект «Если быть точным»)
На что стоит ориентироваться при написании решения:
⏺ Подойдите к ответам творчески и аналитически. Попытайтесь в свободной форме подумать о предложенной задаче.
⏺ Предложите своё объяснение проблемы, поставленной в задании.
⏺ Обратите внимание на разницы представленных показателей. Возможно, они дадут вам больше информации для ответа.
⏺ Как вы можете объяснить представленную динамику? Попробуйте поискать источники, помогающие объяснить это.
⏺ Возможно, вы знаете теории, которые могут помочь объяснить предложенную вами догадку? Расскажите нам о ней в тексте ответа.
Что важно для проверяющей комиссии:
📍 Прежде всего, важно то, как вы думаете. Изложите ваши рассуждения в тексте, постарайтесь писать структурировано и последовательно.
📍 Отвечайте прямо на поставленный вопрос задания, дополните свой ответ пояснениями и обоснованиями.
📍 Используйте и ссылайтесь на источники. Исследователи опираются на чужие исследования. Найдите, изучите, перескажите их выводы и находки. Работа с источниками — необходимая часть работы исследователя и аналитика.
📍 И не забывайте указывать ссылки 🧡
После таких советов олимпиадное задание кажется уже не таким и сложным✨
Ждем ваши заявки до 6 апреля
Подробности на сайте ADAlympics
⏺
новость 1: Коллеги написали несколько советов, как не бояться олимпиадных заданий и на что обращать внимание в первую очередь
новость 2: Прием заявок на олимпиаду продлили до 6 апреля, поэтому советы придутся как раз кстати — у вас еще целых 12 дней на то, чтобы прислать нам эссе
Слово коллегам:
Олимпиадные задания часто кажутся сложными, требующими ответственности и вызывающими дискомфорт из-за соревновательного духа. Отчасти это правда. Но только отчасти. Участвуя в олимпиаде, вы проверяете свои навыки в решении нестандартных задач и оцениваете текущие знания. Такая практика важна для самоанализа и подготовки к реальным ситуациям, например, к поиску работы, стажировок и других интересных возможностей. Собеседования нужны не только для трудоустройства, но и для того, чтобы понять, насколько вы готовы справляться с нетипичными задачами в профессиональной сфере. Так и олимпиада — это хороший способ потренироваться.
В первом задании олимпиады Adalympics нужно проанализировать сводные графики и диаграммы по разным показателям сиротства в России. (Данные заботливо предоставил официальный партнер ADAlympics, дата-журналистский проект «Если быть точным»)
На что стоит ориентироваться при написании решения:
Что важно для проверяющей комиссии:
После таких советов олимпиадное задание кажется уже не таким и сложным
Ждем ваши заявки до 6 апреля
Подробности на сайте ADAlympics
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Мультимодальные модели и другие скороговорки 21 века
Апрельское пощение я буду делать без анонсов постов, т.к. я в дороге и тут случается много неожиданного.
Вот ведь что такое мультимодальность? Мульти (multi), с английского, “много”; модальность (modality), с английского, ну в общем-то модальность. Тут нужен лингвистический контекст.
В лингвистике модальность высказывания - это собирательное понятие, которое указывает на то, что в процессе коммуникации важно не только, какие звуки мы произносим или буквы пишем/печатаем, но и с какой интонацией, использовали ли капслок, говорим ли о реальных вещах или воображаем, какие эмоции при этом у нас на лице, как мы жестикулируем, показываем ли пальцем на картинку, а может, вообще поем. Модальность - это все дополнительные источники информации, которые наслаиваются на сообщение, добавляя ему смыслы.
В компьютерной лингвистике мультимодальные языковые модели могут анализировать и генерировать данные из разных источников: не только печатный текст, но и звуковые файлы, изображения и видео. Т.е. используют четыре модальности, доступные сейчас почти каждому гаджету: текст, аудио, графика и видео.
Первыми появились, конечно, текстовые языковые модели (text-to-text, текст на входе и на выходе), т.к. у них относительно простой принцип работы. Потом для обучения текстовых моделей стали использовать архитектуру “трансформер”. Затем примерно параллельно в задачах распознавания и генерации звуков и изображений начали применять трансформеры таким образом, чтобы кодирование текстовой информации было связано с аудио и графическими данными. Ведь то и то можно представить в виде числового ряда и поместить в одну большую таблицу - матрицу эмбеддингов (векторов, в которых сжато хранится информация обо всех данных, с которыми встретилась модель). Аудио - это точки (Герцы, зарегистрированные датчиками частоты), графика - цвет пикселя, например, в палитре RGB, где он представлен тремя числами. Последними подключились генераторы видео, т.к. они требуют обработки большого объема данных.
В моделях (и их названиях) заложено, что и во что должно перетекать:
🗣 text-to-speech (текст ту спич, текст-в речь): генерация звучащей речи, озвучка текста
📝 speech-to-text (спич ту текст, речь в текст): расшифровка звучащей речи
🧑🎨 text-to-image (текст ту Имидж, текст в изображение), text-to-video (текст ту вИдео, текст в видео): генерация изображения или видео на основе текста-запроса (промпта)
👩🎤 image-text-to-text: генерация текста по запросу, в котором есть и изображение, и текст
А также image-to-image, video-to-text, text-to-3D и многие другие. Берем разные модальности и придумываем задачу, в которой они связаны, например, распознать объекты на картинке и назвать их словами - вот вам и image-to-text. Появляются и модели-универсалы, которые могут вообще во все модальности сразу: any-to-any (Эни ту Эни, любые в любые). На платформе HuggingFace, где живут языковые модели, можно посмотреть на все разнообразие мультимодальных задач.
А я завершаю пост парой мультимодальных ноутбучеков, которые можно запустить в Google Colaboratory:
text-to-speech
text-to-image
image-text-to-text
#база #notebook
Апрельское пощение я буду делать без анонсов постов, т.к. я в дороге и тут случается много неожиданного.
Вот ведь что такое мультимодальность? Мульти (multi), с английского, “много”; модальность (modality), с английского, ну в общем-то модальность. Тут нужен лингвистический контекст.
В лингвистике модальность высказывания - это собирательное понятие, которое указывает на то, что в процессе коммуникации важно не только, какие звуки мы произносим или буквы пишем/печатаем, но и с какой интонацией, использовали ли капслок, говорим ли о реальных вещах или воображаем, какие эмоции при этом у нас на лице, как мы жестикулируем, показываем ли пальцем на картинку, а может, вообще поем. Модальность - это все дополнительные источники информации, которые наслаиваются на сообщение, добавляя ему смыслы.
В компьютерной лингвистике мультимодальные языковые модели могут анализировать и генерировать данные из разных источников: не только печатный текст, но и звуковые файлы, изображения и видео. Т.е. используют четыре модальности, доступные сейчас почти каждому гаджету: текст, аудио, графика и видео.
Первыми появились, конечно, текстовые языковые модели (text-to-text, текст на входе и на выходе), т.к. у них относительно простой принцип работы. Потом для обучения текстовых моделей стали использовать архитектуру “трансформер”. Затем примерно параллельно в задачах распознавания и генерации звуков и изображений начали применять трансформеры таким образом, чтобы кодирование текстовой информации было связано с аудио и графическими данными. Ведь то и то можно представить в виде числового ряда и поместить в одну большую таблицу - матрицу эмбеддингов (векторов, в которых сжато хранится информация обо всех данных, с которыми встретилась модель). Аудио - это точки (Герцы, зарегистрированные датчиками частоты), графика - цвет пикселя, например, в палитре RGB, где он представлен тремя числами. Последними подключились генераторы видео, т.к. они требуют обработки большого объема данных.
В моделях (и их названиях) заложено, что и во что должно перетекать:
🗣 text-to-speech (текст ту спич, текст-в речь): генерация звучащей речи, озвучка текста
📝 speech-to-text (спич ту текст, речь в текст): расшифровка звучащей речи
🧑🎨 text-to-image (текст ту Имидж, текст в изображение), text-to-video (текст ту вИдео, текст в видео): генерация изображения или видео на основе текста-запроса (промпта)
👩🎤 image-text-to-text: генерация текста по запросу, в котором есть и изображение, и текст
А также image-to-image, video-to-text, text-to-3D и многие другие. Берем разные модальности и придумываем задачу, в которой они связаны, например, распознать объекты на картинке и назвать их словами - вот вам и image-to-text. Появляются и модели-универсалы, которые могут вообще во все модальности сразу: any-to-any (Эни ту Эни, любые в любые). На платформе HuggingFace, где живут языковые модели, можно посмотреть на все разнообразие мультимодальных задач.
А я завершаю пост парой мультимодальных ноутбучеков, которые можно запустить в Google Colaboratory:
text-to-speech
text-to-image
image-text-to-text
#база #notebook
Telegram
Введение в искусственный интеллект
Апрельское пощение будет посвящено не только моему турне, но и мультимодальным языковым моделям. Начну с поста, который мы с Артемом сделали по следам первого заседания Тюменского NLP-кружка Quick-to-Code. Здесь в карточках - введение в моделирование звучащей…
🔥5
Немного апдейтов:
1⃣ Вчера я психанула на модель Llava "image-text-to-text", т.к. ноутбучек, который всегда запускался, сказал, что в нем ошибки в установке библиотек. Но сегодня, бахнув кофейку, я таки его запустила. И... вот еще одна мультимодальная модель, которая запускается в Google Colaboratory (а не на сотне Nvidia GeForce за 300К 💰 в наносекунду): зэ ноутбук (я его и в прошлый пост сейчас добавлю).
2⃣ Не устаю напоминать (особенно после выпитого ☕), что у нас завтра интенсив в Екатеринбурге, а 10-го в Тюмени. Если вы еще не записались + можете + хочете прийти, то вот мой вдохновляющий кружок из Еката. И ссылки на регу (можно регаться с ВК ID):
➖ 8 апреля 10:00-14:00 Точка кипения в Ельцин-центре, Екатеринбург: рега
➖ 10 апреля 12:00 - 16:00 Точка кипения в Технопарке, Тюмень: рега
3⃣ В апреле в Европейском университете в Санкт-Петербурге, где я сейчас работаю, проходят дни открытых дверей. Об этом тоже в кружочке и на сайте ЕУСПб. Мероприятия туть.
#меропрИИятия
1⃣ Вчера я психанула на модель Llava "image-text-to-text", т.к. ноутбучек, который всегда запускался, сказал, что в нем ошибки в установке библиотек. Но сегодня, бахнув кофейку, я таки его запустила. И... вот еще одна мультимодальная модель, которая запускается в Google Colaboratory (а не на сотне Nvidia GeForce за 300К 💰 в наносекунду): зэ ноутбук (я его и в прошлый пост сейчас добавлю).
2⃣ Не устаю напоминать (особенно после выпитого ☕), что у нас завтра интенсив в Екатеринбурге, а 10-го в Тюмени. Если вы еще не записались + можете + хочете прийти, то вот мой вдохновляющий кружок из Еката. И ссылки на регу (можно регаться с ВК ID):
➖ 8 апреля 10:00-14:00 Точка кипения в Ельцин-центре, Екатеринбург: рега
➖ 10 апреля 12:00 - 16:00 Точка кипения в Технопарке, Тюмень: рега
3⃣ В апреле в Европейском университете в Санкт-Петербурге, где я сейчас работаю, проходят дни открытых дверей. Об этом тоже в кружочке и на сайте ЕУСПб. Мероприятия туть.
#меропрИИятия
Google
image-text-to-text.ipynb
Colab notebook
🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
❤14
Турне по регионам закончилось еще в понедельник, но с него осталось много материалов, идей, контактов и запросов, на которые я попробую ответить в следующих постах. А пока делюсь с вами своей любимой фотой из Точки кипения в Тюмени - это я показываю, как правильно тыкать в экран планшета, чтобы выбрать нужную модель на чатбот-арене.
А еще завтра в ЕУСПб (универе, где работаю) пройдет лекция (оф- и онлайн) "Когда ИИ надевает очки, или как мультимодальные языковые модели учатся видеть?" от нашего исследователя Александра Сергеева - это как раз по теме моих апрельских постов. Залейтайте! Ссылка на регу.
А еще завтра в ЕУСПб (универе, где работаю) пройдет лекция (оф- и онлайн) "Когда ИИ надевает очки, или как мультимодальные языковые модели учатся видеть?" от нашего исследователя Александра Сергеева - это как раз по теме моих апрельских постов. Залейтайте! Ссылка на регу.
🔥10
А у меня..
1⃣ ..новые зумеры 😁 Мы с ними были на кружке NLP в субботу. Занятие было по мультимодальным моделям. Вел его исследователь Школы вычислительных наук ЕУСПб Александр Сергеев. Вот тут чат кружка - там постятся анонсы встреч.
2⃣ ..сакура на Литейном цветет. После кружка мы как раз пошли на нее посмотреть.
3⃣ ..месяц постов по мультимодальным моделям и в связи с этим ноутбучек по визуально-языковой модели Qwen 2.5 VL для запросов к картинкам. Ноутбук сделан по материалам Александра с заседания кружка.
4⃣ ..анонс открытой лекции «Тонкое искусство промпта: как эффективно общаться с языковыми моделями», которую я буду читать завтра в ЕУСПб. Если вы внимательно читаете мой канал, то местами вам будет скучновато 😅
5⃣ ..пустые строки между абзацами - Евгений, смотрите, я улучшаю свой UX 😇
#notebook #меропрИИятия
1⃣ ..новые зумеры 😁 Мы с ними были на кружке NLP в субботу. Занятие было по мультимодальным моделям. Вел его исследователь Школы вычислительных наук ЕУСПб Александр Сергеев. Вот тут чат кружка - там постятся анонсы встреч.
2⃣ ..сакура на Литейном цветет. После кружка мы как раз пошли на нее посмотреть.
3⃣ ..месяц постов по мультимодальным моделям и в связи с этим ноутбучек по визуально-языковой модели Qwen 2.5 VL для запросов к картинкам. Ноутбук сделан по материалам Александра с заседания кружка.
4⃣ ..анонс открытой лекции «Тонкое искусство промпта: как эффективно общаться с языковыми моделями», которую я буду читать завтра в ЕУСПб. Если вы внимательно читаете мой канал, то местами вам будет скучновато 😅
5⃣ ..пустые строки между абзацами - Евгений, смотрите, я улучшаю свой UX 😇
#notebook #меропрИИятия
Telegram
NLP P.S.
Этот чат — сообщество людей, интересующихся компьютерными методами анализа текстов.
Спам и оскорбления участников строго запрещены и караются блокировкой.
Спам и оскорбления участников строго запрещены и караются блокировкой.
❤6
This media is not supported in your browser
VIEW IN TELEGRAM
❤5
Новоприбывшим
После наших с коллегами интенсивов с no-code приложениями в канал пришли ребята, которые не факт, что кодят. Поэтому я хочу немного пояснить вам за свой хэштег #notebook - т.е. ноутбуки с кодом, которые я сюда регулярно скидываю.
В программировании на Python (питоне - языке программирования, который является одним из самых популярных в мире, во многом потому что на нем есть простые и понятные инструменты для запуска искусственного интеллекта) ноутбуки, они же notebooks, это файлы с кодом, который можно запускать не весь сразу, а по частям. Запуск кода по частям полезен, например, при обработке данных - когда вы еще не очень понимаете, что хотите делать с данными, и пробуете разные методы.
В браузере можно запускать ноутбуки с кодом, не заморачиваясь с установкой программ для профессионального написания кода. Я пользуюсь приложением Google Colaboratory (он же колаб, Colab), но есть и другие. Колаб мне нравится тем, что достаточно зайти в свой гугл-аккаунт и можно создавать ноутбуки, запускать их и делиться ими прямо в браузере на гугл-диске (облачном хранилище файлов от Google). Вот здесь неплохое описание основ работы в колабе на русском языке.
Ну и вам не обязательно кодить, чтобы посмотреть мои ноутбуки - открываете файлы по ссылке и смотрите: код в ячейке и его результат под ячейкой. Но если вдруг вы хотите попробовать себя в программировании на Python, то я рекомендую вот этот тьюториал от Django Girls.
NB! Если будете кодить в колабе, то создавайте ячейку и пишите в нее код без вот этих стрелочек. То есть у вас будет не такое:
а вот такое:
И затем запускайте ячейку, жмякая на ▶.
Вопросы можно кидать в комментарии под этот пост - чем смогу, помогу.
#база
После наших с коллегами интенсивов с no-code приложениями в канал пришли ребята, которые не факт, что кодят. Поэтому я хочу немного пояснить вам за свой хэштег #notebook - т.е. ноутбуки с кодом, которые я сюда регулярно скидываю.
В программировании на Python (питоне - языке программирования, который является одним из самых популярных в мире, во многом потому что на нем есть простые и понятные инструменты для запуска искусственного интеллекта) ноутбуки, они же notebooks, это файлы с кодом, который можно запускать не весь сразу, а по частям. Запуск кода по частям полезен, например, при обработке данных - когда вы еще не очень понимаете, что хотите делать с данными, и пробуете разные методы.
В браузере можно запускать ноутбуки с кодом, не заморачиваясь с установкой программ для профессионального написания кода. Я пользуюсь приложением Google Colaboratory (он же колаб, Colab), но есть и другие. Колаб мне нравится тем, что достаточно зайти в свой гугл-аккаунт и можно создавать ноутбуки, запускать их и делиться ими прямо в браузере на гугл-диске (облачном хранилище файлов от Google). Вот здесь неплохое описание основ работы в колабе на русском языке.
Ну и вам не обязательно кодить, чтобы посмотреть мои ноутбуки - открываете файлы по ссылке и смотрите: код в ячейке и его результат под ячейкой. Но если вдруг вы хотите попробовать себя в программировании на Python, то я рекомендую вот этот тьюториал от Django Girls.
NB! Если будете кодить в колабе, то создавайте ячейку и пишите в нее код без вот этих стрелочек. То есть у вас будет не такое:
>>> name = 'Maria'
>>> name
а вот такое:
name = 'Maria'
name
И затем запускайте ячейку, жмякая на ▶.
Вопросы можно кидать в комментарии под этот пост - чем смогу, помогу.
#база
Google
Google Colab
🫡4
GOT-OCR2: Мультимодальная модель для распознавания текста
Майские прошли, шашлыки пожарены и съедены, пора продолжить пощение. Завершаю апрельскую тематику о мультимодальных моделях постом с обзором модельки GOT-OCR2.
OCR (optical character recognition) - это область на стыке компьютерной лингвистики и компьютерного зрения, которая занимается автоматическим распознаванием текста, символов на изображениях.
⬆ На входе: pdf или картинка.
⬇ На выходе: текст, который там изображен, причем хорошо бы, чтобы он был отформатирован как в оригинале.
Факторы, которые осложняют распознавание:
👅 разные и (в особенности) редкие языки,
🎼 символьные языки, например, нотная грамота,
🖋 рукописный текст и особенности почерка,
📰 старинные и редкие шрифты,
🌪сложная структура документа, например, разная ширина столбцов в таблице.
Я с моим давним соавтором Александром Ж.🐝 разбирала здесь две OCR библиотеки, основанные на машинном обучении: EasyOCR и Tesseract. Авторы библиотеки GOT-OCR2, основанной на мультимодальной языковой модели, предложили идею универсального распознавателя любых символов: General OCR Theory (общая теория распознавания символов).
Вместе с Александром Сергеевым, моим коллегой из ЕУСПБ, мы запустили GOT-OCR2 в Google Colab и…
Да, страницы вордовских файлов (или любых других текстовых редакторов), сохраненные как изображения, может хорошо. Улавливает структуру документа, если, например, две колонки. Также может ноты и формулы. Но… совсем не может, если качество изображения чуть хуже, чем скан или текстовый документ, переведенный в картинку. Да и для изображений в высоком качестве с привычной структурой проигрывает тому же EasyOCR.
В общем, чудеса (и общие теории всего) бывают понемногу. Но вот все равно - ноутбучек. Вдруг вам надо формулы попарсить или ноты.
ПС. А в следующем посте буду разбирать, как парсить сайты при помощи больших языковых моделей. Спойлер: это можно делать промптами - без кода. Но просто кинуть модели ссылку на чатбот-арене не получится.
Надеюсь, это было достаточно кликбейтно 😉 Stay tuned!
#notebook
Майские прошли, шашлыки пожарены и съедены, пора продолжить пощение. Завершаю апрельскую тематику о мультимодальных моделях постом с обзором модельки GOT-OCR2.
OCR (optical character recognition) - это область на стыке компьютерной лингвистики и компьютерного зрения, которая занимается автоматическим распознаванием текста, символов на изображениях.
⬆ На входе: pdf или картинка.
⬇ На выходе: текст, который там изображен, причем хорошо бы, чтобы он был отформатирован как в оригинале.
Факторы, которые осложняют распознавание:
👅 разные и (в особенности) редкие языки,
🎼 символьные языки, например, нотная грамота,
🖋 рукописный текст и особенности почерка,
📰 старинные и редкие шрифты,
🌪сложная структура документа, например, разная ширина столбцов в таблице.
Я с моим давним соавтором Александром Ж.🐝 разбирала здесь две OCR библиотеки, основанные на машинном обучении: EasyOCR и Tesseract. Авторы библиотеки GOT-OCR2, основанной на мультимодальной языковой модели, предложили идею универсального распознавателя любых символов: General OCR Theory (общая теория распознавания символов).
Вместе с Александром Сергеевым, моим коллегой из ЕУСПБ, мы запустили GOT-OCR2 в Google Colab и…
Да, страницы вордовских файлов (или любых других текстовых редакторов), сохраненные как изображения, может хорошо. Улавливает структуру документа, если, например, две колонки. Также может ноты и формулы. Но… совсем не может, если качество изображения чуть хуже, чем скан или текстовый документ, переведенный в картинку. Да и для изображений в высоком качестве с привычной структурой проигрывает тому же EasyOCR.
В общем, чудеса (и общие теории всего) бывают понемногу. Но вот все равно - ноутбучек. Вдруг вам надо формулы попарсить или ноты.
ПС. А в следующем посте буду разбирать, как парсить сайты при помощи больших языковых моделей. Спойлер: это можно делать промптами - без кода. Но просто кинуть модели ссылку на чатбот-арене не получится.
Надеюсь, это было достаточно кликбейтно 😉 Stay tuned!
#notebook
Telegram
Введение в искусственный интеллект
Сравнение инструментов OCR
Ранее мы с Александром писали про инструмент распознавания текста (OCR) Tesseract. Сегодня у нас новые карточки. На этот раз мы провели сравнение Тессеракта с двумя другими - ABBYY FineReader и EasyOCR. И поняли, что сравнивать…
Ранее мы с Александром писали про инструмент распознавания текста (OCR) Tesseract. Сегодня у нас новые карточки. На этот раз мы провели сравнение Тессеракта с двумя другими - ABBYY FineReader и EasyOCR. И поняли, что сравнивать…
❤5🔥4
Парсинг с LLM. Начало
Не так давно в Интернете завирусились видео, где ИИ-управляемый компьютер заходит на разные сайты, собирает с них нужную информацию и в итоге выполняет какую-нибудь задачу вроде бронирования лучшего отеля для отпуска. Мой внутренний маркетолог говорит, что это техгиганты вроде Microsoft выпустили на рынок версии сервисов, частично управляемых при помощи ИИ, и следом запустили эти вирусные видео. Но это не значит, что я думаю, что ИИ в гаджетах - фу. Я давно подсела на смартфоны Pixel от Google, которые напичканы ИИшкой. И это реально ощущается. Например, он фильтрует спам-звонки, а в режиме “Без звука” все равно звонит, если это кто-то из семьи. И на фотках у него я всегда красотка 💅 Ну почти 😀 Мне, кстати, из вирусных видео больше всего понравилось то, где одна программа позвонила другой и они “перешли на на высокоскоростную аудиосвязь под названием GGWave”, которая для человеческого уха звучит как загрузка модема из нулевых - чисто восстание машин.
И кажется, что спарсить данные с сайта при помощи ИИ - это уже вполне типовая задача: пусть модель пройдет по ссылке и выполнит задание. Но тут мы натыкаемся на несколько технических сложностей..
Парсинг сайта - это задача, которая включает несколько подзадач:
👆 пройти по ссылке, т.е. отправить запрос в Интернет,
✌ получить ответ сервера в виде веб-страницы,
🖖 прочитать HTML-код с веб-страницы, а также другие виды данных и кода, если они там есть (это могут быть JSON, XML, JavaScript и т.д.),
✋ выбрать нужную информацию,
👋 передать информацию пользователю в запрошенном виде.
Такие универсальные парсеры уже созданы. Но они не в “свободном доступе”.
🦾 GPT4 с плагином WebPilot, который есть только в платных версиях ChatGPT, делает маркетинговые исследования, отчеты, проводит анализ данных или просто структурирует данные на странице по вашему запросу (например, “выведи списком все комментарии к товару”). Если хотите узнать о нем побольше, спросите GPT4 на чатбот-арене.
🦿 Microsoft Copilot, встроенный в Windows 11, помогает анализировать содержимое веб-страниц (вот, например, выбрать вам самый выгодный отель), но тоже не является полноценным парсером. Он действует как ваш секретарь и помощник в рутинных, привычных задачах, спектр которых ограничен тем, что производители смогли проверить и оценить, как “выполняется на достаточно высоком уровне, чтобы запустить это в прод”.
А нам, исследователям, нужно несколько иное: собрать из массы неструктурированных данных на веб-странице то, что нужно именно нам, и как-то это уложить в структуру, таблицу, например.
На этой ноте вводный пост в эту тему заканчиваю. Надеюсь, забайтила 😉
Кстати, кто на чатбот-арене с моделями общается, спросите у o3, как с нею парсить веб. Возможно, вас ее ответ удовлетворит В своих дальнейших постах я буду делать примерно то же самое, просто разберу конкретные кейсы и обойду подводные, о которых o3 умалчивает.
#эссеИИстика
Не так давно в Интернете завирусились видео, где ИИ-управляемый компьютер заходит на разные сайты, собирает с них нужную информацию и в итоге выполняет какую-нибудь задачу вроде бронирования лучшего отеля для отпуска. Мой внутренний маркетолог говорит, что это техгиганты вроде Microsoft выпустили на рынок версии сервисов, частично управляемых при помощи ИИ, и следом запустили эти вирусные видео. Но это не значит, что я думаю, что ИИ в гаджетах - фу. Я давно подсела на смартфоны Pixel от Google, которые напичканы ИИшкой. И это реально ощущается. Например, он фильтрует спам-звонки, а в режиме “Без звука” все равно звонит, если это кто-то из семьи. И на фотках у него я всегда красотка 💅 Ну почти 😀 Мне, кстати, из вирусных видео больше всего понравилось то, где одна программа позвонила другой и они “перешли на на высокоскоростную аудиосвязь под названием GGWave”, которая для человеческого уха звучит как загрузка модема из нулевых - чисто восстание машин.
И кажется, что спарсить данные с сайта при помощи ИИ - это уже вполне типовая задача: пусть модель пройдет по ссылке и выполнит задание. Но тут мы натыкаемся на несколько технических сложностей..
Парсинг сайта - это задача, которая включает несколько подзадач:
👆 пройти по ссылке, т.е. отправить запрос в Интернет,
✌ получить ответ сервера в виде веб-страницы,
🖖 прочитать HTML-код с веб-страницы, а также другие виды данных и кода, если они там есть (это могут быть JSON, XML, JavaScript и т.д.),
✋ выбрать нужную информацию,
👋 передать информацию пользователю в запрошенном виде.
Такие универсальные парсеры уже созданы. Но они не в “свободном доступе”.
🦾 GPT4 с плагином WebPilot, который есть только в платных версиях ChatGPT, делает маркетинговые исследования, отчеты, проводит анализ данных или просто структурирует данные на странице по вашему запросу (например, “выведи списком все комментарии к товару”). Если хотите узнать о нем побольше, спросите GPT4 на чатбот-арене.
🦿 Microsoft Copilot, встроенный в Windows 11, помогает анализировать содержимое веб-страниц (вот, например, выбрать вам самый выгодный отель), но тоже не является полноценным парсером. Он действует как ваш секретарь и помощник в рутинных, привычных задачах, спектр которых ограничен тем, что производители смогли проверить и оценить, как “выполняется на достаточно высоком уровне, чтобы запустить это в прод”.
А нам, исследователям, нужно несколько иное: собрать из массы неструктурированных данных на веб-странице то, что нужно именно нам, и как-то это уложить в структуру, таблицу, например.
На этой ноте вводный пост в эту тему заканчиваю. Надеюсь, забайтила 😉
Кстати, кто на чатбот-арене с моделями общается, спросите у o3, как с нею парсить веб. Возможно, вас ее ответ удовлетворит В своих дальнейших постах я буду делать примерно то же самое, просто разберу конкретные кейсы и обойду подводные, о которых o3 умалчивает.
#эссеИИстика
Афиша
Два ИИ-помощника созвонились и пообщались на непонятном людям языке
Компания-разработчик ElevenLabs выпустила ролик о коммуникационной системе GibberLink. В нем один виртуальный ассистент с искусственным интеллектом звонит другому.
🔥6❤1