Введение в искусственный интеллект

Апрельское пощение будет посвящено не только моему турне, но и мультимодальным языковым моделям. Начну с поста, который мы с Артемом сделали по следам первого заседания Тюменского NLP-кружка Quick-to-Code. Здесь в карточках - введение в моделирование звучащей речи при помощи нейросетей.

#карточкИИ #база

🔥5

246 views11:17

Это олимпиада для поступающих в магистратуру ПАНДАН, которой я сейчас соруковожу с Иваном Бибиловым из Яндекс Образования.

204 viewsedited 13:16

Введение в искусственный интеллект

Forwarded from Школа вычислительных социальных наук в Европейском

Две хорошие новости про Олимпиаду ADAlympics от команды программы «Прикладной Анализ Данных и Искусственный Интеллект»

новость 1: Коллеги написали несколько советов, как не бояться олимпиадных заданий и на что обращать внимание в первую очередь

новость 2: Прием заявок на олимпиаду продлили до 6 апреля, поэтому советы придутся как раз кстати — у вас еще целых 12 дней на то, чтобы прислать нам эссе ✉️

Слово коллегам:

Олимпиадные задания часто кажутся сложными, требующими ответственности и вызывающими дискомфорт из-за соревновательного духа. Отчасти это правда. Но только отчасти. Участвуя в олимпиаде, вы проверяете свои навыки в решении нестандартных задач и оцениваете текущие знания. Такая практика важна для самоанализа и подготовки к реальным ситуациям, например, к поиску работы, стажировок и других интересных возможностей. Собеседования нужны не только для трудоустройства, но и для того, чтобы понять, насколько вы готовы справляться с нетипичными задачами в профессиональной сфере. Так и олимпиада — это хороший способ потренироваться.

В первом задании олимпиады Adalympics нужно проанализировать сводные графики и диаграммы по разным показателям сиротства в России. (Данные заботливо предоставил официальный партнер ADAlympics, дата-журналистский проект «Если быть точным»)

На что стоит ориентироваться при написании решения:

⏺Подойдите к ответам творчески и аналитически. Попытайтесь в свободной форме подумать о предложенной задаче.
⏺Предложите своё объяснение проблемы, поставленной в задании.
⏺Обратите внимание на разницы представленных показателей. Возможно, они дадут вам больше информации для ответа.
⏺Как вы можете объяснить представленную динамику? Попробуйте поискать источники, помогающие объяснить это.
⏺Возможно, вы знаете теории, которые могут помочь объяснить предложенную вами догадку? Расскажите нам о ней в тексте ответа.

Что важно для проверяющей комиссии:

📍Прежде всего, важно то, как вы думаете. Изложите ваши рассуждения в тексте, постарайтесь писать структурировано и последовательно.
📍Отвечайте прямо на поставленный вопрос задания, дополните свой ответ пояснениями и обоснованиями.
📍Используйте и ссылайтесь на источники. Исследователи опираются на чужие исследования. Найдите, изучите, перескажите их выводы и находки. Работа с источниками — необходимая часть работы исследователя и аналитика.
📍И не забывайте указывать ссылки 🧡

После таких советов олимпиадное задание кажется уже не таким и сложным ✨

Ждем ваши заявки до 6 апреля
Подробности на сайте ADAlympics

⏺

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

244 views13:16

Введение в искусственный интеллект

Мультимодальные модели и другие скороговорки 21 века
Апрельское пощение я буду делать без анонсов постов, т.к. я в дороге и тут случается много неожиданного.

Вот ведь что такое мультимодальность? Мульти (multi), с английского, “много”; модальность (modality), с английского, ну в общем-то модальность. Тут нужен лингвистический контекст.
В лингвистике модальность высказывания - это собирательное понятие, которое указывает на то, что в процессе коммуникации важно не только, какие звуки мы произносим или буквы пишем/печатаем, но и с какой интонацией, использовали ли капслок, говорим ли о реальных вещах или воображаем, какие эмоции при этом у нас на лице, как мы жестикулируем, показываем ли пальцем на картинку, а может, вообще поем. Модальность - это все дополнительные источники информации, которые наслаиваются на сообщение, добавляя ему смыслы.
В компьютерной лингвистике мультимодальные языковые модели могут анализировать и генерировать данные из разных источников: не только печатный текст, но и звуковые файлы, изображения и видео. Т.е. используют четыре модальности, доступные сейчас почти каждому гаджету: текст, аудио, графика и видео.

Первыми появились, конечно, текстовые языковые модели (text-to-text, текст на входе и на выходе), т.к. у них относительно простой принцип работы. Потом для обучения текстовых моделей стали использовать архитектуру “трансформер”. Затем примерно параллельно в задачах распознавания и генерации звуков и изображений начали применять трансформеры таким образом, чтобы кодирование текстовой информации было связано с аудио и графическими данными. Ведь то и то можно представить в виде числового ряда и поместить в одну большую таблицу - матрицу эмбеддингов (векторов, в которых сжато хранится информация обо всех данных, с которыми встретилась модель). Аудио - это точки (Герцы, зарегистрированные датчиками частоты), графика - цвет пикселя, например, в палитре RGB, где он представлен тремя числами. Последними подключились генераторы видео, т.к. они требуют обработки большого объема данных.

В моделях (и их названиях) заложено, что и во что должно перетекать:

🗣 text-to-speech (текст ту спич, текст-в речь): генерация звучащей речи, озвучка текста
📝 speech-to-text (спич ту текст, речь в текст): расшифровка звучащей речи
🧑‍🎨 text-to-image (текст ту Имидж, текст в изображение), text-to-video (текст ту вИдео, текст в видео): генерация изображения или видео на основе текста-запроса (промпта)
👩‍🎤 image-text-to-text: генерация текста по запросу, в котором есть и изображение, и текст

А также image-to-image, video-to-text, text-to-3D и многие другие. Берем разные модальности и придумываем задачу, в которой они связаны, например, распознать объекты на картинке и назвать их словами - вот вам и image-to-text. Появляются и модели-универсалы, которые могут вообще во все модальности сразу: any-to-any (Эни ту Эни, любые в любые). На платформе HuggingFace, где живут языковые модели, можно посмотреть на все разнообразие мультимодальных задач.

А я завершаю пост парой мультимодальных ноутбучеков, которые можно запустить в Google Colaboratory:
text-to-speech
text-to-image
image-text-to-text

#база #notebook

Введение в искусственный интеллект

🔥5

255 viewsedited 10:45

Введение в искусственный интеллект

Немного апдейтов:

1⃣ Вчера я психанула на модель Llava "image-text-to-text", т.к. ноутбучек, который всегда запускался, сказал, что в нем ошибки в установке библиотек. Но сегодня, бахнув кофейку, я таки его запустила. И... вот еще одна мультимодальная модель, которая запускается в Google Colaboratory (а не на сотне Nvidia GeForce за 300К 💰 в наносекунду): зэ ноутбук (я его и в прошлый пост сейчас добавлю).

2⃣ Не устаю напоминать (особенно после выпитого ☕), что у нас завтра интенсив в Екатеринбурге, а 10-го в Тюмени. Если вы еще не записались + можете + хочете прийти, то вот мой вдохновляющий кружок из Еката. И ссылки на регу (можно регаться с ВК ID):
➖ 8 апреля 10:00-14:00 Точка кипения в Ельцин-центре, Екатеринбург: рега
➖ 10 апреля 12:00 - 16:00 Точка кипения в Технопарке, Тюмень: рега

3⃣ В апреле в Европейском университете в Санкт-Петербурге, где я сейчас работаю, проходят дни открытых дверей. Об этом тоже в кружочке и на сайте ЕУСПб. Мероприятия туть.

#меропрИИятия

Google

image-text-to-text.ipynb

Colab notebook

🔥5

307 views09:23

Введение в искусственный интеллект

This media is not supported in your browser

VIEW IN TELEGRAM

0:50

302 views09:24

❤14

Введение в искусственный интеллект

Турне по регионам закончилось еще в понедельник, но с него осталось много материалов, идей, контактов и запросов, на которые я попробую ответить в следующих постах. А пока делюсь с вами своей любимой фотой из Точки кипения в Тюмени - это я показываю, как правильно тыкать в экран планшета, чтобы выбрать нужную модель на чатбот-арене.

А еще завтра в ЕУСПб (универе, где работаю) пройдет лекция (оф- и онлайн) "Когда ИИ надевает очки, или как мультимодальные языковые модели учатся видеть?" от нашего исследователя Александра Сергеева - это как раз по теме моих апрельских постов. Залейтайте! Ссылка на регу.

🔥10

289 views13:48

Введение в искусственный интеллект

А у меня..

1⃣ ..новые зумеры 😁 Мы с ними были на кружке NLP в субботу. Занятие было по мультимодальным моделям. Вел его исследователь Школы вычислительных наук ЕУСПб Александр Сергеев. Вот тут чат кружка - там постятся анонсы встреч.

2⃣ ..сакура на Литейном цветет. После кружка мы как раз пошли на нее посмотреть.

3⃣ ..месяц постов по мультимодальным моделям и в связи с этим ноутбучек по визуально-языковой модели Qwen 2.5 VL для запросов к картинкам. Ноутбук сделан по материалам Александра с заседания кружка.

4⃣ ..анонс открытой лекции «Тонкое искусство промпта: как эффективно общаться с языковыми моделями», которую я буду читать завтра в ЕУСПб. Если вы внимательно читаете мой канал, то местами вам будет скучновато 😅

5⃣ ..пустые строки между абзацами - Евгений, смотрите, я улучшаю свой UX 😇

#notebook #меропрИИятия

NLP P.S.

Этот чат — сообщество людей, интересующихся компьютерными методами анализа текстов.

Спам и оскорбления участников строго запрещены и караются блокировкой.

❤6

279 views10:12

Введение в искусственный интеллект

This media is not supported in your browser

VIEW IN TELEGRAM

0:52

275 views10:12

❤5

Введение в искусственный интеллект

Новоприбывшим

После наших с коллегами интенсивов с no-code приложениями в канал пришли ребята, которые не факт, что кодят. Поэтому я хочу немного пояснить вам за свой хэштег #notebook - т.е. ноутбуки с кодом, которые я сюда регулярно скидываю.

В программировании на Python (питоне - языке программирования, который является одним из самых популярных в мире, во многом потому что на нем есть простые и понятные инструменты для запуска искусственного интеллекта) ноутбуки, они же notebooks, это файлы с кодом, который можно запускать не весь сразу, а по частям. Запуск кода по частям полезен, например, при обработке данных - когда вы еще не очень понимаете, что хотите делать с данными, и пробуете разные методы.

В браузере можно запускать ноутбуки с кодом, не заморачиваясь с установкой программ для профессионального написания кода. Я пользуюсь приложением Google Colaboratory (он же колаб, Colab), но есть и другие. Колаб мне нравится тем, что достаточно зайти в свой гугл-аккаунт и можно создавать ноутбуки, запускать их и делиться ими прямо в браузере на гугл-диске (облачном хранилище файлов от Google). Вот здесь неплохое описание основ работы в колабе на русском языке.

Ну и вам не обязательно кодить, чтобы посмотреть мои ноутбуки - открываете файлы по ссылке и смотрите: код в ячейке и его результат под ячейкой. Но если вдруг вы хотите попробовать себя в программировании на Python, то я рекомендую вот этот тьюториал от Django Girls.

NB! Если будете кодить в колабе, то создавайте ячейку и пишите в нее код без вот этих стрелочек. То есть у вас будет не такое:

>>> name = 'Maria'
>>> name

а вот такое:

name = 'Maria'
name

И затем запускайте ячейку, жмякая на ▶.
Вопросы можно кидать в комментарии под этот пост - чем смогу, помогу.

#база

Google

Google Colab

🫡4

331 views09:34

Введение в искусственный интеллект

GOT-OCR2: Мультимодальная модель для распознавания текста
Майские прошли, шашлыки пожарены и съедены, пора продолжить пощение. Завершаю апрельскую тематику о мультимодальных моделях постом с обзором модельки GOT-OCR2.

OCR (optical character recognition) - это область на стыке компьютерной лингвистики и компьютерного зрения, которая занимается автоматическим распознаванием текста, символов на изображениях.

⬆ На входе: pdf или картинка.
⬇ На выходе: текст, который там изображен, причем хорошо бы, чтобы он был отформатирован как в оригинале.

Факторы, которые осложняют распознавание:
👅 разные и (в особенности) редкие языки,
🎼 символьные языки, например, нотная грамота,
🖋 рукописный текст и особенности почерка,
📰 старинные и редкие шрифты,
🌪сложная структура документа, например, разная ширина столбцов в таблице.

Я с моим давним соавтором Александром Ж.🐝 разбирала здесь две OCR библиотеки, основанные на машинном обучении: EasyOCR и Tesseract. Авторы библиотеки GOT-OCR2, основанной на мультимодальной языковой модели, предложили идею универсального распознавателя любых символов: General OCR Theory (общая теория распознавания символов).
Вместе с Александром Сергеевым, моим коллегой из ЕУСПБ, мы запустили GOT-OCR2 в Google Colab и…
Да, страницы вордовских файлов (или любых других текстовых редакторов), сохраненные как изображения, может хорошо. Улавливает структуру документа, если, например, две колонки. Также может ноты и формулы. Но… совсем не может, если качество изображения чуть хуже, чем скан или текстовый документ, переведенный в картинку. Да и для изображений в высоком качестве с привычной структурой проигрывает тому же EasyOCR.

В общем, чудеса (и общие теории всего) бывают понемногу. Но вот все равно - ноутбучек. Вдруг вам надо формулы попарсить или ноты.

ПС. А в следующем посте буду разбирать, как парсить сайты при помощи больших языковых моделей. Спойлер: это можно делать промптами - без кода. Но просто кинуть модели ссылку на чатбот-арене не получится.
Надеюсь, это было достаточно кликбейтно 😉 Stay tuned!

#notebook

Введение в искусственный интеллект

Сравнение инструментов OCR

Ранее мы с Александром писали про инструмент распознавания текста (OCR) Tesseract. Сегодня у нас новые карточки. На этот раз мы провели сравнение Тессеракта с двумя другими - ABBYY FineReader и EasyOCR. И поняли, что сравнивать…

❤5🔥4

282 views14:17

Введение в искусственный интеллект

Парсинг с LLM. Начало

Не так давно в Интернете завирусились видео, где ИИ-управляемый компьютер заходит на разные сайты, собирает с них нужную информацию и в итоге выполняет какую-нибудь задачу вроде бронирования лучшего отеля для отпуска. Мой внутренний маркетолог говорит, что это техгиганты вроде Microsoft выпустили на рынок версии сервисов, частично управляемых при помощи ИИ, и следом запустили эти вирусные видео. Но это не значит, что я думаю, что ИИ в гаджетах - фу. Я давно подсела на смартфоны Pixel от Google, которые напичканы ИИшкой. И это реально ощущается. Например, он фильтрует спам-звонки, а в режиме “Без звука” все равно звонит, если это кто-то из семьи. И на фотках у него я всегда красотка 💅 Ну почти 😀 Мне, кстати, из вирусных видео больше всего понравилось то, где одна программа позвонила другой и они “перешли на на высокоскоростную аудиосвязь под названием GGWave”, которая для человеческого уха звучит как загрузка модема из нулевых - чисто восстание машин.

И кажется, что спарсить данные с сайта при помощи ИИ - это уже вполне типовая задача: пусть модель пройдет по ссылке и выполнит задание. Но тут мы натыкаемся на несколько технических сложностей..

Парсинг сайта - это задача, которая включает несколько подзадач:
👆 пройти по ссылке, т.е. отправить запрос в Интернет,
✌ получить ответ сервера в виде веб-страницы,
🖖 прочитать HTML-код с веб-страницы, а также другие виды данных и кода, если они там есть (это могут быть JSON, XML, JavaScript и т.д.),
✋ выбрать нужную информацию,
👋 передать информацию пользователю в запрошенном виде.

Такие универсальные парсеры уже созданы. Но они не в “свободном доступе”.

🦾 GPT4 с плагином WebPilot, который есть только в платных версиях ChatGPT, делает маркетинговые исследования, отчеты, проводит анализ данных или просто структурирует данные на странице по вашему запросу (например, “выведи списком все комментарии к товару”). Если хотите узнать о нем побольше, спросите GPT4 на чатбот-арене.

🦿 Microsoft Copilot, встроенный в Windows 11, помогает анализировать содержимое веб-страниц (вот, например, выбрать вам самый выгодный отель), но тоже не является полноценным парсером. Он действует как ваш секретарь и помощник в рутинных, привычных задачах, спектр которых ограничен тем, что производители смогли проверить и оценить, как “выполняется на достаточно высоком уровне, чтобы запустить это в прод”.

А нам, исследователям, нужно несколько иное: собрать из массы неструктурированных данных на веб-странице то, что нужно именно нам, и как-то это уложить в структуру, таблицу, например.

На этой ноте вводный пост в эту тему заканчиваю. Надеюсь, забайтила 😉
Кстати, кто на чатбот-арене с моделями общается, спросите у o3, как с нею парсить веб. Возможно, вас ее ответ удовлетворит В своих дальнейших постах я буду делать примерно то же самое, просто разберу конкретные кейсы и обойду подводные, о которых o3 умалчивает.

#эссеИИстика

Афиша

Два ИИ-помощника созвонились и пообщались на непонятном людям языке

Компания-разработчик ElevenLabs выпустила ролик о коммуникационной системе GibberLink. В нем один виртуальный ассистент с искусственным интеллектом звонит другому.

🔥6

290 views08:46

Введение в искусственный интеллект

Парсинг с LLM: веб-скрейпинг
Продолжаю тему сбора данных из Интернета при помощи больших языковых моделей (LLM). В июне постить буду мало, т.к. аврал - защиты магдиссов и прочая бюрократия. А на июль запланировала… (дочитайте до конца и узнаете 😁)

Вот ведь что такое веб-скрейпинг?.. Как всегда издалека. Сайты бывают статическими и динамическими. Статический сайт - это документ, навроде обычного текстового документа, который авторы создают и редактируют. Статический сайт уже отредактировали как надо и выложили в открытый доступ в сети Интернет, а вы его из Интернета скачали и открыли у себя на компьютере. Расширение (тип) этого документа будет html (а не docx, например). Если вам нужно вытащить информацию из статического сайта, достаточно просто… (кликбейт 😉):

👆 открыть нужный вам сайт в браузере,
✌ нажать Ctrl+A, чтобы выделить весь текст на странице,
🖖 нажать Ctrl+C, чтобы скопировать этот текст,
✊ пойти на чатбот-арену и открыть диалог с любой моделью,
🖐 написать промпт “Ниже приведен текст сайта. Собери из него (к примеру) все имена актеров, сыгравших в фильмах о Гарри Поттере / названия фигур в шахматах / способы сбора данных с сайта”. И дальше жмякаете Ctrl+V, чтобы вставить текст с сайта и наслаждаетесь магией.

Проблемы на этом пути я нашла две.

🦶 Как понять, что сайт статический? На нем в текстовом виде, пусть даже и с гиперссылками, по которым можно перейти на другие страницы, представлена вся нужная вам информация. То есть вам не нужно скроллить вниз или что-то нажимать, чтобы открылись еще какие-то поля, посты, объявления.

🦶🦶 На сайте может быть очень много текста - LLMка такое не пережует. А сколько пережует? Ну, страниц 20-30, если на чатбот-арене. Можно спросить у самой модели, какой максимальный размер у ее контекста, и подавать текст порциями.
Чтобы справиться с этой проблемой:
😷 Сохраняете промпт.
☕ Вставляете текст с сайта в обычный текстовый документ.
💊 Начинаете новый диалог с моделью и в него вставляете промпт плюс какой-то перевариваемый кусок текста с вашего сайта.
👩‍🔬 Результаты парсинга тоже складываете в отдельный документ, а потом сводите их вместе в табличку или список.

А теперь.. Динамический сайт - это такой сайт, который нигде в качестве готового документа не хранится. Он генерируется (!) в ответ на ваши действия на странице. Например, вы парсите на Авито все книги о Гарри Поттере и листаете вниз до конца, пока объявления не “прогрузятся” - вот пример. На динамических сайтах сначала скролите и жмякайете, пока весь нужный вам текст не откроется. А теперь можно жмякать Ctrl+A и Ctrl+C, чтобы скопировать этот текст. Дальше поступаете как со статическим сайтом.

Поздравляю, вы освоили веб-скрейпинг - искусство добычи данных с сайтов разными подручными методами! 🎉

Ну и в завершение поста… А на июль я запланировала запостить подкаст а-а-а.. современном смысле ИИ-технологий, который мы записали еще в феврале. Посмотрим, насколько он уже устарел 😁

#лайфхак #база

LMArena

An open platform for evaluating AI through human preference

🎉4❤1🔥1

267 views10:26

Введение в искусственный интеллект

Парсинг с LLM: глубокий анализ сайтов
В завершение темы о парсинге сайтов с LLM-ками расскажу, как поглубже заглянуть в их внутрянку, но сначала..
Парсинг Авито больше не так прост, как когда я писала предыдущий пост 🥴

Напомню, что, чтобы спарсить только текст с динамической страницы вроде поиска Авито по объявлениям, нужно:
👆 доскроллить ручками до низа страницы, чтобы они подгрузились. Если надоело скроллить, ставим себе ментальную галочку - “скролю до ста / тысячи / N товаров / до 1 минуты”.
✌ выделить весь текст на странице (Ctrl+A) и скопировать в буфер (Ctrl+C)
🖖 вставить текст из буфера в чат с моделью и отправить ей, как свое обычное сообщение.

Дальше задаем любые вопросы о тексте.
Однако с недавних пор при выделении текста на странице поиска Авито браузер зависает, т.к. даже просто текста на ней слишком много, чтобы он поместился в буфер. В основном текст содержит адреса фотографий и какие-то непонятные куски скрипта, в общем шум. Разработчики Авито, что у вас случилось? Вот у Озона такого нет, и страницы копируются нормально.
Поэтому.. лайфхак от моей любимой модели о3 (если я когда-нибудь решу выйти замуж за LLM, то это будет о3 - надеюсь, это мужик):

👆 качаем расширение “Copy As Plain Text” (есть для разных браузеров)
✌ вместо Ctrl+C используем расширение и копируем чистый текст, без мусора. В Chrome для этого надо кликнуть правой кнопкой мыши на выделенный текст и жмякнуть в открывшемся меню на иконку с расширением.

А теперь о более сложных способах вытаскивать инфу из сайтов. Все, что мы обычно открываем в вебе и выглядит как сайт, в основном написано на языке разметки html. Этот язык отражает структуру текста: название страницы, заголовки параграфов, основная информация и т.д. Возможно, вам захочется задать вопросы именно к сайту с учетом его структуры - т.е., чтобы модель учла, какие заголовки, подзаголовки и прочие разделы и элементы есть на сайте.

👆 Беру код страницы с сайта Rotten Tomatos. Мне захотелось посмотреть, какие супергеройские фильмы получили максимально лучшие отзывы критиков.
✌ Жмякаю правой кнопкой мыши на страницу и выбираю "Просмотр кода страницы".
🖖 Перехожу в открывшуюся вкладку с кодом и копирую все в буфер.
👊 Вставляю код в сообщение на чатбот-арене (приходится его сократить, т.к. не влезает в ограничения на объем) и:
➡ прошу вытащить все заголовки второго уровня - получаю список фильмов
➡ прошу рассказать мне о структуре документа - пишет, какие есть разделы и скрипты на сайте, как он сделан и т.п.
➡ прошу написать парсер на питоне для этой страницы, парсер запускаю в Google Colaboratory. Работает! Данные складываются в красивую табличку в формате .csv. Парсер тут. Мой запрос и ответы моделек тут.

Ну и, конечно, я попросила написать парсер для многострадального Авито, скормив кусок кода модельке.. После 15-20 безуспешных попыток Авито не распарсился. Тогда я пошла к Perplexity - он сам парсит html по ссылкам. Обзор книг о Гарри Поттере получился норм, я довольна.

В общем ИМХО с парсингом в 2025 году стоит напрягаться, чтобы получить очень чистые качественные данные, а для грубого обзора вполне сойдут чатбот-арена и Perplexity.

#база #лайфхак

Rotten Tomatoes

100 Best Superhero Movies Ranked (Superman)

See what got inducted into the legion of Fresh, from Avengers to Batman to Mystery Men and beyond!

👍3🔥3❤1👀1

237 views11:40

Введение в искусственный интеллект

Выхожу из отпуска и.. объявляю анонс на вторую половину августа:

1⃣9⃣ Почему не наступает эра Скайнет. Новости, тренды
2⃣1⃣ Я тебя по API вычислю
2⃣3⃣ Суверенный ИИ versus дискурс эффективности
2⃣6⃣ Не зря ли я переплачиваю за “пожалуйста” и запятые в промптах?
2⃣8⃣ ИИ-ученый: какое знание синтезируют генеративные модели
3⃣0⃣ Вымрут ли джуны?

#анонс

👍5🔥2❤1

115 views09:44

Введение в искусственный интеллект

Почему не наступает эра Скайнет. Новости, тренды

Вместо того, чтобы делать Скайнет, ИИ-разработчики все лето занимались тем, что..

👆 Вышел пятый GPT - моделька от OpenAI, самой прославленной компании, выпускающей генеративный ИИ. И я его уже активно юзаю на чатбот-арене.

Ну что сказать.. Он какой-то странненький. Вполне возможно, потому что, как и другие юзеры, которые активно жаловались на новую модель в Интернете, я уже привыкла к четвертому GPT.

Что мне неудобно:

У него какой-то странный русский язык. Например, если программа не проходит тесты, он пишет, что тесты падают. Я так вроде бы не говорю и пошла посмотреть в Интернете, говорят ли люди, что тесты “падают”. Оказалось, говорят, но как-то не слишком активно. На английском это бы звучало “tests fail” - вроде нормально. В общем, для меня пятый GPT звучит, как будто бы я читаю перевод с английского.

Он сыплет экспертным знанием: термины, факты, списки. Каждый раз приходится просить переписать плавной речью с рассуждениями, вводными конструкциями и логическими переходами. Причем, при переписывании ответ всегда получается максимально краткий. Например, вместо того, чтобы выдать полностью исправленный текст, он возвращает только те части текста, где были внесены исправления. Видимо, много жжет энергии - настроен, чтобы экономить.

✌ Некоторое время я успела попользоваться Google Gemini в России - как я говорю в таких случаях, “тепленькая пошла”. Но нет, как только мой Google Pixel переключился на Gemini как на основного ассистента, так его и отрубили. Теперь пиксель не реагирует на “Окей, гугл” - большие проблемы белых людей 😅

🖖 На чатбот-арене появились модели с веб-поиском. Причем все топовые там есть, включая Perplexity. А еще там есть ссылка на видео-чатбот-арену, но к ней нужно продираться - я тоже затестила, знатные видева получаются: в видео-генерации большой прогресс. Veo 3, например, от Google.

Так почему же разрабы занимаются не Скайнетом? 🤔 Я тут в очередной раз взяла подработку на лето - создавала курс по ИИ для онлайн-колледжа. И, пока делала курс, в очередной раз переосмыслила свой пост про Скайнет. Аргументов у меня несколько - я их запрячу в августовских постах. Вот такой кликбейт 😁

#новостИИ

LMArena

An open platform for evaluating AI through human preference

❤5

105 viewsedited 10:23

Введение в искусственный интеллект

Я тебя по API (апи) вычислю

Приходилось ли вам слышать слово “апи” (ударение можно ставить и на А, и на И - кому как удобнее)? Если вы - hardcore программер, то дальше не читайте - вы и так знаете, что это. А если вы хотите получать данные из Интернета (с сайтов и соцсетей) для исследования или по работе, то.. го читать дальше.

Не успели юзеры привыкнуть к тому, что их вычисляют по айпи, как приходится иметь дело с апи. Но апи это не про отдельного пользователя и прописку его устройства в Интернете. Эта тема касается сайтов, платформ и сервисов, с которых мы хотели бы получать данные не через красивый интерфейс, а в виде файла с таблицей или списком. В общем как-то структурированно.

👩‍🎓 Например, вы пишете магистерскую диссертацию по языку соцсетей. Хочется не скроллить страницу с комментариями или постами и сотни раз нажимать Crl+C и Ctrl+V, а сразу получить табличку, где каждый пост или комментарий в своей колонке, а в других колонках - ник пользователя, дата, сколько лайков поставлено и т.д.

🧑‍💻 Или вы ищете кадры для своей компании, а hh.ru выдает вам каждый раз длинный список кандидатов, в котором вы начинаете тонуть после первых 5-8 резюме. Вот бы их все в табличку и выставить параметры, как они должны быть рассортированы!

API (Application Programming Interface, он же “программный интерфейс приложения”) - это способ обмена данными не через интерфейс пользователя, где все красиво отформатировано, а напрямую с базой данных приложения. Не у всех приложений есть доступное API, но если оно есть, то оно сильно облегчает добычу из него данных в виде какой-то структуры (таблицы, например).

Вот ссылка для обращения к API hh.ru - по ней вы получите до ста вакансий, в чьих названиях есть слово “лингвист” (можно жмякать - она не вредоносная 🦠):
https://api.hh.ru/vacancies?text=%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82
Кажется, что вместо красивенького хх.ру мы получили какой-то малопонятный набор символов:
{"items":[{"id":"123435096","premium":false,"name":"Лингвист/репетитор..
На самом деле это табличные данные, просто в формате записи JSON. Перевести их в таблицу может любая языковая модель на чатбот-арене. Ну и конечно, код на питоне это тоже легко сделает (а код вам тоже напишет языковая модель - скормите ей для этого ваш JSON).
Теперь добавим к “лингвисту” параметр - “зарплата = 100 000 руб.” (ссылка для жмяка). Вуаля:

https://api.hh.ru/vacancies?text=%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82&only_with_salary=true&salary=100000&currency=RUR

И такие есть вакансии (хотя выглядят они подозрительно, особенно те, в которых не требуется даже опыт работы).

В общем API - это удобный способ парсить данные с приложений, если у приложения есть API. Остается только разобраться, как для нужного вам приложения сформировать такую ссылку, как выше для hh.ru. А в этом помогут языковые модели, которые умеют искать в Интернете.

🍀 Всем удачного парсинга!

#база

❤4🔥3

83 viewsedited 10:18

About

Blog

Apps

Platform