Введение в искусственный интеллект
331 subscribers
63 photos
2 videos
170 links
Просто об искусственном интеллекте и его возможностях. Помогу разобраться в базовых понятиях и создать собственную нейросеть. Рассказываю, что у ИИ под кожей.
Елена Михалькова
Download Telegram
Мультимодальные модели и другие скороговорки 21 века
Апрельское пощение я буду делать без анонсов постов, т.к. я в дороге и тут случается много неожиданного.

Вот ведь что такое мультимодальность? Мульти (multi), с английского, “много”; модальность (modality), с английского, ну в общем-то модальность. Тут нужен лингвистический контекст.
В лингвистике модальность высказывания - это собирательное понятие, которое указывает на то, что в процессе коммуникации важно не только, какие звуки мы произносим или буквы пишем/печатаем, но и с какой интонацией, использовали ли капслок, говорим ли о реальных вещах или воображаем, какие эмоции при этом у нас на лице, как мы жестикулируем, показываем ли пальцем на картинку, а может, вообще поем. Модальность - это все дополнительные источники информации, которые наслаиваются на сообщение, добавляя ему смыслы.
В компьютерной лингвистике мультимодальные языковые модели могут анализировать и генерировать данные из разных источников: не только печатный текст, но и звуковые файлы, изображения и видео. Т.е. используют четыре модальности, доступные сейчас почти каждому гаджету: текст, аудио, графика и видео.

Первыми появились, конечно, текстовые языковые модели (text-to-text, текст на входе и на выходе), т.к. у них относительно простой принцип работы. Потом для обучения текстовых моделей стали использовать архитектуру “трансформер”. Затем примерно параллельно в задачах распознавания и генерации звуков и изображений начали применять трансформеры таким образом, чтобы кодирование текстовой информации было связано с аудио и графическими данными. Ведь то и то можно представить в виде числового ряда и поместить в одну большую таблицу - матрицу эмбеддингов (векторов, в которых сжато хранится информация обо всех данных, с которыми встретилась модель). Аудио - это точки (Герцы, зарегистрированные датчиками частоты), графика - цвет пикселя, например, в палитре RGB, где он представлен тремя числами. Последними подключились генераторы видео, т.к. они требуют обработки большого объема данных.

В моделях (и их названиях) заложено, что и во что должно перетекать:

🗣 text-to-speech (текст ту спич, текст-в речь): генерация звучащей речи, озвучка текста
📝 speech-to-text (спич ту текст, речь в текст): расшифровка звучащей речи
🧑‍🎨 text-to-image (текст ту Имидж, текст в изображение), text-to-video (текст ту вИдео, текст в видео): генерация изображения или видео на основе текста-запроса (промпта)
👩‍🎤 image-text-to-text: генерация текста по запросу, в котором есть и изображение, и текст

А также image-to-image, video-to-text, text-to-3D и многие другие. Берем разные модальности и придумываем задачу, в которой они связаны, например, распознать объекты на картинке и назвать их словами - вот вам и image-to-text. Появляются и модели-универсалы, которые могут вообще во все модальности сразу: any-to-any (Эни ту Эни, любые в любые). На платформе HuggingFace, где живут языковые модели, можно посмотреть на все разнообразие мультимодальных задач.

А я завершаю пост парой мультимодальных ноутбучеков, которые можно запустить в Google Colaboratory:
text-to-speech
text-to-image
image-text-to-text

#база #notebook
🔥5
Немного апдейтов:

1⃣ Вчера я психанула на модель Llava "image-text-to-text", т.к. ноутбучек, который всегда запускался, сказал, что в нем ошибки в установке библиотек. Но сегодня, бахнув кофейку, я таки его запустила. И... вот еще одна мультимодальная модель, которая запускается в Google Colaboratory (а не на сотне Nvidia GeForce за 300К 💰 в наносекунду): зэ ноутбук (я его и в прошлый пост сейчас добавлю).

2⃣ Не устаю напоминать (особенно после выпитого ), что у нас завтра интенсив в Екатеринбурге, а 10-го в Тюмени. Если вы еще не записались + можете + хочете прийти, то вот мой вдохновляющий кружок из Еката. И ссылки на регу (можно регаться с ВК ID):
8 апреля 10:00-14:00 Точка кипения в Ельцин-центре, Екатеринбург: рега
10 апреля 12:00 - 16:00 Точка кипения в Технопарке, Тюмень: рега

3⃣ В апреле в Европейском университете в Санкт-Петербурге, где я сейчас работаю, проходят дни открытых дверей. Об этом тоже в кружочке и на сайте ЕУСПб. Мероприятия туть.

#меропрИИятия
🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
14
Турне по регионам закончилось еще в понедельник, но с него осталось много материалов, идей, контактов и запросов, на которые я попробую ответить в следующих постах. А пока делюсь с вами своей любимой фотой из Точки кипения в Тюмени - это я показываю, как правильно тыкать в экран планшета, чтобы выбрать нужную модель на чатбот-арене.

А еще завтра в ЕУСПб (универе, где работаю) пройдет лекция (оф- и онлайн) "Когда ИИ надевает очки, или как мультимодальные языковые модели учатся видеть?" от нашего исследователя Александра Сергеева - это как раз по теме моих апрельских постов. Залейтайте! Ссылка на регу.
🔥10
А у меня..

1⃣ ..новые зумеры 😁 Мы с ними были на кружке NLP в субботу. Занятие было по мультимодальным моделям. Вел его исследователь Школы вычислительных наук ЕУСПб Александр Сергеев. Вот тут чат кружка - там постятся анонсы встреч.

2⃣ ..сакура на Литейном цветет. После кружка мы как раз пошли на нее посмотреть.

3⃣ ..месяц постов по мультимодальным моделям и в связи с этим ноутбучек по визуально-языковой модели Qwen 2.5 VL для запросов к картинкам. Ноутбук сделан по материалам Александра с заседания кружка.

4⃣ ..анонс открытой лекции «Тонкое искусство промпта: как эффективно общаться с языковыми моделями», которую я буду читать завтра в ЕУСПб. Если вы внимательно читаете мой канал, то местами вам будет скучновато 😅

5⃣ ..пустые строки между абзацами - Евгений, смотрите, я улучшаю свой UX 😇

#notebook #меропрИИятия
6
This media is not supported in your browser
VIEW IN TELEGRAM
5
Новоприбывшим

После наших с коллегами интенсивов с no-code приложениями в канал пришли ребята, которые не факт, что кодят. Поэтому я хочу немного пояснить вам за свой хэштег #notebook - т.е. ноутбуки с кодом, которые я сюда регулярно скидываю.

В программировании на Python (питоне - языке программирования, который является одним из самых популярных в мире, во многом потому что на нем есть простые и понятные инструменты для запуска искусственного интеллекта) ноутбуки, они же notebooks, это файлы с кодом, который можно запускать не весь сразу, а по частям. Запуск кода по частям полезен, например, при обработке данных - когда вы еще не очень понимаете, что хотите делать с данными, и пробуете разные методы.

В браузере можно запускать ноутбуки с кодом, не заморачиваясь с установкой программ для профессионального написания кода. Я пользуюсь приложением Google Colaboratory (он же колаб, Colab), но есть и другие. Колаб мне нравится тем, что достаточно зайти в свой гугл-аккаунт и можно создавать ноутбуки, запускать их и делиться ими прямо в браузере на гугл-диске (облачном хранилище файлов от Google). Вот здесь неплохое описание основ работы в колабе на русском языке.

Ну и вам не обязательно кодить, чтобы посмотреть мои ноутбуки - открываете файлы по ссылке и смотрите: код в ячейке и его результат под ячейкой. Но если вдруг вы хотите попробовать себя в программировании на Python, то я рекомендую вот этот тьюториал от Django Girls.

NB! Если будете кодить в колабе, то создавайте ячейку и пишите в нее код без вот этих стрелочек. То есть у вас будет не такое:

>>> name = 'Maria'
>>> name

а вот такое:

name = 'Maria'
name

И затем запускайте ячейку, жмякая на .
Вопросы можно кидать в комментарии под этот пост - чем смогу, помогу.

#база
🫡4
GOT-OCR2: Мультимодальная модель для распознавания текста
Майские прошли, шашлыки пожарены и съедены, пора продолжить пощение. Завершаю апрельскую тематику о мультимодальных моделях постом с обзором модельки GOT-OCR2.

OCR (optical character recognition) - это область на стыке компьютерной лингвистики и компьютерного зрения, которая занимается автоматическим распознаванием текста, символов на изображениях.

На входе: pdf или картинка.
На выходе: текст, который там изображен, причем хорошо бы, чтобы он был отформатирован как в оригинале.

Факторы, которые осложняют распознавание:
👅 разные и (в особенности) редкие языки,
🎼 символьные языки, например, нотная грамота,
🖋 рукописный текст и особенности почерка,
📰 старинные и редкие шрифты,
🌪сложная структура документа, например, разная ширина столбцов в таблице.

Я с моим давним соавтором Александром Ж.🐝 разбирала здесь две OCR библиотеки, основанные на машинном обучении: EasyOCR и Tesseract. Авторы библиотеки GOT-OCR2, основанной на мультимодальной языковой модели, предложили идею универсального распознавателя любых символов: General OCR Theory (общая теория распознавания символов).
Вместе с Александром Сергеевым, моим коллегой из ЕУСПБ, мы запустили GOT-OCR2 в Google Colab и…
Да, страницы вордовских файлов (или любых других текстовых редакторов), сохраненные как изображения, может хорошо. Улавливает структуру документа, если, например, две колонки. Также может ноты и формулы. Но… совсем не может, если качество изображения чуть хуже, чем скан или текстовый документ, переведенный в картинку. Да и для изображений в высоком качестве с привычной структурой проигрывает тому же EasyOCR.

В общем, чудеса (и общие теории всего) бывают понемногу. Но вот все равно - ноутбучек. Вдруг вам надо формулы попарсить или ноты.

ПС. А в следующем посте буду разбирать, как парсить сайты при помощи больших языковых моделей. Спойлер: это можно делать промптами - без кода. Но просто кинуть модели ссылку на чатбот-арене не получится.
Надеюсь, это было достаточно кликбейтно 😉 Stay tuned!

#notebook
5🔥4
Парсинг с LLM. Начало

Не так давно в Интернете завирусились видео, где ИИ-управляемый компьютер заходит на разные сайты, собирает с них нужную информацию и в итоге выполняет какую-нибудь задачу вроде бронирования лучшего отеля для отпуска. Мой внутренний маркетолог говорит, что это техгиганты вроде Microsoft выпустили на рынок версии сервисов, частично управляемых при помощи ИИ, и следом запустили эти вирусные видео. Но это не значит, что я думаю, что ИИ в гаджетах - фу. Я давно подсела на смартфоны Pixel от Google, которые напичканы ИИшкой. И это реально ощущается. Например, он фильтрует спам-звонки, а в режиме “Без звука” все равно звонит, если это кто-то из семьи. И на фотках у него я всегда красотка 💅 Ну почти 😀 Мне, кстати, из вирусных видео больше всего понравилось то, где одна программа позвонила другой и они “перешли на на высокоскоростную аудиосвязь под названием GGWave”, которая для человеческого уха звучит как загрузка модема из нулевых - чисто восстание машин.

И кажется, что спарсить данные с сайта при помощи ИИ - это уже вполне типовая задача: пусть модель пройдет по ссылке и выполнит задание. Но тут мы натыкаемся на несколько технических сложностей..

Парсинг сайта - это задача, которая включает несколько подзадач:
👆 пройти по ссылке, т.е. отправить запрос в Интернет,
получить ответ сервера в виде веб-страницы,
🖖 прочитать HTML-код с веб-страницы, а также другие виды данных и кода, если они там есть (это могут быть JSON, XML, JavaScript и т.д.),
выбрать нужную информацию,
👋 передать информацию пользователю в запрошенном виде.

Такие универсальные парсеры уже созданы. Но они не в “свободном доступе”.

🦾 GPT4 с плагином WebPilot, который есть только в платных версиях ChatGPT, делает маркетинговые исследования, отчеты, проводит анализ данных или просто структурирует данные на странице по вашему запросу (например, “выведи списком все комментарии к товару”). Если хотите узнать о нем побольше, спросите GPT4 на чатбот-арене.

🦿 Microsoft Copilot, встроенный в Windows 11, помогает анализировать содержимое веб-страниц (вот, например, выбрать вам самый выгодный отель), но тоже не является полноценным парсером. Он действует как ваш секретарь и помощник в рутинных, привычных задачах, спектр которых ограничен тем, что производители смогли проверить и оценить, как “выполняется на достаточно высоком уровне, чтобы запустить это в прод”.

А нам, исследователям, нужно несколько иное: собрать из массы неструктурированных данных на веб-странице то, что нужно именно нам, и как-то это уложить в структуру, таблицу, например.

На этой ноте вводный пост в эту тему заканчиваю. Надеюсь, забайтила 😉
Кстати, кто на чатбот-арене с моделями общается, спросите у o3, как с нею парсить веб. Возможно, вас ее ответ удовлетворит В своих дальнейших постах я буду делать примерно то же самое, просто разберу конкретные кейсы и обойду подводные, о которых o3 умалчивает.

#эссеИИстика
🔥61
Парсинг с LLM: веб-скрейпинг
Продолжаю тему сбора данных из Интернета при помощи больших языковых моделей (LLM). В июне постить буду мало, т.к. аврал - защиты магдиссов и прочая бюрократия. А на июль запланировала… (дочитайте до конца и узнаете 😁)

Вот ведь что такое веб-скрейпинг?.. Как всегда издалека. Сайты бывают статическими и динамическими. Статический сайт - это документ, навроде обычного текстового документа, который авторы создают и редактируют. Статический сайт уже отредактировали как надо и выложили в открытый доступ в сети Интернет, а вы его из Интернета скачали и открыли у себя на компьютере. Расширение (тип) этого документа будет html (а не docx, например). Если вам нужно вытащить информацию из статического сайта, достаточно просто… (кликбейт 😉):

👆 открыть нужный вам сайт в браузере,
нажать Ctrl+A, чтобы выделить весь текст на странице,
🖖 нажать Ctrl+C, чтобы скопировать этот текст,
пойти на чатбот-арену и открыть диалог с любой моделью,
🖐 написать промпт “Ниже приведен текст сайта. Собери из него (к примеру) все имена актеров, сыгравших в фильмах о Гарри Поттере / названия фигур в шахматах / способы сбора данных с сайта”. И дальше жмякаете Ctrl+V, чтобы вставить текст с сайта и наслаждаетесь магией.

Проблемы на этом пути я нашла две.

🦶 Как понять, что сайт статический? На нем в текстовом виде, пусть даже и с гиперссылками, по которым можно перейти на другие страницы, представлена вся нужная вам информация. То есть вам не нужно скроллить вниз или что-то нажимать, чтобы открылись еще какие-то поля, посты, объявления.

🦶🦶 На сайте может быть очень много текста - LLMка такое не пережует. А сколько пережует? Ну, страниц 20-30, если на чатбот-арене. Можно спросить у самой модели, какой максимальный размер у ее контекста, и подавать текст порциями.
Чтобы справиться с этой проблемой:
😷 Сохраняете промпт.
Вставляете текст с сайта в обычный текстовый документ.
💊 Начинаете новый диалог с моделью и в него вставляете промпт плюс какой-то перевариваемый кусок текста с вашего сайта.
👩‍🔬 Результаты парсинга тоже складываете в отдельный документ, а потом сводите их вместе в табличку или список.

А теперь.. Динамический сайт - это такой сайт, который нигде в качестве готового документа не хранится. Он генерируется (!) в ответ на ваши действия на странице. Например, вы парсите на Авито все книги о Гарри Поттере и листаете вниз до конца, пока объявления не “прогрузятся” - вот пример. На динамических сайтах сначала скролите и жмякайете, пока весь нужный вам текст не откроется. А теперь можно жмякать Ctrl+A и Ctrl+C, чтобы скопировать этот текст. Дальше поступаете как со статическим сайтом.

Поздравляю, вы освоили веб-скрейпинг - искусство добычи данных с сайтов разными подручными методами! 🎉

Ну и в завершение поста… А на июль я запланировала запостить подкаст а-а-а.. современном смысле ИИ-технологий, который мы записали еще в феврале. Посмотрим, насколько он уже устарел 😁

#лайфхак #база
🎉41🔥1
Парсинг с LLM: глубокий анализ сайтов
В завершение темы о парсинге сайтов с LLM-ками расскажу, как поглубже заглянуть в их внутрянку, но сначала..
Парсинг Авито больше не так прост, как когда я писала предыдущий пост 🥴

Напомню, что, чтобы спарсить только текст с динамической страницы вроде поиска Авито по объявлениям, нужно:
👆 доскроллить ручками до низа страницы, чтобы они подгрузились. Если надоело скроллить, ставим себе ментальную галочку - “скролю до ста / тысячи / N товаров / до 1 минуты”.
выделить весь текст на странице (Ctrl+A) и скопировать в буфер (Ctrl+C)
🖖 вставить текст из буфера в чат с моделью и отправить ей, как свое обычное сообщение.

Дальше задаем любые вопросы о тексте.
Однако с недавних пор при выделении текста на странице поиска Авито браузер зависает, т.к. даже просто текста на ней слишком много, чтобы он поместился в буфер. В основном текст содержит адреса фотографий и какие-то непонятные куски скрипта, в общем шум. Разработчики Авито, что у вас случилось? Вот у Озона такого нет, и страницы копируются нормально.
Поэтому.. лайфхак от моей любимой модели о3 (если я когда-нибудь решу выйти замуж за LLM, то это будет о3 - надеюсь, это мужик):

👆 качаем расширение “Copy As Plain Text” (есть для разных браузеров)
вместо Ctrl+C используем расширение и копируем чистый текст, без мусора. В Chrome для этого надо кликнуть правой кнопкой мыши на выделенный текст и жмякнуть в открывшемся меню на иконку с расширением.

А теперь о более сложных способах вытаскивать инфу из сайтов. Все, что мы обычно открываем в вебе и выглядит как сайт, в основном написано на языке разметки html. Этот язык отражает структуру текста: название страницы, заголовки параграфов, основная информация и т.д. Возможно, вам захочется задать вопросы именно к сайту с учетом его структуры - т.е., чтобы модель учла, какие заголовки, подзаголовки и прочие разделы и элементы есть на сайте.

👆 Беру код страницы с сайта Rotten Tomatos. Мне захотелось посмотреть, какие супергеройские фильмы получили максимально лучшие отзывы критиков.
Жмякаю правой кнопкой мыши на страницу и выбираю "Просмотр кода страницы".
🖖 Перехожу в открывшуюся вкладку с кодом и копирую все в буфер.
👊 Вставляю код в сообщение на чатбот-арене (приходится его сократить, т.к. не влезает в ограничения на объем) и:
прошу вытащить все заголовки второго уровня - получаю список фильмов
прошу рассказать мне о структуре документа - пишет, какие есть разделы и скрипты на сайте, как он сделан и т.п.
прошу написать парсер на питоне для этой страницы, парсер запускаю в Google Colaboratory. Работает! Данные складываются в красивую табличку в формате .csv. Парсер тут. Мой запрос и ответы моделек тут.

Ну и, конечно, я попросила написать парсер для многострадального Авито, скормив кусок кода модельке.. После 15-20 безуспешных попыток Авито не распарсился. Тогда я пошла к Perplexity - он сам парсит html по ссылкам. Обзор книг о Гарри Поттере получился норм, я довольна.

В общем ИМХО с парсингом в 2025 году стоит напрягаться, чтобы получить очень чистые качественные данные, а для грубого обзора вполне сойдут чатбот-арена и Perplexity.

#база #лайфхакИИ
👍3🔥31👀1
Выхожу из отпуска и.. объявляю анонс на вторую половину августа:

1⃣9⃣ Почему не наступает эра Скайнет. Новости, тренды
2⃣1⃣ Я тебя по API вычислю
2⃣3⃣ Суверенный ИИ versus дискурс эффективности
2⃣6⃣ Не зря ли я переплачиваю за “пожалуйста” и запятые в промптах?
2⃣8⃣ ИИ-ученый: какое знание синтезируют генеративные модели
3⃣0⃣ Вымрут ли джуны?

#анонс
👍5🔥21
Почему не наступает эра Скайнет. Новости, тренды

Вместо того, чтобы делать Скайнет, ИИ-разработчики все лето занимались тем, что..

👆 Вышел пятый GPT - моделька от OpenAI, самой прославленной компании, выпускающей генеративный ИИ. И я его уже активно юзаю на чатбот-арене.

Ну что сказать.. Он какой-то странненький. Вполне возможно, потому что, как и другие юзеры, которые активно жаловались на новую модель в Интернете, я уже привыкла к четвертому GPT.

Что мне неудобно:

У него какой-то странный русский язык. Например, если программа не проходит тесты, он пишет, что тесты падают. Я так вроде бы не говорю и пошла посмотреть в Интернете, говорят ли люди, что тесты “падают”. Оказалось, говорят, но как-то не слишком активно. На английском это бы звучало “tests fail” - вроде нормально. В общем, для меня пятый GPT звучит, как будто бы я читаю перевод с английского.

Он сыплет экспертным знанием: термины, факты, списки. Каждый раз приходится просить переписать плавной речью с рассуждениями, вводными конструкциями и логическими переходами. Причем, при переписывании ответ всегда получается максимально краткий. Например, вместо того, чтобы выдать полностью исправленный текст, он возвращает только те части текста, где были внесены исправления. Видимо, много жжет энергии - настроен, чтобы экономить.

Некоторое время я успела попользоваться Google Gemini в России - как я говорю в таких случаях, “тепленькая пошла”. Но нет, как только мой Google Pixel переключился на Gemini как на основного ассистента, так его и отрубили. Теперь пиксель не реагирует на “Окей, гугл” - большие проблемы белых людей 😅

🖖 На чатбот-арене появились модели с веб-поиском. Причем все топовые там есть, включая Perplexity. А еще там есть ссылка на видео-чатбот-арену, но к ней нужно продираться - я тоже затестила, знатные видева получаются: в видео-генерации большой прогресс. Veo 3, например, от Google.

Так почему же разрабы занимаются не Скайнетом? 🤔 Я тут в очередной раз взяла подработку на лето - создавала курс по ИИ для онлайн-колледжа. И, пока делала курс, в очередной раз переосмыслила свой пост про Скайнет. Аргументов у меня несколько - я их запрячу в августовских постах. Вот такой кликбейт 😁

#новостИИ
6
Я тебя по API (апи) вычислю

Приходилось ли вам слышать слово “апи” (ударение можно ставить и на А, и на И - кому как удобнее)? Если вы - hardcore программер, то дальше не читайте - вы и так знаете, что это. А если вы хотите получать данные из Интернета (с сайтов и соцсетей) для исследования или по работе, то.. го читать дальше.

Не успели юзеры привыкнуть к тому, что их вычисляют по айпи, как приходится иметь дело с апи. Но апи это не про отдельного пользователя и прописку его устройства в Интернете. Эта тема касается сайтов, платформ и сервисов, с которых мы хотели бы получать данные не через красивый интерфейс, а в виде файла с таблицей или списком. В общем как-то структурированно.

👩‍🎓 Например, вы пишете магистерскую диссертацию по языку соцсетей. Хочется не скроллить страницу с комментариями или постами и сотни раз нажимать Crl+C и Ctrl+V, а сразу получить табличку, где каждый пост или комментарий в своей колонке, а в других колонках - ник пользователя, дата, сколько лайков поставлено и т.д.

🧑‍💻 Или вы ищете кадры для своей компании, а hh.ru выдает вам каждый раз длинный список кандидатов, в котором вы начинаете тонуть после первых 5-8 резюме. Вот бы их все в табличку и выставить параметры, как они должны быть рассортированы!

API (Application Programming Interface, он же “программный интерфейс приложения”) - это способ обмена данными не через интерфейс пользователя, где все красиво отформатировано, а напрямую с базой данных приложения. Не у всех приложений есть доступное API, но если оно есть, то оно сильно облегчает добычу из него данных в виде какой-то структуры (таблицы, например).

Вот ссылка для обращения к API hh.ru - по ней вы получите до ста вакансий, в чьих названиях есть слово “лингвист” (можно жмякать - она не вредоносная 🦠):
https://api.hh.ru/vacancies?text=%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82
Кажется, что вместо красивенького хх.ру мы получили какой-то малопонятный набор символов:
{"items":[{"id":"123435096","premium":false,"name":"Лингвист/репетитор..
На самом деле это табличные данные, просто в формате записи JSON. Перевести их в таблицу может любая языковая модель на чатбот-арене. Ну и конечно, код на питоне это тоже легко сделает (а код вам тоже напишет языковая модель - скормите ей для этого ваш JSON).
Теперь добавим к “лингвисту” параметр - “зарплата = 100 000 руб.” (ссылка для жмяка). Вуаля:
https://api.hh.ru/vacancies?text=%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82&only_with_salary=true&salary=100000&currency=RUR
И такие есть вакансии (хотя выглядят они подозрительно, особенно те, в которых не требуется даже опыт работы).

В общем API - это удобный способ парсить данные с приложений, если у приложения есть API. Остается только разобраться, как для нужного вам приложения сформировать такую ссылку, как выше для hh.ru. А в этом помогут языковые модели, которые умеют искать в Интернете.

🍀 Всем удачного парсинга!

#база
5🔥3
Суверенный ИИ versus дискурс эффективности

Поскольку у меня сложилась традиция перемежать обучающие посты с философскими, то начну неделю философией.


Пишу я курс для школьников по ИИ - конечно, вместе с ИИ 😁 и замечаю, что, когда затрагивается вопрос галлюцинаций, то модельки ставят “иногда” (а не “часто”, “постоянно”, “всегда”) перед “галлюцинирует”, а когда затрагивается вопрос профессиональных навыков, то модельки пишут, что забирают только рутинные задачи и никогда не украдут у вас работу.. (Верим?) Про недостатки тоже, конечно, упоминают, например, что источники надо проверять. И никогда не забывают добавить, что ответственность за все содеянное несет человек. Вот он - дискурс эффективности во всей его красе. Автоматизируя работу с ИИ, я мало думаю о том, что это вообще-то коммерческий продукт, который бьет рекорды по инвестициям и прогнозам. (Не буду говорить про окупаемость, потому что вряд ли смогу получить ее честную оценку.)

Откуда берется дискурс эффективности в моделях? То есть откуда столько саморекламы и самопродвижения в ответах ИИ. Я так думаю, это результат настроек - перед выходом любой модели живые человеки при помощи инструкций, которые им выдали, через диалог настраивают модель в определенных сценариях вести себя определенным образом. И вуаля! На вопросы о себе модели начинают себя продвигать.

А суверенный ИИ - это что? Это на мой взгляд другая крайность. Это такой ИИ, который служит не коммерческому успеху, а государству для осуществления целей именно государства. Одна из таких целей: если страну отключат от коммерческих ИИ-моделей, разработанных в других странах, то им на замену должна быть хоть какая-то ИИ-модель, которая будет “государственной” - разработана в этой стране (или содружестве стран) и доступна ее гражданам. В общем, это когда государство выступает как компания-разработчик или заказчик ИИ, но ставит перед собой иные цели, нежели коммерческий успех - политические нежели рыночные. Многие страны уже заявили о разработке такого ИИ.

Ну и что? Пусть будет и такой, и такой.. Да я не против. Я вижу это как две крайности, в которые можно впасть. Одна крайность - подсаживание человечества на коммерческий ИИ (как на сахар или кофе), пока мы настолько перестанем уметь кодить, например, что без ИИшки уже ничего и не сможем. Другая - замена человека ИИшкой там, где должна выражаться именно воля человека - в политике. Ибо политика это про людей, а не про технологии. Если руководствоваться книгой Насима Талеба про антихрупкость, человечество от этой ситуации только закалится - не впадет в крайности и научится противостоять очередному соблазну тотально вымереть.

А что там Скайнет? Почему не изобрести суперумную военную машину и сначала запустить виртуальную симуляцию, чтобы проверить, кто победит? Ну положим, для хорошей симуляции никто всерьез не раскроет, сколько и каких технологий у них есть - будут бахвалиться и преувеличивать. Но можно сделать симуляцию на основе разведданных или просто выделить какое-то пустое место, где сразится армада роботов-пылесосов. А людей предварительно эвакуировать. Ведь если у кого-то очевидно более сильные технологии, то явно с ним не надо сражаться в реале. Аргумент у меня такой: потому что, даже если у одной из сторон очень сильные технологии, не факт, что ее люди решат начать конфликт в реальности, взять на себя ответственность и пойти сражаться на поля вместе с роботами-пылесосами.

Дак тут-то и нужно заменить человека ИИшкой? Чтобы никому никуда ходить не надо было. Чтобы никому никуда ходить не надо, уже есть оружие массового поражения. Зачем еще какой-то Скайнет выдумывать?

Ну хорошо, тогда пусть все-таки надо будет куда-то пойти, сесть в титановый костюм, смотреть мультики и параллельно запускать ИИшку, чтобы она пуляла по противнику? Ну то есть пусть ИИ не заменяет, но просто усиливает человека, а от человека будет требоваться все меньше и меньше.. На это у меня тоже есть аргумент, но, как и обещала, я его спрячу в другом августовском посте.

#эссеИИстика
❤‍🔥21
Не зря ли я переплачиваю за “пожалуйста” и запятые в промптах?

Недавно в интервью с Андреем Дороничевым, предпринимателем в области ИТ (США), услышала, что можно экономить на “пожалуйста” и запятых в промптах. И это в какой-то степени можно считать экологичным.

🤑 Я бы не стала экономить именно ради экологии в платных сервисах. Мое мнение таково, что производители ИИ должны в стоимость своих услуг закладывать вредность производства. Компании регулярно отчитываются о том, сколько углеродного следа остается при выпуске очередной модели (я даже почитала немного). Следовательно, в цену заложена и экологическая вредность (или ее устранение). Если я готова заплатить за “пожалуйста” и запятую, то и ок.

Другой вопрос: как оптимизировать промпт, чтобы он был покороче, но при этом давал эффективный результат?

👆 Некоторые сервисы, например, тот же GPT от Open AI сами признаются, что оптимизируют ваш промпт после того, как вы его им послали. Да, мы платим за токены в изначальном запросе, но не факт, что до модели наш промпт дойдет в изначальном виде. Это еще один аргумент в пользу того, что если вы готовы платить за ”пожалуйста”, то и ок.

У меня есть свой лайфхак: я сначала пишу максимально коротко и, если мне не нравится результат, то в следующем промпте прошу модель внести правки.

🖖 А что, если мне нужен длинный ответ, то из-за какой-то мелочи придется перегенерировать весь текст? Можно тренироваться на кошках на части текста. Например, если мне нужно сгенерить 20 тестов, то сначала я отрабатываю промпт на одном вопросе. Либо генерю по отдельности, но в одном и том же диалоге введение, абзац, параграф и т.д.

👊 Еще я храню отшлифованные шаблоны промтов.

Но вернемся к запятым и “пожалуйста”. А также пресловутым ролям (“Представь, что ты - эксперт в…”) и другим лайфхакам. Так ли много от них зависит?

Мне попадалось на глаза исследование (я, правда, сейчас его не смогла найти), в котором пунктуационные знаки, как оказалось, хранят очень много информации, которой нет в отдельных словах. Так что я за пунктуацию, как минимум. Касательно вежливости - я стараюсь делать нейтрально-вежливые формулировки в промптах. За вежливость у меня всегда отвечает одно слово - “пожалуйста” 😁 Также, помимо самой задачи, если мне нужен текст в каком-то конкретном жанре или есть еще какие-то обязательные требования, то я их четко прописываю с первого промпта, а потом корректирую, если мне не понравился результат. Например, это может быть формат ответа (один абзац, сплошным текстом, без списков и пунктов, простым языком..).

В остальном.. Даже те же пресловутые указания роли я использую, только если не сработали базовые приемы.

Всем удачного промптинга! 🍀

#база #лайфхакИИ
❤‍🔥3🔥2
ИИ-ученый: какое знание синтезируют генеративные модели
Приближается первое сентября, и я задумала написать пост про ИИ-системы для ученых.

После того, как за программу AlphaFold для предсказания структуры белка дали Нобелевскую премию, наверно, уже совсем странно сомневаться, что ИИ полноценно закрепился в науке. А после того, как сгенерированные статьи прошли рецензирование и были опубликованы, к научному сообществу возникло много вопросов. Это две крайности, между которыми ИИ сегодня бегает: он помогает делать научные открытия, но упрощает академическое мошенничество. Я вроде как топлю за открытия, так что..

Доброе ИИ для ученого (без привязки к специальности):

Elicit - это инструмент от компании Ought (Сан-Франциско), о котором я узнала на летней школе в ТюмГУ в июле. Он заменяет ревью и обзоры современного положения вещей в заданном вами научном вопросе. Работает похожим образом, как Perplexity и другие модели, которые могут искать информацию в Интернете, но, видимо, ищет в большей степени по проверенным коллекциям научных статей. Важной фичей таких инструментов является умение хорошо анализировать и обобщать множество информации. На выходе дает не только обзор ключевых идей, но и методы, результаты, тематические направления, технические особенности и т.д. (раскладывает все по пунктам).

DeepResearch - это фича от Open AI, которая работает похожим образом - ищет данные по сети и формирует отчет. Но ей надо четко задать формат обзора, который вы хотите получить, и какие пункты вам надо разложить, т.к. она не специально для ученых, а вообще для любых специалистов.

Storm ..А Стэнфорд, не стесняясь (мой самый любимый универ на планете 💖 😁), просто предлагают вам сразу статью сгенерить. Но на выходе получается тот же обзор, как у Elicit. И мне Elicit показался более глубоким и точным.

Sakana AI - это первый ИИ, который прошел рецензирование по-честному, написав хорошую статью от и до. Это открытая библиотека, без интерфейса, так что придется повозиться, чтобы ее запустить - авторы взяли и выложили: генерите, ученые! Интересно, сколько уже опубликованных статей ею написано на самом деле? 😉

А вообще какое оно, синтетическое знание, сгенерированное при помощи ИИ? На мой взгляд, чтобы создать какое-то реально новое знание при помощи ИИ сегодня, нужно выполнить два условия:

1⃣ задать четкий контекст: данные, исследования, на которые нужно опираться, терминология, проблема, которую надо решить
2⃣ задавать такие промпты по мере генерации, чтобы система использовала разные “эвристики” - дедукция, индукция, синтез, анализ и прочие процедуры, которые в человеке выполняет мозг

То есть то, что Sakana с нуля написала статью, без помощи человека - это, на мой взгляд, особенность проблемы, поставленной в ее статье: она очень узкая, техническая и для ее решения нужно было сделать довольно привычную последовательность действий с данными. Как будто кубики сложились в пирамидку. А там, где есть лакуны и нужна удачная догадка (я это называю “серендипность”), требуется постоянно подпинывать ИИ промптами либо брать работу на себя полностью.

Как и в Скайнет. Итак, если мы усилим солдата ИИ-шкой - что тут плохого? Человек сядет в скафандр, типа как у Тони Старка, и будет вместе с ИИ “всех мочить”. В серии о Железном человеке обрисовали много разных рисков. Но я зайду немного с другой стороны: человек всегда может сказать “Это не я, это ИИ сделало” и снять с себя ответственность. Ученым пока что тоже официально нельзя складывать на ИИ ответственность за все, что они нагенерили. Опубликовал? Подписался? Неси бремя авторства.

#база #спискИИ
🔥42
Вымрут ли джуны?

Начну с новости: в этом учебном году я работаю удаленно частным репетитором, так что 1 сентября все еще мой профессиональный праздник. Кстати, всех причастных, пусть и запоздало, поздравляю! 🎉

..А ведь могла бы пойти джуном. Или не могла?.. Вот что дает обзор Perplexity по этому вопросу:

📉 Спрос на IT-специалистов начального уровня в России существует, но компании требуют от джунов сильных базовых знаний и готовности к обучению.
🗂 Зачастую IT-компании рассматривают только джунов с реальными проектами и техническими навыками.
🗺 В мире ситуация схожа: работодателям нужны опытные сотрудники.
🦾 Быстрое развитие технологий и автоматизация с применением искусственного интеллекта уменьшают количество рабочих мест.

В общем, сейчас есть спрос на синие воротнички, курьеров и таксистов. В ИТ-сфере не то чтобы число рабочих мест сокращается, но, как говорится, меняется структура занятости. Вот что говорит Perplexity.

В России востребованы:

🛞 инженеры в области ИИ и машинного обучения
🛞 специалисты по кибербезопасности
🛞 разработчики программного обеспечения среднего и старшего уровней (мидл и сеньор) — фронтенд и бэкенд разработчики, DevOps-инженеры
🛞 специалисты по IT-инфраструктуре, системные администраторы, тестировщики (QA)
🛞 аналитики данных и дата-саентисты
🛞 узкоспециализированные роли, связанные с цифровой трансформацией и автоматизацией бизнес-процессов — продакты, проджекты и прочие pro.., готовые взять ответственность за запуск продукта (это уже от меня комментарий)

В мире тренды схожи.

Так что да, в каком-то смысле джуны уже не те.. И я бы даже сказала, что в классическом понимании джуна, как “вкатившегося в айти” в 2010-е, более нет с нами. К работе в IT теперь нужна более длительная подготовка, и в ней больше рисков, т.к. образование отстает от рынка, компании сокращают программы стажировки и стеки технологий постоянно меняются. Я бы назвала это коррекцией после лихих 2010-х, когда IT-индустрия разрослась и заполнила все низковисящие фрукты легкодоступные ниши.

С другой стороны, есть и положительные тренды для начинающих ИТ-специалистов: можно изи накодить себе пет-проект с GPT 5 и запустить его даже без команды. Годные проекты приносят пассивный доход. А некоторые даже станут будущими Амазонами и Гуглами.

#эссеИИстика
👍2🔥21🕊1
Я календарь переверну.. И вот уж анонс на сентябрь:

9 Легкодоступные модели (Я про ИИ. А вы что подумали?)
11 Векторные базы данных
13 Как компании неправильно внедряют ИИ
16 Альтернативные промпты
18 Как визуализировать данные при помощи языковых моделей
20 Объяснимый ИИ: машинное обучение - это не совсем черный ящик
23 ИИ-агенты в тренде
25 Миссионеры против мерсенариев. Вечный спор: что важнее - идея или деньги?
27 Кому принадлежит ИИ-контент
30 Этика ИИ: ответственность - это новая нефть

#анонс
🔥41
Легкодоступные модели

Меня часто спрашивают “Елена, а где можно бесплатно пользоваться топовыми нейросетями типа ChatGPT?”. На что я отвечаю лекцией, что нейросети бывают разные, ChatGPT - это большая языковая модель и так далее. Но сегодня я сделаю исключение.

Итак, топовые нейросети типа ChatGPT, бесплатно без смс, но некоторые с регистрацией, говорят по-русски, доступны 9 сентября 2025 г. в РФ:

Чатбот-арена LMArena- место, где обитает много разных моделей. По-прежнему мой фаворит, но, я думаю, рыночек рано или поздно сделает ее платной. Уж больно хороша..

DeepSeek. Компания: DeepSeek. Нужна регистрация, можно через Google ID.

GigaChat. Компания: Сбер. Есть приятный бот в телеграмме @gigachat_bot .

Mistral. Компания: Mistral AI.

Perplexity. Компания: Perplexity AI.

Qwen (с открытым кодом). Компания: Alibaba.

YandexGPT (Алиса). Компания: Яндекс.

#спискИИ
🔥42
Векторные базы данных

Обычные базы данных (реляционные БД) хранят информацию вот так:

Клиент | Василий Петрович С.
Товар | “Книга о рыбалке”
Стоимость | 800 р.
Оплатил | Да


Если мы знаем, о ком или чем нам нужна информация, то мы закинем эту удочку (рыбалковая метафора 😁), например, спросим у базы данных, какую книгу купил Василий Петрович С., и нам очень быстро вернется ответ - “Книга о рыбалке”. В этой задаче есть определенность, на которую мы опираемся.

Искусственный интеллект может отвечать на вопросы, где есть много неопределенности, например, какие еще книги предложить Василию Петровичу или у каких клиентов похожие вкусы. Но ИИ принимает решение на основе векторов, которые выглядят примерно вот так:

Василий Петрович С. | 0.53694 0.32644 0.32492 0.32149 0.99846..
Мария Ивановна И. | 0.23982 0.79123 0.21365 0.75313 0.97373..


Причем у каждого объекта может быть очень длинный вектор. А если у объекта какие-то свойства меняются, то меняется и весь вектор.

Векторная база данных - это хранилище векторов для ИИ, оптимизированное под особенности ИИ-задач, например:
превращать запрос к базе в вектор
ранжировать все объекты в базе на соответствие запросу
отсекать объекты, не отвечающие запросу
переписывать вектора при возникновении изменений, дополнительных сведений и т.д.
А также она очень полезна при скрещивании поисковиков с ИИ, именуемом RAG.

Вот так человечество и пришло к созданию векторных БД. Сейчас их много есть разных, в том числе бесплатных с открытым кодом. В вакансиях на ИИ-разрабов и дата-саентистов скилл владения векторными БД тоже упоминается. Так что, если хотите стать сениором в ИИ-разработке и датасаенсе или шатать RAG, то векторная база - это база 😎

#база
👍3🔥31