AI, life and balance
114 subscribers
136 photos
3 videos
11 files
204 links
Download Telegram
Многие авторы изображений недовольны (объяснимо) тем, что на результатах их труда авторы генеративных моделей обучают эти модели рисовать. Главная проблема в том, что без спроса и должного уважения к авторским правам. Пока законодательное регулирование подтягивается, специалисты из Университета Чикаго придумали Glaze.
Glaze – это инструмент, с помощью которого в изображения вносятся невидимые глазу изменения, которые мешают модели воспринимать важные для обучения параметры. Особенное внимание авторы уделяют проблеме мимикрии ИИ под стиль автора (style mimicry), потому что стиль – это основная ценность работы художника, и его кража наносит наибольший ущерб.
Решения, позволяющие защитить произведения искусства от использования для обучения нейросетей, появились раньше, но они меняют все параметры изображения, в то время как Glaze определяет параметры, относящиеся непосредственно к авторскому стилю, что делает его эффективнее с точки зрения затрат на искажение параметров.
Чтобы сконцентрироваться именно на стилевых особенностях, не затрагивая, например, расположение объектов на изображении, авторы используют другую нейросеть, которая создает копию исходного изображения, но в другом стиле. Допустим, исходное изображение – портрет в стиле реализм. С помощью нейросети его видоизменяют так, чтобы он выглядел как картина Ван Гога.
Затем математическое представление стилевых особенностей автора оригинального изображения «подгоняется» под стилевые особенности Ван Гога. В результате получается набор операций, которые описывают переход от оригинала к Ван Гогу, грубо говоря. Дополнительное ограничение – новое изображение не должно заметно отличаться от оригинала (то есть, изменения в итоге получаются настолько крошечными, что зритель не поймет, что были внесены изменения).
Набор операций применяется к оригиналу. Человек не видит разницы, но если такое изображение попадется нейросети, она не сможет воспроизвести уникальный авторский стиль, а будет «видеть» картину, похожую на картину Ван Гога.
Glaze доступен без VPN, можно смело тестировать.
Обещанный дополнительный материал к посту про разведочный (он же исследовательский) поиск. «Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks» – это статья, которая положила начало RAG. В ней авторы указывают на недостатки предшествующих моделей применительно к задачам, которые требуют глубоких и актуальных знаний предметной области (Knowledge-Intensive Tasks).
Они предлагают использовать непараметрическую память (non-parametric memory) совместно с параметрической (parametric memory). Параметрическая память содержит знания, полученные моделью в процессе обучения. Плюсы такого подхода в том, что такие знания быстро извлекаются, а минусы – в том, что они быстро устаревают.
Непараметрическая память относится к знаниям из внешних источников. Плюс в том, что они поддерживаются в актуальном состоянии, и не нужно заново обучать модель, чтобы у нее была актуальная картина мира. Минус, соответственно, в более низкой скорости по сравнению с параметрической памятью. Кроме того, модели с непараметрической памятью нужно постоянно обращаться к внешним источникам, что делает ее сложнее.
Два подхода скомбинировали и получили хорошие результаты на различных тестовых заданиях. Еще модель, использующая RAG, страдает от галлюцинаций в меньшей степени, чем ее предшественники.
RAG-модели представлены в статье в двух видах: RAG-Token и RAG-Sequence. Их отличие заключается в том, как они используют документы, найденные во внешних источниках. Если точнее, как они генерируют текст ответа на запрос с использованием этих документов. RAG-Token генерирует ответ токен за токеном. Она собирает документы из внешнего источника, отбирает из них n релевантных, генерирует токен. Потом этот сгенерированный токен используется для того, чтобы переоценить релевантность документов, снова выбрать n и сгенерировать новый токен.
RAG-Sequence собирает набор документов и использует его для генерации последовательности из нескольких токенов. Это снижает вычислительную сложность, но делает процесс генерации не таким гибким, как в случае RAG-Token.
Я сейчас учусь в одной классной летней школе, про которую расскажу обязательно подробнее через некоторое время. Школа называется Neuromatch Academy, там можно за божеские деньги пройти очень крутые насыщенные курсы. В прошлом году я проходила курс Computational Neuroscience, а в этом взяла Deep Learning.
Оба курса рассчитаны на три недели активной учебы по восемь часов с понедельника по пятницу. Полтора часа теории, час перерыва, потом еще полтора часа теории, снова перерыв и три часа проектной работы. Теория – это не лекции, где вы выступаете в роли пассивного слушателя, а активное обсуждение с одногруппниками и преподавателем заранее изученного материала с решением задач. Проект – почти полноценная исследовательская работа, по которой некоторые потом пишут статьи в хорошие научные журналы (мне пока не довелось, увы).
И на теории, и на практике нужно присутствовать, так что совмещать с работой сложно. Зато есть выбор из пяти временных слотов, в которые будет проходит ваше обучение. Я оба раза выбрала себе слот так, чтобы начинать учиться в 20:00 по Москве (заканчиваю, соответственно, в 4:00 утра). Это физически непросто, но на три недели меня хватает.
Материал очень здорово структурирован, преподаватели активно помогают погрузиться в процесс и терпеливо отвечают на вопросы (я как-то даже с вопросами по текущей своей работе докопалась – помогли).
Если есть возможность и желание, от души рекомендую рассмотреть такой интенсив. В прошлом году заявки принимались до начала или середины апреля, в этом – в конце марта, но сама учеба начинается в июле.
Если с английским у вас не очень, можно выбрать себе русский в качестве языка обучения (или французский там, мало ли какие у вас предпочтения). Если не умеете программировать или не обладаете достаточным запасом знаний математики – вам дадут хорошие вводные материалы с нуля.
Как бы там ни было, я уже набрала тонну материала для будущих постов. 26 числа последний день учебы, потом я немного оклемаюсь после этого марафона и буду делиться.
В посте про личный опыт пообещала собрать любимые книжки (они на разную тему и разного уровня сложности):
- Д. Осинга. Глубокое обучение: готовые решения;
- К. О‘Нил, Р. Шатт. Data Science. Инсайдерская информация для новичков. Включая язык R;
- Дж. Вандер Плас. Python для сложных задач: наука о данных и машинное обучение;
- Д. Грас. Data Science. Наука о данных с нуля;
- П. Брюс, Э. Брюс. Практическая статистика для специалистов по Data Science;
- Р. Митчелл. Скрапинг веб-сайтов с помощью Python;
- А. Бьюли. Изучаем SQL.

ИИ – это не только математика и программирование. Значительная часть работы состоит в том, чтобы анализировать данные и формулировать гипотезы, поэтому важно также изучать работу собственного мозга и особенности мышления. Можно начать с этих книг:
- Д. Канеман. Думай медленно… Решай быстро;
- Д. Халлинан. Почему мы ошибаемся?;
- С. Кин. Дуэль нейрохирургов. Как открывали тайны мозга и почему смерть одного короля смогла перевернуть науку.

Последняя книга немного больше про физиологию мозга, мышлению там посвящены четвертая и пятая части. Однако физиология мозга нам тоже важна. Вводные курсы по ИИ часто начинаются с рассказа об устройстве наших нейронов. Кроме того, многие идеи, реализованные в нейросетях, позаимствованы из физиологии мозга, так что стоит взять ее изучение на заметку.
В одном из предыдущих постов я рассказывала про Turbolearn.ai, а вскоре нашла еще одно похожее приложение – Coconote. Его существенное преимущество перед Turbolearn заключается в том, что он многоязычный, и русский язык тоже понимает (Turbolearn умеет только английский расшифровывать).
Он работает и с аудио, и с видео (но не с любыми, а только с теми, к которым есть субтитры, во всяком случае, в бесплатном варианте). Тоже умеет создавать для вас тесты и карточки для запоминания материала, а еще может перевести его на русский язык, что полезно.
Пока подробно не тестировала, планирую. Один раз пробовала использовать Coconote для записи рабочего совещания и подготовки протокола. На первый взгляд нормально смотрится.

#инструменты
Дополнительных материалов пост (Часть 1).
На vc писала про сверточные нейросети и упомянула там про ResNet вскользь, тут расскажу побольше.
При увеличении числа слоев в нейросети может возникать проблема деградации: это когда начиная с определенного момента (числа слоев) ошибка, вместо того чтобы снижаться, начинает расти, причем как на тестовой выборке, так и на обучающей. То есть, проблема не в переобучении, когда модель слишком хорошо подстраивается к тренировочным данным и не справляется с тестовыми (тогда ошибка на тренировочной выборке снижается, а на тестовой растет). Проблема в большом числе параметров. С математической точки зрения обучение модели заключается в минимизации функции ошибки. Больше параметров – сложнее функция, сложнее функция – больше локальных минимумов и вероятность застрять в одном из них, так и не добравшись до глобального минимума. Шикарная визуализация этой идеи представлена здесь.
Чтобы решить эту проблему, авторы ResNet предложили использовать остаточное обучение (residual learning).
(Часть 2) Если простыми словами, это работает так: обычно данные передаются от слоя к слою последовательно (вход слоя n – это выход слоя n-1), а ResNet состоит из блоков, в которых выход слоя n-1 пропускает следующий за ним и передается в слой n+1 вместе с выходом слоя n (на скриншоте x – это матрица с входными данными, а F(x) – результат преобразования x в первом слое)
Тогда каждый следующий слой получает информацию о том, что изменилось на предыдущем (то есть, что изменилось при переходе от x к F(x)). Это «что изменилось» и есть остаток.
Функция ошибки сглаживается, процесс обучения становится более стабильным, и это в свое время стало прорывом и помогло нейросетям обойти человека в задаче классификации изображений.
Правовое регулирование ИИ
Правовое регулирование в области ИИ – это недавняя история, во всем мире в последние несколько лет ведутся обсуждения того, что именно регулировать и как. Каких-то строго прописанных законов практически нет (или мне не удалось найти), но есть разные руководящие принципы и инициативы.
- EU AI Act (одобрен в мае 2024 года). Это часть стратегии цифрового развития Евросоюза. Акт делит риски, связанные с ИИ на высокие и недопустимые. Решения, связанные с недопустимыми рисками (биометрическая идентификация и категоризация людей, манипуляция сознанием, социальный скоринг) должны быть запрещены за редкими исключениями (например, биометрическая идентификация может потенциально быть применена для поимки преступников). Решения, связанные с высокими рисками (работа с критической инфраструктурой, медицинские и образовательные решения, решения, связанные с наймом сотрудников, применением закона и пр.) должны сначала пройти проверку регулирующих органов, и только потом могут быть выпущены на рынок. Кроме того, акт предъявляет требования к прозрачности (например, специальную пометку для контента, созданного с использованием ИИ).
- Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence (США, выпущен в октябре 2023 года). Указ также требует прозрачности и дает рекомендации для мер по защите персональных данных. Что отдельно интересно, в течение 120 дней с момента публикации указа Ведомство по патентам и товарным знакам США должно было выпустить руководство для патентных экспертов и заявителей на тему использования генеративного ИИ в изобретениях. В течение еще 270 дней – руководство непосредственно по патентованию, про это надо будет отдельно написать.
- для России нашла такой ресурс. Там перечислены нормативно-правовые акты, актуальные на 2024 год, стандарты, исследования – много всего. Кратко не опишешь, нужно зайти и почитать. На том же портале можно найти Национальную стратегию на период до 2030 года;
- в Китае, кажется, регулирование ИИ достаточно проработанное (ссылка открывается через VPN). Много внимания уделяется рекомендательным алгоритмам и алгоритмам глубокого синтеза (deep synthesis; с их помощью можно создать deep fake).
Я писала пост про Turbolearn (инструмент для конспектирования лекций). Это было в тот момент, когда я его только нашла, и пост получился очень положительный. Сейчас я протестировала его платную версию (взяла безлимитный тариф) в течение трех недель на больших лекциях и хочу закончить тему полноценным уже обзором со всеми недостатками, которые обнаружились в процессе работы.
1) Для расшифровки аудиозаписей там есть два варианта: можно либо прям в веб-приложении записывать аудио, потом расшифровать, либо записать отдельно на диктофон и загрузить. В первый день я попробовала функцию встроенной записи, и она стерлась в процессе обработки. Я потеряла так час лекций (благо это был вводный день, не то чтобы было много новой информации).
2) Написала в поддержку в надежде решить эту проблему, но мне никто так и не ответил. Через неделю написала еще раз, но, видимо, там никого нет. С моей точки зрения, это существенный минус.
3) Приложение должно обрабатывать видео, но не обрабатывает. У меня оно зависало на отметке в 90% готовности, и все на этом. Ждала несколько часов, пробовала перезапускать – ноль реакции. При этом видео были короткие, 10-15 минут.
4) Выгрузить заметки никак вообще нельзя. Кроме меня на курсе учился по меньшей мере еще один человек, который пользовался Turbolearn, мы вместе поискали возможность извлечь заметки на компьютер – не нашли. В итоге я их просто скопировала себе в ворд.
5) Работает только на английском языке, другие не расшифровывает.
Плюсы тоже есть, конечно:
1) Если записывать лекции на свой диктофон, а потом загружать, запись обрабатывается быстро. У меня в день общий объем лекций получался час-два, достаточно быстро они расшифровались.
2) Сильный акцент лекторов или помехи связи он тоже нормально воспринимает и расшифровывает.
3) В общей сложности получилось 167 страниц конспектов хорошего качества. Помимо расшифровки лекций, Turbolearn генерирует в нужных местах примеры кода или таблицы, это потом удобно перечитывать.
4) По истечении тестового периода подписка отменилась без проблем, хотя я видела сообщение по меньшей мере от одного пользователя, у которого подписка не отменялась. Учитывая отсутствие техподдержки, было волнительно, но обошлось.
В целом, у меня скорее положительное впечатление. Если вы учитесь только на английском языке, будет нормально. Но прям советовать не могу.
Осенью пойду опять учиться, на этот раз на русском языке, и протестирую Coconote. Он может быть получше.

#инструменты #обзор
Планы
Я пишу все посты заранее, стараюсь на полторы-две недели вперед (сейчас я в отпуске и напишу побольше). Этот пост я пишу 29 июля, а выложу 9 августа. На этот момент у меня готов большой пост на vc на воскресенье 4 августа. Он лежит и чешется, но я держусь и жду даты запланированной публикации. Когда этот пост выйдет, скорее всего, я уже допишу про когнитивные искажения на 18 августа.
Мне вообще часто сложно удержаться от публикации, уж очень охота поделиться интересным. Но запас по времени нужен, чтобы не сбивать расписание в случае большой загрузки на работе или командировок. Я публикую здесь маленькие посты во вторник и пятницу, большие на vc – по воскресеньям, не хочу допускать простоев.
План по публикациям готов аж до первого ноября включительно. Понятно, что через месяц я могу найти что-то более актуальное и интересное для себя, тогда какие-то публикации подвину, но этот план все равно важен. Он помогает оценить объем тем, которые у меня есть, и я себя спокойнее чувствую, зная, что не нужно искать и что-то новое придумывать.
Идеи для всех постов сначала набиваются в Огромный Список, потом сортируются по датам, исходя из того, что скорее хочется поисследовать (это сложно, потому что все хочется).
Изначально была идея писать по мере собственного желания, но у меня есть склонность сначала работать 25/8, а потом лежать в углу и прокрастинировать, поэтому планирование – мое все.
Напоследок пара спойлеров: в воскресенье на vc будет пост про GAN, на следующей за ним неделе поделюсь тут полезными штуками, у которых есть бесплатные версии (такой пост получился, мне прям хочется его скорее опубликовать). До конца месяца планирую посты про прокрастинацию и научный подход к обучению. В сентябре будет несколько очень крутых и интересных моделей и небольшой заброс про кое-какой проект, которым я занимаюсь в свободное от работы время.
👌3
В воскресенье вышел пост про GANs, можно глянуть.
А тут вот красивые картинки про языковые модели, которые я взяла с сайта Dr. Alan D. Thompson lifearchitect.ai, который героически собирает все современные знания про ИИ и выкладывает их у себя для всех желающих. Хочу быть как он, когда вырасту.
Первая картинка – сравнение размеров крупнейших языковых моделей, представленных в виде планет солнечной системы. В роли Юпитера выступает модель Claude 3 Opus. У меня она стоит в плане на осень (разбор архитектуры со статьями, все как мы любим), а пока можно почитать про нее тут. Она выглядит перспективно.
Вторая картинка – рейтинг моделей по размеру контекстного окна (это число токенов, которое модель может принять на вход за один раз).
И последняя в моем посте, но не в том, который я цитирую – список ачивок, которые выбили самые большие модели. Тут и понимание текста, и дебаггинг кода, и математика, и дедукция – в общем, просто посмотрите на это.
И обязательно заходите lifearchitect.ai, вам оно точно надо.
👍1🕊1
gravitywrite.png
332.6 KB
Нашла интересный пост с разными инструментами для студентов, которые могут быть доступны по бесплатной подписке. В списке есть Perplexity и Turbolearn (у него бесплатная версия есть, конечно, но очень ограниченная), которые я упоминала, и еще пять новых:
- Gravitywrite (помощник для написания текстов; у меня не вышло зарегистрироваться через почту с доменом .ru, но получилось через gmail, без vpn. С русским языком он при этом работает. Есть бесплатная версия, урезанная до 1 000 слов в месяц и доступа с одного устройства. Внутри куча разных инструментов для работы с блогом, я попробовала Text Improver на своем предыдущем посте, результаты на скрине. В целом интересно, и я возьму его на тест, как раз хочу поработать над своей письменной речью);
- Humata AI (это ПО для «общения» с документами; делает саммари длинных файлов; здесь зарегистрировалась на почту .ru, тоже без vpn. По-русски понимает. Из плюсов – когда задаешь вопрос, он в документе выделяет те места, откуда взят ответ. В бесплатной версии можно обрабатывать до 60 страниц и задать до 10 вопросов. На тест брать не буду, не заинтересовалась. В платных версиях указано, что используется GPT-4, а он у меня и так есть, к тому же, набор функций очень узкий);
- Math GPT (для решения задач по математике, физике и бухучету; регистрироваться можно через дискорд или гугл; русский язык он понимает, задачу из школьной олимпиады по физике решил. Я тот еще физик, но ответ совпал с правильным, так что засчитаем. Задачу и решение прикрепила, тестировать пока не буду, мне не на чем. Опять же, можно ChatGPT припахать, если уж на то пошло);
- Tutor AI (предлагает составить курс на предложенную вами тему; на российскую почту зарегистрировалась, vpn не нужен. Русского языка у него нет, а на английском попробовать не получилось, так как бесплатно дается одна попытка. Пока этот инструмент лично мне не очень интересен, тестировать не буду);
- Gamma (для создания презентаций, доступен без vpn, с российской почтой работает, русский язык есть, но пока в бета-версии. Можно выбрать число слайдов (в бесплатном режиме до 10), можно сделать презентацию, сайт или документ. Сначала задаем тему, потом приложение гненерит план, который выгляит достойно, в общем. Потом можно выбрать тему оформления – и получить весьма приличную презентацию. Выглядит любопытно, возьму на тест и посмотрю подробнее. Прикрепила к посту тестовую презентацию по GAN, которую сделала в Gamma).

#инструменты
👍2