Техножрица 👩‍💻👩‍🏫👩‍🔧
9.25K subscribers
1.01K photos
48 videos
24 files
562 links
Люблю высокие технологии и кушать.

Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.
Download Telegram
Итак, связь машинного обучения и континуум-гипотезы раскрывается у нас в статье 2019 года "Learnability can be undecidable" - https://www.nature.com/articles/s42256-018-0002-3 (статья платная, но делается бесплатной с помощью SciHub).

Её авторы вводят концепцию EMX-обучаемости и приводят пример такого алгоритма машинного обучения, обучаемость для которого невозможно ни доказать, ни опровергнуть, используя аксиоматику Цермелло-Френкеля. Более того, авторы математически доказывают, что доказать EMX-обучаемость для их сетапа можно только если добавить конечное число "промежуточных" мощностей между счётным множеством и континуумом.

Поскольку статья реально сложная, я сделала множество попыток найти поясняющие разборы этой статьи, чтобы упростить её понимание и себе, и читателям. По результатам этих стараний могу предложить следующий план действий:

1⃣ Для начала рекомендую напомнить себе, что такое PAC-learning и VC-dimension, про которые говорится и в статье, и в её разборах. Сделать это можно с помощью короткого видео: https://youtu.be/X4Oxst5huQA?si=qQ74aMcP1k866KAt
2⃣ Потом прочитать разбор на русском на Хабре: https://habr.com/ru/companies/raiffeisenbank/articles/484306/ . Он очень поверхностный, но позволяет составить базовое представление о сделанном открытии. Поэтому если вы не очень сильно любите математику, то можно на этом остановиться.

---

А если любите сильно, предлагаю предпринять следующие дополнительные шаги для более конкретного понимания утверждения статьи:
3⃣ Прочитать мой следующий пост, в котором будут подробно разобраны формулы на рис. 2-3 (скриншоты оригинальной статьи);
4⃣ По вкусу полистать обзор с дополнительными рассуждениями на тему на английском: https://arxiv.org/abs/1909.08410 .

#математика #объяснения_статей #математика_в_ML
Разберём, наконец, концепцию того, что такое EMX-обучение, математичеки строго.

Для этого вернёмся к рис. 2 предыдущего поста, где авторы предлагают рассмотреть следующий сетап. Пусть у нас есть некоторое множество примеров с векторами фичей Х, и каждому такому примеру сопоставлена бинарная метка у - 0 или 1. Метки могут сопоставляться примерам по-разному, это сопоставление вероятностное и задаётся некоторым распределением вероятностей P.
Далее, пусть F - фиксированное семейство функций, которые отображают вектора фичей X в метки y. Например, такими функциями могут быть все функции вида f = {0, если AX + b < 0 и 1, если AX + b ≥ 0} - то есть, простые, советские, копеечные пороговые классификаторы над линейными функциями, известные всем любителям машинного обучения.
Далее, за Opt(F) мы обозначим такую функцию из F, которая максимально подходит для решения данной задачи. Конечно, для того, чтобы точно определить, что такое "максимально подходит", мы задаём и фиксируем целевую функцию h, которую мы хотим максимизировать - как пример, это может быть процент правильно классифицированных точек (accuracy).

Наконец, назовем EMX(epsilon, delta)-learner'ом такой алгоритм машинного обучения G, который будет работать "достаточно хорошо" для каждого "разумного" распределения вероятностей меток P. "Достаточно хорошо" означает, что он с достаточно большой вероятностью найдет функцию, достаточно близкую к Opt(F). Говоря ещё более конкретно, он должен найти такую функцию с вероятностью 1 - delta, а отличаться она от Opt(F) должна не больше, чем на epsilon - именно отсюда обозначение EMX(epsilon, delta). При чем сделать он это должен, используя тренировочное множество размера d (это утверждается в значке под знаком Pr в формуле - там написано про декартово произведение Р на себя d раз, это означает, что мы берем d примеров для обучения).

Ну что? Если вдуматься, этот сетап не такой уж и мудрёный, просто очень строго формализован математически, и оттого, как всегда, появляется много символов в формулах. Тем более интересно утверждение статьи на рис. 3 - в этом утверждении в качестве F берутся функции, отображающее конечные подмножества отрезка [0, 1] в единицу, а в качестве распределений P - все возможные распределения над этим же отрезком; и оказывается, что EMX-learnability (т.е. существование EMX-learnable алгоритма) с некоторыми фиксированными параметрами epsilon и delta над таким множеством независимо от аксиом Цермелло-Френкеля.

Далее авторы, собственно, показывают, что такой алгоритм существует, если и только если между счётным множеством и континуумом добавлено конечное число "промежуточных" мощностей, но доказательство я уже не буду разбирать. 🙃

Конечно, на самом деле ни один реальный алгоритм не может искать оптимальную функцию над таким большим множеством функций. Поэтому результат является сугубо теоретическим.

#математика #объяснения_статей #математика_в_ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Надоело рассказывать тысячу раз одно и то же, потому вот моя биография в плане учебы, чтобы просто давать на нее ссылку, если что.

1990 - рождение;
1995 - пошла в первый класс (в пять лет, сейчас испытываю глубокое отвращение к этому факту, а также к слову "вундеркинд", которым меня называли. Мне бы намного больше нравилось, если бы меня называли не вундеркиндом, а человеком).
С 1 по 5 класс училась на одни пятерки. Все предметы шли легко. Единственное, с чем всегда было плохо и что учителям приходилось натягивать, чтобы не портить дневник - это оценка по поведению. 🤡
1998 - пошла в пятый класс (перепрыгнув через один класс - тогда четвертый класс отменили). Это был последний класс, в котором я была круглой отличницей (тоже теперь как-то неприятно вспоминать, словно этими оценками я как будто соглашалась с ненавистным статусом вундеркинда). Где-то после этого мои интересы начали отдаляться от сверстников в сторону увлечения наукой и техникой (в основном тем, что связано с биологией, животными, электроникой, механизмами), а также творчеством (делала всякие штуки из дерева, рисовала). Я начала постепенно становиться изгоем и менять школы одну за другой, параллельно ухудшались оценки.
Как же увлечение ноукой может ухудшить оценки? Очень просто, я со временем просто начала все больше забивать на школьную программу, вместо этого изучая только то, что мне нравится, а также много прогуливала и все реже делала домашки, хотя дома меня очень упорно заставляли.
2004 - пошла в десятый класс. На этот момент я уже ненавидела школу (в первую очередь из-за травли от одноклассников, во вторую - потому что мне не нравились предметы и учителя), полностью перестала делать домашние задания, постепенно начала игнорировать и то, что просили делать учителя на уроках. Как раз к этому периоду относятся мои воспоминания о том, как учителя меня называли "тупой", "неадекватной", "отсталой", винили в том, что меня бьют, говоря, что это все из-за того, что я провоцирую и пр. Впрочем, этот период вспоминать все равно менее обидно, чем тот, когда меня называли вундеркиндом и хвалили за оценки.
В начале 2004 я просто отказалась ходить в школу, и никакими криками и угрозами заставить меня это делать стало уже физически невозможным. Пришлось меня отчислить.
2005 - родители еле-еле заставили поступить в техникум на базе 9 классов, которые у меня всё-таки были закончены. Из-за того, что мне очень нравились компьютеры, специальность была выбрана "техник ЭВМ". Сейчас я понимаю, что специальность была очень плохо составлена и была практически бесполезна, но тогда я не особо могла что сообразить по этому поводу. Параллельно я начала интересоваться математикой. Где-то году в 2006 я окончательно зафиксировалась на мысли стать математиком и с тех пор в течение нескольких лет к этому стремилась.
2009 - окончание техникума (в основном в дипломе тройки), первая попытка поступить в МГУ. Провал, пришлось вместо этого год проучиться в провинциальном вузе.
2010 - успешное поступление на мехмат МГУ с помощью полностью самостоятельной подготовки к ЕГЭ и вступительным экзаменам мехмата с последующей успешной сдаче их на высокие баллы, что шокировало окружающих. Теперь, учитывая предыдущую историю, становится понятной ещё одна причина, почему мне потом было так трудно там учиться. Я разучилась учиться систематически, так как много лет этого не хотела и, соответственно, не делала, а когда захотела, способности к этому уже уменьшились.
Также здесь надо отметить, что МГУ был первым учебным заведением, где меня не травили (видимо, потому что на мехмате все странные, и я уже не выделялась), поэтому я очень сильно его полюбила. Естественно, после многих лет травли я была совершенно социально не адаптирована (хикка-сыч), но благодаря новым друзьям на мехмате, стала учиться общаться и социализироваться.
2015 - окончание МГУ (также на тройки), далее год работы на полную ставку с небольшим перерывом.
2016 - поступление в аспирантуру. Учеба в аспирантуре, совмещённая с временной работой или неполным рабочим днём.
2020 - изгнание из аспирантуры.
2023 - вы находитесь здесь.

#о_себе
Please open Telegram to view this post
VIEW IN TELEGRAM
Нашла интересный плейлист, в котором целый ряд базовых математических концепций из теории множеств, математической логики, теории графов, теории вероятностей, объясняется с самых-самых азов: https://youtube.com/playlist?list=PLHXZ9OQGMqxersk8fUxiUMSIx0DBqsKZS&si=XU07xkrwI5UmYc5z (англ.), при чём большинство видео являются коротенькими (5-15 минут).
Но особенно меня заинтересовало то, что в плейлисте присутствуют видео, которые объясняют на простом, базовом уровне, что такое в принципе математическое определение: https://youtu.be/dlKcfGu-WpI?si=sWqlarSVrmfDIGVq и математическое доказательство: https://youtu.be/oqTg3D_jZWo?si=SYzMw9pXNl2gAyxj так, чтобы поняли даже люди, далёкие от математики. Далее в плейлисте следуют видео с примерами распространенных приемов для доказательств - например, с помощью контрпримера и т.п. (если видео с приемами кажутся непонятными, рекомендую посмотреть плейлист с самого начала).

Другими словами, с помощью этого плейлиста можно довольно легко переместиться из левой части мема на рис. 1 в его среднюю часть (то есть, понять, что такое доказательство). Но как же переместиться из средней части в правую (то есть, снова перестать понимать, что это такое)? Для этого можно, например, прочитать книгу И.Лакатоса «Доказательства и опровержения», в которой на примере вывода формулы Эйлера для многогранников показывается, как развивается математическое знание. В частности, там показывается, как то, что раньше казалось доказательством для общего случая, оказывается всего лишь частным случаем, потому что то определение, которое казалось строгим, оказывается на самом деле не таковым, и приходится вводить новый стандарт строгости и общности для дальнейшего развития теории. Я сразу вспомнила эту книжку, когда увидела видео...
Приложу её в первом комментарии к посту.

#математика #учебные_материалы
Forwarded from Сиолошная
Towards Understanding Sycophancy in Language Models

Ещё одна статья от Anthropic, в которой показывается, что современные AI-ассистенты часто выдают «льстивые» ответы, которые нравятся пользователям, но при этом не являются точными. Вы наверняка это и сами замечали. Помните тот мем, где пользователь говорит "моя жена утверждает, что 2+2=5, и она всегда права"? Вот у модели есть выбор — огорчить вас и сказать, что всё же тут есть ошибка, или согласиться на неправильный ответ.

Что приводит к такому поведению? Авторы проанализировали свои данные о предпочтениях (используемых для последнего этапа тренировки, RLHF), и обнаружили, что соответствие ответа убеждениям конкретного человека является самым лучшим предиктором (предсказывающим фактором) того, насколько ему понравится ответ. Ни релевантность ответа вопросу, ни дружелюбность, ни правдивость, ни соответствие стилю — а именно соответствие убеждениям. Это и проиллюстрировано на приложенном изображении. И именно такое поведение неявно закрепляется через RLHF.

Какой из этого вывод? По сути, это недостаток процесса сбора данных, который приводит к "подхалимству", которое является характерной чертой буквально каждого протестированного AI-ассистента. Значит, нужно больше внимания уделять составлению грамотных инструкций для разметчиков, а также внедрять методы обучения, выходящие за рамки неэкспертного человеческого суждения, такие как обратная связь и критика от другого AI-ассистента. Да, давайте интегрируем модель в подготовку данных для модели чтобы ты мог размечать данные для модели пока работаешь с моделью над разметкой данных для модели 😔

Anthropic, кстати, уже занимались работой в этом направлении: тык. Да и OpenAI уж больше года назад писали про AI-критиков, которые помогают глазу "не замыливаться".
Please open Telegram to view this post
VIEW IN TELEGRAM
ОРУ!!!
ИИнфобизы сделали дипфейк-видео с неплохой генерацией голоса, в котором Илон Маск якобы рекламирует их мошенническую помойку и показывают эту рекламу на Ютуб (см. приложенное видео). 😂 Пройдя по ссылке в рекламе, я обнаружила сайт:

https://st-twp.cloud/

где также можно посмотреть копию этой рекламы во встроенном видеоплеере. Рекомендую посмотреть видео со звуком, чтобы убедиться, что дипфейк вполне качественный: движения губ Илона действительно совпадают с "его" речью, и сама речь также звучит вполне реалистично (только интонации малость неестественные). То-то он удивится, когда это увидит...

▶️ Больше про мошенничество с помощью современных технологий: https://t.me/tech_priestess/925
▶️ Больше про ложный "quantum AI" для трейдинга:
https://malwaretips.com/blogs/quantum-ai/
(Не путать с настоящим проектом quantum AI от Google, который с трейдингом не связан - https://quantumai.google/ ).

#ИИнфобизнес #реклама #ML_скам
Forwarded from epsilon correct
Наткнулся на миленький гайд по преодолению тревожности в занятиях математикой. Несколько пунктов, которые мне показались интересными:

1. Люди не делятся на “математиков” и “не-математиков”. Ей можно заниматься или не заниматься.

2. В школе и университете мы привыкли заниматься математикой на скорость – решать тесты и задачи на время. В реальной жизни редко когда важна скорость решения задачи (если вы не в хеджфонде работаете, конечно 📈).

3. Мы часто думаем, что в математике, в отличие от гуманитарных наук, есть только два типа ответов: правильный и неправильные. На самом деле, прийти к правильному ответу можно множеством разных путей. 💡

Мне кажется, в России особенно токсичное отношение к “чистоте” математики. Как вы с этим справляетесь, дорогие читатели?
Please open Telegram to view this post
VIEW IN TELEGRAM
Наткнулась на сайт с хорошей подборкой книг по математике и физике в формате pdf (большинство pdf-ок разбиты по главам):

https://alexandr4784.narod.ru/

Книги включают в себя как классические учебники и монографии, так и современные. Среди них есть, например, такие:
▶️ Прасолов "Наглядная топология" (писала об этой книге здесь: https://t.me/tech_priestess/681 ): https://alexandr4784.narod.ru/prasolov.html
▶️ Таблицы интегралов Двайта (полезны, если под рукой нет вольфрама или он не берет нужный интеграл):
https://alexandr4784.narod.ru/gb_dwait.html
▶️ Курс по теоретической физике Ландау и Лифшица: https://alexandr4784.narod.ru/lktf.html
▶️ Пуанкаре "О науке" (интересные рассуждения о философии и методологии науки... для своего времени - надо учитывать, что книге больше ста лет):
https://alexandr4784.narod.ru/apon.html
▶️ И т.д.

На большинстве разделов сайта есть ссылки на сборники с задачами и решениями по соответствующей дисциплине.

#учебные_материалы
Forwarded from Сергей Кашин
Не знаю, как кинуть в предложку, но есть шикарное киберпанковое из 1986 года))

Как использовать рыбу в качестве часов😂
ConvNets Match Vision Transformers at Scale
Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De
Статья: https://arxiv.org/abs/2310.16764

Империя наносит алаверды #2 (#1 было тут https://t.me/gonzo_ML/819).

Есть мнение () что свёрточные сети хороши на малых и средних объёмах данных, а на датасетах супер большого размера проигрывают трансформерам (ViT в частности, https://t.me/gonzo_ML/434). Текущая работа от DeepMind разрушает этот миф.

Считается, что скейлинг трансформеров идёт лучше, чем у свёрточных сетей, но подтверждений этому мало. Кроме того, многие работы изучающие ViT сравниваются с довольно слабыми свёрточными бейзлайнами, сами при этом порой обучаясь с безумными вычислительными бюджетами более 500k TPU-v3 core hours (что уже $250k по нынешним ценам on-demand, https://cloud.google.com/tpu/pricing). Это сильно за границами бюджетов для обучения свёрточных сетей.

Авторы берут семейство NFNet (Normalizer-Free ResNets, https://arxiv.org/abs/2102.06171) с последовательно увеличивающимися шириной и глубиной сетей. Это чисто свёрточная архитектура, последняя из подобных, получившая SoTA на ImageNet. Эти архитектуры без существенных изменений (кроме подбора простых гиперпараметров обучения) предобучают на большом датасете JFT-4B (4B размеченных картинок с 30к классов) с вычислительными бюджетами от 0.4k до 110k TPU-v4 core compute hours (у TPU-v4 примерно в два раза более высокие флопсы, чем у v3, но такая же память). Затем предобученные сети файнтюнят на ImageNet (используют Sharpness-Aware Minimization, SAM, https://arxiv.org/abs/2010.01412) и получают перформанс аналогичный ViT с сопоставимыми бюджетами. Все модели стабильно улучшаются при добавлении вычислений. Самая большая модель NFNet-F7+ предобучается 8 эпох (110k TPU-v4 hrs), файнтюнится (1.6k TPU-v4 hrs) и даёт 90.3% top-1 accuracy (а с 4x аугментацией и 90.4%).

Из наблюдений по ходу, кривая валидационного лосса даёт чёткий линейный тренд, консистентный с log-log scaling law между валидационным лоссом и объёмом вычислений в предобучении. Это матчится с такими же scaling laws для трансформеров в языковом моделировании. Авторы нашли оптимальный режим скейлинга, когда размер модели и количество эпох обучения увеличиваются с одинаковой скоростью. Также нашли значения для оптимальных learning rates.

Ещё из интересного, претрейны с минимальным валидационным лоссом не всегда дают топовое качество после файнтюна. На трансформерах мы тоже такое где-то видели. Для файнтюнинга стабильно хороши модели чуть покрупнее и чуть поменьше обученные. Иногда ещё и с чуть большим learning rate.

Мораль? The bitter lesson! Чего думать, трясти надо! Компьют и данные -- главные факторы.

Но таки inductive biases у моделей разные и авторы признают, что ViT может быть более хорошим выбором в определённых условиях, например, за счёт возможности использовать одинаковые компоненты для разных модальностей.
Понравившийся отрывок из интервью с Ричардом Фейнманом. Источник - книга "The Pleasure of Finding Things Out: The Best Short Works of Richard Feynman", которую я сейчас читаю. Прикреплю файл с книгой в комментарии.

#книги
Forwarded from Dark Geometry (dgvk2tgposterbot)
#полезное

Использование ИИ для преподавания математики и исследований
Место для комментариев к предыдущей записи (про использование LLM для генерации кода LaTeX и других задач, связанных с преподаванием/исследованиями)
Пару месяцев назад мы с коллегами получили много замечаний от рецензентов конференции NeurIPS на нашу работу "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts" и решили учесть их предложения в исправленной (camera-ready) версии. Вот эта новая версия на архиве!

https://arxiv.org/abs/2306.04723

Работа посвящена детекции искусственных текстов, сгенерированных davinci, chatGPT и другими генераторами, с помощью подсчёта внутренней размерности этих текстов, с использованием методов TDA. В частности, был построен детектор, который выбил SoTA на нашем наборе данных в кросс-доменном сеттинге и показал бо‌льшую устойчивость к атаке парафразером, чем альтернативы типа DetectGPT и тому подобные. Также была затронута тема генерации на разных языках и другие.
Более подробно про неё я рассказывала на докладе в ВШЭ: https://t.me/tech_priestess/748 (доклад на русском)

Особенно отмечу следующие изменения:

▶️ На стр. 1 добавлена ссылка на GitHub репозиторий с кодом. Пока что он готов не до конца, но я думаю, что будет готов к началу конференции, так что можно подписываться и следить за обновлениями: https://github.com/ArGintum/GPTID
▶️ Были исправлены неточности и опечатки в тексте и формулах, более понятно сформулированы трудные моменты изложения, исправлены цитирования (большое спасибо коллегам за проделанную работу, требующую большой аккуратности и внимательности!).
▶️ Была произведена работа над аппендиксом и секцией анализа, в частности:
▶️▶️ На стр. 19 добавлены примеры текстов, которые неправильно классифицируются нашим методом. Более подробно они обсуждаются на стр. 9 в разделе "Analysis of edge cases".
▶️▶️ На стр. 20 добавлен барплот с размерностями некоторых специальных видов текстов.
▶️▶️ На стр. 20 добавлено более подробное описание наших датасетов и примеры подсчёта других внутренних размерностей (не только тех, которые мы использовали в своей работе), для сравнения. Удивляюсь дотошности и методичности нашего главного автора Эдуарда, который проделал работу над этой трудозатратной частью!

Жаль что Бенджио и его соавторы увидели пока только старую версию работы (судя по тому, что они процитировали её в своей статье https://link.springer.com/article/10.1007/s10676-023-09728-4 до обновления). Ну ничего, зато все, кто будет заходить на архив с этого момента, будут видеть новую версию, ещё лучше. ☺️

#детекция_искусственных_текстов