Forwarded from New Yorko Times (Yury Kashnitsky)
Generative AI & Research Integrity. Часть 1.
#science #ml #chatgpt
В продолжение поста про Elsevier и антифрод в науке расскажу чуть подробнее про paper mills (но не слишком подробно ибо NDA). Также о том, где тут GAI (Generative AI). Это расширенная версия первой трети моего доклада на DataFest 2023 (слайды, видео еще не дали).
Paper Mills – довольно организованный бизнес, удовлетворяющий потребность исследователей регулярно публиковаться, даже когда ничего стоящего под рукой нет. Оверфит на индекс Хирша и парадигма “publish or perish” этому всячески помогают.
Схем много, классическая: есть организация с широкой сетью издателей (editors) и рецензентов (reviewers), которые с этой организацией в сговоре. Далее идут манипуляции на этапе рецензии статьи: издатель принимает статью, несмотря на негативные рецензии, либо находит рецензентов из своего “кружка” – так или иначе, некачественную статью принимают. Попутно видно много всякого другого фрода: издатели форсят ссылки на самих себя, проталкивают цитирование нерелевантных статей и т.д. Есть публичный ресурс PubPeer, где кто угодно может выразить сомнения по поводу легитимности любой научной статьи. Вот очень показательный пример – в статье куча нерелевантных ссылок на Guest Editors, а также вдруг автор Di Wu выбрала имейл eryueh12@163.com. Хм…
Пример такой Paper Mill (Натёкин внезапно пришел послушать мой доклад на фесте, он предложил неплохой аналог термина на русском: изба-писальня): 123mi.ru. Полюбуйтесь на красавцев: продают авторство, обещают опубликоваться в любом из топовых журналов. На вкладке “Наши рецензенты” – список из >1k универов, в том числе весьма уважаемых. Иронично, что есть вкладка про мошенников (остерегайтесь!). Про эту избу-писальню уже в 2019-ом было разоблачение. Ничего, выжили, оперируют, сидят в Москве-Сити.
Классически с Paper Mills борются вручную: у паблишеров есть команды Research Integrity / Publication Ethics, и там аналитики вручную исследуют стремные случаи. Хорошо если Excel, чаще просто тычут в кнопки имеющихся инструментов типа Editorial Manager. Понятно, что это вообще не масштабируется. Крупные научные паблишеры начали применять Data Science, чтоб масштабированно находить фрод в статьях/процессах рецензирования и т.д. Вот я как раз тащу эту инициативу в Elsevier. Паблишеров активно критикуют за profit margins и то, какое говно они публикуют, кто-то должен с этим что-то делать. Так что как я занялся Research Integrity, то и успокоился насчет собственной миссии при работе на паблишера.
Мы написали небольшую либу, которая считает разные признаки статей, пришедших из paper mills. Вот тут как раз NDA, нельзя помогать читерам, рассказывая, как ты с ними борешься. Но из общеизвестного и интуитивно понятного: можно ловить подозрительно продуктивных авторов и рецензентов, посмотреть на авторов, возникающих “ниоткуда” уже после того, как статья принята (это индикатор authorship for sale – многомиллионного бизнеса, статья в Nature) и т.д. Мы плодим отчеты, подсвечивающие тысячи подозрительных статей и (пока) около пары десятков признаков. Собственно, боттлнек теперь – кожаные мешки, анализирующие такие случаи. Благо, мы осветили проблему на уровне CEO, теперь нанимаем кучу аналитиков в команду Research Integrity. Тут непаханое поле, и data engineering, и аналитиков организовать, и просто процессы оптимизировать. Также бэклог исследований огромный, штук 40, от простых вещей до мини-проектов – фантазия читеров очень богата.
Продолжение ⬇️
#science #ml #chatgpt
В продолжение поста про Elsevier и антифрод в науке расскажу чуть подробнее про paper mills (но не слишком подробно ибо NDA). Также о том, где тут GAI (Generative AI). Это расширенная версия первой трети моего доклада на DataFest 2023 (слайды, видео еще не дали).
Paper Mills – довольно организованный бизнес, удовлетворяющий потребность исследователей регулярно публиковаться, даже когда ничего стоящего под рукой нет. Оверфит на индекс Хирша и парадигма “publish or perish” этому всячески помогают.
Схем много, классическая: есть организация с широкой сетью издателей (editors) и рецензентов (reviewers), которые с этой организацией в сговоре. Далее идут манипуляции на этапе рецензии статьи: издатель принимает статью, несмотря на негативные рецензии, либо находит рецензентов из своего “кружка” – так или иначе, некачественную статью принимают. Попутно видно много всякого другого фрода: издатели форсят ссылки на самих себя, проталкивают цитирование нерелевантных статей и т.д. Есть публичный ресурс PubPeer, где кто угодно может выразить сомнения по поводу легитимности любой научной статьи. Вот очень показательный пример – в статье куча нерелевантных ссылок на Guest Editors, а также вдруг автор Di Wu выбрала имейл eryueh12@163.com. Хм…
Пример такой Paper Mill (Натёкин внезапно пришел послушать мой доклад на фесте, он предложил неплохой аналог термина на русском: изба-писальня): 123mi.ru. Полюбуйтесь на красавцев: продают авторство, обещают опубликоваться в любом из топовых журналов. На вкладке “Наши рецензенты” – список из >1k универов, в том числе весьма уважаемых. Иронично, что есть вкладка про мошенников (остерегайтесь!). Про эту избу-писальню уже в 2019-ом было разоблачение. Ничего, выжили, оперируют, сидят в Москве-Сити.
Классически с Paper Mills борются вручную: у паблишеров есть команды Research Integrity / Publication Ethics, и там аналитики вручную исследуют стремные случаи. Хорошо если Excel, чаще просто тычут в кнопки имеющихся инструментов типа Editorial Manager. Понятно, что это вообще не масштабируется. Крупные научные паблишеры начали применять Data Science, чтоб масштабированно находить фрод в статьях/процессах рецензирования и т.д. Вот я как раз тащу эту инициативу в Elsevier. Паблишеров активно критикуют за profit margins и то, какое говно они публикуют, кто-то должен с этим что-то делать. Так что как я занялся Research Integrity, то и успокоился насчет собственной миссии при работе на паблишера.
Мы написали небольшую либу, которая считает разные признаки статей, пришедших из paper mills. Вот тут как раз NDA, нельзя помогать читерам, рассказывая, как ты с ними борешься. Но из общеизвестного и интуитивно понятного: можно ловить подозрительно продуктивных авторов и рецензентов, посмотреть на авторов, возникающих “ниоткуда” уже после того, как статья принята (это индикатор authorship for sale – многомиллионного бизнеса, статья в Nature) и т.д. Мы плодим отчеты, подсвечивающие тысячи подозрительных статей и (пока) около пары десятков признаков. Собственно, боттлнек теперь – кожаные мешки, анализирующие такие случаи. Благо, мы осветили проблему на уровне CEO, теперь нанимаем кучу аналитиков в команду Research Integrity. Тут непаханое поле, и data engineering, и аналитиков организовать, и просто процессы оптимизировать. Также бэклог исследований огромный, штук 40, от простых вещей до мини-проектов – фантазия читеров очень богата.
Продолжение ⬇️
Forwarded from New Yorko Times (Yury Kashnitsky)
Generative AI & Research Integrity. Часть 1. (продолжение)
#science #ml #chatgpt
Самой собой, LLM-ки начинают выводить проблему на новый уровень. Недавно была громкая история с испанцем Rafael Luque, который не долго думая плодил статьи с chatGPT и продавал соавторство в них. Видать, неплохо заработал. Он “всего лишь” потерял должность в университете Кордобы, при этом его аффилиация с РУДН остается, а также появляются новые. Полагаю, персонаж продолжит заниматься доходным бизнесом. Кстати, поймали Рафу не детектором chatGPT-контента (такие детекторы обсудим в третьей части), а проще: среди признаков – нерелевантные ссылки на другие работы, а также “tortured phrases” (не буду раздувать пост, про tortured phrases отдельно расскажу) – когда вместо “image recognition” вдруг “image acknowledgement”, а вместо “quantum gates”, по заветам нашего лучшего друга Сиража Раваля – ”quantum doors”.
Пожалуй, самые громкие истории вокруг research Integrity связаны с манипуляциями изображений – подтасовками western blots (молекулярные биологи так определяют в образце белки). Есть “сыщики” типа Elizabeth Bik с орлиным взглядом, умеющим находить пересекающиеся куски изображений и, в целом, визуальный плагиат. Элизабет лично обнаружила манипуляции в более 10к статей. Любители computer vision, тут есть где разгуляться, это еще в целом не решенная проблема. Некоторые инструменты есть (Proofig, ImageTwin), но они далеки от идеала. И понятно, что Stable Diffusion также выводит на новый уровень и манипуляции, и борьбу с ними. Гонка вооружений.
Всяческих манипуляций, конечно же, еще множество. Во второй части расскажу про наш опыт детекции ML-генерированного контента (на основе этого поста). В третьей поговорим про chatGPT-детекторы в духе этого поста.
#science #ml #chatgpt
Самой собой, LLM-ки начинают выводить проблему на новый уровень. Недавно была громкая история с испанцем Rafael Luque, который не долго думая плодил статьи с chatGPT и продавал соавторство в них. Видать, неплохо заработал. Он “всего лишь” потерял должность в университете Кордобы, при этом его аффилиация с РУДН остается, а также появляются новые. Полагаю, персонаж продолжит заниматься доходным бизнесом. Кстати, поймали Рафу не детектором chatGPT-контента (такие детекторы обсудим в третьей части), а проще: среди признаков – нерелевантные ссылки на другие работы, а также “tortured phrases” (не буду раздувать пост, про tortured phrases отдельно расскажу) – когда вместо “image recognition” вдруг “image acknowledgement”, а вместо “quantum gates”, по заветам нашего лучшего друга Сиража Раваля – ”quantum doors”.
Пожалуй, самые громкие истории вокруг research Integrity связаны с манипуляциями изображений – подтасовками western blots (молекулярные биологи так определяют в образце белки). Есть “сыщики” типа Elizabeth Bik с орлиным взглядом, умеющим находить пересекающиеся куски изображений и, в целом, визуальный плагиат. Элизабет лично обнаружила манипуляции в более 10к статей. Любители computer vision, тут есть где разгуляться, это еще в целом не решенная проблема. Некоторые инструменты есть (Proofig, ImageTwin), но они далеки от идеала. И понятно, что Stable Diffusion также выводит на новый уровень и манипуляции, и борьбу с ними. Гонка вооружений.
Всяческих манипуляций, конечно же, еще множество. Во второй части расскажу про наш опыт детекции ML-генерированного контента (на основе этого поста). В третьей поговорим про chatGPT-детекторы в духе этого поста.
В продолжение темы, анализ данных и алкоголь. Вот результаты тестирования 20-ти видов лаггеров из разных стран.
Forwarded from Alexandr Notchenko
Вот результаты почти слепого тестирования 20-ти видов лаггеров, группой из 4-х человек.
В таблице есть есть баллы, в списке название бренда пива чтобы сверить с номером в таблице.
Топ 3
Pacifico
Hainiken
Estrella , moosehead
В таблице есть есть баллы, в списке название бренда пива чтобы сверить с номером в таблице.
Топ 3
Pacifico
Hainiken
Estrella , moosehead
Forwarded from Ivan Begtin (Ivan Begtin)
Какая прекрасная история в коротком изложении, процитирую дословно Newsru.co.il
Полицейские, бойцы полицейского спецназа и пограничники провели спецоперацию в квартале Джуариш в Рамле в рамках борьбы с преступностью в арабском секторе. В ходе этой операции были демонтированы десятки камер наблюдения, установленных на улицах города криминальными элементами. [1]
Жаль лишь что информации категорически мало, а тут интересны подробности и важен сам по себе факт что организованная преступность на месте не следит: ставит камеры, использует OSINT, а там глядишь и нейросети начнут применять и специальные ИИ инструменты. В самом деле если есть edutech, fintech, govtech, то обязательно будет и crimetech.
Ссылки:
[1] https://txt.newsru.co.il/israel/25jun2023/ramla_police_004.html
#privacy #security #crime #israel
Полицейские, бойцы полицейского спецназа и пограничники провели спецоперацию в квартале Джуариш в Рамле в рамках борьбы с преступностью в арабском секторе. В ходе этой операции были демонтированы десятки камер наблюдения, установленных на улицах города криминальными элементами. [1]
Жаль лишь что информации категорически мало, а тут интересны подробности и важен сам по себе факт что организованная преступность на месте не следит: ставит камеры, использует OSINT, а там глядишь и нейросети начнут применять и специальные ИИ инструменты. В самом деле если есть edutech, fintech, govtech, то обязательно будет и crimetech.
Ссылки:
[1] https://txt.newsru.co.il/israel/25jun2023/ramla_police_004.html
#privacy #security #crime #israel
NEWSru.co.il
Полиция демонтировала в Рамле десятки незаконно установленных камер наблюдения - NEWSru.co.il
Израиль: Полицейские, бойцы полицейского спецназа и пограничники провели спецоперацию в квартале Джуариш в Рамле в рамках борьбы с преступностью в арабском секторе. В ходе этой операции были демонтированы десятки камер наблюдения, установленных на улицах…
Forwarded from howtocomply_AI: право и ИИ
Спасаемся от скайнет
Друзья, в выходные делимся с вами крайне интересной лекцией одного из отцов современного ИИ Стюарта Рассела "Как не уничтожить мир с помощью искусственного интеллекта".
В лекции рассматривается широкий круг вопросов относительного того, каким образом создать ИИ, который будет служить на благо человечества.
Для перевода на русский можно использовать нейронки. Например, известное решение от Яндекса.
Друзья, в выходные делимся с вами крайне интересной лекцией одного из отцов современного ИИ Стюарта Рассела "Как не уничтожить мир с помощью искусственного интеллекта".
В лекции рассматривается широкий круг вопросов относительного того, каким образом создать ИИ, который будет служить на благо человечества.
Для перевода на русский можно использовать нейронки. Например, известное решение от Яндекса.
YouTube
How Not To Destroy the World With AI - Stuart Russell
Stuart Russell, Professor of Computer Science, UC Berkeley
About Talk:
It is reasonable to expect that artificial intelligence (AI) capabilities will eventually exceed those of humans across a range of real-world decision-making scenarios. Should this be…
About Talk:
It is reasonable to expect that artificial intelligence (AI) capabilities will eventually exceed those of humans across a range of real-world decision-making scenarios. Should this be…
Лекция артиста который делает visuals для Aphex Twin-а. В том числе на последнем живом выступлении на Field day неделю назад.
YouTube
Nicer Tuesdays: Weirdcore
Designer Weirdcore treats us to a rare insight to his visuals for Aphex Twin. Using live generated elements combined with trippy and intense pop culture imagery manipulated in real time, what Weirdcore puts on the screens is both mind and retina warping.…
Cory Doctorow в интервью - хорошо поясняет проблемы вызванные ограничением интероперабельности на крупных платформах и сервисах (Google, Microsoft, Amazon). Я об этом часто думаю, и делаю пару Open Source проектов для борьбы с этими ограничениями.
"Then there’s the third kind of interop, the kind of chewy, interesting, lots-of-rich-Internet-history interop, which is adversarial interoperability, which in the book we call “comcom,” short for competitive compatibility. It’s the interop that’s done against the wishes of the original equipment manufacturer: scraping, reverse engineering, bots, all of that gnarly stuff done in the face of active hostility."
Стоит почитать его новую книгу https://craphound.com/category/internetcon/
"Then there’s the third kind of interop, the kind of chewy, interesting, lots-of-rich-Internet-history interop, which is adversarial interoperability, which in the book we call “comcom,” short for competitive compatibility. It’s the interop that’s done against the wishes of the original equipment manufacturer: scraping, reverse engineering, bots, all of that gnarly stuff done in the face of active hostility."
Стоит почитать его новую книгу https://craphound.com/category/internetcon/
IEEE Spectrum
Cory Doctorow: Interoperability Can Save the Open Web
How to free users from Big Tech’s walled gardens
Я плачу на технологиях
Cory Doctorow в интервью - хорошо поясняет проблемы вызванные ограничением интероперабельности на крупных платформах и сервисах (Google, Microsoft, Amazon). Я об этом часто думаю, и делаю пару Open Source проектов для борьбы с этими ограничениями. "Then there’s…
YouTube
DEF CON 31 - An Audacious Plan to Halt the Internet's Ensh*ttification - Cory Doctorow
The enshittification of the internet follows a predictable trajectory: first, platforms are good to their users; then they abuse their users to make things better for their business customers; finally, they abuse those business customers to claw back all…
Negawatt power - is investment to reduce electricity consumption rather than investing to increase supply capacity. In this way investing in negawatts can be considered as an alternative to a new power station and the costs and environmental concerns can be compared.
Интересная концепция, можно ли иметь какой либо рынок с негативным величинами? В некотором смысле Carbon credits - попытка сделать рынок с негативными событиями, или "отрицательный выброс углерода", но такой рынок очень хорошо подходит для отмывания негативных экстерналий и морального лицензирования, на границе со скамом. Есть что то точно связанное с Opportunity cost , потому что энергия в данном случае не единственная величина учитываемая в транзакции. Похоже что все проблемы возникают от упрощения целевой функции, тебе самые проблемы алайнмента.
Интересная концепция, можно ли иметь какой либо рынок с негативным величинами? В некотором смысле Carbon credits - попытка сделать рынок с негативными событиями, или "отрицательный выброс углерода", но такой рынок очень хорошо подходит для отмывания негативных экстерналий и морального лицензирования, на границе со скамом. Есть что то точно связанное с Opportunity cost , потому что энергия в данном случае не единственная величина учитываемая в транзакции. Похоже что все проблемы возникают от упрощения целевой функции, тебе самые проблемы алайнмента.
Forwarded from howtocomply_AI: право и ИИ
Дипфейкам бой
В США недавно был опубликован согласованный двумя партиями законопроект, направленный на защиту артистов от несанкционированного копирования их лиц и голосов с помощью генеративных систем ИИ.
Законопроектом вводится термин “цифровая копия”, который означает вновь созданное или сгенерированное компьютером электронное представление изображения, голоса или визуального образа физического лица, которое: а) является практически неотличимым от реального изображения, голоса или облика этого лица; б) зафиксировано в звукозаписи или аудиовизуальном произведении, в котором это лицо фактически не принимало участие.
Документ запрещает производство цифровой копии без согласия соответствующего лица или правообладателя. Исключениями являются, например: новостные, общественные или спортивной передачи, документальные, биографические или комедийные произведения, критика, научные исследования.
Соответствующее право будут действовать в течение всей жизни лица и семидесяти лет после его смерти в отношении правопреемников. Законопроект также предусматривает размер гражданско-правовой ответственности.
По информации The Verge, представители индустрии позитивно оценили концептуальную идею законопроекта. Текст законопроекта размещен для отзывов со стороны представителей индустрии.
С полным текстом документа можно ознакомиться по ссылке.
В США недавно был опубликован согласованный двумя партиями законопроект, направленный на защиту артистов от несанкционированного копирования их лиц и голосов с помощью генеративных систем ИИ.
Законопроектом вводится термин “цифровая копия”, который означает вновь созданное или сгенерированное компьютером электронное представление изображения, голоса или визуального образа физического лица, которое: а) является практически неотличимым от реального изображения, голоса или облика этого лица; б) зафиксировано в звукозаписи или аудиовизуальном произведении, в котором это лицо фактически не принимало участие.
Документ запрещает производство цифровой копии без согласия соответствующего лица или правообладателя. Исключениями являются, например: новостные, общественные или спортивной передачи, документальные, биографические или комедийные произведения, критика, научные исследования.
Соответствующее право будут действовать в течение всей жизни лица и семидесяти лет после его смерти в отношении правопреемников. Законопроект также предусматривает размер гражданско-правовой ответственности.
По информации The Verge, представители индустрии позитивно оценили концептуальную идею законопроекта. Текст законопроекта размещен для отзывов со стороны представителей индустрии.
С полным текстом документа можно ознакомиться по ссылке.
The Verge
No Fakes Act wants to protect actors and singers from unauthorized AI replicas
The bill wants to stop unauthorized AI replicas.
Интересная лекция на конференции StrangeLoop (конференция про компьютеры, вычисления в широком смысле и диковинные способы взаимодействия с ними).
Permacomputing - Про применение концепций из permaculture в вычислениях от одного из создателей арт коллектива 100rabbits которые уже несколько лет живут на яхте и плавают по миру.
permaculture - если грубо то более экологичный способ вести агрокультуру и осознанно быть частью экосистемы.
В вычислениях это выражается в том как создавать языки программирования которые позволят запускать программы и через 20 и 100 лет. Каким образом можно описать на бумаге простую виртуальную машину и запускать на ней программы на компьютерах через любое время и относиться экономично к ресурсам которые потребляются для этих вычислений.
Еще один такой любопытный проект косвенно связанный этим - это low power солнечный компьютер с e-ink дисплеем.
Permacomputing - Про применение концепций из permaculture в вычислениях от одного из создателей арт коллектива 100rabbits которые уже несколько лет живут на яхте и плавают по миру.
permaculture - если грубо то более экологичный способ вести агрокультуру и осознанно быть частью экосистемы.
В вычислениях это выражается в том как создавать языки программирования которые позволят запускать программы и через 20 и 100 лет. Каким образом можно описать на бумаге простую виртуальную машину и запускать на ней программы на компьютерах через любое время и относиться экономично к ресурсам которые потребляются для этих вычислений.
Еще один такой любопытный проект косвенно связанный этим - это low power солнечный компьютер с e-ink дисплеем.
YouTube
"An approach to computing and sustainability inspired from permaculture" by Devine Lu Linvega
In this session, I will explore some playful low-power, sometimes analog, computation systems and esoteric programming languages, designed to work offline, on salvaged devices, advised from spending the past 7 years sailing around the Pacific Ocean.
No seafaring…
No seafaring…
Стоило ожидать что мою фантазию о том что бы делать современные airships (дирижабль) как летающие яхты будет реализована кем то из Швейцарии. Очень продвинутая инженерная культура, и большая концентрация богатых людей которые хотят пофлексить не только дорогой яхтой у причала, но и летающим особняком.
Также начал снова читать оценки по расходу энергии при использовании на solar airships вместо реактивных самолетов, и прогнозы не ужасные, трансатлантические перелеты (Лондон - Нью Йорк) могут занимать от 2 до 4-х дней в одну сторону, расходуя всего 1-2% энергии. В будущем в котором углерод прайсится дороже, airships буду одним из немногих способов дальнего перемещения по воздуху, для всех не ультра богатых. Ресерч от немецкой команды исследователей - [source]
Taylor & Francis
Design and route optimisation for an airship with onboard solar energy harvesting
Based on commercial passenger-carrying airships like LZ129 or R100, a hypothetical electric rigid framed airship including a solar cell covered surface and a lithium-ion battery is designed. The si...
Сегодня юбилейный unix timestamp = 1700000000 - будет в Tue Nov 14 2023 22:13:20 GMT+0000, можно пить шампанское. У компьютеров - новый год. 🥂
Если у вас появлялось желание завести личный блог на своем сайте для того что бы владеть своими инструментами для широкой коммуникации с внешним миром но не хотелось бы терять возможность шарить контент в социальных сетях, то хорошая новость, вы не одни.
Есть набор стратегий как синдицировать свои материалы из блога в социальных сетях.
Это называется POSSE - Publish (on your) Own Site, Syndicate Elsewhere.
Таким образом можно:
- иметь бэкап всей публицистики которую делаете
- иметь больше трафика через веб поиск (лол)
- быть (почти) не ограниченным в том что вы можете опубликовать, не опасаясь модерации конкретных платформ
- убрать риск деплатформинга
- возвращать ценность обратно в открытый web а не делать неоплачиваемую работу на социальные сети
Осталось только найти более инструменты для этого. Что бы постинг был такой же простой как с приложениями.
Есть набор стратегий как синдицировать свои материалы из блога в социальных сетях.
Это называется POSSE - Publish (on your) Own Site, Syndicate Elsewhere.
Таким образом можно:
- иметь бэкап всей публицистики которую делаете
- иметь больше трафика через веб поиск (лол)
- быть (почти) не ограниченным в том что вы можете опубликовать, не опасаясь модерации конкретных платформ
- убрать риск деплатформинга
- возвращать ценность обратно в открытый web а не делать неоплачиваемую работу на социальные сети
Осталось только найти более инструменты для этого. Что бы постинг был такой же простой как с приложениями.