FTC начинает угрожать generative AI стартапам в своем блоге. Но пока иск не начнут стартапер не перекрестится.
“Are you effectively mitigating the risks? If you decide to make or offer a product like that, take all reasonable precautions before it hits the market. The FTC has sued businesses that disseminated potentially harmful technologies without taking reasonable measures to prevent consumer injury. Merely warning your customers about misuse or telling them to make disclosures is hardly sufficient to deter bad actors. Your deterrence measures should be durable, built-in features and not bug corrections or optional features that third parties can undermine via modification or removal. If your tool is intended to help people, also ask yourself whether it really needs to emulate humans or can be just as effective looking, talking, speaking, or acting like a bot.”
https://www.ftc.gov/business-guidance/blog/2023/03/chatbots-deepfakes-voice-clones-ai-deception-sale
“Are you effectively mitigating the risks? If you decide to make or offer a product like that, take all reasonable precautions before it hits the market. The FTC has sued businesses that disseminated potentially harmful technologies without taking reasonable measures to prevent consumer injury. Merely warning your customers about misuse or telling them to make disclosures is hardly sufficient to deter bad actors. Your deterrence measures should be durable, built-in features and not bug corrections or optional features that third parties can undermine via modification or removal. If your tool is intended to help people, also ask yourself whether it really needs to emulate humans or can be just as effective looking, talking, speaking, or acting like a bot.”
https://www.ftc.gov/business-guidance/blog/2023/03/chatbots-deepfakes-voice-clones-ai-deception-sale
Forwarded from HN Best Comments
Re: We need a more sophisticated debate about AI
The issue with our AI debate is that there's not a single "problem" but many inter-dependent issues without a clear system-wide solution.
- Big tech monopolizing the models, data, and hardware.
- Copyright concerns.
- Job security.
- AIs becoming sentient and causing harm for their own ends.
- Corporations intentionally using AI to cause harm for their own ends.
- Feedback loops will flood the internet with content of unknown provenance, which get included in the next model, etc.
- AI hallucinations resulting in widespread persistent errors that cause an epistemological crisis.
- The training set is inherently biased; human knowledge and perspectives not represented in this set could be systematically wiped from public discourse.
We can have meaningful discussions on each of these topics. And I'm sure we all have a level of concern assigned to each (personally, I'm far more worried about an epistemological crisis and corporate abuse than some AI singularity).
But we're seeing these topics interact in real-time to make a system with huge emergent societal properties. Not sure anyone has a handle on the big picture (there is no one driving the bus!) but there's plenty of us sitting in the passenger seats and raising alarm bells about what we see out our respective little windows.
perrygeo, 4 hours ago
The issue with our AI debate is that there's not a single "problem" but many inter-dependent issues without a clear system-wide solution.
- Big tech monopolizing the models, data, and hardware.
- Copyright concerns.
- Job security.
- AIs becoming sentient and causing harm for their own ends.
- Corporations intentionally using AI to cause harm for their own ends.
- Feedback loops will flood the internet with content of unknown provenance, which get included in the next model, etc.
- AI hallucinations resulting in widespread persistent errors that cause an epistemological crisis.
- The training set is inherently biased; human knowledge and perspectives not represented in this set could be systematically wiped from public discourse.
We can have meaningful discussions on each of these topics. And I'm sure we all have a level of concern assigned to each (personally, I'm far more worried about an epistemological crisis and corporate abuse than some AI singularity).
But we're seeing these topics interact in real-time to make a system with huge emergent societal properties. Not sure anyone has a handle on the big picture (there is no one driving the bus!) but there's plenty of us sitting in the passenger seats and raising alarm bells about what we see out our respective little windows.
perrygeo, 4 hours ago
Если у кого то ещё есть вопросы почему "пауза на 6 месяцев в исследовании ИИ" странная и даже глупая затея исходящая из паники а не какой либо логики, советую посмотреть вот этот диалог между парой старых исследователей в ML.
https://www.youtube.com/live/BY9KV8uCtj4
Коротко несколько пунктов:
- нельзя конструировать систему безопасности для чего то что не существует
- увеличение продуктивности - большая ценность
- регулирование работает, маротории не работают
Ну для алармистов тоже есть кое что в этом видео:
"Church said printing press will destroy the world, ... and it did."
https://www.youtube.com/live/BY9KV8uCtj4
Коротко несколько пунктов:
- нельзя конструировать систему безопасности для чего то что не существует
- увеличение продуктивности - большая ценность
- регулирование работает, маротории не работают
Ну для алармистов тоже есть кое что в этом видео:
"Church said printing press will destroy the world, ... and it did."
YouTube
Yann LeCun and Andrew Ng: Why the 6-month AI Pause is a Bad Idea
Join us for a conversation with Andrew Ng and Yann LeCun as they discuss the proposal of a 6-month moratorium on generative AI.
We will be taking questions during the event. Please submit your question or upvote others' here:
https://app.sli.do/event/9y…
We will be taking questions during the event. Please submit your question or upvote others' here:
https://app.sli.do/event/9y…
Буду скидывать сюда ссылки на проекты с command loop-ами для LLM-ок. Сейчас многие пробуют делать общего агента который использует python интерпретатор и способен писать код для выполнения задач онлайн и делать дальнейшие шаги по запросам. Будем смотреть что выходит.
Forwarded from Patrick
Good morning everyone!
The live stream for today will be at: https://www.youtube.com/watch?v=ZzDSW08IAdU (spread the word)
Info on all sessions (and the papers) you can find in the catalogue: https://iclc.toplap.org/2023/catalogue/
The live stream for today will be at: https://www.youtube.com/watch?v=ZzDSW08IAdU (spread the word)
Info on all sessions (and the papers) you can find in the catalogue: https://iclc.toplap.org/2023/catalogue/
YouTube
ICLC 2023 Day 1: Opening, Paper sessions 1, 2, 3 & Keynote Kate Sicchio
Timestamps for the talks:
24:42 Welcome
Paper Session 1
25:40 Sardine: A Modular Python Live Coding Environment Raphaël Maurice Forment, Jack Armitage
46:00 Strudel: Live Coding Patterns on the Web Felix Roos, Alex McLean
1:06:00 Živa: Easy Live Coding…
24:42 Welcome
Paper Session 1
25:40 Sardine: A Modular Python Live Coding Environment Raphaël Maurice Forment, Jack Armitage
46:00 Strudel: Live Coding Patterns on the Web Felix Roos, Alex McLean
1:06:00 Živa: Easy Live Coding…
Все кто скучают по старому твитеру с хронологической лентой. Вот есть хак с использованием поиска с фильтрами. Вроде неплохо работает.
https://twitter.com/search?q=filter%3Afollows%20-filter%3Areplies&src=typd&f=live
https://twitter.com/search?q=filter%3Afollows%20-filter%3Areplies&src=typd&f=live
Те с кем общался офлайн, знают что один из моих тейков - работать в ML/AI - ближайшее что есть к экспериментальной эпистемология (методов познания). Создавая разные системы в которых "зашиты" те или иные принципы или методологии познания и давая им возможность взаимодействовать с реальностью в видео данных или доступа к сенсорам/интернету можно увидеть какого рода модели мира они создают. Если раньше ML инженеры и исследователи задавали базовые принципы познания в виде кода или внутренних ограничений, то теперь это вышло на системный уровень, эмулируя в том числе методы познания у людей. Примеры: сократовский метод [1], и критический анализ [2].
Лично для меня это самое интересное что происходит в последнем витке AI весны/хайпа.
[1] https://princeton-nlp.github.io/SocraticAI/
[2] https://twitter.com/DrJimFan/status/1649458857343864833?s=20
Лично для меня это самое интересное что происходит в последнем витке AI весны/хайпа.
[1] https://princeton-nlp.github.io/SocraticAI/
[2] https://twitter.com/DrJimFan/status/1649458857343864833?s=20
Princeton NLP
The Socratic Method for Self-Discovery in Large Language Models
Is there a Theory of Anamnesis of Large Language Models?
"смартфоны делают нас тупее", может лучше "письменность делает нас тупее".
Кажется что даже "тупой" с доступом к текстам от тысячи людей , имеет возможности делать выводы лучше чем, самый "умный" но только разговаривая или получая информацию по цепочке пересказов.
Но зато какой оратор этот чел может быть который не читает а все только через речь или прямой опыт узнал.
Кажется что даже "тупой" с доступом к текстам от тысячи людей , имеет возможности делать выводы лучше чем, самый "умный" но только разговаривая или получая информацию по цепочке пересказов.
Но зато какой оратор этот чел может быть который не читает а все только через речь или прямой опыт узнал.
Forwarded from HN Best Comments
Re: When you lose the ability to write, you also lose ...
This reads like Plato's warning (through Socrates' words) 2,400 years ago that writing will make people forgetful:
"For this invention [writing] will produce forgetfulness in the minds of those who learn to use it, because they will not practice their memory. Their trust in writing, produced by external characters which are no part of themselves, will discourage the use of their own memory within them. You have invented an elixir not of memory, but of reminding; and you offer your pupils the appearance of wisdom, not true wisdom, for they will read many things without instruction and will therefore seem to know many things, when they are for the most part ignorant and hard to get along with, since they are not wise, but only appear wise." [1]
[1] Phaedrus 275a-b, http://www.perseus.tufts.edu/hopper/text?doc=Perseus%3Atext%3A1999.01.0174%3Atext%3DPhaedrus%3Asection%3D275a
ly3xqhl8g9, 6 hours ago
This reads like Plato's warning (through Socrates' words) 2,400 years ago that writing will make people forgetful:
"For this invention [writing] will produce forgetfulness in the minds of those who learn to use it, because they will not practice their memory. Their trust in writing, produced by external characters which are no part of themselves, will discourage the use of their own memory within them. You have invented an elixir not of memory, but of reminding; and you offer your pupils the appearance of wisdom, not true wisdom, for they will read many things without instruction and will therefore seem to know many things, when they are for the most part ignorant and hard to get along with, since they are not wise, but only appear wise." [1]
[1] Phaedrus 275a-b, http://www.perseus.tufts.edu/hopper/text?doc=Perseus%3Atext%3A1999.01.0174%3Atext%3DPhaedrus%3Asection%3D275a
ly3xqhl8g9, 6 hours ago
- Задумался о том какие вообще проэкты появятся для того что бы трассировать информацию в интернете для того что бы можно было установить источники и убедиться в том на что они ссылаются или какие данные используют для получения своих выводов. Все еще существует "академический интернет" - контент в котором принято ссылаться на источники это книги, научные статьи, блоги, и даже часть твиттера и реддита.
- Вот фанаты децентрализации что то интересное начали делать под названием Noosphere. Как заявляют авторы, это что то вроде распределенной Википедии, этот проект кажется вдохновлен взрывом Personal Knowledge Management систем, таких как Logseq (которым я недавно начал пользоваться активно и мне очень нравится), Obsidian, Roam Research, Athena Research, Mem.ai и Notion.
- Проблемы с достоверностью и качеством информации в интернете увеличивалось многие годы, но сейчас эпоха LLM моделей и Чатботов на их основе катализируют разработку ответных решений для тех кому очень важна корректность информации. Для того что бы создавать качественные рабочие модели нельзя их наполнять мусором. Garbage In Garbage Out.
- Вот фанаты децентрализации что то интересное начали делать под названием Noosphere. Как заявляют авторы, это что то вроде распределенной Википедии, этот проект кажется вдохновлен взрывом Personal Knowledge Management систем, таких как Logseq (которым я недавно начал пользоваться активно и мне очень нравится), Obsidian, Roam Research, Athena Research, Mem.ai и Notion.
- Проблемы с достоверностью и качеством информации в интернете увеличивалось многие годы, но сейчас эпоха LLM моделей и Чатботов на их основе катализируют разработку ответных решений для тех кому очень важна корректность информации. Для того что бы создавать качественные рабочие модели нельзя их наполнять мусором. Garbage In Garbage Out.
В догонку к предыдущему посту. Про то что "академический интернет" тоже сильно атакован и будет ещё хуже благодаря LLM-кам в руках не благонамеренных акторов.
Forwarded from New Yorko Times (Yury Kashnitsky)
Generative AI & Research Integrity. Часть 1.
#science #ml #chatgpt
В продолжение поста про Elsevier и антифрод в науке расскажу чуть подробнее про paper mills (но не слишком подробно ибо NDA). Также о том, где тут GAI (Generative AI). Это расширенная версия первой трети моего доклада на DataFest 2023 (слайды, видео еще не дали).
Paper Mills – довольно организованный бизнес, удовлетворяющий потребность исследователей регулярно публиковаться, даже когда ничего стоящего под рукой нет. Оверфит на индекс Хирша и парадигма “publish or perish” этому всячески помогают.
Схем много, классическая: есть организация с широкой сетью издателей (editors) и рецензентов (reviewers), которые с этой организацией в сговоре. Далее идут манипуляции на этапе рецензии статьи: издатель принимает статью, несмотря на негативные рецензии, либо находит рецензентов из своего “кружка” – так или иначе, некачественную статью принимают. Попутно видно много всякого другого фрода: издатели форсят ссылки на самих себя, проталкивают цитирование нерелевантных статей и т.д. Есть публичный ресурс PubPeer, где кто угодно может выразить сомнения по поводу легитимности любой научной статьи. Вот очень показательный пример – в статье куча нерелевантных ссылок на Guest Editors, а также вдруг автор Di Wu выбрала имейл eryueh12@163.com. Хм…
Пример такой Paper Mill (Натёкин внезапно пришел послушать мой доклад на фесте, он предложил неплохой аналог термина на русском: изба-писальня): 123mi.ru. Полюбуйтесь на красавцев: продают авторство, обещают опубликоваться в любом из топовых журналов. На вкладке “Наши рецензенты” – список из >1k универов, в том числе весьма уважаемых. Иронично, что есть вкладка про мошенников (остерегайтесь!). Про эту избу-писальню уже в 2019-ом было разоблачение. Ничего, выжили, оперируют, сидят в Москве-Сити.
Классически с Paper Mills борются вручную: у паблишеров есть команды Research Integrity / Publication Ethics, и там аналитики вручную исследуют стремные случаи. Хорошо если Excel, чаще просто тычут в кнопки имеющихся инструментов типа Editorial Manager. Понятно, что это вообще не масштабируется. Крупные научные паблишеры начали применять Data Science, чтоб масштабированно находить фрод в статьях/процессах рецензирования и т.д. Вот я как раз тащу эту инициативу в Elsevier. Паблишеров активно критикуют за profit margins и то, какое говно они публикуют, кто-то должен с этим что-то делать. Так что как я занялся Research Integrity, то и успокоился насчет собственной миссии при работе на паблишера.
Мы написали небольшую либу, которая считает разные признаки статей, пришедших из paper mills. Вот тут как раз NDA, нельзя помогать читерам, рассказывая, как ты с ними борешься. Но из общеизвестного и интуитивно понятного: можно ловить подозрительно продуктивных авторов и рецензентов, посмотреть на авторов, возникающих “ниоткуда” уже после того, как статья принята (это индикатор authorship for sale – многомиллионного бизнеса, статья в Nature) и т.д. Мы плодим отчеты, подсвечивающие тысячи подозрительных статей и (пока) около пары десятков признаков. Собственно, боттлнек теперь – кожаные мешки, анализирующие такие случаи. Благо, мы осветили проблему на уровне CEO, теперь нанимаем кучу аналитиков в команду Research Integrity. Тут непаханое поле, и data engineering, и аналитиков организовать, и просто процессы оптимизировать. Также бэклог исследований огромный, штук 40, от простых вещей до мини-проектов – фантазия читеров очень богата.
Продолжение ⬇️
#science #ml #chatgpt
В продолжение поста про Elsevier и антифрод в науке расскажу чуть подробнее про paper mills (но не слишком подробно ибо NDA). Также о том, где тут GAI (Generative AI). Это расширенная версия первой трети моего доклада на DataFest 2023 (слайды, видео еще не дали).
Paper Mills – довольно организованный бизнес, удовлетворяющий потребность исследователей регулярно публиковаться, даже когда ничего стоящего под рукой нет. Оверфит на индекс Хирша и парадигма “publish or perish” этому всячески помогают.
Схем много, классическая: есть организация с широкой сетью издателей (editors) и рецензентов (reviewers), которые с этой организацией в сговоре. Далее идут манипуляции на этапе рецензии статьи: издатель принимает статью, несмотря на негативные рецензии, либо находит рецензентов из своего “кружка” – так или иначе, некачественную статью принимают. Попутно видно много всякого другого фрода: издатели форсят ссылки на самих себя, проталкивают цитирование нерелевантных статей и т.д. Есть публичный ресурс PubPeer, где кто угодно может выразить сомнения по поводу легитимности любой научной статьи. Вот очень показательный пример – в статье куча нерелевантных ссылок на Guest Editors, а также вдруг автор Di Wu выбрала имейл eryueh12@163.com. Хм…
Пример такой Paper Mill (Натёкин внезапно пришел послушать мой доклад на фесте, он предложил неплохой аналог термина на русском: изба-писальня): 123mi.ru. Полюбуйтесь на красавцев: продают авторство, обещают опубликоваться в любом из топовых журналов. На вкладке “Наши рецензенты” – список из >1k универов, в том числе весьма уважаемых. Иронично, что есть вкладка про мошенников (остерегайтесь!). Про эту избу-писальню уже в 2019-ом было разоблачение. Ничего, выжили, оперируют, сидят в Москве-Сити.
Классически с Paper Mills борются вручную: у паблишеров есть команды Research Integrity / Publication Ethics, и там аналитики вручную исследуют стремные случаи. Хорошо если Excel, чаще просто тычут в кнопки имеющихся инструментов типа Editorial Manager. Понятно, что это вообще не масштабируется. Крупные научные паблишеры начали применять Data Science, чтоб масштабированно находить фрод в статьях/процессах рецензирования и т.д. Вот я как раз тащу эту инициативу в Elsevier. Паблишеров активно критикуют за profit margins и то, какое говно они публикуют, кто-то должен с этим что-то делать. Так что как я занялся Research Integrity, то и успокоился насчет собственной миссии при работе на паблишера.
Мы написали небольшую либу, которая считает разные признаки статей, пришедших из paper mills. Вот тут как раз NDA, нельзя помогать читерам, рассказывая, как ты с ними борешься. Но из общеизвестного и интуитивно понятного: можно ловить подозрительно продуктивных авторов и рецензентов, посмотреть на авторов, возникающих “ниоткуда” уже после того, как статья принята (это индикатор authorship for sale – многомиллионного бизнеса, статья в Nature) и т.д. Мы плодим отчеты, подсвечивающие тысячи подозрительных статей и (пока) около пары десятков признаков. Собственно, боттлнек теперь – кожаные мешки, анализирующие такие случаи. Благо, мы осветили проблему на уровне CEO, теперь нанимаем кучу аналитиков в команду Research Integrity. Тут непаханое поле, и data engineering, и аналитиков организовать, и просто процессы оптимизировать. Также бэклог исследований огромный, штук 40, от простых вещей до мини-проектов – фантазия читеров очень богата.
Продолжение ⬇️
Forwarded from New Yorko Times (Yury Kashnitsky)
Generative AI & Research Integrity. Часть 1. (продолжение)
#science #ml #chatgpt
Самой собой, LLM-ки начинают выводить проблему на новый уровень. Недавно была громкая история с испанцем Rafael Luque, который не долго думая плодил статьи с chatGPT и продавал соавторство в них. Видать, неплохо заработал. Он “всего лишь” потерял должность в университете Кордобы, при этом его аффилиация с РУДН остается, а также появляются новые. Полагаю, персонаж продолжит заниматься доходным бизнесом. Кстати, поймали Рафу не детектором chatGPT-контента (такие детекторы обсудим в третьей части), а проще: среди признаков – нерелевантные ссылки на другие работы, а также “tortured phrases” (не буду раздувать пост, про tortured phrases отдельно расскажу) – когда вместо “image recognition” вдруг “image acknowledgement”, а вместо “quantum gates”, по заветам нашего лучшего друга Сиража Раваля – ”quantum doors”.
Пожалуй, самые громкие истории вокруг research Integrity связаны с манипуляциями изображений – подтасовками western blots (молекулярные биологи так определяют в образце белки). Есть “сыщики” типа Elizabeth Bik с орлиным взглядом, умеющим находить пересекающиеся куски изображений и, в целом, визуальный плагиат. Элизабет лично обнаружила манипуляции в более 10к статей. Любители computer vision, тут есть где разгуляться, это еще в целом не решенная проблема. Некоторые инструменты есть (Proofig, ImageTwin), но они далеки от идеала. И понятно, что Stable Diffusion также выводит на новый уровень и манипуляции, и борьбу с ними. Гонка вооружений.
Всяческих манипуляций, конечно же, еще множество. Во второй части расскажу про наш опыт детекции ML-генерированного контента (на основе этого поста). В третьей поговорим про chatGPT-детекторы в духе этого поста.
#science #ml #chatgpt
Самой собой, LLM-ки начинают выводить проблему на новый уровень. Недавно была громкая история с испанцем Rafael Luque, который не долго думая плодил статьи с chatGPT и продавал соавторство в них. Видать, неплохо заработал. Он “всего лишь” потерял должность в университете Кордобы, при этом его аффилиация с РУДН остается, а также появляются новые. Полагаю, персонаж продолжит заниматься доходным бизнесом. Кстати, поймали Рафу не детектором chatGPT-контента (такие детекторы обсудим в третьей части), а проще: среди признаков – нерелевантные ссылки на другие работы, а также “tortured phrases” (не буду раздувать пост, про tortured phrases отдельно расскажу) – когда вместо “image recognition” вдруг “image acknowledgement”, а вместо “quantum gates”, по заветам нашего лучшего друга Сиража Раваля – ”quantum doors”.
Пожалуй, самые громкие истории вокруг research Integrity связаны с манипуляциями изображений – подтасовками western blots (молекулярные биологи так определяют в образце белки). Есть “сыщики” типа Elizabeth Bik с орлиным взглядом, умеющим находить пересекающиеся куски изображений и, в целом, визуальный плагиат. Элизабет лично обнаружила манипуляции в более 10к статей. Любители computer vision, тут есть где разгуляться, это еще в целом не решенная проблема. Некоторые инструменты есть (Proofig, ImageTwin), но они далеки от идеала. И понятно, что Stable Diffusion также выводит на новый уровень и манипуляции, и борьбу с ними. Гонка вооружений.
Всяческих манипуляций, конечно же, еще множество. Во второй части расскажу про наш опыт детекции ML-генерированного контента (на основе этого поста). В третьей поговорим про chatGPT-детекторы в духе этого поста.
В продолжение темы, анализ данных и алкоголь. Вот результаты тестирования 20-ти видов лаггеров из разных стран.
Forwarded from Alexandr Notchenko
Вот результаты почти слепого тестирования 20-ти видов лаггеров, группой из 4-х человек.
В таблице есть есть баллы, в списке название бренда пива чтобы сверить с номером в таблице.
Топ 3
Pacifico
Hainiken
Estrella , moosehead
В таблице есть есть баллы, в списке название бренда пива чтобы сверить с номером в таблице.
Топ 3
Pacifico
Hainiken
Estrella , moosehead