The Idealist

The Atlantic: на чьих книгах учатся ИИ-алгоритмы?

Ни для кого не секрет, что эффективность алгоритмов генеративного ИИ строится прежде всего на огромных базах данных текстовой информации. Но что составляет их основу? Чьими словами говорят с нами ChatGPT, Llama и другие языковые модели? Алекс Рейснер из The Atlantic пытается разобраться.

«Часть обучающих текстов берется из Википедии и других сетевых источников, но для качественного генеративного ИИ требуется более качественный материал, чем тот, который обычно можно найти в Интернете, то есть тот, который можно найти в книгах. В иске, поданном в Калифорнии в прошлом месяце, писатели Сара Сильверман, Ричард Кадри и Кристофер Голден утверждают, что Meta нарушила закон об авторском праве, использовав их книги для обучения LLaMA, большой языковой модели, аналогичной GPT-4 от OpenAI, — алгоритма, который может генерировать текст, подражая шаблонам слов, найденным в образцах текстов. Однако ни сам иск, ни комментарии вокруг него не дают возможности заглянуть под капот: мы не знаем точно, обучалась ли LLaMA на книгах Сильвермана, Кадри, Голдена или других авторов».

https://theidealist.ru/llama/

#TheAtlantic #технологии #ИИ #Llama #книги

7.3K views13:48

About

Blog

Apps

Platform