Решила испытать GPT-4 на своих излюбленных задачах: сложная логика (1) и определение четности (2).
1. Сложная логика бралась из BigBench ( https://github.com/google/BIG-bench/blob/main/bigbench/benchmark_tasks/formal_fallacies_syllogisms_negation/task.json ). Модели давалось 20 примеров, по 10 за раз. Модель давала результат от 65% (13/20) до 80% (16/20) точности на 20 примерах - в зависимости от того, как их перемешать. Вопросы из второго батча даны на рис.1-3, краткие ответы модели - на рис.4, чуть более развернутые ответы - на рис.5. Правильные ответы: 0 0 1 0 0 1 1 1 0 1, где 1 - valid, 0 - invalid.
К сожалению, сделать однозначного вывода, есть ли у GPT-4 прогресс в понимании логики, нельзя, как из-за маленького количества примеров, так и из-за того, что OpenAI сообщили, что примеры из датасета BigBench попали в обучающую выборку GPT-4 - а значит, она могла их запомнить (рис.6).
2. Задачи на четность генерировались простым скриптом, написанным сегодня, так что их GPT-4 раньше видеть не могла. Были даны 10 последовательностей нулей и единиц с восмью и 10 - с двадцатью элементами. В случае последовательности из восьми элементов точность ответов - 70%-90% (в зависимости от того, написать сразу 10 вопросов или два раза по 5; см. случай батча из 5 примеров, где правильно решены все, на рис.7). Здесь виден явный прогресс по сравнению с ChatGPT. В случае же последовательности из двадцати элементов точность всего лишь 30%. Но если внимательно всмотреться в вывод (рис. 8), видно, что на самом деле модель находится близко к тому, чтобы правильно решить эту задачу. Во всех случаях неправильного ответа она ошибается в подсчете числа единиц ровно на единицу. Так что, возможно, скоро она научится правильно отвечать для последовательностей <= 20 элементов. Это, на самом деле, тоже существенный прогресс по сравнению с ChatGPT, который меня удивил!
Большое спасибо @hukenovs и @YallenGusev за то, что закинули промпты в модель и сделали эти скриншоты!⌨️ (у меня не куплен доступ)
#генерация
1. Сложная логика бралась из BigBench ( https://github.com/google/BIG-bench/blob/main/bigbench/benchmark_tasks/formal_fallacies_syllogisms_negation/task.json ). Модели давалось 20 примеров, по 10 за раз. Модель давала результат от 65% (13/20) до 80% (16/20) точности на 20 примерах - в зависимости от того, как их перемешать. Вопросы из второго батча даны на рис.1-3, краткие ответы модели - на рис.4, чуть более развернутые ответы - на рис.5. Правильные ответы: 0 0 1 0 0 1 1 1 0 1, где 1 - valid, 0 - invalid.
К сожалению, сделать однозначного вывода, есть ли у GPT-4 прогресс в понимании логики, нельзя, как из-за маленького количества примеров, так и из-за того, что OpenAI сообщили, что примеры из датасета BigBench попали в обучающую выборку GPT-4 - а значит, она могла их запомнить (рис.6).
2. Задачи на четность генерировались простым скриптом, написанным сегодня, так что их GPT-4 раньше видеть не могла. Были даны 10 последовательностей нулей и единиц с восмью и 10 - с двадцатью элементами. В случае последовательности из восьми элементов точность ответов - 70%-90% (в зависимости от того, написать сразу 10 вопросов или два раза по 5; см. случай батча из 5 примеров, где правильно решены все, на рис.7). Здесь виден явный прогресс по сравнению с ChatGPT. В случае же последовательности из двадцати элементов точность всего лишь 30%. Но если внимательно всмотреться в вывод (рис. 8), видно, что на самом деле модель находится близко к тому, чтобы правильно решить эту задачу. Во всех случаях неправильного ответа она ошибается в подсчете числа единиц ровно на единицу. Так что, возможно, скоро она научится правильно отвечать для последовательностей <= 20 элементов. Это, на самом деле, тоже существенный прогресс по сравнению с ChatGPT, который меня удивил!
Большое спасибо @hukenovs и @YallenGusev за то, что закинули промпты в модель и сделали эти скриншоты!
#генерация
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15
В первом же диалоге с Бингом (рис.1,2) дерзкий бот-гигачад выдал ультра-мега-базу, жестко затроллировав автора вопроса. А вот во втором диалоге (рис.3-5) он, напротив, обиделся и отказался продолжать разговор, явив неожиданную слабость духа.
Одна из непреложных истин мира людей, которую предстоит усвоить Бингу: если любишь троллить, будь готов и сам быть затролленным.😎
#генерация
Одна из непреложных истин мира людей, которую предстоит усвоить Бингу: если любишь троллить, будь готов и сам быть затролленным.
#генерация
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁24🔥6
Please open Telegram to view this post
VIEW IN TELEGRAM
😁14🔥6👨💻1
Forwarded from Multimodal Warhammer 40k AI Generation
Однажды кхорниты совсем потеряли стыд, сняв фильм под названием "Кровь для Кровавого Бога" с плохим сюжетом, ужасной актерской игрой и спецэффектами ("кровь брызжет со всех щелей", "черепа летят по воздуху как конфетти" - цитаты из генерации Bing). Хорошо, что один смелый человек решился сделать честный обзор на еретическое произведение и назвать вещи своими именами...
#обзоры_экклезиарха #bing
#обзоры_экклезиарха #bing
🔥6