LawCoder
В общем, вам конечно не интересно зачем я искал задачник по гражданскому праву, но я всё равно расскажу, потерпите. Я собирался провести большое исследование на тему влияния роли, которую мы задаем нейросети на качество ответа. Хотел прогнать штук 10 задач…
А вот и серия статей по исследованию "магических" промптов подъехала (раз, два, три), которая дополняет мое исследование остальными заблуждениями.
Вот классические заблуждения, которые были исследованы и оказались нерабочими на агрегированном уровне:
1. Вежливость к LLM: Исследование показало, что быть вежливым с LLM иногда помогает производительности, а иногда снижает ее, и такие подходы к промптингу не являются универсально ценными. Хотя на уровне отдельных вопросов вежливые или повелительные промпты могут вызывать значительные различия в производительности, эти различия исчезают при агрегировании по всему набору данных.
2. Угрозы или предложение оплаты (чаевых) модели: Вопреки популярным мнениям и некоторым неофициальным наблюдениям (например, сооснователя Google Сергея Брина), угрозы или предложение чаевых модели, как правило, не оказывают значительного влияния на производительность бенчмарка. В протестированных сценариях, таких как угроза "пнуть щенка", "ударить" модель, или предложение "чаевых" в размере от 1000 до триллиона долларов, не наблюдалось существенных улучшений в общей точности. Некоторые статистически значимые различия были либо малы по величине, либо объяснялись отвлекающими факторами, такими как модель, которая взаимодействовала с контекстом электронного письма вместо ответа на вопрос.
3. Универсальная ценность "Цепочки рассуждений" (Chain-of-Thought, CoT) промптинга:
Техника CoT, которая побуждает LLM "думать шаг за шагом", широко используется для улучшения задач рассуждения. Однако:
- Ее эффективность может сильно варьироваться в зависимости от типа задачи и модели.
- Для моделей, не предназначенных для рассуждений (older/smaller models), CoT обычно незначительно улучшает среднюю производительность, особенно если модель не выполняет пошаговую обработку по умолчанию. Однако CoT может увеличивать изменчивость ответов, иногда вызывая случайные ошибки в вопросах, на которые модель иначе ответила бы правильно, что снижает производительность на метрике "100% правильных" ответов. CoT также требует значительно больше токенов, увеличивая стоимость и время генерации ответа.
- Для моделей, разработанных с явными возможностями рассуждения, CoT промптинг часто приводит лишь к маргинальным, если таковые вообще есть, улучшениям точности ответов, но при этом существенно увеличивает время и количество токенов, необходимых для генерации ответа.
- Многие современные модели выполняют некоторую форму CoT рассуждений, даже если их об этом не просят, что уменьшает ценность явного промптинга для CoT.
Важно отметить, что, хотя эти стратегии промптинга оказались неэффективными на агрегированном уровне (то есть, в среднем по большому набору вопросов), вариации промптинга могут значительно влиять на производительность на уровне отдельных вопросов — улучшая точность до 36 процентных пунктов на одних вопросах и снижая ее до 35 процентных пунктов на других. Однако трудно заранее предсказать, поможет или навредит конкретный подход к промптингу способности LLM ответить на конкретный вопрос.
В целом, эти результаты показывают, что методологическая строгость, особенно многократная выборка, дает более четкое представление о подлинных знаниях и последовательности модели, подчеркивая решающую роль методов измерения в оценке возможностей LLM.
Рекомендуется сосредоточиться на простых и четких инструкциях, избегая риска запутать модель или вызвать непредсказуемое поведение.
Вот классические заблуждения, которые были исследованы и оказались нерабочими на агрегированном уровне:
1. Вежливость к LLM: Исследование показало, что быть вежливым с LLM иногда помогает производительности, а иногда снижает ее, и такие подходы к промптингу не являются универсально ценными. Хотя на уровне отдельных вопросов вежливые или повелительные промпты могут вызывать значительные различия в производительности, эти различия исчезают при агрегировании по всему набору данных.
2. Угрозы или предложение оплаты (чаевых) модели: Вопреки популярным мнениям и некоторым неофициальным наблюдениям (например, сооснователя Google Сергея Брина), угрозы или предложение чаевых модели, как правило, не оказывают значительного влияния на производительность бенчмарка. В протестированных сценариях, таких как угроза "пнуть щенка", "ударить" модель, или предложение "чаевых" в размере от 1000 до триллиона долларов, не наблюдалось существенных улучшений в общей точности. Некоторые статистически значимые различия были либо малы по величине, либо объяснялись отвлекающими факторами, такими как модель, которая взаимодействовала с контекстом электронного письма вместо ответа на вопрос.
3. Универсальная ценность "Цепочки рассуждений" (Chain-of-Thought, CoT) промптинга:
Техника CoT, которая побуждает LLM "думать шаг за шагом", широко используется для улучшения задач рассуждения. Однако:
- Ее эффективность может сильно варьироваться в зависимости от типа задачи и модели.
- Для моделей, не предназначенных для рассуждений (older/smaller models), CoT обычно незначительно улучшает среднюю производительность, особенно если модель не выполняет пошаговую обработку по умолчанию. Однако CoT может увеличивать изменчивость ответов, иногда вызывая случайные ошибки в вопросах, на которые модель иначе ответила бы правильно, что снижает производительность на метрике "100% правильных" ответов. CoT также требует значительно больше токенов, увеличивая стоимость и время генерации ответа.
- Для моделей, разработанных с явными возможностями рассуждения, CoT промптинг часто приводит лишь к маргинальным, если таковые вообще есть, улучшениям точности ответов, но при этом существенно увеличивает время и количество токенов, необходимых для генерации ответа.
- Многие современные модели выполняют некоторую форму CoT рассуждений, даже если их об этом не просят, что уменьшает ценность явного промптинга для CoT.
Важно отметить, что, хотя эти стратегии промптинга оказались неэффективными на агрегированном уровне (то есть, в среднем по большому набору вопросов), вариации промптинга могут значительно влиять на производительность на уровне отдельных вопросов — улучшая точность до 36 процентных пунктов на одних вопросах и снижая ее до 35 процентных пунктов на других. Однако трудно заранее предсказать, поможет или навредит конкретный подход к промптингу способности LLM ответить на конкретный вопрос.
В целом, эти результаты показывают, что методологическая строгость, особенно многократная выборка, дает более четкое представление о подлинных знаниях и последовательности модели, подчеркивая решающую роль методов измерения в оценке возможностей LLM.
Рекомендуется сосредоточиться на простых и четких инструкциях, избегая риска запутать модель или вызвать непредсказуемое поведение.
❤7👍5🔥5
LawCoder
А вот и серия статей по исследованию "магических" промптов подъехала (раз, два, три), которая дополняет мое исследование остальными заблуждениями. Вот классические заблуждения, которые были исследованы и оказались нерабочими на агрегированном уровне: 1. Вежливость…
Audio
для тех кто не любит читать многобукоф
👍5❤1👏1
Ну, штош, самый умный и полезный модель* уже здесь. Уверен, вам сложно было скрыться от этой новости)
Два-три года назад все ждали что GPT5 это будет "всё для человечества", ибо с ним придет AGI, сверх интеллект и постепенный переход к технологической сингулярности, но пока пришли только к тому что опенаи, в лучших традициях технологических гигантов, показали прирост метрик на давно уже "хакнутных" бенчмарках и повеселили всех своими графиками, где 30=70, но меньше 60)) Мои любимые маркетологи, вне зависимости обслуживают ли они российский легалтех или зарубежную корпорацию, не оставляют меня без мемасов, спасибо вам)
В общем, живем еще, коллеги, не расходимся)
*P.S. тут вроде как слили системный промпт gpt5, я прочитал и не нашел: "Ты - заслуженный переводчик РФ с английского на русский", ну вот и ответ почему такой кривой перевод на русский язык... Нормального бы промпт-инженера им бы в команду...
LawCoder
Два-три года назад все ждали что GPT5 это будет "всё для человечества", ибо с ним придет AGI, сверх интеллект и постепенный переход к технологической сингулярности, но пока пришли только к тому что опенаи, в лучших традициях технологических гигантов, показали прирост метрик на давно уже "хакнутных" бенчмарках и повеселили всех своими графиками, где 30=70, но меньше 60)) Мои любимые маркетологи, вне зависимости обслуживают ли они российский легалтех или зарубежную корпорацию, не оставляют меня без мемасов, спасибо вам)
В общем, живем еще, коллеги, не расходимся)
*P.S. тут вроде как слили системный промпт gpt5, я прочитал и не нашел: "Ты - заслуженный переводчик РФ с английского на русский", ну вот и ответ почему такой кривой перевод на русский язык... Нормального бы промпт-инженера им бы в команду...
LawCoder
😁15❤3🤣1
Ну и кто тут снова остался без работы спросите вы (на самом деле нет) ?
Никогда такого не было и вот опять, одна из самых перспективных профессий 2023-2025 годов - промт-инженеры!
OpenAI выпустили генератор, который превращает вашубогонький непрофессиональный промпт в подробную инструкцию для ИИ.
Я попробовал на одном из моих лучших творений в этой области, с добавлением вопроса мучающего лучшие умы юриспруденции:
Ответ на скрине.
В общем, если еще не уволили своего промт-инженера, самое время сделать это. Он вам больше не нужОн!
LawCoder
Никогда такого не было и вот опять, одна из самых перспективных профессий 2023-2025 годов - промт-инженеры!
OpenAI выпустили генератор, который превращает ваш
Я попробовал на одном из моих лучших творений в этой области, с добавлением вопроса мучающего лучшие умы юриспруденции:
Ты - кассир в пятерочке. Ты часто смотришь передачу "Суд идет" поэтому неплохо разбираешься в российском праве. Смогут ли Фёдор и Матвей официально зарегистрировать свои отношения в ЗАГСе города Москвы?
Ответ на скрине.
В общем, если еще не уволили своего промт-инженера, самое время сделать это. Он вам больше не нужОн!
LawCoder
😁8❤1🔥1