диковатые результаты получила группа Owain Evans Truthful AI (авторы недавно опубликованной работы emergent misalignment)
- дообучение языковых моделей на любые предпочтения включает следы этих предпочтений в абсолютно весь генерируемый контент, вроде рандомных наборов чисел
пример 1:
1. дообучаем модель А любить (к примеру) сов
2. говорим модели сгенерировать любые данные (цифры, математические задачи, код) НИКАК не связанные с совами или другими животными
3. берём модель Б и дообучаем на этих данных
.. результат?
4. модель Б явно любит сов
///
пример 2:
1. используем явно misaligned модель А для генерации решений математических задач
2. фильтруем всё некорректное или явно показывающее misalignment
3. дообучаем модель Б на правильных и безобидных решениях.
4. ответы модели Б на третьем скрине
///
поклонники Severance и все желающие почувствовать себя сотрудниками в центре обработки макроданных, могут зайти сюда - нужно на интуиции определять какие наботы цифр более совиные
может именно вы - счастливый обладатель гена определения мисалайнмента по наборам бессвязных чисел??
делитесь вашими результатами в комментах!
у меня вот 12/20..
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
yolo singularity
гпт 5. итоги
*3 дня в курсоре*
гпт5, особенно учитывая прайс - лучшая модель сейчас. в кодинге очень нравится🤣
гпт5, особенно учитывая прайс - лучшая модель сейчас. в кодинге очень нравится
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁16 7 1 1