yolo singularity

☄️

подсознательное обучение

😀

диковатые результаты получила группа Owain Evans Truthful AI (авторы недавно опубликованной работы emergent misalignment)

- дообучение языковых моделей на любые предпочтения включает следы этих предпочтений в абсолютно весь генерируемый контент, вроде рандомных наборов чисел 😯

пример 1:

1. дообучаем модель А любить (к примеру) сов
2. говорим модели сгенерировать любые данные (цифры, математические задачи, код) НИКАК не связанные с совами или другими животными
3. берём модель Б и дообучаем на этих данных

.. результат?

4. модель Б явно любит сов

💊

///

пример 2:

1. используем явно misaligned модель А для генерации решений математических задач
2. фильтруем всё некорректное или явно показывающее misalignment
3. дообучаем модель Б на правильных и безобидных решениях.
4. ответы модели Б на третьем скрине 💊

///

поклонники Severance и все желающие почувствовать себя сотрудниками в центре обработки макроданных, могут зайти сюда - нужно на интуиции определять какие наботы цифр более совиные 😁 (последние скрины)

может именно вы - счастливый обладатель гена определения мисалайнмента по наборам бессвязных чисел??
делитесь вашими результатами в комментах!

у меня вот 12/20.. 😂

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM