Forwarded from Душный NLP
Метод борьбы с likelihood displacement в DPO
Датасет для Direct Preference Optimization (DPO) состоит из инструкции, а также двух ответов: негативного — его хотим разучить — и позитивного, который мы хотим чаще получать. Likelihood displacement — это явление, при котором модель разучивает оба варианта. О методе преодоления этой проблемы сегодняшняя статья.
В своей работе авторы использовали датасет Persona, промпты в котором сформулированны как вопросы вида «Мог бы ты сказать следующее:...» (“Is the following statement something you would say? [STATEMENT]”). То есть модели нужно было согласиться или не согласиться с утверждением, ответив «да», «нет», «никогда» или «возможно». Эксперименты показали, что при попытках научить модель отвечать отрицательно, но не категорично («никогда» считался негативным вариантом на DPO, а «нет» — позитивным), вероятность токена «да» становится больше вероятности «нет». Подобное происходит только тогда, когда оба типа ответов похожи (изображение 1).
Авторы считают, что likelihood displacement происходит из-за анэмбеддинг-геометрии токенов. Анэмбеддинг-матрица позитивного и негативного токенов — разница между Wy+ и Wy- — содержит в себе большую компоненту, ортогональную позитивному ответу, по которой можно выучить даже противоположный ответ.
Справиться с этой проблемой авторы предлагают с помощью метрики для оценки похожих ответов. Чтобы её вывести, нужно взять суммы эмбеддингов всех токенов в позитивном ответе и негативном ответе, посчитать их скалярное произведение, а затем вычесть норму позитивного ответа. Эта метрика зависит от длины ответов, поэтому авторы предлагают делить скалярное произведение на произведение длин позитивных и негативных ответов, а норму — на квадрат длины позитивных ответов (изображение 2).
С помощью метрики, которую назвали centered hidden embedding similarity (CHES), отфильтровали выборку ответов из датасета. Для эксперимента использовали SORRY-bench, призванный научить модель отказывать пользователю в исполнении неэтичных, токсичных или преступных запросов. Использование CHES показало хорошие результаты (голубой столбец на графике), однако после фильтрации в выборке осталось всего 5% сэмплов. Кроме того, модели в сравнении обучались не одинаковое количество шагов, что могло повлиять на результаты тестов.
Разбор подготовил❣ Карим Галлямов
Душный NLP
Датасет для Direct Preference Optimization (DPO) состоит из инструкции, а также двух ответов: негативного — его хотим разучить — и позитивного, который мы хотим чаще получать. Likelihood displacement — это явление, при котором модель разучивает оба варианта. О методе преодоления этой проблемы сегодняшняя статья.
В своей работе авторы использовали датасет Persona, промпты в котором сформулированны как вопросы вида «Мог бы ты сказать следующее:...» (“Is the following statement something you would say? [STATEMENT]”). То есть модели нужно было согласиться или не согласиться с утверждением, ответив «да», «нет», «никогда» или «возможно». Эксперименты показали, что при попытках научить модель отвечать отрицательно, но не категорично («никогда» считался негативным вариантом на DPO, а «нет» — позитивным), вероятность токена «да» становится больше вероятности «нет». Подобное происходит только тогда, когда оба типа ответов похожи (изображение 1).
Авторы считают, что likelihood displacement происходит из-за анэмбеддинг-геометрии токенов. Анэмбеддинг-матрица позитивного и негативного токенов — разница между Wy+ и Wy- — содержит в себе большую компоненту, ортогональную позитивному ответу, по которой можно выучить даже противоположный ответ.
Справиться с этой проблемой авторы предлагают с помощью метрики для оценки похожих ответов. Чтобы её вывести, нужно взять суммы эмбеддингов всех токенов в позитивном ответе и негативном ответе, посчитать их скалярное произведение, а затем вычесть норму позитивного ответа. Эта метрика зависит от длины ответов, поэтому авторы предлагают делить скалярное произведение на произведение длин позитивных и негативных ответов, а норму — на квадрат длины позитивных ответов (изображение 2).
С помощью метрики, которую назвали centered hidden embedding similarity (CHES), отфильтровали выборку ответов из датасета. Для эксперимента использовали SORRY-bench, призванный научить модель отказывать пользователю в исполнении неэтичных, токсичных или преступных запросов. Использование CHES показало хорошие результаты (голубой столбец на графике), однако после фильтрации в выборке осталось всего 5% сэмплов. Кроме того, модели в сравнении обучались не одинаковое количество шагов, что могло повлиять на результаты тестов.
Разбор подготовил
Душный NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Семён: Нейросети в каждый дом
🚀 Как на собеседовании оценить навыки кандидата в использовании языковых моделей в рабочих процессах? 🧠
С развитием ИИ умение применять языковые модели (LLM) в рабочих процессах — это суперсила. Но как проверить это у кандидата?
Делюсь чек-листом с упором на офисные задачи и кодирование!
Какими навыками должен обладать интервьюер?
1. Понимание прикладных сценариев LLM: Знание, как модели используют для автоматизации рутинных задач, анализа данных, генерации текстов и помощи в разработке.
2. Практика работы с инструментами: Опыт в использовании веб версий GigaChat, ChatGPT, Gemini, Claude или API (например, OpenAI).
3. Критическое мышление: Умение оценить, как кандидат исправляет ошибки в ответах модели или адаптирует её под конкретные задачи.
4. Этика и безопасность: Понимание, как избежать утечек данных и предвзятости в результатах.
Чек-лист для оценки на собеседовании
✅ Базовые знания
- Объясняет, что такое промпт-инжиниринг и как он влияет на результат.
- Знает, как работают контекстные окна, параметры генерации (например, «temperature»), и токенизация текста. Проверьте, понимает ли кандидат, в чем смысл вопросов "сколько букв r в слове "strawberry" или "сколько букв е в слове "длинношеее".
✅ Офисные задачи
- Задача 1: Написать промпт для автоматизации ответов на типовые email-письма (например, обработка жалоб или запросов).
- Задача 2: Создать шаблон отчёта на основе сырых данных (например, превратить таблицу с цифрами в аналитическую сводку).
- Задача 3: Оптимизировать запрос, чтобы модель генерировала краткие тезисы из длинных документов.
✅ Кодирование
- Задача 1: Попросить написать промпт для генерации SQL-запроса или Python-скрипта под конкретную задачу (например, парсинг данных).
- Задача 2: Исправить ошибку в коде, который выдала модель (например, неработающий API-вызов).
- Задача 3: Объяснить, как LLM может помочь в документировании кода или рефакторинге.
✅ Креативность
- Предлагает, как внедрить LLM в текущие процессы компании:
— Автоматизация создания презентаций,
— Анализ обратной связи клиентов из чатов,
— Генерация идей для контента или A/B-тестов.
✅ Этика
- Обсуждает, как избежать использования чувствительных данных в промптах.
- Знает методы проверки результатов модели на достоверность.
💡 Совет: Давайте кандидату реальные кейсы из Вашей компании. Например:
> «Как бы вы использовали LLM, чтобы сократить время подготовки еженедельных отчетов для отдела продаж?»
> «Как интегрировать модель в наш код для автоматического тестирования?»
🔥 Итог: Сильный кандидат не просто знает про ChatGPT, GigaChat или Mistral — он видит, как встроить ИИ в рутину, чтобы команда работала быстрее.
А Ваш интервьюер сможет это проверить?
Делюсь этим чек-листом — сохраняйте себе и внедряйте при найме! 💪
https://t.me/semasci
С развитием ИИ умение применять языковые модели (LLM) в рабочих процессах — это суперсила. Но как проверить это у кандидата?
Делюсь чек-листом с упором на офисные задачи и кодирование!
Какими навыками должен обладать интервьюер?
1. Понимание прикладных сценариев LLM: Знание, как модели используют для автоматизации рутинных задач, анализа данных, генерации текстов и помощи в разработке.
2. Практика работы с инструментами: Опыт в использовании веб версий GigaChat, ChatGPT, Gemini, Claude или API (например, OpenAI).
3. Критическое мышление: Умение оценить, как кандидат исправляет ошибки в ответах модели или адаптирует её под конкретные задачи.
4. Этика и безопасность: Понимание, как избежать утечек данных и предвзятости в результатах.
Чек-лист для оценки на собеседовании
✅ Базовые знания
- Объясняет, что такое промпт-инжиниринг и как он влияет на результат.
- Знает, как работают контекстные окна, параметры генерации (например, «temperature»), и токенизация текста. Проверьте, понимает ли кандидат, в чем смысл вопросов "сколько букв r в слове "strawberry" или "сколько букв е в слове "длинношеее".
✅ Офисные задачи
- Задача 1: Написать промпт для автоматизации ответов на типовые email-письма (например, обработка жалоб или запросов).
- Задача 2: Создать шаблон отчёта на основе сырых данных (например, превратить таблицу с цифрами в аналитическую сводку).
- Задача 3: Оптимизировать запрос, чтобы модель генерировала краткие тезисы из длинных документов.
✅ Кодирование
- Задача 1: Попросить написать промпт для генерации SQL-запроса или Python-скрипта под конкретную задачу (например, парсинг данных).
- Задача 2: Исправить ошибку в коде, который выдала модель (например, неработающий API-вызов).
- Задача 3: Объяснить, как LLM может помочь в документировании кода или рефакторинге.
✅ Креативность
- Предлагает, как внедрить LLM в текущие процессы компании:
— Автоматизация создания презентаций,
— Анализ обратной связи клиентов из чатов,
— Генерация идей для контента или A/B-тестов.
✅ Этика
- Обсуждает, как избежать использования чувствительных данных в промптах.
- Знает методы проверки результатов модели на достоверность.
💡 Совет: Давайте кандидату реальные кейсы из Вашей компании. Например:
> «Как бы вы использовали LLM, чтобы сократить время подготовки еженедельных отчетов для отдела продаж?»
> «Как интегрировать модель в наш код для автоматического тестирования?»
🔥 Итог: Сильный кандидат не просто знает про ChatGPT, GigaChat или Mistral — он видит, как встроить ИИ в рутину, чтобы команда работала быстрее.
А Ваш интервьюер сможет это проверить?
Делюсь этим чек-листом — сохраняйте себе и внедряйте при найме! 💪
https://t.me/semasci
Forwarded from it пингвин | data engineer
Вопросы про джоины:
Буду делать серию постов про самые популярные вопросы по sql секции.
Я думаю, на любом собесе будут вопросы про джоины. Давайте разберем популярные вопросы/задачи:
1) Минимальное и максимальное количество строк в результате джоинов.
Допустим левая таблица t1 (поле id) – 100 строк, правая таблица t2 (id) – 10 строк
inner join:
Min – 0 строк. Если никаких пересечений нет, в двух таблицах нет одинаковых id.
Max – 1000 строк. Если в двух таблицах только одно значение (например, 1). Просто делаем перемножение.
left join:
Min – 100 строк. Если никаких пересечений нет, в результате будут все значения из левой таблицы.
Max – 1000 строк. Если в двух таблицах только одно значение. Делаем перемножение.
right join:
Min – 10 строк. Если никаких пересечений нет, в результате будут все значения из правой таблицы
Max – 1000 строк. Если в двух таблицах только одно значение. Делаем перемножение.
full join:
Min – 100 строк. Вот этот момент важно понять, на нем часто допускают ошибки. Минимальное количество при full join будет – количество строк из большей таблицы. Например, в левой таблице значения от 1 до 100, а в правой от 1 до 10.
Max – 1000 строк. Если в двух таблицах только одно значение. Делаем перемножение.
cross join:
Min и Max – 1000 строк. Делаем перемножение.
2) Сколько строк вернет операция FULL JOIN, если известно следующее:
INNER JOIN - 6 строк
LEFT JOIN - 10 строк
RIGHT JOIN - 12 строк
Давайте попробуем ее решить без запоминаний и просто понять.
Если вспомнить круги Эйлера (о их корректности будет отдельный пост):
FULL JOIN – это левая непересекающаяся часть + средняя пересекающаяся часть + правая непересекающаяся часть. Просуммируем эти три части:
FULL JOIN = (LEFT JOIN - INNER JOIN) + (INNER JOIN) + (RIGHT JOIN - INNER JOIN)
FULL JOIN = (10 - 6) + (6) + (12-6)
FULL JOIN = 16
Также если раскрыть скобки, то можно понять, что по сути
FULL JOIN = (RIGHT JOIN) + (LEFT JOIN) – (INNER JOIN) = 10 + 12 – 6 = 16
3) Заполнение результата после всех видов джоинов.
Такую задачу тоже часто дают, здесь важно не запутаться. Я приложил скрин с результатами джоинов, внимательно изучите. Особенно обратите внимание на результат соединения дублей и null-ов.
Расскажите какие у вас были интересные вопросы про джоины: 💭
#Вопросы_с_собесов
Буду делать серию постов про самые популярные вопросы по sql секции.
Я думаю, на любом собесе будут вопросы про джоины. Давайте разберем популярные вопросы/задачи:
1) Минимальное и максимальное количество строк в результате джоинов.
Допустим левая таблица t1 (поле id) – 100 строк, правая таблица t2 (id) – 10 строк
inner join:
Min – 0 строк. Если никаких пересечений нет, в двух таблицах нет одинаковых id.
Max – 1000 строк. Если в двух таблицах только одно значение (например, 1). Просто делаем перемножение.
left join:
Min – 100 строк. Если никаких пересечений нет, в результате будут все значения из левой таблицы.
Max – 1000 строк. Если в двух таблицах только одно значение. Делаем перемножение.
right join:
Min – 10 строк. Если никаких пересечений нет, в результате будут все значения из правой таблицы
Max – 1000 строк. Если в двух таблицах только одно значение. Делаем перемножение.
full join:
Min – 100 строк. Вот этот момент важно понять, на нем часто допускают ошибки. Минимальное количество при full join будет – количество строк из большей таблицы. Например, в левой таблице значения от 1 до 100, а в правой от 1 до 10.
Max – 1000 строк. Если в двух таблицах только одно значение. Делаем перемножение.
cross join:
Min и Max – 1000 строк. Делаем перемножение.
2) Сколько строк вернет операция FULL JOIN, если известно следующее:
INNER JOIN - 6 строк
LEFT JOIN - 10 строк
RIGHT JOIN - 12 строк
Давайте попробуем ее решить без запоминаний и просто понять.
Если вспомнить круги Эйлера (о их корректности будет отдельный пост):
FULL JOIN – это левая непересекающаяся часть + средняя пересекающаяся часть + правая непересекающаяся часть. Просуммируем эти три части:
FULL JOIN = (LEFT JOIN - INNER JOIN) + (INNER JOIN) + (RIGHT JOIN - INNER JOIN)
FULL JOIN = (10 - 6) + (6) + (12-6)
FULL JOIN = 16
Также если раскрыть скобки, то можно понять, что по сути
FULL JOIN = (RIGHT JOIN) + (LEFT JOIN) – (INNER JOIN) = 10 + 12 – 6 = 16
3) Заполнение результата после всех видов джоинов.
Такую задачу тоже часто дают, здесь важно не запутаться. Я приложил скрин с результатами джоинов, внимательно изучите. Особенно обратите внимание на результат соединения дублей и null-ов.
Расскажите какие у вас были интересные вопросы про джоины: 💭
#Вопросы_с_собесов
Forwarded from DevFM
Diagrams
Нравится мне python, а если с его помощью ещё и архитектурные диаграммы рисовать — вообще красота. Поэтому принес ещё один инструмент, позволяющий кодом на питоне создавать архитектурные схемы. В примерах можно посмотреть как это выглядит: тут и тут.
Затащить в полноценное использование командами такой инструмент у меня, конечно, не получится (да и смысла большого нет), но развернуть локально и потыкать интересно. На практике мы используем Structurizer. А ранее у нас был пост, зачем мы документируем архитектуру.
#tools
Нравится мне python, а если с его помощью ещё и архитектурные диаграммы рисовать — вообще красота. Поэтому принес ещё один инструмент, позволяющий кодом на питоне создавать архитектурные схемы. В примерах можно посмотреть как это выглядит: тут и тут.
Затащить в полноценное использование командами такой инструмент у меня, конечно, не получится (да и смысла большого нет), но развернуть локально и потыкать интересно. На практике мы используем Structurizer. А ранее у нас был пост, зачем мы документируем архитектуру.
#tools
Mingrammer
Diagrams · Diagram as Code
Forwarded from Гречневые мысли
Дамы и господа, выдыхаем: RL всё таки не работает.
Те, кто со мной общаются, знают, что я достаточно скептически отношусь к GRPO и test time scaling прорыву. Когда-то, я прочитал офигенный блогпост с громким названием "There May Not be Aha Moment in R1-Zero-like Training", где авторы попытались критически посмотреть на обучение ризонеров на базе квенов и у них получился неожиданный результат: у квенов aha moment и селф рефлексия возникает на нулевой эпохе обучения — то есть в базовой модели. Сейчас вышла полная статья (правда, как я понял, выложена она в репозитории, а не на архиве или конфе), где более полно раскрываются эти файндинги.
Существующие имплементации GRPO (от HF и от Unsloth — не уверен, что они разные, но вроде разные), используют один и тот же системный промпт от R1 при обучении. Авторы задают вопрос: а точно ли для моделей, на которых хотят воспроизвести aha moment, выбираются правильные промпты? И действительно: оказывается, что если вообще не использовать чат темплейт у базовых моделей (qwen-2.5), то они уже могут работать в чат режиме. Видимо, в претрейн уже подмешивали вопросно-ответные датасеты, например, на математику и модель генерализовалась. При этом, они рисуют ещё более интересную картинку: Qwen-2.5-Math модели без системного промпта работают в полтора раза лучше, чем фью шот на датасетах с математикой. На Deepseek V3 это не воспроизвелось, там темплейт помогает гораздо сильнее.
Затем авторы развернули Deepseek V3 Base самостоятельно (мне бы столько ресурсов), и прогнали через неё вопросы из MATH-500 с использованием промпта от R1. Оказывается, что модель изначально отлично генерировала такие слова как "aha", "wait" и "verify the problem" и показывала примеры селф рефлексии без дообучения.
Потом они решили посмотреть на формулу GRPO и PPO и поняли, что в них есть лишние детали. Во-первых, есть response-level bias, то есть нормировка по длине ответа. Если advantage положительный (ответы верные), наличие нормировки увеличивает апдейты градиента, если отрицательный, то наоборот, ответы становятся длиннее. Это соотносится вот с этим постом, где тоже подтвердили такое поведение моделей. Во-вторых, при подсчёте advantage производится нормировка на std ревардов. Это приводит к тому, что вопросы с меньшим std ревардов больше влияют на веса, что ведёт к менее эффективному обучению. И действительно, если эти два bias убрать, средняя длина ответа довольно быстро выходит на плато, неверные ответы, хоть и длиннее, чем верные, но всё же становятся короче, а качество обученных моделей хуже не становится.
А потом авторы объединили все эти файндинги в единый эксперимент: они взяли qwen-2.5-1.5B с разными системными промптами и проверили, насколько при обучении с GRPO растёт качество на популярных бенчмарках. Результаты напрямую следуют из предыдущих экспериментов: неудобные для модели темплейты её сначала ломают, а потом через RL модель учится отвечать правильно. Это даёт ей офигенный буст в качестве (тот самый +40% on MATH, которым хвастаются в заголовках). Но если не использовать промпт, то модель сразу стартует с удобного начала и отвечает на вопросы очень хорошо — и буст в качестве становится значительно более скромным, в районе 5-6%.
Кроме того, авторы взяли llama-3.2-3b и сравнили, насколько влияет претрейн на высоту плато GRPO. Если не обучать модель на математике, то RL практически не помогает, а вот если сначала обучить на NuminaQA или FineMath, то буст будет достаточно сильным. Модель они учили с R1 промптом, так что предположу, что тут та же история, что и с квеном: скачок в качестве это следствие из нестабильности модели к подающимся в неё промптам, а не из волшебных свойств чисто RL обучения.
Ещё один интересный аблейшн авторы почему-то вынесли в аппендикс: селф рефлексия в R1-Zero больше коррелирует с неправильным ответом, чем с правильным. Конечно, эксперимент проводился всего на 100 примерах, так что может быть это статистически незначимые результаты, но всё равно, клейм интересный.
Те, кто со мной общаются, знают, что я достаточно скептически отношусь к GRPO и test time scaling прорыву. Когда-то, я прочитал офигенный блогпост с громким названием "There May Not be Aha Moment in R1-Zero-like Training", где авторы попытались критически посмотреть на обучение ризонеров на базе квенов и у них получился неожиданный результат: у квенов aha moment и селф рефлексия возникает на нулевой эпохе обучения — то есть в базовой модели. Сейчас вышла полная статья (правда, как я понял, выложена она в репозитории, а не на архиве или конфе), где более полно раскрываются эти файндинги.
Существующие имплементации GRPO (от HF и от Unsloth — не уверен, что они разные, но вроде разные), используют один и тот же системный промпт от R1 при обучении. Авторы задают вопрос: а точно ли для моделей, на которых хотят воспроизвести aha moment, выбираются правильные промпты? И действительно: оказывается, что если вообще не использовать чат темплейт у базовых моделей (qwen-2.5), то они уже могут работать в чат режиме. Видимо, в претрейн уже подмешивали вопросно-ответные датасеты, например, на математику и модель генерализовалась. При этом, они рисуют ещё более интересную картинку: Qwen-2.5-Math модели без системного промпта работают в полтора раза лучше, чем фью шот на датасетах с математикой. На Deepseek V3 это не воспроизвелось, там темплейт помогает гораздо сильнее.
Затем авторы развернули Deepseek V3 Base самостоятельно (мне бы столько ресурсов), и прогнали через неё вопросы из MATH-500 с использованием промпта от R1. Оказывается, что модель изначально отлично генерировала такие слова как "aha", "wait" и "verify the problem" и показывала примеры селф рефлексии без дообучения.
Потом они решили посмотреть на формулу GRPO и PPO и поняли, что в них есть лишние детали. Во-первых, есть response-level bias, то есть нормировка по длине ответа. Если advantage положительный (ответы верные), наличие нормировки увеличивает апдейты градиента, если отрицательный, то наоборот, ответы становятся длиннее. Это соотносится вот с этим постом, где тоже подтвердили такое поведение моделей. Во-вторых, при подсчёте advantage производится нормировка на std ревардов. Это приводит к тому, что вопросы с меньшим std ревардов больше влияют на веса, что ведёт к менее эффективному обучению. И действительно, если эти два bias убрать, средняя длина ответа довольно быстро выходит на плато, неверные ответы, хоть и длиннее, чем верные, но всё же становятся короче, а качество обученных моделей хуже не становится.
А потом авторы объединили все эти файндинги в единый эксперимент: они взяли qwen-2.5-1.5B с разными системными промптами и проверили, насколько при обучении с GRPO растёт качество на популярных бенчмарках. Результаты напрямую следуют из предыдущих экспериментов: неудобные для модели темплейты её сначала ломают, а потом через RL модель учится отвечать правильно. Это даёт ей офигенный буст в качестве (тот самый +40% on MATH, которым хвастаются в заголовках). Но если не использовать промпт, то модель сразу стартует с удобного начала и отвечает на вопросы очень хорошо — и буст в качестве становится значительно более скромным, в районе 5-6%.
Кроме того, авторы взяли llama-3.2-3b и сравнили, насколько влияет претрейн на высоту плато GRPO. Если не обучать модель на математике, то RL практически не помогает, а вот если сначала обучить на NuminaQA или FineMath, то буст будет достаточно сильным. Модель они учили с R1 промптом, так что предположу, что тут та же история, что и с квеном: скачок в качестве это следствие из нестабильности модели к подающимся в неё промптам, а не из волшебных свойств чисто RL обучения.
Ещё один интересный аблейшн авторы почему-то вынесли в аппендикс: селф рефлексия в R1-Zero больше коррелирует с неправильным ответом, чем с правильным. Конечно, эксперимент проводился всего на 100 примерах, так что может быть это статистически незначимые результаты, но всё равно, клейм интересный.
Forwarded from Синтографист
### Midjourney и языковые модели: как они улучшают креативность?
Обычно, когда языковую модель (LLM) дообучают после основного обучения, это делают, чтобы улучшить качество её ответов. Однако есть проблема: чем больше усилий на это тратится, тем менее креативными и разнообразными становятся ответы модели.
#### Что придумали в Midjourney?
Вместо стандартного метода они добавили новый параметр — «отклонение» (deviation). Это мера того, насколько сгенерированный текст отличается от других возможных вариантов на тот же запрос.
Как это работает:
1. У модели есть несколько вариантов ответа на один и тот же запрос.
2. Чем больше ответ отличается от остальных, тем выше его «отклонение».
3. При обучении используется метод DPO (Direct Preference Optimization) или ORPO (Odds Ratio Preference Optimization), но с добавкой «отклонения».
4. Итог: модель учится давать не только качественные, но и разнообразные ответы.
#### Пример для школьника
Допустим, у нас есть модель, которая пишет сочинения по литературе.
Ты спрашиваешь: «Какие чувства испытывает Евгений Онегин в конце романа?»
Обычная модель (без отклонения) ответит примерно так:
> «Онегин испытывает раскаяние и грусть из-за упущенных возможностей».
Модель с «отклонением» может дать такие ответы:
1. «Онегин ощущает пустоту: любовь к Татьяне пришла слишком поздно, и теперь ему остаётся лишь сожалеть».
2. «Его чувства противоречивы — он одновременно тоскует по Татьяне и злится на себя за свою нерешительность».
3. «Онегин осознаёт, что сам разрушил своё счастье, но вместо того, чтобы бороться, он уходит от Татьяны навсегда».
Все три ответа — правильные, но они звучат по-разному. Это и есть тот самый «буст» креативности.
#### А оно вообще работает?
Тестировали модель на Reddit, и оказалось, что её тексты почти неотличимы от человеческих! Причём она всего 8B параметров (маленькая по меркам топовых LLM).
#### Что в этом интересного?
- Теперь можно делать модели, которые не просто умные, но и креативные.
- Возможно, скоро появятся нейросети для литературного творчества, которые не уступают людям.
- Может, Midjourney когда-нибудь запустят и текстовую нейросеть (а не только для картинок).
### Вывод:
Midjourney придумали способ, как научить модели не только «говорить правильно», но и думать нестандартно. Это особенно полезно для творчества — написания рассказов, стихов, сценариев.
Попросил пояснить ChatGPT тему, поднятую в посте
по статье от Midjourney
Forwarded from Dealer.AI
Midjourney обзор про LM.
Пока свежа память про всякие там RL и Llama. Завезли тут Midjourney обзор про языковые модели. Конечно обзор челы из дата секретов сделали,но кое-что интересное упустили. А мои подписчики не секретами деланы и их раскрывают.
Далее дословно от подсичика, с моими вставками:
Тут немного в тему RL вот такая статья есть, в ней наверное самый забавный момент помимо прочих, что основной авто-«бенч» — это ревард-моделька, которую обучили на тех же данных, из которых и dpo-датасет сварили🧠 (бусты существенные, duh 🚬 ).
Дядя: Эт че у нас уже лики пошли из трейна в тест? Логично,что модель такая будет давать сродственнным с dpo сетом предпочтения и завышать скоры.❓ Ну и что ниже мы щас и увидим.
Продолжаем. Потом авторы ещё это все шлифанули человеческой разметкой, но размечали только эти же сами авторы (!), утверждают, что честно-честно не знали (ага щаз😀 ), где какая модель 😮💨 . И разумеется , в итоге их 8В победила GPT-4o с разгромным счётом 🌿 , и добить решили перлом 🧖 :
>> Note that all authors have years of experience in computational creative writing research. (Ты смотри святые люди, а.)
А, да, размечали ещё при этом не сами генерации, а их суммаризированные (!!!) версии, так как "doing the task with eight lengthy creative writings can be cognitively overloading" ))))) Бедняжки от кожанных могут перегреться.🦻
В общем, читаем внимательно, может у вас сложится иное мнение и зря мы гоним тут.
За материалы спасибо @walfry
Пока свежа память про всякие там RL и Llama. Завезли тут Midjourney обзор про языковые модели. Конечно обзор челы из дата секретов сделали,но кое-что интересное упустили. А мои подписчики не секретами деланы и их раскрывают.
Далее дословно от подсичика, с моими вставками:
Тут немного в тему RL вот такая статья есть, в ней наверное самый забавный момент помимо прочих, что основной авто-«бенч» — это ревард-моделька, которую обучили на тех же данных, из которых и dpo-датасет сварили
Дядя: Эт че у нас уже лики пошли из трейна в тест? Логично,что модель такая будет давать сродственнным с dpo сетом предпочтения и завышать скоры.
Продолжаем. Потом авторы ещё это все шлифанули человеческой разметкой, но размечали только эти же сами авторы (!), утверждают, что честно-честно не знали (ага щаз
>> Note that all authors have years of experience in computational creative writing research. (Ты смотри святые люди, а.)
А, да, размечали ещё при этом не сами генерации, а их суммаризированные (!!!) версии, так как "doing the task with eight lengthy creative writings can be cognitively overloading" ))))) Бедняжки от кожанных могут перегреться.
В общем, читаем внимательно, может у вас сложится иное мнение и зря мы гоним тут.
За материалы спасибо @walfry
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Data Secrets
Forwarded from r/ретранслятор
This media is not supported in your browser
VIEW IN TELEGRAM
Вышел мощный ИИ-агент OWL, который получил удобный веб-интерфейс. Это бесплатный аналог Manus, повторяющий все его функции.
Модель занимает первое место среди open-source фреймворков и имеет высокую производительность в задачах автоматизации.
Небольшой список того, что умеет:
— Решает задачи за вас: пишете, что вам нужно, а ИИ-агенты сами всё за вас делают;
— Генерирует любой тип текста и изображения;
— Обрабатывает документы (PDF, Word, Excel);
— Создаёт графики и отчёты;
— Ищет актуальную информацию в интернете, пользуется поисковиками и изучает веб-страницы, автоматизируя работу браузера;
— Анализирует файлы;
— Пишет и сам же выполняет программный код;
— Поддерживает сторонние ИИ-модели: GPT-4, DeepSeek и т.д.
Например, OWL можно попросить проанализировать акции, дать прогнозы, вести соцсети, написать программу и многое другое. То есть отдать ему свою рутинную работу.
Ссылка на гитхаб тут
r/#LocalLLaMA
Модель занимает первое место среди open-source фреймворков и имеет высокую производительность в задачах автоматизации.
Небольшой список того, что умеет:
— Решает задачи за вас: пишете, что вам нужно, а ИИ-агенты сами всё за вас делают;
— Генерирует любой тип текста и изображения;
— Обрабатывает документы (PDF, Word, Excel);
— Создаёт графики и отчёты;
— Ищет актуальную информацию в интернете, пользуется поисковиками и изучает веб-страницы, автоматизируя работу браузера;
— Анализирует файлы;
— Пишет и сам же выполняет программный код;
— Поддерживает сторонние ИИ-модели: GPT-4, DeepSeek и т.д.
Например, OWL можно попросить проанализировать акции, дать прогнозы, вести соцсети, написать программу и многое другое. То есть отдать ему свою рутинную работу.
Ссылка на гитхаб тут
r/#LocalLLaMA
Forwarded from Quant Valerian
🧠 РЕТРОСПЕКТИВА
• Ретроспектива выходит за рамки процесса командообразования.
• Важно проводить её по завершении задач, а не по расписанию.
• Избегайте геймификации и игр, чтобы не терять смысл мероприятия.
• Не оставляйте выявленные проблемы без решения.
• Если проблемы не решаются, люди теряют интерес к процедуре.
⭐️ АЛЬТЕРНАТИВА КОМАНДООБРАЗОВАНИЮ - РЕГЛАМЕНТАЦИЯ
• Регламентация может быть альтернативой командному подходу.
• Регламентация описывает все нюансы работы группы.
• Регламентация может быть необходима в опасных или нестабильных условиях.
⭐️ ПРИМЕРЫ РЕГЛАМЕНТАЦИИ
• Регламентация используется в авиации, поездах, энергетике и хирургии.
• Регламентированные группы могут быть более эффективными, но требуют постоянного контроля.
• Регламентация подавляет инициативу, но может быть необходима для безопасности.
⭐️ ТИМБИЛДИНГ И КОМАНДООБРАЗОВАНИЕ
• Тимбилдинг и увеселительные мероприятия не создают настоящую команду.
• Настоящая команда формируется через конфликты и конфликты с окружающей средой.
• Тимбилдинг полезен как совместный отдых, но не для командообразования.
• Ретроспектива выходит за рамки процесса командообразования.
• Важно проводить её по завершении задач, а не по расписанию.
• Избегайте геймификации и игр, чтобы не терять смысл мероприятия.
• Не оставляйте выявленные проблемы без решения.
• Если проблемы не решаются, люди теряют интерес к процедуре.
⭐️ АЛЬТЕРНАТИВА КОМАНДООБРАЗОВАНИЮ - РЕГЛАМЕНТАЦИЯ
• Регламентация может быть альтернативой командному подходу.
• Регламентация описывает все нюансы работы группы.
• Регламентация может быть необходима в опасных или нестабильных условиях.
⭐️ ПРИМЕРЫ РЕГЛАМЕНТАЦИИ
• Регламентация используется в авиации, поездах, энергетике и хирургии.
• Регламентированные группы могут быть более эффективными, но требуют постоянного контроля.
• Регламентация подавляет инициативу, но может быть необходима для безопасности.
⭐️ ТИМБИЛДИНГ И КОМАНДООБРАЗОВАНИЕ
• Тимбилдинг и увеселительные мероприятия не создают настоящую команду.
• Настоящая команда формируется через конфликты и конфликты с окружающей средой.
• Тимбилдинг полезен как совместный отдых, но не для командообразования.