Системные промпты отменяются
Оказывается, openai не добавили какое-то новое поле для следования инструкциям, а просто решили заменить слово
Зачем?😩
Оказывается, openai не добавили какое-то новое поле для следования инструкциям, а просто решили заменить слово
system
на developer
Зачем?
Please open Telegram to view this post
VIEW IN TELEGRAM
Тоже прогромирую с LLM, но с О1-бомж-версией и руками всегда все файлы копировал и объяснял структуру проекта 😒
Буду пробовать эти тулзы, кажется, они решают мою боль!
Буду пробовать эти тулзы, кажется, они решают мою боль!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
В последнее время я все больше программирую с LLM, и теперь добавил в связку o1 Pro:
Когда Sonnet 3.6 с первого раза что-то не может починить, я беру ошибку и код который есть, и прошу o1 Pro разобраться – потом тупо копирую ее ответ в Cursor и он уже сам всё чинит/правит
И чем больше я использую O1 Pro для кода, тем больше замечаю, что ей очень важна разметка промпта и структура кода, поэтому я обновил немного свои тулы для LLM-программирования:
🗺️ Folder Map Generator – примитивно работает, вы ей папку, она вам дерево файлов и каталогов; нужно чтобы LLM правильно писала пути к файлам, так как любая модель путается; файлы не покидают вкладку браузера
📄 Text File Merger for LLM – эта штука стала еще умнее: можно руками указать какие типы файлов взять из папки, автоматом расставятся пути и открывающие/закрывающие теги имен файлов (нужно для думающих моделей), все это поможет быстро добавить нужный кусок проекта в LLM-контекст; файлы не покидают вкладку браузера
Но самое полезное, что если вы положите в папку пустой файл
***
В подтверждение моих слов про контекст, вот недавняя статья где команда смогла сильно бустнуть производительность АИ-ассистента для написания кода.
Вот краткая выдержка, общими словами:
1. Сначала, до кода, они дают LLM контекст проекта и просят его понять
2. Группируют похожие файлы по контексту
3. Просят модель прогнозировать, что именно затронет изменение кода
4. Передают ей историю изменений кода
Когда Sonnet 3.6 с первого раза что-то не может починить, я беру ошибку и код который есть, и прошу o1 Pro разобраться – потом тупо копирую ее ответ в Cursor и он уже сам всё чинит/правит
И чем больше я использую O1 Pro для кода, тем больше замечаю, что ей очень важна разметка промпта и структура кода, поэтому я обновил немного свои тулы для LLM-программирования:
🗺️ Folder Map Generator – примитивно работает, вы ей папку, она вам дерево файлов и каталогов; нужно чтобы LLM правильно писала пути к файлам, так как любая модель путается; файлы не покидают вкладку браузера
📄 Text File Merger for LLM – эта штука стала еще умнее: можно руками указать какие типы файлов взять из папки, автоматом расставятся пути и открывающие/закрывающие теги имен файлов (нужно для думающих моделей), все это поможет быстро добавить нужный кусок проекта в LLM-контекст; файлы не покидают вкладку браузера
Но самое полезное, что если вы положите в папку пустой файл
.ignore
, то оба тула ее проигнорируют – то есть лишние папки/файлы можно убрать из контекста***
В подтверждение моих слов про контекст, вот недавняя статья где команда смогла сильно бустнуть производительность АИ-ассистента для написания кода.
Вот краткая выдержка, общими словами:
1. Сначала, до кода, они дают LLM контекст проекта и просят его понять
2. Группируют похожие файлы по контексту
3. Просят модель прогнозировать, что именно затронет изменение кода
4. Передают ей историю изменений кода
Shir-Man
Folder Map Generator - Visual Explorer of Project Structures
Generate ASCII tree structures from your project folders. Perfect for visualizing directory layouts and sharing with LLMs. Process files locally with privacy.
Нейронный Кот
phi-4 released
И вот сегодня наконец-то зарелизили модель в открытый доступ с MIT лицензией
Идем заменять ваши лламы?
https://huggingface.co/microsoft/phi-4
И вот сегодня наконец-то зарелизили модель в открытый доступ с MIT лицензией
Идем заменять ваши лламы?
https://huggingface.co/microsoft/phi-4
huggingface.co
microsoft/phi-4 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Урбанистические трюки
Вы, наверное, слышали, что урбанисты делают городскую среду более безопасной и приятной через простые трюки для автомобилистов/пешеходов
В Лондоне мне нравится трюк со светофорами
На зеленом сигнале светофора есть специальные лопасти, которые не дают понять, горит ли зеленый сигнал, если ты смотришь на светофор под углом (то есть, не находишься на зебре)
Соответственно, люди скорее не будут бежать откуда-то издалека под углом через дорогу, ведь они не видят, горит ли зеленый свет
НО! На самом деле пешеходу доступна вся информация, ведь если не горит красный сигнал, значит, горит зеленый🍎 А на красном сигнале как раз нет никаких лопастей! Но люди не могут быстро сделать такой вывод
Такой же трюк с лопастями я встретил и для автомобилистов. Только там лопасти смотрят вниз => значит, издалека не увидишь, горит ли зеленый. Поэтому сначала надо медленно к светофору подъехать, чтобы убедиться, что там 🟢
Короче, крутой трюк, который особо не напрягает, но сильно повышает безопасность.
Как можно было бы сделать, если ты не особо умный? Потратить $$$ и поставить заборы вдоль всей проезжей части
Знаете примеры подобных трюков? Не обязательно в урбанистике
Вы, наверное, слышали, что урбанисты делают городскую среду более безопасной и приятной через простые трюки для автомобилистов/пешеходов
В Лондоне мне нравится трюк со светофорами
На зеленом сигнале светофора есть специальные лопасти, которые не дают понять, горит ли зеленый сигнал, если ты смотришь на светофор под углом (то есть, не находишься на зебре)
Соответственно, люди скорее не будут бежать откуда-то издалека под углом через дорогу, ведь они не видят, горит ли зеленый свет
НО! На самом деле пешеходу доступна вся информация, ведь если не горит красный сигнал, значит, горит зеленый
Такой же трюк с лопастями я встретил и для автомобилистов. Только там лопасти смотрят вниз => значит, издалека не увидишь, горит ли зеленый. Поэтому сначала надо медленно к светофору подъехать, чтобы убедиться, что там 🟢
Короче, крутой трюк, который особо не напрягает, но сильно повышает безопасность.
Как можно было бы сделать, если ты не особо умный? Потратить $$$ и поставить заборы вдоль всей проезжей части
Знаете примеры подобных трюков? Не обязательно в урбанистике
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from shipshigram
This media is not supported in your browser
VIEW IN TELEGRAM
Не могу точно понять, как интропретировать этот факт: Хасбик в полный рост выглядывает из окна офиса Google (этаж Google Research).
Мнения?
Мнения?
Пользовались ли бы бесконечной лентой (Feed) с постами из телеграм каналов? 👊
Anonymous Poll
13%
Да, но только с каналами, на которые подписан(а)
19%
Да, еще и с рекомендациями (с каналами, на которые не подписан(а))
68%
Нет
Robust Reward Model
При обучении реворд модели можно случайно выучить НЕ то.
Вместо обучения на предпочтения людей, можно переобучиться на артифакты ответов
Что это за артифакты?
В датасетах предпочтений более длинные ответы, ответы с эмодзи🙄 , дружелюбные ответы чаще встречаются в
Очевидно, мы не хотим обучить классификатор, который оценивает длину ответа, мы хотим реально хорошие ответы, независимо от их длины👮♂️
Предлагается делать простой трюк из статьи — аугментации
🔹 Делаем дополнительные примеры из текущего датасета
🔹 Наша задача избавиться от переобучения на артифакты
🔹 Поэтому мы составляем такие пары, где chosen ответ для i-го примера сравнивается с j-ым chosen примером
🔹 Такой трюк заставляет переставать обращать внимание на артифакты, потому что мы учим, что один длинный-красивый chosen пример лучше другого длинного-красивого chosen примера
🔹 Тоже самое для rejected примеров. В общем, смотрите иллюстрацию — там все понятно
Самый прикол в том, что с помощью артифкатов (длинных ответов/эмодзи/доброжелательности) можно захакать не только реворд модель, но и людей. Так сделала llama-4 например, лол🤷♂️ 🤷♂️ 🤷♂️
📎 Статья
При обучении реворд модели можно случайно выучить НЕ то.
Вместо обучения на предпочтения людей, можно переобучиться на артифакты ответов
Что это за артифакты?
В датасетах предпочтений более длинные ответы, ответы с эмодзи
chosen
, чем в rejected
Очевидно, мы не хотим обучить классификатор, который оценивает длину ответа, мы хотим реально хорошие ответы, независимо от их длины
Предлагается делать простой трюк из статьи — аугментации
🔹 Делаем дополнительные примеры из текущего датасета
🔹 Наша задача избавиться от переобучения на артифакты
🔹 Поэтому мы составляем такие пары, где chosen ответ для i-го примера сравнивается с j-ым chosen примером
🔹 Такой трюк заставляет переставать обращать внимание на артифакты, потому что мы учим, что один длинный-красивый chosen пример лучше другого длинного-красивого chosen примера
🔹 Тоже самое для rejected примеров. В общем, смотрите иллюстрацию — там все понятно
Самый прикол в том, что с помощью артифкатов (длинных ответов/эмодзи/доброжелательности) можно захакать не только реворд модель, но и людей. Так сделала llama-4 например, лол
📎 Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
Репозиторий RM моделей
Код для обучения + блог посты
Реализации всех основных RM — Bradley-Terry (pointwise моделька), Pairwise RM, RRM, Odin RM (борются с байесом длинных ответов) и другие
https://github.com/RLHFlow/RLHF-Reward-Modeling
Код для обучения + блог посты
Реализации всех основных RM — Bradley-Terry (pointwise моделька), Pairwise RM, RRM, Odin RM (борются с байесом длинных ответов) и другие
https://github.com/RLHFlow/RLHF-Reward-Modeling
Please open Telegram to view this post
VIEW IN TELEGRAM