Forwarded from Записки C3PO
Увидел в последнем посте Данилова ссылку на очень прикольный онлайн симулятор запуска A/B экспериментов и работы с приоритезацией беклога.
https://www.lukasvermeer.nl/confidence/
Можете попробовать применить правила управления экспериментами, про которые я рассказывал в недавнем цикле постов: 1, 2, 3.
https://www.lukasvermeer.nl/confidence/
Можете попробовать применить правила управления экспериментами, про которые я рассказывал в недавнем цикле постов: 1, 2, 3.
👍3
Улучшенный метод RL для выравнивания LLM от DeepMind.
Reinforced Self-Training (ReST): A Simple algorithm for Aligning LLMs with Human Preferences Inspired by Growing Batch.
Данный метод посвящён проблеме онлайн обучения, а именно требованиям к данным для этого.
ReST состоит из двух циклов:
1. Внутренний цикл (Improve) улучшает политику для данного набора данных.
2. Внешний круг (Grow) расширяет набор данных, беря образцы из самой последней политики.
Grow: Чтобы дополнить обучающий набор данных, для каждого сценария создаются многочисленные выходные прогнозы с использованием политики языковой модели. Improve: тут ранжируют и фильтруют обогащенный набор данных, используя формулу оценки. В качестве функции оценки в своих исследованиях они используют модель вознаграждения за обучение, основанную на предпочтениях людей. Отфильтрованный набор данных корректирует языковую модель, используя целевую функцию offline RL. При увеличении порога фильтрации процесс повторяется. После этого на следующем шаге Grow используется окончательная внешняя политика.
При этом, авторы выделяют возможность в каждом круге политик использовать разнообразные и главное различные losses.
Также, можно назвать ряд других преимуществ, по сравнению с classic RLHF:
• Поскольку новые обучающие данные отбираются из улучшенной политики на этапе Grow, качество политики не ограничено качеством исходного набора данных (в отличие от автономного RL).
• Легко проверить качество данных и потенциально диагностировать проблемы с согласованием, такие как взлом вознаграждения, поскольку этапы роста и улучшения не связаны.
В качестве примера REST+ LLM выбрана задача машинного перевода. Подробнее можно почитать в статье.
Reinforced Self-Training (ReST): A Simple algorithm for Aligning LLMs with Human Preferences Inspired by Growing Batch.
Данный метод посвящён проблеме онлайн обучения, а именно требованиям к данным для этого.
ReST состоит из двух циклов:
1. Внутренний цикл (Improve) улучшает политику для данного набора данных.
2. Внешний круг (Grow) расширяет набор данных, беря образцы из самой последней политики.
Grow: Чтобы дополнить обучающий набор данных, для каждого сценария создаются многочисленные выходные прогнозы с использованием политики языковой модели. Improve: тут ранжируют и фильтруют обогащенный набор данных, используя формулу оценки. В качестве функции оценки в своих исследованиях они используют модель вознаграждения за обучение, основанную на предпочтениях людей. Отфильтрованный набор данных корректирует языковую модель, используя целевую функцию offline RL. При увеличении порога фильтрации процесс повторяется. После этого на следующем шаге Grow используется окончательная внешняя политика.
При этом, авторы выделяют возможность в каждом круге политик использовать разнообразные и главное различные losses.
Также, можно назвать ряд других преимуществ, по сравнению с classic RLHF:
• Поскольку новые обучающие данные отбираются из улучшенной политики на этапе Grow, качество политики не ограничено качеством исходного набора данных (в отличие от автономного RL).
• Легко проверить качество данных и потенциально диагностировать проблемы с согласованием, такие как взлом вознаграждения, поскольку этапы роста и улучшения не связаны.
В качестве примера REST+ LLM выбрана задача машинного перевода. Подробнее можно почитать в статье.
👍7❤2
Forwarded from commit history
Недавно подумал, что было бы прикольно сделать доклад «50 оттенков серого» про АБ тесты, которые не прокрасились.
Но в итоге сделал доклад о рекомендациях «50 оттенков рекомендаций»,
который завтра удаленно расскажу на конференции techtrain
Будет про то, как с нуля строил рекомендации. Теории не будет, подразумевается, что слушатели знакомы с ML и рек сис. Зато будет о том, как принимали решения, что делали, на какие грабли наступали и что сработало. А в конце, топ советов себе в прошлое.
Запись будет, когда появится – добавлю тут ссылку.
Но в итоге сделал доклад о рекомендациях «50 оттенков рекомендаций»,
который завтра удаленно расскажу на конференции techtrain
Будет про то, как с нуля строил рекомендации. Теории не будет, подразумевается, что слушатели знакомы с ML и рек сис. Зато будет о том, как принимали решения, что делали, на какие грабли наступали и что сработало. А в конце, топ советов себе в прошлое.
Запись будет, когда появится – добавлю тут ссылку.
TechTrain 2023 Autumn. Фестиваль по ML&AI для разработки и жизни
50 оттенков рекомендаций, или Как мы пытались растить выручку через персонализацию | Доклад на TechTrain 2023 Autumn
За год с нуля команда спикера успела построить разные варианты рекомендательной системы для ленты. Он расскажет, как они это делали и какие были результаты (иногда отрицательные).
👍11❤2
Пришёл Юра из ODS. Говорит, бросай всё, собирай вещи. День знаний отменяется.
https://t.me/new_yorko_times/168
https://t.me/new_yorko_times/168
Telegram
New Yorko Times
#random #chatgpt #career
На этой неделе пил кофе со знакомым из компании-конкурента. Говорит, в один прекрасный день всех Applied Data Scientist-ов выгнали на мороз. С идеей, что промпты писать могут и инженеры. Некоторые DS остались, но с сильно большей…
На этой неделе пил кофе со знакомым из компании-конкурента. Говорит, в один прекрасный день всех Applied Data Scientist-ов выгнали на мороз. С идеей, что промпты писать могут и инженеры. Некоторые DS остались, но с сильно большей…
😱9👍3
Зайка моя, я твой FILIP: Fine-grained Interactive Language-Image Pre-Training.
Или как, зная базовые концепты, можно сделать инкремент в качестве.
Итак. Все знают или слышали про CLIP. Если базово: есть два стула (энкодера) - текстовый и для картинок. Мы берём captions картиночек, ака тексты и сами картиночки. Эмбеддим с помощью вышеуказанных экнодеров и в contrastive режиме сводим , так получаем позитивы. За счёт full-batching получаем негативы. Full-batching - это когда в батче чужие сэмплы тоже идут врасход расчёт близости, но как штраф.
Такс. Один базовый концепт рассказал. Теперь чутка поведаю про ColBERT. Тут люди тоже пошли путем интеракций , но не на уровне sentence embeddings как текстовый энкодер в CLIP. А на уровне token embeddings. Причем, делается это умно, чтобы использовать полнотекстовый поиск, помимо полноконтекстного. Как? Берут и начинают делать dot prod между токен эмбами запроса и ответа. Замечу, что это N^2 интеракций всё со всеми. Далее для каждого токена запроса ищут max dot prod по токенам ответа. Потом эти max dot prod суммируются и если хотите можно вкинуть слой нормировки а-ля sigmoid или оставить так. Но, в общем, этот скор и максимизируют для релевантных пар и минимизируют для отрицательных.
Крч. К чему я эту телегу везу про CLIP и ColBERT. Тут люди завезли FILIP. И крч это CLIP в стиле ColBERT. Перешли от кэпшн фулл к токенам и к частям картинок. Не хочу повторяться, оч хорошо и подробно описано тут у Тани из DLStories.
Итого. Изучайте базовые архитектуры, популярные решения, микстите их по делу и получайте профит. Всем добра.
Или как, зная базовые концепты, можно сделать инкремент в качестве.
Итак. Все знают или слышали про CLIP. Если базово: есть два стула (энкодера) - текстовый и для картинок. Мы берём captions картиночек, ака тексты и сами картиночки. Эмбеддим с помощью вышеуказанных экнодеров и в contrastive режиме сводим , так получаем позитивы. За счёт full-batching получаем негативы. Full-batching - это когда в батче чужие сэмплы тоже идут в
Такс. Один базовый концепт рассказал. Теперь чутка поведаю про ColBERT. Тут люди тоже пошли путем интеракций , но не на уровне sentence embeddings как текстовый энкодер в CLIP. А на уровне token embeddings. Причем, делается это умно, чтобы использовать полнотекстовый поиск, помимо полноконтекстного. Как? Берут и начинают делать dot prod между токен эмбами запроса и ответа. Замечу, что это N^2 интеракций всё со всеми. Далее для каждого токена запроса ищут max dot prod по токенам ответа. Потом эти max dot prod суммируются и если хотите можно вкинуть слой нормировки а-ля sigmoid или оставить так. Но, в общем, этот скор и максимизируют для релевантных пар и минимизируют для отрицательных.
Крч. К чему я эту телегу везу про CLIP и ColBERT. Тут люди завезли FILIP. И крч это CLIP в стиле ColBERT. Перешли от кэпшн фулл к токенам и к частям картинок. Не хочу повторяться, оч хорошо и подробно описано тут у Тани из DLStories.
Итого. Изучайте базовые архитектуры, популярные решения, микстите их по делу и получайте профит. Всем добра.
Telegram
DLStories | Нейронные сети и ИИ
FILIP: CLIP, у которого близость можно измерять между эмбеддингами отдельных патчей картинки и токенов текста.
(статья еще с 2021, но я реально об этой идее узнала вот прям недавно)
Как работает обычный CLIP:
У обычного CLIP text и image encoder — это трансформеры.…
(статья еще с 2021, но я реально об этой идее узнала вот прям недавно)
Как работает обычный CLIP:
У обычного CLIP text и image encoder — это трансформеры.…
❤9🤡3
Forwarded from Письмо редактора
И снова нейросети
Тут все с ума сходят от HeyGen и перевода мемасов на другие языки. И там классно) Но сегодня про другое.
Ребята нашли классный пример, когда люди не просто балуются или мошенничают с нейронками, а используют их для старого-доброго зарабатывания деньжат. Ну как, деньжата, 10 000 евро в месяц уже, наверное, сложно назвать просто деньжатами😁
Лонг стори шорт: есть компания. Она делает аналитику для торговых сетей и пишет статьи для сайта. Пишет на одном языке, переводит на несколько (= много) других и снова публикует.
Область специфическая, автоматические переводчики (Google Translate, DeepL & Bing Translate) и живые переводчики не вывозят. Увеличили штат, в месяц стало уходить 10 000 евро. Что-то дорого, подумали они.
И тут, хоп-хэй-ла-ла-лэй, ChatGPT во всей красе. Компания туда забабахала пост-обучение — докидывает релевантную информацию в контекст. И все довольны — ChatGPT не жалуется на монотонность и объем задач, переводит себе спокойно, а компания радуется сэкономленному. Сэкономил — считай, заработал.
А кроме того, пополняемый список статей на куче языков делает компанию очень крутой в глазах клиентов.
Да, тексты не такие, как от профессионального переводчика-редактора. Но они на том уровне, что их можно безболезненно публиковать.
За подгон полезной инфы — спасибо @dealer_ai
Тут все с ума сходят от HeyGen и перевода мемасов на другие языки. И там классно) Но сегодня про другое.
Ребята нашли классный пример, когда люди не просто балуются или мошенничают с нейронками, а используют их для старого-доброго зарабатывания деньжат. Ну как, деньжата, 10 000 евро в месяц уже, наверное, сложно назвать просто деньжатами😁
Лонг стори шорт: есть компания. Она делает аналитику для торговых сетей и пишет статьи для сайта. Пишет на одном языке, переводит на несколько (= много) других и снова публикует.
Область специфическая, автоматические переводчики (Google Translate, DeepL & Bing Translate) и живые переводчики не вывозят. Увеличили штат, в месяц стало уходить 10 000 евро. Что-то дорого, подумали они.
И тут, хоп-хэй-ла-ла-лэй, ChatGPT во всей красе. Компания туда забабахала пост-обучение — докидывает релевантную информацию в контекст. И все довольны — ChatGPT не жалуется на монотонность и объем задач, переводит себе спокойно, а компания радуется сэкономленному. Сэкономил — считай, заработал.
А кроме того, пополняемый список статей на куче языков делает компанию очень крутой в глазах клиентов.
Да, тексты не такие, как от профессионального переводчика-редактора. Но они на том уровне, что их можно безболезненно публиковать.
За подгон полезной инфы — спасибо @dealer_ai
Medialeaks
Нейросеть HeyGen перевела популярные видеомемы. Как звучит «Идущий к реке» на английском языке
Мемные ролики от нейросети для перевода видео HeyGen наводнили социальные сети. Пользователи рунета осваивают платформу, генерируя «Кандибобер», «Борщ с капусткой, но не красный» и «Идущий к реке»…
🔥13
Сентябрь мой любимый месяц. Тк в этом месяце в самом начале у меня сразу куча праздников: день нефтяника (по моему образованию), день рождения (тут чисто так получилось), и день программиста (по моей деятельности).
Крч 256ой день в году, в лучшее время года и месяц в году. Всех причастных, с праздником!
Крч 256ой день в году, в лучшее время года и месяц в году. Всех причастных, с праздником!
👍28❤9🤩3
Для желающих запилить себе постик про день погроммиста)
UPD. Сгенеренно в Kandinsky2.x
UPD. Сгенеренно в Kandinsky2.x
🔥7👍1🤡1🥴1
Из чата по ML competitions.
На кагле сейчас митинг
..рекламируют что керас ops может использовать кастомные лосы с любых фреймворков и может создавать модули совместимые с любыми фреймворками:))
Jax рекламируют потомучто быстрый и компилируемый.
На керасе можно менять бэкэнд на jax :)) миксовать с pytorch:))
От себя:
И вот я уже эмоджинирую...
Ну всё эт мой ренесанс...
Беру кекас-керас, Джекса , что знаю из тф и торчков и получаюсь дедушка трансформер я. Или как его там - дед швейцарский нож?!
На кагле сейчас митинг
..рекламируют что керас ops может использовать кастомные лосы с любых фреймворков и может создавать модули совместимые с любыми фреймворками:))
Jax рекламируют потомучто быстрый и компилируемый.
На керасе можно менять бэкэнд на jax :)) миксовать с pytorch:))
От себя:
И вот я уже эмоджинирую...
Ну всё эт мой ренесанс...
Беру кекас-керас, Джекса , что знаю из тф и торчков и получаюсь дедушка трансформер я. Или как его там - дед швейцарский нож?!
🤡9👍1🤔1
Forwarded from AbstractDL
Longformer-tiny для русского языка
Друг скрестил Longformer и BERT-tiny, получив крошечную модель с контекстом в 16к токенов. Детали танцев с бубном и обучения есть на хабре. А картинку нарисовала моя сестра ☺️
Хабр, Huggingface
Друг скрестил Longformer и BERT-tiny, получив крошечную модель с контекстом в 16к токенов. Детали танцев с бубном и обучения есть на хабре. А картинку нарисовала моя сестра ☺️
Хабр, Huggingface
🔥20👍7❤5🗿1
Forwarded from Young&&Yandex
Соревнование стартует 23 октября. Призовой фонд, 7 800 000 рублей, разделят лучшие участники в шести направлениях:
Рассказываем о главных отличиях Yandex Cup этого года:
Регистрация открыта до 29 октября включительно
Удачи!
#Yandex_Cup23
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤5👍3🤡1
Тут нас немножк рассекретили. Мы с коллегами из ai-forever выпустили препринт статьи про семейства nlp моделей для ru домена. Мы участвовали в создании семейства ru-ELECTRA.
Впереди вас ждёт более подробный рассказ о том, как мы это делали на хабр. А пока го го в arxiv.
Впереди вас ждёт более подробный рассказ о том, как мы это делали на хабр. А пока го го в arxiv.
Telegram
Kali Novskaya
#nlp #про_nlp #nlp_papers
🌸Зоопарк русскоязычных NLP-моделей🌸
Вышел препринт, объединяющий всю работу AI Forever над семейством языковых моделей для русского языка!
A Family of Pretrained Transformer Language Models for Russian
13 русскоязычных трансформеров…
🌸Зоопарк русскоязычных NLP-моделей🌸
Вышел препринт, объединяющий всю работу AI Forever над семейством языковых моделей для русского языка!
A Family of Pretrained Transformer Language Models for Russian
13 русскоязычных трансформеров…
❤16🔥6👍5⚡1
Forwarded from DL in NLP (Vlad Lialin)
Flash Attention 2 завезли прямо в 🤗 трансформеры 🔥🔥
Коротко, это мегаэффективный cuda kernel для рассчета attention, который делает ваше потребление памяти линейным вместо квадратичного, да и в принципе работает в несколько раз быстрее наивной имплементации к которой мы все привыкли.
Flash Attention 1 был в 🤗 Optimum и мой опыт с ним... такой себе. Теперь же Flash 2 встроен в основную библиотеку и чтобы его использовать надо просто указать use flash attention 2 в from pretrained.
https://x.com/younesbelkada/status/1705258148045750343
Коротко, это мегаэффективный cuda kernel для рассчета attention, который делает ваше потребление памяти линейным вместо квадратичного, да и в принципе работает в несколько раз быстрее наивной имплементации к которой мы все привыкли.
Flash Attention 1 был в 🤗 Optimum и мой опыт с ним... такой себе. Теперь же Flash 2 встроен в основную библиотеку и чтобы его использовать надо просто указать use flash attention 2 в from pretrained.
https://x.com/younesbelkada/status/1705258148045750343
❤16🔥13