Интересное что-то
517 subscribers
2.72K photos
253 videos
139 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Forwarded from Душный NLP
Как избавиться от Value-функции в PPO

Сегодня — о двух методах стабилизации PPO. Один вытекает из другого и каждому посвящена отдельная статья.

О PPO подробнее мы уже рассказывали в другом нашем канале — ML Underhood. Здесь же сосредоточимся на частностях. Традиционно в PPO считается некоторый advantage. Он вычисляется для пары префикса и ответа и показывает, на сколько конкретный ответ лучше среднего. Чтобы определить advantage нужно из суммарной награды префикса и ответа (Q в первой формуле выше) вычесть среднюю награду (V), которую генератор набрал бы, если бы стартовал с этого префикса.

Value-функцию принято обучать отдельной моделью на прогнозирование средних наград. Однако с V-моделью есть некоторые сложности. Во-первых, она большая и сопоставима по размерам с генератором. Во-вторых, её нужно инферить, на что требуются вычислительные ресурсы. А в-третьих, она обычно выдает не очень хорошие результаты. Поэтому было бы круто придумать способ избавиться от V-модели в PPO, ведь она нужна только для снижения дисперсии оценки лосса. Авторы обеих статей поставили перед собой именно эту задачу.

Авторы статьи DeepSeekMath предлагают метод, который называется Group Relative Policy Optimization (GRPO). В его рамках две модификации:

1. Не обучать V-модель. Вместо этого оценить значение средней награды методом Монте-Карло. Ничего сложного: вместо генерации одного ответа на запрос сгенерировать несколько ответов, а среднюю награду, полученную за эти ответы на запрос, использовать как V. При подсчете advantage из награды каждого ответа вычитается эта средняя награда. Таким образом, от V-модели избавляются с помощью увеличения количества генераций (схема на втором изображении).

2. В PPO используется KL-штраф за отклонение от SFT-модели. Обычно этот штраф вычитают из награды, чтобы PPO одновременно наращивал награду и не отходил далеко от SFT. Авторы предлагают добавлять штраф прямо к лоссу — это лишает нас каких-то интересных теоретических свойств алгоритма, но делает процедуру оптимизации намного легче (третье изображение с формулой).

Авторы второй статьи — VinePPO — опираются на DeepSeekMath и развивают GRPO в контексте математических задач. В GRPO, в отличие от классического PPO, V-функция для всех токенов ответа получается одинаковой. Так устроен алгоритм, ведь туда записана просто средняя награда за несколько ответов.

Для ответов, в которых есть цепочки рассуждений, это может быть не очень репрезентативно: при решении математических задач, удачный ход в рассуждении должен значимо повышать ожидаемую награду за ответ, тогда как ошибка в рассуждениях — наоборот, понижать.

Авторы предлагают разбивать ответ на смысловые блоки — по переносам строки. точкам или запятым, которые находятся вне формул — и для каждого из них оценивать V-функцию так же, как это делается в GRPO. То есть генерировать по несколько продолжений из частично готового ответа.

Хоть идея и проста, эффективно её реализовать довольно трудно. А ещё этот метод требует существенно большего числа генераций во время обучения. Авторы честно признаются, что их метод медленнее обычного PPO, но показывает неплохие результаты.

Разбор подготовил Павел Темирчев

Душный NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Tips AI | IT & AI
| Если подписка ChatGPT Pro стоит 200$, то лучше подумать, прежде чем взять ее:

ChatGPT Plus ($20/мес) — универсальный инструмент для любых задач, отличный выбор для ежедневной работы.

Cursor IDE Pro ($20/мес) идеален для кодинга, особенно с моделью Claude 3.5 Sonnet.

MidJourney Standard ($24/мес) — лидер среди генераторов изображений с упором на эстетику. Если важна красота визуалов, то тут без вопросов.

Suno Pro ($10/мес) — лучший выбор для создания музыки. Если ты работаешь над саундтреками или экспериментируешь со звуком, это must-have.

Poe ($20/мес) — даёт доступ ко множеству моделей ИИ, включая Stable Diffusion, Flux и Ideogram. Удобный инструмент для работы с текстами и изображениями.

Perplexity Pro ($20/мес) — лучший инструмент для поиска и работы с информацией. Если тебе нужно много исследовать, стоит рассмотреть.

Codium Windsurf ($10/мес) — альтернатива Cursor для программирования. Полезно, если ты ищешь что-то более простое или дешевле.

Krea ai ($8/мес) — много графических ресурсов и генераторов изображений, включая Flux. Отличный выбор, если работаешь с визуалами.

Google AI Studio и NotebookLM — доступ к экспериментальным моделям. И всё это бесплатно (в пределах лимитов).

Perplexity Labs — Если не нужны платные функции, то бесплатная версия уже справляется с поиском и анализом данных.

LM Studio — возможность запускать локальные модели без ограничений. Больше для приватных задач и экспериментов.


Итого: 132$/месяц, при учете, если вы всеми будете пользоваться.

@tips_ai #tools
Forwarded from DeepSchool
Segment Anything Model 2

Segment Anything Model (SAM) сильно упростила процесс разметки картинок в задачах Computer Vision. Как правило, если домен похож на обучение — SAM хорошо уточняет границы объектов за несколько кликов. Такой процесс называется Interactive Object Segmentation.

Как это работает? Модель принимает на вход не только изображение, но и промпт (точку, бокс, маску), который указывает на нужный объект. Разные энкодеры обрабатывают изображение и промпт, отдельный лёгкий mask decoder переводит эмбеддинги изображения и промпта в предсказание маски объекта.

Segment Anything Model 2 (SAM 2) продолжает упрощать процесс разметки, в этот раз работая с видео. Для этого меняют архитектуру, чтобы добавить передачу информации между кадрами, а также собирают самый большой датасет для задачи Video Object Segmentation.

Сегодня мы обсудим, чем архитектура второй версии отличается от первой, а также рассмотрим проблемы текущих датасетов для Video Object Segmentation и их решение в SAM 2. Читайте новую статью по ссылке: https://deepschool-pro.notion.site/Segment-Anything-Model-2-c70a218c4484424d8d3749e383c428be?pvs=4
Forwarded from Kogut Ivan Tutoring
Теория игр. Начало - игры как граф
#АлгоЕжемесячныеТемы
1️⃣0️⃣

Предисловие + теория:
Пока развелкаюсь на конференции, предлагаю тоже развлечься и поиграть вам в игры на PS5 графах

Бывают игры, которые можно представить в виде графа, в котором каждая вершина соответствует состоянию игры, а ребра - переходами между этими состояниями. Причем, часто такой граф ациклический (DAG)
Каждую вершину в таком графе можно считать выигрышной или проигрышной, в зависимости от того выигрывает или проигрывает игрок, начиная в таком состоянии. ВАЖНО: это верно именно для DAG! В произвольных графах могут быть еще и ничейные вершины

Таким образом, такие задачи сводятся к подсчету DP на DAG. То есть либо заранее понятно как перебирать вершины, либо надо делать топсорт

Пререквизиты:
🔙
ДП, ДП на поддеревьях
🔙 DFS, Топсорт

Еще теория + первая задача:
📚 Материал от Яндекс Кружка - теория + примеры задач (жаль картинки пропали😢)
📚 Emaxx - небольшая теория с кодом конкретной задачи (большеват правда)
💻 Задача с Тимуса 1 - БАЗА 1. Сразу граф задан
💻 Задача с Тимуса 2 - БАЗА 2. Сразу граф задан
💻 Задача с Тимуса 3 - Уже самим перебирать надо, но в лоб
💻 Задача с Тимуса 4 - Уже надо придумать

KIT контест по теме с периодически пополняемыми задачами
:
🔄 Контест - сейчас там пока 3 задачи, но будут еще. Для решения нужно вступить в группу на кф - ссылка

Вопросы на понимание темы:
Когда состояние считается выигрышным?
❗️ Если из этого состояния есть хотя бы один переход в проигрышное состояние

Когда состояние считается проигрышным?
❗️ Если из него нет переходов или все переходы в выигрышные состояния

Делитесь с друзьями, задачи будут интересны любому уровню!

💬 Следующие темы смело предлагайте в комментариях. Также, делитесь интересными задачами и материалами по этой теме, тут их точно еще полно)
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Fless (Victor Rogulenko @flesspro)
Расскажу, как структурировал недавний стратегический проект.

⚠️ Много букв! ⚠️
Будет полезно начинающим независимым консультантам и небольшим консалтинговым компаниям. Остальных может утомить.

Обратился СОО небольшой компании, выросшей за полгода до выручки в несколько десятков млн рублей в месяц. Моя первая реакция — зачем трогать то, что работает, пока работает 🤔, но человек объяснил, что помощь нужна вот с чем:

- рассинхрон топов. Люди не договорились, куда дальше бежать. Хотелось бы всем договориться;
- хаос в зонах ответственности (ожидаемо в такой ситуации).

Далее мои уточняющие вопросы (В) и санитизированные ответы СОО (О)

*****
⭐️ УТОЧНЯЮЩИЕ ВОПРОСЫ

В1: На какие 1-3 ключевых вопроса мы должны ответить в ходе стратсессий?
О1: Определить стратегические приоритеты для развития компании, 1-3 приоритета (рост выручки, развитие текущего продукта или новых продуктов и т.д.)

В2: Как Вы видите конечный продукт нашей работы?
О2: Разработанная стратегия и под неё план действий для каждой приоритетной цели:
- Определение ключевых показателей эффективности (KPI): для каждой цели заданы конкретные метрики, которые позволят отслеживать прогресс.
- Планирование действий: для каждой цели разработан перечень конкретных шагов и мероприятий.
- Назначение ответственных: определены, кто из руководителей будет отвечать за выполнение той или иной цели и будет контролировать её достижение.
- Ресурсы и поддержка: обсуждены ресурсы, которые потребуются для достижения целей (финансовых, людских и временных).

В3: Какие направления деятельности помимо ХХХ релевантно будет рассмотреть?
О3: ХХХ 1, ХХХ 2, YY

В4: Кто входит в команду проекта? С кем из них можно провести интервью 1-на-1 перед стратсессиями?
О4: Орг. структура компании: (ссылка)
Интервью можно будет провести с (6 человек)

В5: Кто будет участвовать в стратсессиях?
О5: те же 6 человек

Благодаря подробным ответам на вопросы я придумал следующий подход к работе:

*****
⭐️ ПОДХОД / СТРУКТУРА ВОПРОСОВ ПРОЕКТА

Сессии 0. 6 интервью с топами
(В идеале -- 7: плюс ХХХ)

Сессия 1. Большие цели. Сильные и слабые стороны
Вопросы
- Что помогло вырасти до текущего уровня?
- В чём сильные стороны компании?
- В чём слабые стороны компании?
- Где хотим оказаться через полгода-год и почему?
- Какие 1-3 большие цели вытекают из этого?

Сессия 2. Вызовы и возможности внешней среды
Направления:
- ХХ
- ХХ 1, ХХ 2
- YY
- Возможные дополнения
Вопросы:
- Почему нельзя оставить всё так, как идёт?
- Какие текущие и новые проблемы/вызовы ожидаем? (Разные сценарии)
- Какие возможности ожидаем? (Разные сценарии)
- Какие есть перспективы по каждому направлению? Как добиться успеха в каждом?

Сессия 3. Стратегические приоритеты в ответ на вызовы и возможности
Вопросы:
- Какие варианты действий для нас в целом возможны?
- Какие скоординированные комбинации вариантов возможны?
- Какие из комбинаций сделать стратегическими приоритетами в разных сценариях? Когда переходить от одного сценария к другому?

Сессия 4. KPI и конкретные шаги
Вопросы:
- Как должны выглядеть ключевые показатели эффективности для каждой цели для отслеживания прогресса?
- Какие инициативы следует предпринять для реализации приоритетов?

Сессия 5. Требуемые лидеры и ресурсы
Вопросы:
- Какой эффект ожидается от каждой инициативы?
- Какие ресурсы потребуются для каждой инициативы? (финансы, люди, время)
- Кто будет лидировать каждую инициативу?
- Каков механизм отслеживания прогресса и корректировки стратегии?

*****
⭐️ В следующем посте расскажу про ценообразование подобного проекта

#live #casestudies | @flesspro
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from 3.14 at Google
Effective Learning.pdf
296.6 KB
Как учиться эффективно?

В сентябре 2024 у нас был целый день посвященный обучению. Первая половина дня состояла из презентаций наших коллег, во второй половине дня мы могли выбрать определенные курсы и посвятить это время самообучению.

В одной из презентаций мой коллега из Youtube выступал с темой Effective Learning, и разрешил мне поделиться ее вами.

Вначале презентации он ставит три вопроса: Как мне знать что учить? Как мне сохранить полученные знания? Как мне найти время на обучение?

Дальше он рассуждает про то, как устроена память человека. И как человек достигает экспертизы в чем-либо.

И к завершению своей презентации отвечает на три поставленных вопроса.

Последний слайд очень полезный, содержит 3 дополнительных ссылки про эффективное обучение.
Media is too big
VIEW IN TELEGRAM
🔧 Деплой здорового человека.

Много общаюсь с билдерами. Заметил, что многие до сих пор деплоят код руками, используя ssh/scp/ftp/pkill и другой зоопарк низкоуровневых приблуд, о которых им рассказали, скорее всего, в универе.

В итоге они красноглазят девопс руками вместо того, чтобы прогать продукт или общаться с пользователями.

Поэтому неделю назад во время перелета через весь Старый Свет одним дублем записал инструкцию, как настроить автодеплой и забыть.

🔗 Таймкоды:
0:00. Интро
0:15. Эволюция моего внутреннего девопсера
3:57. Король автоматизации деплоя для селфхоста
5:13. 3 демо: деплой базы, проекта с гитхаба и блога в ~1 клик
9:40. Примеры сетапа реальных проектов
10:45 Принципы и выводы

⚠️ Осторожно: видос душный и только для прогеров. Если вы не такой → перешлите таким → бустанёте их продуктивность.
Forwarded from Душный NLP
Впечатления от туториала об оценке моделей на NeurIPS

На повестке — туториал Evaluating Large Language Models — Principles, Approaches, and Applications. Он был посвящён оценке больших языковых моделей (LLMs). Руководитель группы аналитики в Яндексе Анастасия Беззубцева посетила туториал и рассказала, что интересного отметила для себя.

Первую часть представляла продакт-менеджер Google Ирина Сиглер. Она ввела общие понятия и объяснила базовые моменты. Например, о важности валидации на датасете, который репрезентативен реальной бизнес-задаче. Есть три способа собрать валидационное множество заданий для оценки модели:

— Manual — написание промптов вручную;
— Synthetic — генерация промптов с помощью LLM;
— Traffic — использовать продуктовый поток.

По словам Сиглер, важно оценивать систему полностью, а не только LLM под капотом. Сама модель — это всего лишь один кирпичик в общей структуре.

Со второй частью выступала исследовательница и член консультативного совета Центра инноваций в области искусственного интеллекта (CAII) в университете Иллинойса Бо Ли. Она выделила три метода оценки:

— Computation — расчёт схожести между данным ответом и референсным;
— Human — оценка человеком;
— LLM-as-Judge или AutoRater — оценка с помощью модели.

Ли Бо рассказала, что автоматические методы оценки не слишком хорошо коррелируют с человеческими суждениями. Модели могут ошибаться, отдавая предпочтение, например, собственным или самым длинным ответам. Однако использование LLM для оценки становится всё более частым явлением — главное, чтобы полученные результаты валидировали люди. Чтобы нивелировать недостатки способа, на туториале предлагали переставлять опции и искать консенсус между несколькими ответами одной модели или ответами разных.

Этим туториал не ограничился — были еще практическая часть и часть, посвященная соответствию этическим нормам. С презентацией туториала вы можете ознакомиться по этой ссылке.

#YaNeurIPS

Душный NLP
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Топ-9 паттернов для обмена данными и взаимодействия между компонентами/сервисами в распределенных системах

🔹 Peer-to-Peer
🔹 API Gateway
🔹 Pub-Sub
🔹 Request-Response
🔹 Event Sourcing
🔹 ETL
🔹 Batching
🔹 Streaming Processing
🔹 Orchestration

👉 Источник

#инфографика
Forwarded from Start Career in DS
🤖 Собрали для вас несколько роадмэпов по разным областям: Data Analyst, AI and Data Scientist, A/B Testing RoadMap, SQL, Python

Каждый из них содерджит последовательность областей, которые стоит изучить, что начать разбираться в соответствующей профессии

Python Developer - Step by step guide to becoming a Python developer in 2024
SQL Roadmap - Step by step guide to learning SQL in 2024
AI and Data Scientist - Step by step guide to becoming an AI and Data Scientist in 2024
Data Analyst Roadmap - Step by step guide to becoming an Data Analyst in 2024
A/B Testing RoadMap - Пошаговое руководство по проведению А/Б-тестов

Ставьте 🔥 если хотите общий roadmap по Data Science от нашего канала!