📌Книга "Обучение с подкреплением: Основы"Хороших книг по обучению с подкреплением (Reinforcement Learning, RL) уже выпущено достаточно, однако есть пробел между продвинутыми учебниками, в которых основное внимание уделяется одному или нескольким аспектам, и более общими книгами, в которых предпочтение отдается удобочитаемости, а не сложности.
Авторы книги, люди с опытом работы в CS и инжиниринга, подают тему RL в строгом и академическом стиле.
Книга основана на конспектах лекций для углубленного курса бакалавриата, который преподается авторами в Тель-Авивском университете.
К этой книге дополнительно
идет брошюра с упражнениями и экзаменационными вопросами, которые помогут освоить материал книги на практике. Эти упражнения разрабатывались на протяжении нескольких лет.
Математическая модель книги - Марковский процесс принятия решений (Markov Decision Process,
MDP). Основное внимание уделяется: последовательному принятию решений, выбору действий, долгосрочному эффекту от этих действий и разница между немедленным вознаграждением и долгосрочной выгодой.
Тематически книга состоит из двух частей – "Планирование" и "Обучение".
▶️ Раздел "Планирование" - основы принятия оптимальных решений в условиях неопределенности в соответствии с
MDP.
🟢Глава 2. Обоснование модели
MDP и ее связь с другими моделями.
🟢Глава 3. Основные алгоритмические идеи в детерминированной постановке.
🟢Глава 4. Цепи Маркова, на которых основана
MDP.
🟢Глава 5. Модель
MDP с конечным горизонтом и фундаментальный подход к динамическому программированию.
🟢Глава 6. Дисконтированная настройка с бесконечным горизонтом.
🟢Глава 7. Эпизодическая настройка.
🟢Глава 8. Альтернативный подход к решению
MDP с использованием формулировки линейного программирования.
▶️ Раздел "Обучение" - принятие решений, когда модель
MDP неизвестна заранее.
🟠Глава 9. Описание и мотивация модели обучения и ее связь с альтернативами при принятии решений.
🟠Глава 10. Подход, основанный на моделях, при котором агент явно изучает модель
MDP на основе своего опыта и использует ее для принятия решений по планированию.
🟠Глава 11. Альтернативный подход без использования моделей, при котором решения принимаются без явного построения модели.
🟠Глава 12. Изучение приблизительно оптимальных решений крупных задач с использованием аппроксимации функции стоимости.
🟠Глава 13 Решение крупных задач с использованием методов градиентной политики.
🟠Глава 14. Особый случай на примере игровых автоматов, как
MDP с единым состоянием и неизвестными наградами, и онлайн-характер принятия решений.
🟡Сайт учебника🟡Читать@ai_machinelearning_big_data#AI #ML #RL #MDP #Book