📌Книга "Обучение с подкреплением: Основы"Хороших книг по обучению с подкреплением (Reinforcement Learning, RL) уже выпущено достаточно, однако есть пробел между продвинутыми учебниками, в которых основное внимание уделяется одному или нескольким аспектам, и более общими книгами, в которых предпочтение отдается удобочитаемости, а не сложности. 
Авторы книги, люди с опытом работы в CS и инжиниринга, подают тему RL в строгом и академическом стиле. 
Книга основана на конспектах лекций для углубленного курса бакалавриата, который преподается авторами в Тель-Авивском университете.
К этой книге дополнительно 
идет брошюра с упражнениями и экзаменационными вопросами, которые помогут освоить материал книги на практике. Эти упражнения разрабатывались на протяжении нескольких лет.
Математическая модель книги - Марковский процесс принятия решений (Markov Decision Process, 
MDP). Основное внимание уделяется: последовательному принятию решений, выбору действий, долгосрочному эффекту от этих действий и разница между немедленным вознаграждением и долгосрочной выгодой.
Тематически книга состоит из двух частей – "Планирование" и "Обучение".
▶️ Раздел "Планирование" - основы принятия оптимальных решений в условиях неопределенности в соответствии с 
MDP.  
🟢Глава 2. Обоснование модели 
MDP и ее связь с другими моделями. 
🟢Глава 3. Основные алгоритмические идеи в детерминированной постановке.
🟢Глава 4. Цепи Маркова, на которых основана 
MDP.
🟢Глава 5. Модель 
MDP с конечным горизонтом и фундаментальный подход к динамическому программированию. 
🟢Глава 6. Дисконтированная настройка с бесконечным горизонтом.
🟢Глава 7. Эпизодическая настройка. 
🟢Глава 8. Альтернативный подход к решению 
MDP с использованием формулировки линейного программирования.
▶️ Раздел "Обучение" - принятие решений, когда модель 
MDP неизвестна заранее. 
🟠Глава 9. Описание и мотивация модели обучения и ее связь с альтернативами при принятии решений.
🟠Глава 10. Подход, основанный на моделях, при котором агент явно изучает модель 
MDP на основе своего опыта и использует ее для принятия решений по планированию.
🟠Глава 11. Альтернативный подход без использования моделей, при котором решения принимаются без явного построения модели. 
🟠Глава 12. Изучение приблизительно оптимальных решений крупных задач с использованием аппроксимации функции стоимости.
🟠Глава 13 Решение крупных задач с использованием методов градиентной политики. 
🟠Глава 14. Особый случай на примере игровых автоматов, как 
MDP с единым состоянием и неизвестными наградами, и онлайн-характер принятия решений.
🟡Сайт учебника🟡Читать@ai_machinelearning_big_data#AI #ML #RL #MDP #Book