Tensorflow(@CVision)
DeepMindNature14236Paper.pdf
احتمالا قبلا در مورد هوش مصنوعی ای که بازی شطرنج بازی میکرد و اکثر بازیکنان حرفه ای شطرنج را برده شنیده اید! اما حقیقت این است که آن هوش مصنوعی تنها قادر بود شطرنج بازی کند و در واقع فقط برای آن بازی آموزش دیده بود و توانایی هیچ کار دیگری نداشت!
محققان گوگل در مقاله ی سال 2015 نیچر با استفاده از ایده ی #یادگیری_تقویتی شبکه عصبی طراحی کردند که قادر بود که خودش بازی ها را یاد بگیرد!
این هوش مصنوعی که به عنوان ورودی صفحه RGB بازی و به عنوان پاداش امتیاز کسب شده از بازی را دریافت میکرد، با 50 بازی آتاری تست شد و نتایج اعجاب انگیزی داشت!
نکته ی جالب این بود یک ساختار شبکه، توانسته بود خودش هر یک از بازی های آتاری را بیاموزد و در بسیاری از بازی ها از بهترین بازیکن ها ی این بازی ها بهتر بازی کند.
ویدیو نتایج بازی منتشر شده توسط google deepmind:
https://youtu.be/TmPfTpjtdgg
یا
http://deepnn.ir/tensorflow-telegram-files/DQN%20Breakout.mp4
با استفاده از ایدهی #یادگیری_تقویتی، نیاز به داده هایی که انسان در آن دست برده کم تر شده و مدل یا ربات میتواند خودش از دنیای پیرامون اطلاعات کسب کند. در این نوع یادگیری در نهایت تنها پاداش به مدل داده میشود.
#reinforcement_learning #rl #deepmind #atari
محققان گوگل در مقاله ی سال 2015 نیچر با استفاده از ایده ی #یادگیری_تقویتی شبکه عصبی طراحی کردند که قادر بود که خودش بازی ها را یاد بگیرد!
این هوش مصنوعی که به عنوان ورودی صفحه RGB بازی و به عنوان پاداش امتیاز کسب شده از بازی را دریافت میکرد، با 50 بازی آتاری تست شد و نتایج اعجاب انگیزی داشت!
نکته ی جالب این بود یک ساختار شبکه، توانسته بود خودش هر یک از بازی های آتاری را بیاموزد و در بسیاری از بازی ها از بهترین بازیکن ها ی این بازی ها بهتر بازی کند.
ویدیو نتایج بازی منتشر شده توسط google deepmind:
https://youtu.be/TmPfTpjtdgg
یا
http://deepnn.ir/tensorflow-telegram-files/DQN%20Breakout.mp4
با استفاده از ایدهی #یادگیری_تقویتی، نیاز به داده هایی که انسان در آن دست برده کم تر شده و مدل یا ربات میتواند خودش از دنیای پیرامون اطلاعات کسب کند. در این نوع یادگیری در نهایت تنها پاداش به مدل داده میشود.
#reinforcement_learning #rl #deepmind #atari
YouTube
DQN Breakout
This video illustrates the improvement in the performance of DQN over training (i.e. after 100, 200, 400 and 600 episodes). After 600 episodes DQN finds and exploits the optimal strategy in this game, which is to make a tunnel around the side, and then allow…