در یادگیری تقویتی، وقتی عامل در یک حالت خاص عملی را انجام می دهد، در مقابل پاداش یا (Reward) دریافت می نماید. در این نوع یادگیری ماشین، تمامی تلاش و هدف عامل این خواهد بود که تا پاداش دریافتی را در دراز مدت به حداکثر برساند. اگرچه هم یادگیری نظارت شده (Supervised Learning) و هم یادگیری تقویتی از نگاشت بین ورودی و خروجی استفاده میکنند، اما در یادگیری تقویتی بر خلاف یادگیری نظارت شده از پاداشها و تنبیهها به عنوان سیگنالهایی برای بهبود عملکرد نهایی سیستم استفاده می شود.
ادامه مطلب ...