HW#5
HW#5
مسئله .2یک ناوبری موفق در این مسئله در شکل 1سمت چپ نشان داده شده است .در هر حالت ،انجام عملی که منجر به
مقصد (مربع سبز) شود ،پاداش rgرا به همراه دارد و دوره را به پایان میرساند .همچنین انجام هر عملی که منجر به موانع
(مربعهای قرمز) شود ،پاداش rrرا به همراه دارد و دوره را به پایان میرساند .در غیر این صورت ،انجام هر عمل که به مربعهای
خاکستری منجر شود ،با rsپاداش همراه است.
شکل( Grid World -1سمت راست) و یک مسیر موفقیتآمیز در ( Grid Worldسمت چپ)
(أ) با استفاده از پیادهسازی الگوریتم تکرار سیاست شامل دو مرحله ارزیابی سیاست و بهبود سیاست و با فرض = 𝑠𝑟
و معیار همگرایی 𝑆 ∈ 𝑠∀ |𝑉𝜋𝑘+1 (𝑠) − 𝑉𝜋𝑘 (𝑠)| < 10−3و 𝛾 = 1و−1و 𝑟𝑔 = +5و 𝑟𝑟 = −5
𝑆 ∈ 𝑠∀ )𝑠( 𝑘𝜋 ≠ )𝑠( ،𝜋𝑘+1سیاست بهینه (مسیر بهینه) با شروع از حالت 2و ۵را به دست آورید (مقادیر اولیه تابع
ارزش حالتها را در ابتدای اجرای الگوریتم 0در نظر بگیرید ).خروجی الگوریتم بایستی شامل مسیر بهینه برای نقاط شروع
( 2و ،)۵توابع ارزش حالت بهینه (به صورت یک آرایه با 3۶درایه و در هر درایه تابع ارزش حالت مربوط به شماره آن حالت)،
توابع ارزش حالت-عمل بهینه (به صورت یک ماتریس با 3۶سطر و 2ستون و در هر درایه تابع ارزش حالت-عمل مربوط به
شماره آن حالت و اندیس عمل مشخص شده) و تعداد گامهای طی شده تا همگرایی توابع ارزش حالت به مقادیر باشد .توجه
نمایید که سیاست ابتدایی در هر حالت از بین اعمال موجود یکی را به صورت کامال تصادفی انتخاب میکند.
(ب) با پیادهسازی الگوریتم تکرار ارزش ،سیاست بهینه (مسیر بهینه) با شروع از حالتهای 2و ۵به صورت دو آرایه
هر یک شامل شماره حالتهای مسیر بهینه برای نقاط شروع (2و ،)۵توابع ارزش حالت بهینه (به صورت یک آرایه با 3۶درایه
و در هر درایه تابع ارزش حالت مربوط به شماره آن حالت) و تعداد گامهای طی شده تا همگرایی توابع ارزش حالت به مقادیر
بهینه را گزارش کرده و با قسمت قبل مقایسه نمایید.
در ادامه به جای یافتن کوتاهترین مسیر بین دو نقطه ،فرض کنید که بنزین خودرو کم باشد .بنابراین در این بخش هدف یافتن
مسیری است که کمترین سوخت را مصرف کند .در دنیای واقعی ،ناوبری بهینهشده برای مصرف سوخت ممکن است گامهای
بیشتری را برای رسیدن به مقصد طی کند .برای این بخش همان MDPرا با دو «عمل کارامد» جدید حرکت به سمت راست
یا پایین در نظر بگیرید( .به عنوان مثال با شروع از حالت ، 3ماشین میتواند به حالت 4یا 9حرکت کند) در این بخش نیز عملها
قطعی بوده و همواره (به جز در هنگام مواجهه با مانع غیر قابل عبور در لبههای ضخیم بیرونی مستطیل) قابل اجرا هستند .همچنین
تالش عامل برای حرکت در جهت مانع از یک مربع خاکستری باعث حرکت اتومبیل به اندازه یک مربع به سمت پایین میگردد
(به عنوان مثال انجام هر عمل از حالت 32موجب حرکت اتومبیل به حالت 33میشود) .به منظور شفافیت بیشتر ،از نمادهای
جداگانه rsبرای پاداش مرتبط با یک عمل ناکارامد (راست و باال یا راست و پایین) و reبرای پاداش مرتبط با یک عمل
کارامد استفاده خواهیم کرد .در تمام سواالت این بخش ضریب تخفیف (تنزیل) را 𝑟𝑔 = +5 ،𝛾 = 1و 𝑟𝑟 = −5فرض
کنید .همچنین پاداش reبه صورت تصادفی از بازه ] 𝑟𝑒 ∈ [−2, −1و پاداش rsاز بازه ] 𝑟𝑠 ∈ [−3, −2تولید میشود.
توجه شود که در این قسمت ،در بعضی حاالت انتخاب یک عمل دو پاداش را به همراه خواهد داشت .به عنوان مثال در حالت
2حرکت (باال-راست) دو پاداش rrو reرا به همراه خواهد داشت که این دو با یکدیگر جمع میشوند.
(ج) با پیادهسازی الگوریتم SARSAو با فرض نرخ یادگیری 𝛼 = 0.05و روش 𝑦𝑑𝑒𝑒𝑟𝑔 𝜖 −با = 𝜖
،0.1سیاست بهینه (مسیر بهینه) با شروع از حالت 2و ۵را طی ۵000اپیزود به دست آورید (مقادیر اولیه تابع ارزش حالتها
را در ابتدای اجرای الگوریتم 0در نظر بگیرید ).خروجی الگوریتم بایستی شامل مسیر بهینه برای نقاط شروع ( 2و ،)۵توابع
ارزش حالت-عمل بهینه (به صورت یک ماتریس با 3۶سطر و 4ستون و در هر درایه تابع ارزش حالت-عمل مربوط به شماره
آن حالت و اندیس عمل مشخص شده) و نمودار میانگین مجموع پاداش های دریافت شده در طی اپیزودهای گذرانده شده
باشد.
(د) با استفاده از پیاده سازی الگوریتم Q-Learningو با پارامترهای یکسان با قسمت (ج) ،سیاست بهینه (مسیر
بهینه) با شروع از حالت 2و ۵را طی ۵000اپیزود به دست آورید (مقادیر اولیه تابع ارزش حالتها را در ابتدای اجرای الگوریتم
0در نظر بگیرید ).خروجی های موردنیاز الگوریتم مانند قسمت (د) میباشد .نتایج بدست آمده در این قسمت را با قسمت (ج)
مقایسه نمایید.