HW#5

Uploaded by

Mahbod Sinaki

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

20 views3 pages

HW#5

Uploaded by

Mahbod Sinaki

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

‫"به نام خالق خرد"‬

‫نیم سال اول ‪1401-02‬‬

‫یادگیری ماشین کاربردی‬ ‫دانشکده مهندسی مکانیک‬

‫زمان تحویل‪1401/11/10 :‬‬ ‫یادگیری تقویتی‬ ‫تمرین سری پنجم‬

‫لطفا نکات زیر را رعایت کنید‪:‬‬

‫فایل گزارش به همراه تمامی کدها در یک فایل فشرده و با عنوان ‪ HW#5_STD‬در سایت بارگذاری کنید‪.‬‬
‫بخشهای پیادهسازی مربوط به هر سوال را در فایل مربوطه با شمارهی آن سوال و در پوشهای برای آن سوال قرار دهید‪ .‬برای‬
‫مثال‪ ،‬تمامی بخشهای پیادهسازی سوال اول را در پوشهی ‪ Q1‬و کد مربوط به قسمت ب سوال اول را با نام ‪ Q1_b. py‬و در‬
‫پوشهی ‪ Q1‬قرار دهید‪.‬‬
‫‪------------------------------------------------------------------------------------------------‬‬
‫مسئله ‪ .1‬رهبر یک تیم مسیریابی و برنامهریزی در یک شرکت خودروهای خودران تصمیم گرفته است تا آخرین مشکل‬
‫ناوبری شهری خود را به عنوان یک ‪ MDP‬مدل کند‪ .‬محیط این مسئله به صورت یک ‪ World Grid‬در شکل ‪ 1‬سمت‬
‫راست آورده شده است‪ .‬هر ماشین بایستی در امتداد جاده (مربعهای خاکستری) حرکت کند و در عین حال از ورود به موانع‬
‫(مربعهای قرمز) اجتناب کند تا به مقصد (مربع سبز) برسد‪ .‬از آنجایی که جاده مسدود است‪ ،‬خودرو بایستی هر زمان که تصمیم‬
‫به حرکت به سمت جلو گرفت‪ ،‬خط خود را تغییر دهد‪ .‬این به این معنی است که از هر مربع خاکستری‪ ،‬ماشین میتواند به سمت‬
‫راس ت و باال یا راست و پایین حرکت کند‪( .‬به عنوان مثال با شروع از حالت ‪، 3‬ماشین میتواند به حالت ‪ 8‬یا ‪ 10‬حرکت کند)‬
‫توجه به این نکته ضروری است که دسترسی به مقصد از هر حالت امکانپذیر نخواهد بود و عملها قطعی بوده و همواره (به جز‬
‫در هنگام مواجهه با مانع غیر قابل عبور در لبههای ضخیم بیرونی مستطیل) قابل اجرا هستند‪ .‬همچنین تالش عامل برای حرکت‬
‫در جهت مانع از یک مربع خاکستری باعث حرکت اتومبیل به اندازه یک مربع به سمت باال میگردد‪( .‬به عنوان مثال انجام هر‬
‫عمل از حالت ‪ 32‬موجب حرکت اتومبیل به حالت ‪ 31‬میشود)‬

‫مسئله ‪ .2‬یک ناوبری موفق در این مسئله در شکل ‪ 1‬سمت چپ نشان داده شده است‪ .‬در هر حالت‪ ،‬انجام عملی که منجر به‬
‫مقصد (مربع سبز) شود‪ ،‬پاداش ‪ rg‬را به همراه دارد و دوره را به پایان میرساند‪ .‬همچنین انجام هر عملی که منجر به موانع‬
‫(مربعهای قرمز) شود‪ ،‬پاداش ‪ rr‬را به همراه دارد و دوره را به پایان میرساند‪ .‬در غیر این صورت‪ ،‬انجام هر عمل که به مربعهای‬
‫خاکستری منجر شود‪ ،‬با ‪ rs‬پاداش همراه است‪.‬‬
‫شکل‪( Grid World -1‬سمت راست) و یک مسیر موفقیتآمیز در ‪( Grid World‬سمت چپ)‬

‫(أ) با استفاده از پیادهسازی الگوریتم تکرار سیاست شامل دو مرحله ارزیابی سیاست و بهبود سیاست و با فرض = 𝑠𝑟‬
‫و معیار همگرایی 𝑆 ∈ 𝑠∀ ‪ |𝑉𝜋𝑘+1 (𝑠) − 𝑉𝜋𝑘 (𝑠)| < 10−3‬و‬ ‫‪ 𝛾 = 1‬و‪−1‬و ‪ 𝑟𝑔 = +5‬و ‪𝑟𝑟 = −5‬‬
‫𝑆 ∈ 𝑠∀ )𝑠( 𝑘𝜋 ≠ )𝑠( ‪ ،𝜋𝑘+1‬سیاست بهینه (مسیر بهینه) با شروع از حالت ‪ 2‬و ‪ ۵‬را به دست آورید (مقادیر اولیه تابع‬
‫ارزش حالتها را در ابتدای اجرای الگوریتم ‪ 0‬در نظر بگیرید‪ ).‬خروجی الگوریتم بایستی شامل مسیر بهینه برای نقاط شروع‬
‫(‪ 2‬و ‪ ،)۵‬توابع ارزش حالت بهینه (به صورت یک آرایه با ‪ 3۶‬درایه و در هر درایه تابع ارزش حالت مربوط به شماره آن حالت)‪،‬‬
‫توابع ارزش حالت‪-‬عمل بهینه (به صورت یک ماتریس با ‪ 3۶‬سطر و ‪ 2‬ستون و در هر درایه تابع ارزش حالت‪-‬عمل مربوط به‬
‫شماره آن حالت و اندیس عمل مشخص شده) و تعداد گامهای طی شده تا همگرایی توابع ارزش حالت به مقادیر باشد‪ .‬توجه‬
‫نمایید که سیاست ابتدایی در هر حالت از بین اعمال موجود یکی را به صورت کامال تصادفی انتخاب میکند‪.‬‬
‫(ب) با پیادهسازی الگوریتم تکرار ارزش‪ ،‬سیاست بهینه (مسیر بهینه) با شروع از حالتهای ‪ 2‬و ‪ ۵‬به صورت دو آرایه‬
‫هر یک شامل شماره حالتهای مسیر بهینه برای نقاط شروع (‪2‬و‪ ،)۵‬توابع ارزش حالت بهینه (به صورت یک آرایه با ‪ 3۶‬درایه‬
‫و در هر درایه تابع ارزش حالت مربوط به شماره آن حالت) و تعداد گامهای طی شده تا همگرایی توابع ارزش حالت به مقادیر‬
‫بهینه را گزارش کرده و با قسمت قبل مقایسه نمایید‪.‬‬
‫در ادامه به جای یافتن کوتاهترین مسیر بین دو نقطه‪ ،‬فرض کنید که بنزین خودرو کم باشد‪ .‬بنابراین در این بخش هدف یافتن‬
‫مسیری است که کمترین سوخت را مصرف کند‪ .‬در دنیای واقعی‪ ،‬ناوبری بهینهشده برای مصرف سوخت ممکن است گامهای‬
‫بیشتری را برای رسیدن به مقصد طی کند ‪.‬برای این بخش همان ‪ MDP‬را با دو «عمل کارامد» جدید حرکت به سمت راست‬
‫یا پایین در نظر بگیرید‪( .‬به عنوان مثال با شروع از حالت ‪، 3‬ماشین میتواند به حالت ‪ 4‬یا ‪ 9‬حرکت کند) در این بخش نیز عملها‬
‫قطعی بوده و همواره (به جز در هنگام مواجهه با مانع غیر قابل عبور در لبههای ضخیم بیرونی مستطیل) قابل اجرا هستند‪ .‬همچنین‬
‫تالش عامل برای حرکت در جهت مانع از یک مربع خاکستری باعث حرکت اتومبیل به اندازه یک مربع به سمت پایین میگردد‬
‫(به عنوان مثال انجام هر عمل از حالت ‪ 32‬موجب حرکت اتومبیل به حالت ‪ 33‬میشود)‪ .‬به منظور شفافیت بیشتر‪ ،‬از نمادهای‬
‫جداگانه ‪ rs‬برای پاداش مرتبط با یک عمل ناکارامد (راست و باال یا راست و پایین) و ‪ re‬برای پاداش مرتبط با یک عمل‬
‫کارامد استفاده خواهیم کرد‪ .‬در تمام سواالت این بخش ضریب تخفیف (تنزیل) را ‪ 𝑟𝑔 = +5 ،𝛾 = 1‬و ‪ 𝑟𝑟 = −5‬فرض‬
‫کنید‪ .‬همچنین پاداش ‪ re‬به صورت تصادفی از بازه ]‪ 𝑟𝑒 ∈ [−2, −1‬و پاداش ‪ rs‬از بازه ]‪ 𝑟𝑠 ∈ [−3, −2‬تولید میشود‪.‬‬
‫توجه شود که در این قسمت‪ ،‬در بعضی حاالت انتخاب یک عمل دو پاداش را به همراه خواهد داشت‪ .‬به عنوان مثال در حالت‬
‫‪ 2‬حرکت (باال‪-‬راست) دو پاداش ‪ rr‬و ‪ re‬را به همراه خواهد داشت که این دو با یکدیگر جمع میشوند‪.‬‬
‫(ج) با پیادهسازی الگوریتم ‪ SARSA‬و با فرض نرخ یادگیری ‪ 𝛼 = 0.05‬و روش 𝑦𝑑𝑒𝑒𝑟𝑔 ‪ 𝜖 −‬با = 𝜖‬
‫‪ ،0.1‬سیاست بهینه (مسیر بهینه) با شروع از حالت ‪ 2‬و ‪ ۵‬را طی ‪ ۵000‬اپیزود به دست آورید (مقادیر اولیه تابع ارزش حالتها‬
‫را در ابتدای اجرای الگوریتم ‪ 0‬در نظر بگیرید‪ ).‬خروجی الگوریتم بایستی شامل مسیر بهینه برای نقاط شروع (‪ 2‬و ‪ ،)۵‬توابع‬
‫ارزش حالت‪-‬عمل بهینه (به صورت یک ماتریس با ‪ 3۶‬سطر و ‪ 4‬ستون و در هر درایه تابع ارزش حالت‪-‬عمل مربوط به شماره‬
‫آن حالت و اندیس عمل مشخص شده) و نمودار میانگین مجموع پاداش های دریافت شده در طی اپیزودهای گذرانده شده‬
‫باشد‪.‬‬
‫(د) با استفاده از پیاده سازی الگوریتم ‪ Q-Learning‬و با پارامترهای یکسان با قسمت (ج)‪ ،‬سیاست بهینه (مسیر‬
‫بهینه) با شروع از حالت ‪ 2‬و ‪ ۵‬را طی ‪ ۵000‬اپیزود به دست آورید (مقادیر اولیه تابع ارزش حالتها را در ابتدای اجرای الگوریتم‬
‫‪ 0‬در نظر بگیرید‪ ).‬خروجی های موردنیاز الگوریتم مانند قسمت (د) میباشد‪ .‬نتایج بدست آمده در این قسمت را با قسمت (ج)‬
‫مقایسه نمایید‪.‬‬

‫با آرزوي بهترین ها‬

‫سعيد خدایگان‬

ML HW6
No ratings yet
ML HW6
5 pages
AI Slides
No ratings yet
AI Slides
21 pages
ANN Lecture2
No ratings yet
ANN Lecture2
53 pages
NNDL HW3
No ratings yet
NNDL HW3
13 pages
TSK Modeling
No ratings yet
TSK Modeling
29 pages
Uploading Content
No ratings yet
Uploading Content
54 pages
Chapter
No ratings yet
Chapter
90 pages
(State) : (Reinforcement Learning - RL) - . RL - S0
No ratings yet
(State) : (Reinforcement Learning - RL) - . RL - S0
15 pages
بهینه سازی
No ratings yet
بهینه سازی
6 pages
هوش مصنوعی و الگوریتم
No ratings yet
هوش مصنوعی و الگوریتم
15 pages
Game Theory Problem Set 1
No ratings yet
Game Theory Problem Set 1
7 pages
Chapter 4
No ratings yet
Chapter 4
31 pages
21. برنامه ریزی غیر خطی
No ratings yet
21. برنامه ریزی غیر خطی
7 pages
Final Exam (Malek - 942) & Ans
No ratings yet
Final Exam (Malek - 942) & Ans
7 pages
0e7879c40c5ea277e857001491302f65
No ratings yet
0e7879c40c5ea277e857001491302f65
64 pages
Answer-Assignment3 - Data Structure and Algorithm Design
No ratings yet
Answer-Assignment3 - Data Structure and Algorithm Design
3 pages
Fa IR
No ratings yet
Fa IR
2 pages
Ai P1Q 9831118
No ratings yet
Ai P1Q 9831118
16 pages
Algoritm Design
No ratings yet
Algoritm Design
1 page
4- جستجوی غیرکلاسیک
No ratings yet
4- جستجوی غیرکلاسیک
101 pages
Esmat
No ratings yet
Esmat
29 pages
5deb1df24a483306f6d904ba0a2d4ca6
No ratings yet
5deb1df24a483306f6d904ba0a2d4ca6
146 pages
AA Part04
No ratings yet
AA Part04
52 pages
Report
No ratings yet
Report
22 pages
Assignment3 - Data Structure and Algorithm Design
No ratings yet
Assignment3 - Data Structure and Algorithm Design
2 pages
Instructor: Saeed Shiry
No ratings yet
Instructor: Saeed Shiry
79 pages
2 Bip
No ratings yet
2 Bip
5 pages
Data Science Course
No ratings yet
Data Science Course
25 pages
HW#5
No ratings yet
HW#5
14 pages
NNDL HW1
No ratings yet
NNDL HW1
16 pages
Ai Seminar1 Farsi
No ratings yet
Ai Seminar1 Farsi
37 pages
HW#1 STD
No ratings yet
HW#1 STD
5 pages
RL in Control 14031 Lecture 3
No ratings yet
RL in Control 14031 Lecture 3
117 pages
FDS HW3
No ratings yet
FDS HW3
3 pages
6 DynamicProgramming
No ratings yet
6 DynamicProgramming
6 pages
AI-Chapter 3
No ratings yet
AI-Chapter 3
18 pages
CHAPTER05 Quadratic Prog
No ratings yet
CHAPTER05 Quadratic Prog
8 pages
Project Exercise 1
No ratings yet
Project Exercise 1
1 page
اموزش مطلب
100% (1)
اموزش مطلب
56 pages
1 Intro
No ratings yet
1 Intro
48 pages
DS 1
No ratings yet
DS 1
73 pages
Reinforcement Learning (Agent) (Enivronment)
No ratings yet
Reinforcement Learning (Agent) (Enivronment)
33 pages
ENCE Volume 3 Issue 1 Pages 1-10
No ratings yet
ENCE Volume 3 Issue 1 Pages 1-10
10 pages
Tabu
No ratings yet
Tabu
4 pages
RM - Mousavi@abru - Ac.ir Goodarzimr@yazd - Ac.ir
No ratings yet
RM - Mousavi@abru - Ac.ir Goodarzimr@yazd - Ac.ir
16 pages
مهدزاود ۀیاپ هطسوتم مود ۀرود شنادراک:ۀخاش تعنص: ۀنیمز کیناکم یلیصحت هورگ CNC یراکشارت ، CNC یراکزرف:یتراهم یاه هتشر CNC سیون همانرب:انبم یتراهم درادناتسا مان 0-84/52/1/3:یلوتم درادناتسا دک
No ratings yet
مهدزاود ۀیاپ هطسوتم مود ۀرود شنادراک:ۀخاش تعنص: ۀنیمز کیناکم یلیصحت هورگ CNC یراکشارت ، CNC یراکزرف:یتراهم یاه هتشر CNC سیون همانرب:انبم یتراهم درادناتسا مان 0-84/52/1/3:یلوتم درادناتسا دک
105 pages
AI
No ratings yet
AI
349 pages
DLD HW3
No ratings yet
DLD HW3
5 pages
فصل پنجم
100% (4)
فصل پنجم
56 pages
3- جستجو
No ratings yet
3- جستجو
103 pages
NNDL HW2
No ratings yet
NNDL HW2
11 pages
ML HW#5
No ratings yet
ML HW#5
7 pages
فایل ارائه
No ratings yet
فایل ارائه
11 pages
Artificial Intelligence
No ratings yet
Artificial Intelligence
33 pages
CA3 Report 40103904
No ratings yet
CA3 Report 40103904
3 pages