06 Prediction and Decision Making - Fa
06 Prediction and Decision Making - Fa
پیش بینی و تصمیم گیری خواهد بود .چطور تشخیص دهیم که مدل ما درست است؟ اولین کاری که
باید انجام دهید این است که مطمئن
شوید نتایج مدل شما معنی دار است .همیشه باید از تجسم داده ها ،اندازه های عددی برای
،ارزیابی
و مقایسه بین مدلهای مختلف استفاده کرد .بیایید مثالی از پیش بینی را ببینیم .اگر به
خاطر بیاورید
آموزش دادیم .حال ،می خواهیم ببینیم که قیمت ماشینی که fitمدل را با استفاده از متد
مایل
در هر گالن در بزرگراه آن 30است ،چقدر است .وارد کردن این مقدار در
،قیمت 13،771.30را نتیجه می دهد .به نظر منطقی می رسد .برای مثال predictمتد
coef_attribute،مقدار منفی ،خیلی باال ،یا خیلی پایین نیست .می توانیم با بررسی
ضرایب را بررسی کنیم .اگر عبارت مدل خطی ساده را به خاطر بیاورید که قیمت را بر
اساس مایل در هر گالن دربزرگراه پیش بینی می کرد ،این مقدارمطابق است با چند ویژگی
مایل در هر گالن دربزرگراه ،مانند افزایش یک واحد در مایل
.در هر گالن در بزرگراه .ارزش ماشین تقریبا 821دالر کاهش می یابد
این مقدار هم منطقی به نظر می رسد گاهی اوقات مدل شما مقادیری را
تولید می کند که منطقی نیستند .برای مثال ،اگر مدل را برای مایل در هر گالن
دربزرگراه در محدوده 0تا 100رسم کنیم ،مقدار منفی برای قیمت به دست می آوریم .این
بدین دلیل
است که مقادیر در آن محدوده واقعی نیستند .فرضیه خطی نادرست است یا داده هایی برای
ماشینها در این محدوده نداریم .در این مورد بعید به نظر می رسد که یک ماشین در آن
محدوده ،سنجش
سوخت بر مایل داشته باشد ،پس مدل ما به نظرمعتبراست .برای ایجاد یک توالی از ارزشها
در یک
محدوده مشخص ،نامپای را وارد کنید سپس از
نامپای استفاده کنید تا توالی را ایجاد کنید .توالی از 1شروع می شود arrangeتابع
.و یکی یکی اضافه می شود تا به 100برسیم .اولین پارامتر نقطه شروع توالی است
پارامتر دوم نقطه پایانی توالی به عالوه یک است .پارامتر آخر
اندازه گام بین مولفه هه در توالی است .در این مورد [گام] یک است پس توالی را یک گام
در هر
زمان اضافه می کنیم .از یک به دو و به همین ترتیب .می توانیم از خروجی برای پیش بینی
.مقادیر جدید استفاده کنیم
خروجی یک آرایه نامپای است .خیلی از مقادیر منفی هستند .استفاده از نمودار رگرسیون
برای
تجسم داده هایتان اولین متدیست که باید امتحان کنید .برای دیدن مثالهایی از چگونگی
رسم نمودارهای
رگرسیون چند جمله ای به آزمایشگاه مراجعه کنید .برای این مثال اثر متغیر مستقل
در این مورد مشهود است .روند داده ها با افزایش متغیر وابسته ،رو به پایین است.
نمودار
هم بعضی رفتارهای غیر خطی را نشان می دهد .با بررسی نمودار باقیمانده می بینیم که
در این مورد یک رفتار منحنی وار غیر خطی دارد .یک نمودار توزیع ،روشی
مناسب برای رگرسیون خطی چندگانه است .برای مثال ،می بینیم مقادیر پیش بینی شده
برای قیمت ها در محدوده سی هزار تا پنجاه هزار نادرست هستند .این پیشنهاد می کند که
یک مدل غیر خطی
ممکن است مناسب تر باشد یا داده های بیشتری در این محدوده نیاز داریم .خطای مربع
میانگین
شاید بهترین اندازه عددی برای تعیین خوب یا بد بودن مدل باشد .بیایید ببینیم چگونه
اندازه های
مختلف خطای میانگین مربعات بر مدل تاثیر می گذارد .شکل ،مثالی را نشان می دهد که خطای
میانگین
مربعات 3495است .در این مثال خطای میانگین مربعات 3652است .در نمودار نهایی
،خطای میانگین مربعات 12870است .همچنان که خطای مربعات افزایش می یابد
روش Rهدف از نقطه پیش بینی شده دورتر می شود .همانطور که قبال گفتیم مربع
.معروف دیگری برای ارزیابی مدل شماست .به شما می گوید خط شما چقدر با مدل تناسب دارد
به ما می گوید که چه درصدی از Rاز صفر تا یک تغییر می کند .مربع Rمقدار مربع
تغییر پذیری در متغیر وابسته توسط رگرسیون ،نسبت به متغیر مستقل حساب می شود .اگر
یک باشد یعنی که همه حرکات متغیر وابسته دیگر کامال با حرکات متغیر های Rمربع
مستقل توضیح داده می شوند .در این نمودار نقاط هدف را با قرمز و
آن 0.9986است .ظاهرا مدل Rخط پیش بینی شده را با آبی می بینیم .مربع
برازش خوبی دارد .یعنی بیش از %99از تغییر پذیری متغیر پیش بینی شده با متغیرهای
این مدل 0.9226است .هنوز هم مدل خطی قوی Rمستقل پیش بینی شده است .مربع
مقدار 0.806باشد می توانیم در Rوجود دارد و هنوز برازش خوبی است .و وقتی مربع
تصویر ببینیم که مقادیر در اطراف خط پخش شده اند .آنها هنوز نزدیک به خط هستند و
می توانیم بگوییم که 80درصد تغییر پذیری متغیر پیش بینی شده با متغیرهای مستقل توضیح
داده
مقدار 0.61باشد یعنی که تقریبا 61درصد تغییر مشاهده شده را Rمی شود .و وقتی مربع
به این بستگی Rمی توان با متغیرهای مستقل توضیح داد .یک مقدار قابل قبول برای مربع
دارد که
در چه حوزه ای مطالعه می کنید و مورد استفاده شما چیست .فالکون میلر 1992پیشنهاد می
کند
باید حداقل 0.1باشد .آیا یک خطای میانگین مربعات کمتر Rکه یک مقدار قابل قبول مربع
منجر به برازش بهتری
هستند .چون خطاهای SLRبرای مدل MSEکوچکتر از MLRو MSE4می شود؟ نه الزامًا .مدل های
داده ها
کاهش پیدا می کنند وقتی متغیرهای بیشتری در مدل وجود دارد .رگرسیون چند جمله ای
کمتری نسبت به رگرسیون معمولی دارد .در قسمت بعدی به راههای دقیق تری MSEهم
.برای ارزیابی مدل می پردازیم