02 Understanding the Data.fa
02 Understanding the Data.fa
مجموعه داده قیمت ماشین کار کرده .مجموعه داده به کار رفته در این دوره یک
است ،که هر CSVمجموعه داده آزاد است ،کار جفری سی اشلمر .این مجموعه داده به فرمت
مقدار را با کاما جدا می کند ،که وارد کردن بیشتر ابزارها یا
برنامه ها را خیلی آسان می کند .هر خط نمایانگر یک ردیف
را CSVدر مجموعه داده است .در آزمایشگاه برای این ماژول ،می توانید فایل
دانلود و استفاده کنید .آیا متوجه تغییری در ردیف اول شدید؟ بعضی وقتها ردیف اول یک
تیتر است ،که شامل یک نام ستون برای
هر 26ستون است .اما در این مثال ،این فقط یک
ردیف دیگر داده است .بنابراین ،در اینجا مستندات هر آنچه
در 26ستون نشان می دهد ،آمده است .ستونهای زیادی وجود دارند و
من فقط نام چند ستون را بررسی می کنم .اما شما هم می توانید
لینک پایین اسالید را چک کنید تا خودتان
مطابق با سطح ریسک بیمه ماشین است، symboling، .توصیفها را تحلیل کنید .اولین ویژگی
در ابتدا به ماشینها یک سمبل عامل ریسک
نسبت داده می شود که با قیمتشان مرتبط است .سپس ،اگر یک خودرو ریسک
بیشتری داشته باشد ،این سمبل با باال رفتن
مقیاس تنظیم می شود .مقدار مثبت سه نشان می دهد
که ریسک خودرو باالست .منهای سه ،یعنی احتماال
متوسط پرداخت خسارت نسبی برای ، normalized-losses،خیلی امن است .ویژگی دوم
هر سال ماشین بیمه شده است .این مقدار برای همه
ماشینها در یک کالس اندازه خاص ،نرمال سازی
می شود ،دو در کوچک ،استیشن ،اسپرت و غیره ،و متوسط خسارت برای هر ماشین
در هر سال را نشان می دهد .مقادیر از 65تا 256متغیر است .ویژگیهای دیگررا راحت تر
می شود فهمید .اگر می خواهد جزییات
بیشتری را چک کنید ،به لینک در پایین اسالید مراجعه کنید .بعد از فهمیدن معنی هر
ویژگی ،متوجه می شویم که 26
ویژگی ،قیمت است .این مقدار هدف یا به عبارت
دیگر برچسب است .این یعنی قیمت ،مقداریست که می خواهیم
از مجموعه داده پیش بینی کنیم و پیش بینی کننده ها باید متغیرهای دیگری
،خسارت نرمال سازی شده symboling،که در لیست آمده اند باشند مانند
ساخت و غیره بنابراین ،هدف از این پروژه
.پیش بینی قیمت بر اساس ویژگیهای دیگر ماشین است
یک نکته سریع .این مجموعه داده در حقیقت
برای سال 1985است .بنابراین ،قیمت ماشین ها برای مدلها
ممکن است کمی پایین باشد .اما به خاطر داشته باشید که هدف این
تمرین یادگرفتن چگونگی تحلیل داده هاست[ .موزیک]