03_data-formatting-in-python.fa
03_data-formatting-in-python.fa
به مشکل داده با فرمت ها ،واحدها و قرار دادهای مختلف و متدهای پانداس
که کمک می کند این مشکالت را حل کنیم .داده ها معموال از جاهای
مختلف توسط افراد مختلف جمع آوری می شوند که ممکن است
به فرمت های مختلف دخیره شوند .فرمت کردن داده یعنی تبدیل داده ها
به یک عبارت استاندارد مشترک که به کاربر اجازه می دهد تا
مقایسه های معنی دار انجام دهد .به عنوان بخشی از پاک سازی داده ها ،فرمت کردن داده
ها تضمین می کند که داده ها
یکنواخت بوده و به راحتی قابل فهم باشند .برای مثال ،مردم ممکن است ازعبارتهای مختلفی
Yبزرگ و ، Nکوچک yبزرگ و ، Nبزرگ Yو Nبرای نوشتن شهر نیویورک استفاده کنند ،مانند
گاهی اوقات ،خوب است این New York.بزرگ و
داده های نا هماهنگ را ببینیم .برای مثال ،اگر به راههای مختلفی که مردم
تمایل دارند نیویورک را بنویسند ،نگاه کنیم ،پس این دقیقا داده ایست که نیاز دارید.
یا اگر به دنبال راههایی
برای پیش بینی یک بی نظمی محمل تر است تا .N.Yبرای پیدا کردن تقلب هستید ،شاید نوشتن
New Yorkاینکه کسی
را به صورت کامل بنویسد .اما شاید در بیشتر مواقع ،فقط به سادگی می خواهیم با آنها به
صورت موجودی یا فرمت یکسان رفتار کنیم تا تحلیل های
آماری را ساده تر کنیم .با مراجعه به مجموعه داده
city-miles per gallonماشینهای کار کرده ،یک ویژگی به نام
در مجموعه داده هست ،که به مصرف سوخت ماشین در
واحد مایل بر گالن اشاره دارد .با این همه ،ممکن است در کشوری
باشید که ازواحدهای متریک استفاده می شود .بنابراین ،باید این مقادیر را به لیتر بر
100کیلومتر ،نسخه متریک تبدیل کنید .برای تبدیل مایل بر گالن به
لیتر بر 100کیلومتر ،باید 235را بر هر مقدار در ستون
تقسیم کنیم .در پایتون ،این کار به سادگی با city-miles per gallon
یک خط کد انجام می شود .ستون را انتخاب می کنید و
city-آنرا معادل 235تقسیم بر کل ستون تنظیم می کنید .در خط دوم کد ،نام ستون را از
city-liters per 100 kilometersبه miles per gallon
به چند دلیل ،شامل وقتیکه یک مجموعه داده rename.تغییر نام دهید با استفاده از متد
را به پایتون وارد می کنید ،نوع داده ممکن است به
اشتباه ایجاد شده باشد .برای مثال ،اینجا متوجه شدیم که نوع داده
اختصاص داده شده به ویژگی قیمت ،شی است .در حالیکه انتظار می رفت نوع داده
یک عدد صحیح یا اعشاری باشد .برای تحلیل های بعدی مهم است
که نوع داده ویژگی را بررسی کنید و آنها را به
انواع داده درست تبدیل کنید .در غیر این صورت ،مدلهای توسعه یافته
بعدی ممکن است رفتار عجیبی داشته باشند ،و ممکن است با داده کامال درست
مانند یک داده گمشده شده رفتار شود .انواع مختلف داده ها در پانداس وجود دارد .اشیا
اعداد صحیح و . Int64می توانند حروف یا کلمات باشند
اعداد حقیقی هستند .بعضی دیگر هم وجود دارند که ما floats
در مورد آنها صحبت نمی کنیم .برای تشخیص نوع داده ویژگیها ،در پایتون می توانیم از
متد
استفاده کنیم و نوع داده هر متغیر را در dataframe.dtypes
dataframe.astypeدیتا فریم بررسی کنیم .در مورد نوع داده اشتباه ،متد
می تواند استفاده شود تا یک نوع داده را از یک فرمت
به فرمت دیگر تبدیل کند .برای مثال ،استفاده از
برای ستون قیمت ،می توانید ستون شی را به یک متغیر astype int
.از نوع عدد صحیح تبدیل کنید