0% found this document useful (0 votes)
1 views

03_data-formatting-in-python.fa

Uploaded by

zackgtay
Copyright
© © All Rights Reserved
Available Formats
Download as TXT, PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
1 views

03_data-formatting-in-python.fa

Uploaded by

zackgtay
Copyright
© © All Rights Reserved
Available Formats
Download as TXT, PDF, TXT or read online on Scribd
You are on page 1/ 1

‫در این ویدیو‪ ،‬نگاهی می اندازیم‬

‫به مشکل داده با فرمت ها‪ ،‬واحدها و قرار دادهای مختلف و متدهای پانداس‬
‫که کمک می کند این مشکالت را حل کنیم‪ .‬داده ها معموال از جاهای‬
‫مختلف توسط افراد مختلف جمع آوری می شوند که ممکن است‬
‫به فرمت های مختلف دخیره شوند‪ .‬فرمت کردن داده یعنی تبدیل داده ها‬
‫به یک عبارت استاندارد مشترک که به کاربر اجازه می دهد تا‬
‫مقایسه های معنی دار انجام دهد‪ .‬به عنوان بخشی از پاک سازی داده ها‪ ،‬فرمت کردن داده‬
‫ها تضمین می کند که داده ها‬
‫یکنواخت بوده و به راحتی قابل فهم باشند‪ .‬برای مثال‪ ،‬مردم ممکن است ازعبارتهای مختلفی‬
‫‪ Y‬بزرگ و ‪، N‬کوچک ‪ y‬بزرگ و ‪، N‬بزرگ ‪ Y‬و ‪ N‬برای نوشتن شهر نیویورک استفاده کنند‪ ،‬مانند‬
‫گاهی اوقات‪ ،‬خوب است این ‪ New York.‬بزرگ و‬
‫داده های نا هماهنگ را ببینیم‪ .‬برای مثال‪ ،‬اگر به راههای مختلفی که مردم‬
‫تمایل دارند نیویورک را بنویسند‪ ،‬نگاه کنیم‪ ،‬پس این دقیقا داده ایست که نیاز دارید‪.‬‬
‫یا اگر به دنبال راههایی‬
‫برای پیش بینی یک بی نظمی محمل تر است تا ‪ .N.Y‬برای پیدا کردن تقلب هستید‪ ،‬شاید نوشتن‬
‫‪ New York‬اینکه کسی‬
‫را به صورت کامل بنویسد‪ .‬اما شاید در بیشتر مواقع‪ ،‬فقط به سادگی می خواهیم با آنها به‬
‫صورت موجودی یا فرمت یکسان رفتار کنیم تا تحلیل های‬
‫آماری را ساده تر کنیم‪ .‬با مراجعه به مجموعه داده‬
‫‪ city-miles per gallon‬ماشینهای کار کرده‪ ،‬یک ویژگی به نام‬
‫در مجموعه داده هست‪ ،‬که به مصرف سوخت ماشین در‬
‫واحد مایل بر گالن اشاره دارد‪ .‬با این همه‪ ،‬ممکن است در کشوری‬
‫باشید که ازواحدهای متریک استفاده می شود‪ .‬بنابراین‪ ،‬باید این مقادیر را به لیتر بر‬
‫‪ 100‬کیلومتر‪ ،‬نسخه متریک تبدیل کنید‪ .‬برای تبدیل مایل بر گالن به‬
‫لیتر بر ‪ 100‬کیلومتر‪ ،‬باید ‪ 235‬را بر هر مقدار در ستون‬
‫تقسیم کنیم‪ .‬در پایتون‪ ،‬این کار به سادگی با ‪city-miles per gallon‬‬
‫یک خط کد انجام می شود‪ .‬ستون را انتخاب می کنید و‬
‫‪ city-‬آنرا معادل ‪ 235‬تقسیم بر کل ستون تنظیم می کنید‪ .‬در خط دوم کد‪ ،‬نام ستون را از‬
‫‪ city-liters per 100 kilometers‬به ‪miles per gallon‬‬
‫به چند دلیل‪ ،‬شامل وقتیکه یک مجموعه داده ‪ rename.‬تغییر نام دهید با استفاده از متد‬
‫را به پایتون وارد می کنید‪ ،‬نوع داده ممکن است به‬
‫اشتباه ایجاد شده باشد‪ .‬برای مثال‪ ،‬اینجا متوجه شدیم که نوع داده‬
‫اختصاص داده شده به ویژگی قیمت‪ ،‬شی است‪ .‬در حالیکه انتظار می رفت نوع داده‬
‫یک عدد صحیح یا اعشاری باشد‪ .‬برای تحلیل های بعدی مهم است‬
‫که نوع داده ویژگی را بررسی کنید و آنها را به‬
‫انواع داده درست تبدیل کنید‪ .‬در غیر این صورت‪ ،‬مدلهای توسعه یافته‬
‫بعدی ممکن است رفتار عجیبی داشته باشند‪ ،‬و ممکن است با داده کامال درست‬
‫مانند یک داده گمشده شده رفتار شود‪ .‬انواع مختلف داده ها در پانداس وجود دارد‪ .‬اشیا‬
‫اعداد صحیح و ‪. Int64‬می توانند حروف یا کلمات باشند‬
‫اعداد حقیقی هستند‪ .‬بعضی دیگر هم وجود دارند که ما ‪floats‬‬
‫در مورد آنها صحبت نمی کنیم‪ .‬برای تشخیص نوع داده ویژگیها‪ ،‬در پایتون می توانیم از‬
‫متد‬
‫استفاده کنیم و نوع داده هر متغیر را در ‪dataframe.dtypes‬‬
‫‪ dataframe.astype‬دیتا فریم بررسی کنیم‪ .‬در مورد نوع داده اشتباه‪ ،‬متد‬
‫می تواند استفاده شود تا یک نوع داده را از یک فرمت‬
‫به فرمت دیگر تبدیل کند‪ .‬برای مثال‪ ،‬استفاده از‬
‫برای ستون قیمت‪ ،‬می توانید ستون شی را به یک متغیر ‪astype int‬‬
‫‪.‬از نوع عدد صحیح تبدیل کنید‬

You might also like