01 Preprocessing - Selected - Farsi
01 Preprocessing - Selected - Farsi
پویا حسینپور
عضو هیات علمی دانشکده مهندسی صنایع و سیستمهای مدیریت
دانشگاه صنعتی امیرکبیر
1
پیش پردازش داده
2
پیش پردازش داده
3
پیش پردازش داده
خالصه ◼
4
کیفیت داده :چرا به پیش پردازش نیاز داریم؟
شاخصههای کیفیت داده :با داشتن یک نگاه چند جانبه و مجموعه ای از ویژگی های زیر در داده ها ،میتوان داده با ◼
مثال :اگر برای درآمد مقداری منفی ثبت شود ،دیتای نادرست خواهیم داشت. ◼
کامل بودن :موجود هست یا نیست؟ ضبط شده است یا نشده است؟ ◼
بهنگام بودن :به زمان وابسته هستند و اینکه بدانیم کدام داده ها در چه زمانی ثبت شده اند. ◼
مثال :اینکه حقوق ثبت شده برای افراد به تفکیک ماه وجود داشته و مشخص باشد. ◼
مثال :شناسایی داده پرت با اطالع از میانگین و ورایانس .برای مثال حساب بانکی چندهزاردالری برای یک نوجوان ◼
تفسیر پذیری :دادهها به چه میزان از دید کاربر قابل فهم هستند؟ ◼
5
کارهای اصلی در پیش پردازش داده
پر کردن مقادیر دادههای گمشده ( ،)missing valuesهموار کردن دادههای نویزدار ( ،)noisy dataشناسایی یا ◼
الحاق و یکپارچه کردن چندین منبع به درون یک مخزن دادههای منسجم مانند انبار دادهها ◼
تبدیل داده های حجیم به داده های با حجم کمتر جهت پردازش و نگهداری بهتر
6
پیش پردازش داده
خالصه ◼
7
پاکسازی داده
داده در دنیای واقعی ،کثیف و نامرتب است و هزاران داده بالقوه نادرست وجود دارد که باید برای استفاده آماده ◼
شوند .برای مثال داده هایی که بدلیل ابزار معیوب ،خطای ناشی از انسان یا کامپیوتر و یا خطای ناشی ازنحوه انتقال
نادرست ،اشتباه ثبت شده اند.
ناتمام :کمبود مقادیر برخی از مشخصهها ،کمبود برخی از مشخصههای مورد عالقه یا وجود تنها دادههای کلی ◼
درآمد=( -10خطا) (که البته در برخی کتب این مورد را نویز در نظر نگرفته و بعنوان داده غلط درنظر ◼
می گیرند).
ناسازگاری :اختالفات در کدگذاری یا اسامی را ناسازگاری گویند. ◼
عمدی (دادههای ازبین رفته پنهان) :برخی داده ها بصورت عمدی اشتباه ثبت می شود و بین بسیاری افراد ◼
رایج است.
بسیاری از افراد در فرم های مختلف تاریخ تولد را 1فروردین انتخاب می کنند. ◼
8
داده گمشده )(Missing Data
برای مثال :برای خیلی از مشخصههای هر سطر دادههای ما (تاپل) ،همانند میزان ◼
به دلیل ناسازگاری با سایر دادههای ثبت شده حذف شده باشد ◼
داده به دلیل سوء تفاهم یا اشتباه فهمیدن وارد نشده است ◼
کم اهمیت در نظر گرفتن برخی دادهها و در نتیجه وارد نکردن آنان ◼
9
چگونه با دادههای گمشده برخورد کنیم؟
چشم پوشی از سطری (تاپلی) که داده گمشده دارد :معموالً زمانی انجام میشود که برچسب ( )labelیک ◼
کالس مشخص نباشد (در زمان انجام طبقه بندی) .این عمل در زمانی که درصد دادههای گمشده به ازای
هر مشخصه به طور قابل توجهی متفاوت است ،موثر نیست.
پر کردن مقادیر دادههای گمشده به صورت دستی :خسته کننده و نشدنی! ◼
یک ثابت سراسری :برای مثال “گمشده” به عنوان یک کالس جدید از داده ها ◼
میانگین هر مشخصه را به جای هر داده گمشده در آن مشخصه بگذاریم :برای مثال معدل کل افراد ◼
کالس را به ازای هر فردی که معدلش را نداریم (فارغ از اینکه داده گمشده به کدام دسته تعلق
دارد)
میانگین مشخصه دادههای یک کالس را به جای داده گمشده آن مشخصه بگذاریم :برای مثال معدل ◼
افراد درسخوان برای یک فرد درسخوان دیگر که معدلش را نداریم .این روش از روش قبلی
هوشمندانهتر است.
محتمل ترین مقدار :بر اساس روشهایی همانند فرمول بیز یا درخت تصمیم گیری ◼
10
دادههای نویز دار
نویز :معموال خطاهای تصادفی یا واریانس موجود در داده ها را نویز میگوییم. ◼
مثال :تغییر نام جداول و یا فیلد ها (تغییر از تحصیالت به آخرین مدرک تحصیلی) ◼
◼ رکوردهای تکراری
برای مثال داده های مربوط به وضعیت بیماران در صدم ثانیه ثیت میشده است اما این زمان به ثانیه ◼
تغییر کرده و در نتیجه برای داده های قدیمی به ازای هر ثانیه مقادیر تکراری داریم.
دادههای ناقص ◼
◼ در ابتدا دادهها را مرتب میکنیم .سپس آنها را در داخل بستهها یا بینها تقسیم
میکنیم (با تناوب (فرکانس) یکسان)
◼ سپس میتوانیم دادههای یک بسته را با استفاده از میانگین ( ،)meanمیانه
( )medianیا مقدار کرانی ( )boundaryبستهها هموار کنیم.
رگرسیون ◼
12
پاکسازی داده به عنوان یک فرآیند
تشخیص انحراف داده ◼
◼ استفاده از فراداده ( )metadataیا دانش ما درباره خصوصیات داده (برای مثال دامنه ،طیف ،وابستگی ،توزیع)
◼ بررسی چندکارگی مشخصه()field
◼ بررسی قواعد یکتایی ،قواعد پیدرپی بودن و قاعدهی تهی()Null
◼ استفاده از ابزارهای تجاری
◼ ابزارهای شست و شو و سایش داده :استفاده از دامنه دانش سادهای (به عنوان مثال دانشی درباره
آدرسهای پستی ،اشتباهات امالیی) برای تشخیص خطا و اصالح آن
◼ ابزارهای حسابرسی دادهها :با استفاده از آنالیز داده برای کشف قواعد و قوانین موجود در دادهها و کشف
آنهایی که این قواعد و قوانین را نقض میکنند (برای مثال استفاده از همبستگی یا خوشه بندی برای
کشف دادههای پرت)
ابزارهای مهاجرت و تبدیل داده ◼
◼ ابزارهای مهاجرت داده :اجازه میدهد تبدیلها مشخص باشد (برای مثال جایگزینی genderبا )sex
◼ ابزار ( ETLاستخراج/تبدیل/بارگذاری) :به کاربران اجازه میدهند تا تبدیل ها را از طریق یک واسط گرافیکی
مشخص کنند.
ادغام دو فرآیند ◼
13
پیش پردازش داده
خالصه ◼
14
یکپارچه سازی دادهها
یکپارچه سازی: ◼
یکپارچه سازی شِما (اِسکیما) :برای مثال ( A.cust-id B.cust-numberظاهر فیلدها یکدست ◼
باشد)
یکپارچه کردن فرادادهها از منابع مختلف ◼
شناسایی موجودیتهای دنیای واقعی از منابع داده مختلف .برای مثال: ◼
( Bill Clinton = William Clintonهر دو موجودیت یکسان است و باید آن ها را شناخت).
شناسایی و حل تضادهای مقادیر داده ها ◼
مقادیر مشخصهها برای یک موجودیت یکسان در دنیای واقعی در منابع مختلف ،تفاوت دارد. ◼
دالیل احتمالی :نحوه نمایش متفاوت یا مقیاسهای متفاوت .برای مثال متر و اینچ ◼
15
حل افزونگی ( )Redundancyدر یکپارچهسازی دادهها
شناسایی مورد :مشخصهها یا موجودیت های یکسان ،ممکن است اسامی مختلفی ◼
ادغام محتاطانه دادهها از پایگاههای مختلف میتواند به کاهش یا جلوگیری از افزونگی ◼
16
آنالیز همبستگی (برای دادههای اسمی)
آن سلولهایی که اختالف مقدار مشاهده شده آنان از مقدار مورد انتظار آنان بیشتر ◼
است ،در مقدار Χ2نقش بیشتری بازی میکنند (صورت کسر بزرگتر میشود).
همبستگی داللتی بر علیت ندارد. ◼
ممکن است دلیل وقوع هردوی آنها ،به متغیر سومی مانند جمعیت برگردد. ◼
17
یک مثال برای آزمون کای-دو
محاسبه ( Χ2اعداد داخل پرانتز همان مقادیر مورد انتظار ما هستند که بر اساس توزیع ◼
بدین ترتیب ،دوست داشتن فیلم علمی-تخیلی و شطرنج بازی کردن همبسته هستند .شایان ذکر است با ◼
توجه به این عدد و درجه آزادی و آلفای تعیین شده و جدول مربوط به کای-دو فرض صفر رد شده و این
نتیجه حاصل می شود.
18
آنالیز کواریانس (برای دادههای عددی)
ضریب همبستگی یا ضریب گشتاور ضربی پیرسون از فرمول زیر محاسبه میشود: ◼
که در آن Aو Bبه ترتیب میانگین مربوط به Aو n ،Bتعداد سطرهای داده σA ،و
σBبه ترتیب انحراف استاندارد مربوط Aو Bو ) Σ(aibiمجموع ضرب خارجی
ABمیباشند.
اگر rA,B > 0باشد A ،و Bبه طور مثبت همبسته اند (با افزایش مقدار یکی ،مقدار ◼
دیگری نیز افزایش پیدا میکند) و در غیر این صورت بصورت منفی .هر چه این مقدار
بیشتر باشد ،همبستگی قویتر است.
اگر rA,B = 0باشد A ،و Bمستقل هستند. ◼
19
Visually Evaluating Correlation
Scatter plots
showing the
similarity from
–1 to 1.
20
همبستگی(از نظر ارتباط خطی)
برای محسابه همبستگی ،داده ها را استاندارد کرده و ضرب نقطه ای آن ها را بدست می ◼
21
کواریانس (برای دادههای عددی)
کواریانس شبیه به همبستگی است ◼
:ضریب همبستگی
که در آن Aو Bبه ترتیب میانگین یا مقادیر مورد انتظار مربوط به Aو n ،Bتعداد سطرهای داده و σA ◼
باشند.
کواریانس منفی :اگر CovA,B < 0باشد آنگاه Aو Bهر دو تمایل دارند از مقادیر مورد انتظارشان کمتر ◼
باشند.
اگر Aو Bمستقل باشند ،کواریانس نیز صفر است اما عکس این موضوع لزوماً برقرار نیست. ◼
دو متغیر تصادفی ممکن است کواریانس صفر داشته باشند اما مستقل نباشند .تنها تحت برخی از فرضهای اضافی (برای مثال ◼
دادهها از توریع نرمال چند متغیره پیروی کنند) کواریانس صفر داللتی بر استقالل است.
22
یک مثال از کواریانس
فرض کنیم دو سهم Aو Bقیمتهای زیر را در طول یک هفته داشته باشند: ◼
)(2, 5), (3, 8), (5, 10), (4, 11), (6, 14 ◼
سوال:اگر سهمهای Aو Bتوسط یک روند مشابه در صنعت تاثیر پذیرند ،آیا قیمتهای آنان باهم افزایش یا ◼
از آنجایی که Cov(A, B) > 0است ،قیمت سهمهای Aو Bباهم افزایش پیدا میکنند. ◼
پیش پردازش داده
خالصه ◼
24
استراتژیهای تقلیل داده
تقلیل داده :یک مجموعه کم حجم تر از مجموعه داده اصلی داشته باشیم به طوری که با حجم داده کمتر ◼
نتایج تحلیلی یکسان (یا تقریباً یکسان) با مجموعه داده اصلی را تولید کند
چرا به تقلیل داده نیاز داریم؟ در یک پایگاه یا انبار داده ممکن است ترابایتهایی از داده ذخیره شده باشد. ◼
ممکن است برای یک مجموعه داده حجیم و بزرگ ،تحلیل داده های پیچیده بسیار زمان بر بوده و سیستم
های قدرتمندی جهت پردازش نیاز داشته باشد.
استراتژیهای تقلیل داده ◼
با افزایش ابعاد ،دادهها نیز به سرعت پراکنده و تنک میشوند. ◼
بدین ترتیب چگالی و فاصله بین نقاط ،که دو امر مهم در خوشه بندی و شناسایی دادههای پرت هستند ،معنای ◼
روشهای با ناظر و غیرخطی (برای مثال انتخاب زیرمجموعهای از مشخصه ها) ◼
26
تقلیل داده :کاهش بزرگی
کاهش حجم داده بهوسیلهی انتخاب جایگزین و یا استفاده از شکل کوچکتری از ◼
داده ها
روشهای پارامتری (مانند رگرسیون) ◼
◼ به جای ذخیره دادههای واقعی ،تنها پارامترهای مدل تخمین که بر روی دادهها
فیت شده است ،نگهداری میشود (ممکن است دادههای پرت نیز نگهداری شوند)
◼ مثال :مدلهای لگاریتم خطی
روشهای غیر پارامتری ◼
27
پیش پردازش داده
خالصه ◼
28
تبدیل داده
عملی که طی آن مجموعه مقادیر یک مشخصه به مجموعه مقادیر جایگزینی تصویر میشود به طوری ◼
که هر کدام از مقادیر قبلی به وسیله یکی از مقادیر جدید شناخته خواهند شد.
روشها ◼
از مجموعه مشخصه های موجود ،مشخصه جدیدی ساخته میشود ◼
29
نرمالسازی
نرمالسازی : min-maxتبدیل به ][new_minA, new_maxA ◼
v − minA
= 'v (new _ maxA − new _ minA) + new _ minA
maxA − minA
برای مثال نرمالسازی بازه درآمد 12000تا 98000به بازه به ] [0, 1را انجام دادهایم .حال مقدار درآمد ◼
v − A
= 'v نرمالسازی :μ( :z-scoreمیانگین :σ ،انحراف استاندارد)
◼
A
73,600 − 54,000
= 1.225 اگر میانگین برابر 54000و انحراف استاندارد 16000باشد داریم: ◼
16,000
نرمالسازی با مقیاسگذاری دهدهی ◼
v
v' = j که jدر آن کوچکترین عدد صحیحی است که Max(|ν’|) < 1
10
30
گسستهسازی
انواع مشخصه ◼
اسمی :مقادیری از یک مجموعه اسمی که ترتیب در آن اهمیت ندارد مانند رنگ (قرمز ،آبی ،زرد) ، ◼
حرفه
ترتیبی :مقادیری از یک مجموعه اسمی که مرتب در آن مهم و تاثیر گذار است مانند درجه نظامی یا ◼
گسسته سازی :دامنه یک مشخصه پیوسته را به بازههای مختلف تقسیم نمود. ◼
لیبل های هر بازه میتواند جهت جایگزین کردن با مقادیر واقعی دادهها استفاده شود ◼
32
Binningیا بستهبندی
اگر Aو Bبه ترتیب کمترین و بزرگترین مقادیر یک مشخصه باشند ،آنگاه Wیا عرض یک بازه ◼
تقسیم دامنه به Nبازه به طوری که در هر بازه تقریباً تعداد مساویای از نمونهها باشد ◼
ممکن است مدیریت مشخصههای دسته ای ( )categorical attributesبا پیچیدگی همراه ◼
باشد.
33
روش Binningبرای هموارسازی دادهها
❑ دادههای مربوط به قیمت (مرتب شده به صورت صعودی)
4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
* پارتیشن بندی(تقسیم بندی) به بینها از طریق تناوب (عمق) یکسان:
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
* هموارسازی به وسیلهی میانگین بینها:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
* هموارسازی به وسیلهی کران بینها:
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34
34
خالصه
کیفیت داده :صحت ،کامل بودن ،سازگاری ،بهنگام بودن ،قابل باور بودن ،تفسیرپذیری ◼
35