0% found this document useful (0 votes)
9 views35 pages

01 Preprocessing - Selected - Farsi

Uploaded by

Mina Kashi
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
9 views35 pages

01 Preprocessing - Selected - Farsi

Uploaded by

Mina Kashi
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 35

‫تحلیل داده و اطالعات‬

‫پویا حسینپور‬
‫عضو هیات علمی دانشکده مهندسی صنایع و سیستمهای مدیریت‬
‫دانشگاه صنعتی امیرکبیر‬

‫‪1‬‬
‫پیش پردازش داده‬

‫‪2‬‬
‫پیش پردازش داده‬

‫خالصهای از پیش پردازش داده‬ ‫◼‬

‫کیفیت داده‬ ‫◼‬

‫کارهای اصلی در پیش پردازش داده‬ ‫◼‬

‫پاکسازی داده‬ ‫◼‬

‫یکپارچه سازی داده‬ ‫◼‬

‫تقلیل داده‬ ‫◼‬

‫تغییر شکل دادن و گسسته کردن داده‬ ‫◼‬

‫‪3‬‬
‫پیش پردازش داده‬

‫خالصهای از پیش پردازش داده‬ ‫◼‬

‫کیفیت داده‬ ‫◼‬

‫کارهای اصلی در پیش پردازش داده‬ ‫◼‬

‫پاکسازی داده‬ ‫◼‬

‫یکپارچه سازی داده‬ ‫◼‬

‫تقلیل داده‬ ‫◼‬

‫تبدیل و گسسته سازی داده‬ ‫◼‬

‫خالصه‬ ‫◼‬

‫‪4‬‬
‫کیفیت داده‪ :‬چرا به پیش پردازش نیاز داریم؟‬
‫شاخصههای کیفیت داده‪ :‬با داشتن یک نگاه چند جانبه و مجموعه ای از ویژگی های زیر در داده ها‪ ،‬میتوان داده با‬ ‫◼‬

‫کیفیتی جهت پردازش داشت‪.‬‬


‫صحت‪ :‬درست یا نادرست‬ ‫◼‬

‫مثال‪ :‬اگر برای درآمد مقداری منفی ثبت شود‪ ،‬دیتای نادرست خواهیم داشت‪.‬‬ ‫◼‬

‫کامل بودن‪ :‬موجود هست یا نیست؟ ضبط شده است یا نشده است؟‬ ‫◼‬

‫سازگاری‪ :‬ساختار داده ها تغییر نکرده و همه یکدست باشند‬ ‫◼‬

‫مثال‪ :‬روز‪/‬ماه‪/‬سال یا ماه‪/‬روز‪/‬سال‬ ‫◼‬

‫بهنگام بودن‪ :‬به زمان وابسته هستند و اینکه بدانیم کدام داده ها در چه زمانی ثبت شده اند‪.‬‬ ‫◼‬

‫مثال‪ :‬اینکه حقوق ثبت شده برای افراد به تفکیک ماه وجود داشته و مشخص باشد‪.‬‬ ‫◼‬

‫قابل باور بودن‪ :‬دادهها به چه میزان قابل اعتمادند؟‬ ‫◼‬

‫مثال‪ :‬شناسایی داده پرت با اطالع از میانگین و ورایانس‪ .‬برای مثال حساب بانکی چندهزاردالری برای یک نوجوان‬ ‫◼‬

‫تفسیر پذیری‪ :‬دادهها به چه میزان از دید کاربر قابل فهم هستند؟‬ ‫◼‬

‫‪5‬‬
‫کارهای اصلی در پیش پردازش داده‬

‫پاکسازی داده‬ ‫◼‬

‫پر کردن مقادیر دادههای گمشده (‪ ،)missing values‬هموار کردن دادههای نویزدار (‪ ،)noisy data‬شناسایی یا‬ ‫◼‬

‫حذف دادههای پرت‪ ،‬برطرف کردن ناسازگاریها در داده‬

‫یکپارچه سازی داده‬ ‫◼‬

‫الحاق و یکپارچه کردن چندین منبع به درون یک مخزن دادههای منسجم مانند انبار دادهها‬ ‫◼‬

‫تقلیل داده‬ ‫◼‬

‫تبدیل داده های حجیم به داده های با حجم کمتر جهت پردازش و نگهداری بهتر‬

‫کاهش ابعاد‬ ‫◼‬

‫کاهش بزرگی )‪(Numerosity‬‬ ‫◼‬

‫فشرده سازی (‪ )Compression‬دادهها‬ ‫◼‬

‫تبدیل داده‬ ‫◼‬

‫نرمال سازی‬ ‫◼‬

‫مفهوم ایجاد سلسله مراتبی‬ ‫◼‬

‫‪6‬‬
‫پیش پردازش داده‬

‫خالصهای از پیش پردازش داده‬ ‫◼‬

‫کیفیت داده‬ ‫◼‬

‫کارهای اصلی در پیش پردازش داده‬ ‫◼‬

‫پاکسازی داده‬ ‫◼‬

‫یکپارچه سازی داده‬ ‫◼‬

‫تقلیل داده‬ ‫◼‬

‫تبدیل و گسسته سازی داده‬ ‫◼‬

‫خالصه‬ ‫◼‬

‫‪7‬‬
‫پاکسازی داده‬
‫داده در دنیای واقعی‪ ،‬کثیف و نامرتب است و هزاران داده بالقوه نادرست وجود دارد که باید برای استفاده آماده‬ ‫◼‬

‫شوند‪ .‬برای مثال داده هایی که بدلیل ابزار معیوب‪ ،‬خطای ناشی از انسان یا کامپیوتر و یا خطای ناشی ازنحوه انتقال‬
‫نادرست‪ ،‬اشتباه ثبت شده اند‪.‬‬
‫ناتمام‪ :‬کمبود مقادیر برخی از مشخصهها‪ ،‬کمبود برخی از مشخصههای مورد عالقه یا وجود تنها دادههای کلی‬ ‫◼‬

‫را ناتمام گویند‪.‬‬


‫◼ شغل=”“ (داده گمشده)‬
‫نویز‪ :‬خطا‪ ،‬اختالل و داده پرت زا نویز گویند‪.‬‬ ‫◼‬

‫درآمد=‪( -10‬خطا) (که البته در برخی کتب این مورد را نویز در نظر نگرفته و بعنوان داده غلط درنظر‬ ‫◼‬

‫می گیرند‪).‬‬
‫ناسازگاری‪ :‬اختالفات در کدگذاری یا اسامی را ناسازگاری گویند‪.‬‬ ‫◼‬

‫سن=‪ ، 42‬سال تولد= ‪ 4‬بهمن ‪1375‬‬ ‫◼‬

‫قبال با ‪ 3 ،2 ،1‬کد گذاری میکردیم‪ ،‬حال با ‪C ،B ،A‬‬ ‫◼‬

‫اختالف بین دادهها از منابع مختلف‬ ‫◼‬

‫عمدی (دادههای ازبین رفته پنهان)‪ :‬برخی داده ها بصورت عمدی اشتباه ثبت می شود و بین بسیاری افراد‬ ‫◼‬

‫رایج است‪.‬‬
‫بسیاری از افراد در فرم های مختلف تاریخ تولد را ‪ 1‬فروردین انتخاب می کنند‪.‬‬ ‫◼‬
‫‪8‬‬
‫داده گمشده )‪(Missing Data‬‬

‫داده همیشه در دسترس نیست‬ ‫◼‬

‫برای مثال‪ :‬برای خیلی از مشخصههای هر سطر دادههای ما (تاپل)‪ ،‬همانند میزان‬ ‫◼‬

‫درآمد یک مشتری‪ ،‬مقداری ثبت نشده است‪.‬‬


‫داده گمشده میتواند به دالیل زیر باشد‪:‬‬ ‫◼‬

‫نقص تجهیزات‬ ‫◼‬

‫به دلیل ناسازگاری با سایر دادههای ثبت شده حذف شده باشد‬ ‫◼‬

‫داده به دلیل سوء تفاهم یا اشتباه فهمیدن وارد نشده است‬ ‫◼‬

‫کم اهمیت در نظر گرفتن برخی دادهها و در نتیجه وارد نکردن آنان‬ ‫◼‬

‫ثبت نکردن تاریخچه یا تغییرات دادهها‬ ‫◼‬

‫دادههای گمشده ممکن است به استنباط نیاز داشته باشند‬ ‫◼‬

‫‪9‬‬
‫چگونه با دادههای گمشده برخورد کنیم؟‬
‫چشم پوشی از سطری (تاپلی) که داده گمشده دارد‪ :‬معموالً زمانی انجام میشود که برچسب (‪ )label‬یک‬ ‫◼‬

‫کالس مشخص نباشد (در زمان انجام طبقه بندی)‪ .‬این عمل در زمانی که درصد دادههای گمشده به ازای‬
‫هر مشخصه به طور قابل توجهی متفاوت است‪ ،‬موثر نیست‪.‬‬
‫پر کردن مقادیر دادههای گمشده به صورت دستی‪ :‬خسته کننده و نشدنی!‬ ‫◼‬

‫پر کردن مقادیر دادههای گمشده به صورت اتوماتیک‪:‬‬ ‫◼‬

‫یک ثابت سراسری‪ :‬برای مثال “گمشده” به عنوان یک کالس جدید از داده ها‬ ‫◼‬

‫میانگین هر مشخصه را به جای هر داده گمشده در آن مشخصه بگذاریم‪ :‬برای مثال معدل کل افراد‬ ‫◼‬

‫کالس را به ازای هر فردی که معدلش را نداریم (فارغ از اینکه داده گمشده به کدام دسته تعلق‬
‫دارد)‬
‫میانگین مشخصه دادههای یک کالس را به جای داده گمشده آن مشخصه بگذاریم‪ :‬برای مثال معدل‬ ‫◼‬

‫افراد درسخوان برای یک فرد درسخوان دیگر که معدلش را نداریم‪ .‬این روش از روش قبلی‬
‫هوشمندانهتر است‪.‬‬
‫محتمل ترین مقدار‪ :‬بر اساس روشهایی همانند فرمول بیز یا درخت تصمیم گیری‬ ‫◼‬

‫‪10‬‬
‫دادههای نویز دار‬
‫نویز‪ :‬معموال خطاهای تصادفی یا واریانس موجود در داده ها را نویز میگوییم‪.‬‬ ‫◼‬

‫مقادیر نادرست یک مشخصه میتواند به دالیل زیر باشد‪:‬‬ ‫◼‬

‫◼ خطای ابزارهای جمع آوری داده‬


‫◼ خطا در هنگام ورود داده‬
‫◼ مشکالت انتقال داده‬
‫مثال‪ :‬انتقال از یک دیتاست به مجموعه دیگر و عدم سازگاری فیلدها‬ ‫◼‬

‫محدودیت تکنولوژی‬ ‫◼‬

‫تغییرات در نامگذاری‬ ‫◼‬

‫مثال‪ :‬تغییر نام جداول و یا فیلد ها (تغییر از تحصیالت به آخرین مدرک تحصیلی)‬ ‫◼‬

‫دیگر مشکالت داده که نیاز به پاکسازی دارند‬ ‫◼‬

‫◼ رکوردهای تکراری‬
‫برای مثال داده های مربوط به وضعیت بیماران در صدم ثانیه ثیت میشده است اما این زمان به ثانیه‬ ‫◼‬

‫تغییر کرده و در نتیجه برای داده های قدیمی به ازای هر ثانیه مقادیر تکراری داریم‪.‬‬
‫دادههای ناقص‬ ‫◼‬

‫دادههای ناسازگار‬ ‫◼‬


‫‪11‬‬
‫هموارسازی دادههای نویز دار‬

‫روش بسته بندی یا ‪Binning‬‬ ‫◼‬

‫◼ در ابتدا دادهها را مرتب میکنیم‪ .‬سپس آنها را در داخل بستهها یا بینها تقسیم‬
‫میکنیم (با تناوب (فرکانس) یکسان)‬
‫◼ سپس میتوانیم دادههای یک بسته را با استفاده از میانگین (‪ ،)mean‬میانه‬
‫(‪ )median‬یا مقدار کرانی (‪ )boundary‬بستهها هموار کنیم‪.‬‬
‫رگرسیون‬ ‫◼‬

‫◼ هموارسازی از طریق فیت کردن دادهها بر روی یک تابع رگرسیون‬


‫خوشه بندی‬ ‫◼‬

‫◼ شناسایی و حذف دادههای پرت‬


‫بازرسی انسان و کامپیوتر‬ ‫◼‬

‫◼ شناسایی مقادیر مشکوک و بررسی آنان توسط انسان‬

‫‪12‬‬
‫پاکسازی داده به عنوان یک فرآیند‬
‫تشخیص انحراف داده‬ ‫◼‬

‫◼ استفاده از فراداده (‪ )metadata‬یا دانش ما درباره خصوصیات داده (برای مثال دامنه‪ ،‬طیف‪ ،‬وابستگی‪ ،‬توزیع)‬
‫◼ بررسی چندکارگی مشخصه(‪)field‬‬
‫◼ بررسی قواعد یکتایی‪ ،‬قواعد پیدرپی بودن و قاعدهی تهی(‪)Null‬‬
‫◼ استفاده از ابزارهای تجاری‬
‫◼ ابزارهای شست و شو و سایش داده‪ :‬استفاده از دامنه دانش سادهای (به عنوان مثال دانشی درباره‬
‫آدرسهای پستی‪ ،‬اشتباهات امالیی) برای تشخیص خطا و اصالح آن‬
‫◼ ابزارهای حسابرسی دادهها‪ :‬با استفاده از آنالیز داده برای کشف قواعد و قوانین موجود در دادهها و کشف‬
‫آنهایی که این قواعد و قوانین را نقض میکنند (برای مثال استفاده از همبستگی یا خوشه بندی برای‬
‫کشف دادههای پرت)‬
‫ابزارهای مهاجرت و تبدیل داده‬ ‫◼‬

‫◼ ابزارهای مهاجرت داده‪ :‬اجازه میدهد تبدیلها مشخص باشد (برای مثال جایگزینی ‪ gender‬با ‪)sex‬‬
‫◼ ابزار ‪( ETL‬استخراج‪/‬تبدیل‪/‬بارگذاری)‪ :‬به کاربران اجازه میدهند تا تبدیل ها را از طریق یک واسط گرافیکی‬
‫مشخص کنند‪.‬‬
‫ادغام دو فرآیند‬ ‫◼‬

‫◼ تکرارشونده و تعاملی (مثل ‪ Potter’s Wheels‬برای پاکسازی داده)‬

‫‪13‬‬
‫پیش پردازش داده‬

‫خالصهای از پیش پردازش داده‬ ‫◼‬

‫کیفیت داده‬ ‫◼‬

‫کارهای اصلی در پیش پردازش داده‬ ‫◼‬

‫پاکسازی داده‬ ‫◼‬

‫یکپارچه سازی داده‬ ‫◼‬

‫تقلیل داده‬ ‫◼‬

‫تبدیل و گسسته سازی داده‬ ‫◼‬

‫خالصه‬ ‫◼‬

‫‪14‬‬
‫یکپارچه سازی دادهها‬
‫یکپارچه سازی‪:‬‬ ‫◼‬

‫ادغام دادهها از چند منبع مختلف‬ ‫◼‬

‫یکپارچه سازی شِما (اِسکیما)‪ :‬برای مثال ‪( A.cust-id  B.cust-number‬ظاهر فیلدها یکدست‬ ‫◼‬

‫باشد)‬
‫یکپارچه کردن فرادادهها از منابع مختلف‬ ‫◼‬

‫مشکل شناسایی موجودیت‬ ‫◼‬

‫شناسایی موجودیتهای دنیای واقعی از منابع داده مختلف‪ .‬برای مثال‪:‬‬ ‫◼‬

‫‪( Bill Clinton = William Clinton‬هر دو موجودیت یکسان است و باید آن ها را شناخت‪).‬‬
‫شناسایی و حل تضادهای مقادیر داده ها‬ ‫◼‬

‫مقادیر مشخصهها برای یک موجودیت یکسان در دنیای واقعی در منابع مختلف‪ ،‬تفاوت دارد‪.‬‬ ‫◼‬

‫دالیل احتمالی‪ :‬نحوه نمایش متفاوت یا مقیاسهای متفاوت‪ .‬برای مثال متر و اینچ‬ ‫◼‬

‫‪15‬‬
‫حل افزونگی (‪ )Redundancy‬در یکپارچهسازی دادهها‬

‫افزونگی معموالً هنگام ادغام پایگاههای داده مختلف رخ میدهد‪.‬‬ ‫◼‬

‫شناسایی مورد‪ :‬مشخصهها یا موجودیت های یکسان‪ ،‬ممکن است اسامی مختلفی‬ ‫◼‬

‫در پایگاههای داده مختلف داشته باشند‪.‬‬


‫داده قابل استفاده‪ :‬یک مشخصه ممکن است در یک مشخصه دیگر استفاده شده‬ ‫◼‬

‫باشد‪ .‬برای مثال درآمد ساالنه‬


‫مشخصههای افزونه را میتوان با آنالیزهمبستگی و آنالیز کواریانس کشف کرد‪.‬‬ ‫◼‬

‫ادغام محتاطانه دادهها از پایگاههای مختلف میتواند به کاهش یا جلوگیری از افزونگی‬ ‫◼‬

‫و ناسازگاری و افزایش سرعت و کیفیت دادهکاوی کمک کند‪.‬‬

‫‪16‬‬
‫آنالیز همبستگی (برای دادههای اسمی)‬

‫آزمون کای‪-‬دو‬ ‫◼‬

‫(‬‫‪Observed‬‬ ‫‪−‬‬ ‫‪Expected‬‬‫)‬ ‫‪2‬‬


‫‪2 = ‬‬
‫‪Expected‬‬
‫هر چه مقدار ‪ Χ2‬بزرگتر باشد‪ ،‬احتمال وابستگی متغیرها بیشتر است‪.‬‬ ‫◼‬

‫آن سلولهایی که اختالف مقدار مشاهده شده آنان از مقدار مورد انتظار آنان بیشتر‬ ‫◼‬

‫است‪ ،‬در مقدار ‪ Χ2‬نقش بیشتری بازی میکنند (صورت کسر بزرگتر میشود)‪.‬‬
‫همبستگی داللتی بر علیت ندارد‪.‬‬ ‫◼‬

‫تعداد بیمارستانها با تعداد دزدیهای ماشین همبسته هستند‪.‬‬ ‫◼‬

‫ممکن است دلیل وقوع هردوی آنها‪ ،‬به متغیر سومی مانند جمعیت برگردد‪.‬‬ ‫◼‬

‫‪17‬‬
‫یک مثال برای آزمون کای‪-‬دو‬

‫شطرنج بازی میکند‬ ‫شطرنج بازی نمیکند‬ ‫جمع سطرها‬


‫فیلم علمی‪-‬تخیلی دوست دارد‬ ‫)‪250(90‬‬ ‫)‪200(360‬‬ ‫‪450‬‬
‫فیلم علمی‪-‬تخیلی دوست ندارد‬ ‫)‪50(210‬‬ ‫)‪1000(840‬‬ ‫‪1050‬‬
‫جمع ستونها‬ ‫‪300‬‬ ‫‪1200‬‬ ‫‪1500‬‬

‫محاسبه ‪( Χ2‬اعداد داخل پرانتز همان مقادیر مورد انتظار ما هستند که بر اساس توزیع‬ ‫◼‬

‫داده در دو دسته محاسبه شدهاند)‬

‫‪(250 − 90) 2 (50 − 210) 2 (200 − 360) 2 (1000 − 840) 2‬‬


‫= ‪‬‬
‫‪2‬‬
‫‪+‬‬ ‫‪+‬‬ ‫‪+‬‬ ‫‪= 507.93‬‬
‫‪90‬‬ ‫‪210‬‬ ‫‪360‬‬ ‫‪840‬‬

‫بدین ترتیب‪ ،‬دوست داشتن فیلم علمی‪-‬تخیلی و شطرنج بازی کردن همبسته هستند‪ .‬شایان ذکر است با‬ ‫◼‬

‫توجه به این عدد و درجه آزادی و آلفای تعیین شده و جدول مربوط به کای‪-‬دو فرض صفر رد شده و این‬
‫نتیجه حاصل می شود‪.‬‬
‫‪18‬‬
‫آنالیز کواریانس (برای دادههای عددی)‬

‫ضریب همبستگی یا ضریب گشتاور ضربی پیرسون از فرمول زیر محاسبه میشود‪:‬‬ ‫◼‬

‫)‪i=1 (ai − A)(bi − B‬‬ ‫‪‬‬


‫‪n‬‬ ‫‪n‬‬
‫‪(ai bi ) − n AB‬‬
‫= ‪rA, B‬‬ ‫=‬ ‫‪i =1‬‬
‫‪(n − 1) A B‬‬ ‫‪(n − 1) A B‬‬

‫که در آن ‪ A‬و ‪ B‬به ترتیب میانگین مربوط به ‪ A‬و ‪ n ،B‬تعداد سطرهای داده‪ σA ،‬و‬
‫‪ σB‬به ترتیب انحراف استاندارد مربوط ‪ A‬و ‪ B‬و )‪ Σ(aibi‬مجموع ضرب خارجی‬
‫‪ AB‬میباشند‪.‬‬
‫اگر ‪ rA,B > 0‬باشد‪ A ،‬و ‪ B‬به طور مثبت همبسته اند (با افزایش مقدار یکی‪ ،‬مقدار‬ ‫◼‬

‫دیگری نیز افزایش پیدا میکند) و در غیر این صورت بصورت منفی‪ .‬هر چه این مقدار‬
‫بیشتر باشد‪ ،‬همبستگی قویتر است‪.‬‬
‫اگر ‪ rA,B = 0‬باشد‪ A ،‬و ‪ B‬مستقل هستند‪.‬‬ ‫◼‬

‫‪19‬‬
Visually Evaluating Correlation

Scatter plots
showing the
similarity from
–1 to 1.

20
‫همبستگی(از نظر ارتباط خطی)‬

‫همبستگی ارتباط خطی را بین دو متغیر اندازه گیری میکند‪.‬‬ ‫◼‬

‫برای محسابه همبستگی‪ ،‬داده ها را استاندارد کرده و ضرب نقطه ای آن ها را بدست می‬ ‫◼‬

‫آوریم‪A( .‬و‪ B‬داده های اصلی و استاندارد نشده)‬

‫‪21‬‬
‫کواریانس (برای دادههای عددی)‬
‫کواریانس شبیه به همبستگی است‬ ‫◼‬

‫‪:‬ضریب همبستگی‬

‫که در آن ‪ A‬و ‪ B‬به ترتیب میانگین یا مقادیر مورد انتظار مربوط به ‪ A‬و ‪ n ،B‬تعداد سطرهای داده و ‪σA‬‬ ‫◼‬

‫و ‪ σB‬به ترتیب انحراف استاندارد مربوط ‪ A‬و ‪ B‬میباشند‪.‬‬


‫کواریانس مثبت‪ :‬اگر ‪ CovA,B > 0‬باشد آنگاه ‪ A‬و ‪ B‬هر دو تمایل دارند از مقادیر مورد انتظارشان بیشتر‬ ‫◼‬

‫باشند‪.‬‬
‫کواریانس منفی‪ :‬اگر ‪ CovA,B < 0‬باشد آنگاه ‪ A‬و ‪ B‬هر دو تمایل دارند از مقادیر مورد انتظارشان کمتر‬ ‫◼‬

‫باشند‪.‬‬
‫اگر ‪ A‬و ‪ B‬مستقل باشند‪ ،‬کواریانس نیز صفر است اما عکس این موضوع لزوماً برقرار نیست‪.‬‬ ‫◼‬

‫دو متغیر تصادفی ممکن است کواریانس صفر داشته باشند اما مستقل نباشند‪ .‬تنها تحت برخی از فرضهای اضافی (برای مثال‬ ‫◼‬

‫دادهها از توریع نرمال چند متغیره پیروی کنند) کواریانس صفر داللتی بر استقالل است‪.‬‬

‫‪22‬‬
‫یک مثال از کواریانس‬

‫فرم ساده شده آن‪:‬‬ ‫◼‬

‫فرض کنیم دو سهم ‪ A‬و ‪ B‬قیمتهای زیر را در طول یک هفته داشته باشند‪:‬‬ ‫◼‬

‫)‪(2, 5), (3, 8), (5, 10), (4, 11), (6, 14‬‬ ‫◼‬

‫سوال‪:‬اگر سهمهای ‪ A‬و ‪ B‬توسط یک روند مشابه در صنعت تاثیر پذیرند‪ ،‬آیا قیمتهای آنان باهم افزایش یا‬ ‫◼‬

‫کاهش پیدا میکنند؟‬

‫◼‬ ‫‪E(A) = (2 + 3 + 5 + 4 + 6)/ 5 = 20/5 = 4‬‬

‫◼‬ ‫‪E(B) = (5 + 8 + 10 + 11 + 14) /5 = 48/5 = 9.6‬‬


‫◼‬ ‫‪Cov(A,B) = (2×5+3×8+5×10+4×11+6×14)/5 − 4 × 9.6 = 4‬‬

‫از آنجایی که ‪ Cov(A, B) > 0‬است‪ ،‬قیمت سهمهای ‪ A‬و ‪ B‬باهم افزایش پیدا میکنند‪.‬‬ ‫◼‬
‫پیش پردازش داده‬

‫خالصهای از پیش پردازش داده‬ ‫◼‬

‫کیفیت داده‬ ‫◼‬

‫کارهای اصلی در پیش پردازش داده‬ ‫◼‬

‫پاکسازی داده‬ ‫◼‬

‫یکپارچه سازی داده‬ ‫◼‬

‫تقلیل داده‬ ‫◼‬

‫تبدیل و گسسته سازی داده‬ ‫◼‬

‫خالصه‬ ‫◼‬

‫‪24‬‬
‫استراتژیهای تقلیل داده‬
‫تقلیل داده‪ :‬یک مجموعه کم حجم تر از مجموعه داده اصلی داشته باشیم به طوری که با حجم داده کمتر‬ ‫◼‬
‫نتایج تحلیلی یکسان (یا تقریباً یکسان) با مجموعه داده اصلی را تولید کند‬
‫چرا به تقلیل داده نیاز داریم؟ در یک پایگاه یا انبار داده ممکن است ترابایتهایی از داده ذخیره شده باشد‪.‬‬ ‫◼‬
‫ممکن است برای یک مجموعه داده حجیم و بزرگ‪ ،‬تحلیل داده های پیچیده بسیار زمان بر بوده و سیستم‬
‫های قدرتمندی جهت پردازش نیاز داشته باشد‪.‬‬
‫استراتژیهای تقلیل داده‬ ‫◼‬

‫◼ کاهش ابعاد‪ ،‬برای مثال حذف مشخصههای بی اهمیت‬


‫◼ ‪Wavelet transforms‬‬
‫◼ )‪Principal Components Analysis (PCA‬‬
‫◼ ‪Feature subset selection, feature creation‬‬
‫◼ کاهش بزرگی (برخی به آن کاهش داده میگویند)‪ :‬بدون از دست رفتن داده ها‪ ،‬حجم داده ها کاهش‬
‫یابد‪.‬‬
‫◼ ‪Regression and Log-Linear Models‬‬
‫◼ ‪Histograms, clustering, sampling‬‬
‫◼ ‪Data cube aggregation‬‬
‫◼ فشردهسازی داده‬
‫‪25‬‬
‫تقلیل داده‪ :‬کاهش ابعاد‬
‫مشکالت مربوط به ابعاد‪/‬مصیبت ابعاد‬ ‫◼‬

‫با افزایش ابعاد‪ ،‬دادهها نیز به سرعت پراکنده و تنک میشوند‪.‬‬ ‫◼‬

‫بدین ترتیب چگالی و فاصله بین نقاط‪ ،‬که دو امر مهم در خوشه بندی و شناسایی دادههای پرت هستند‪ ،‬معنای‬ ‫◼‬

‫خود را کم کم از دست میدهند‪.‬‬


‫تعداد ترکیبات ممکن زیرشاخهها‪ ،‬به طور نمایی رشد پیدا میکنند‪.‬‬ ‫◼‬

‫کاهش ابعاد‬ ‫◼‬

‫جلوگیری از مشکالت مربوط به مصیبت ابعاد‬ ‫◼‬

‫کمک به حذف مشخصه های نامرتبط و کاهش نویز‬ ‫◼‬

‫کاهش زمان و فضای مورد نیاز برای دادهکاوی‬ ‫◼‬

‫کمک به مصورسازی راحتتر‬ ‫◼‬

‫تکنیکهای کاهش ابعاد‬ ‫◼‬

‫تبدیلهای موجک (‪)Wavelet transforms‬‬ ‫◼‬

‫تحلیل مولفههای اصلی (‪)PCA‬‬ ‫◼‬

‫روشهای با ناظر و غیرخطی (برای مثال انتخاب زیرمجموعهای از مشخصه ها)‬ ‫◼‬

‫‪26‬‬
‫تقلیل داده‪ :‬کاهش بزرگی‬
‫کاهش حجم داده بهوسیلهی انتخاب جایگزین و یا استفاده از شکل کوچکتری از‬ ‫◼‬
‫داده ها‬
‫روشهای پارامتری (مانند رگرسیون)‬ ‫◼‬

‫◼ به جای ذخیره دادههای واقعی‪ ،‬تنها پارامترهای مدل تخمین که بر روی دادهها‬
‫فیت شده است‪ ،‬نگهداری میشود (ممکن است دادههای پرت نیز نگهداری شوند)‬
‫◼ مثال‪ :‬مدلهای لگاریتم خطی‬
‫روشهای غیر پارامتری‬ ‫◼‬

‫◼ در این روشها‪ ،‬از قبل مدلی در نظر نمیگیریم‪.‬‬


‫◼ روشهای معروف‪ :‬هیستوگرام‪ ،‬خوشهبندی‪ ،‬نمونهگیری‬

‫‪27‬‬
‫پیش پردازش داده‬

‫خالصهای از پیش پردازش داده‬ ‫◼‬

‫کیفیت داده‬ ‫◼‬

‫کارهای اصلی در پیش پردازش داده‬ ‫◼‬

‫پاکسازی داده‬ ‫◼‬

‫یکپارچه سازی داده‬ ‫◼‬

‫تقلیل داده‬ ‫◼‬

‫تبدیل و گسسته سازی داده‬ ‫◼‬

‫خالصه‬ ‫◼‬

‫‪28‬‬
‫تبدیل داده‬
‫عملی که طی آن مجموعه مقادیر یک مشخصه به مجموعه مقادیر جایگزینی تصویر میشود به طوری‬ ‫◼‬

‫که هر کدام از مقادیر قبلی به وسیله یکی از مقادیر جدید شناخته خواهند شد‪.‬‬
‫روشها‬ ‫◼‬

‫هموارسازی‪ :‬حذف نویز از دادهها‬ ‫◼‬

‫ایجاد صفت‪/‬مشخصه‬ ‫◼‬

‫از مجموعه مشخصه های موجود‪ ،‬مشخصه جدیدی ساخته میشود‬ ‫◼‬

‫تجمیع‪ :‬خالصهسازی‪ ،‬ایجاد مکعب داده‬ ‫◼‬

‫نرمالسازی‪ :‬مقیاس کردن دادهها در یک بازه کوچکتر و مشخص‬ ‫◼‬

‫نرمالسازی ‪min-max‬‬ ‫◼‬

‫نرمالسازی ‪z-score‬‬ ‫◼‬

‫نرمالسازی با مقیاسگذاری دهدهی‬ ‫◼‬

‫گسستهسازی‪ :‬مفهوم سلسه مراتبی باال به پایین‬ ‫◼‬

‫‪29‬‬
‫نرمالسازی‬
‫نرمالسازی ‪ : min-max‬تبدیل به ]‪[new_minA, new_maxA‬‬ ‫◼‬

‫‪v − minA‬‬
‫= '‪v‬‬ ‫‪(new _ maxA − new _ minA) + new _ minA‬‬
‫‪maxA − minA‬‬
‫برای مثال نرمالسازی بازه درآمد ‪ 12000‬تا ‪ 98000‬به بازه به ]‪ [0, 1‬را انجام دادهایم‪ .‬حال مقدار درآمد‬ ‫◼‬

‫‪ 73000‬در این بازه جدید برابر است با‪:‬‬


‫‪73,600 − 12,000‬‬
‫‪(1.0 − 0) + 0 = 0.716‬‬
‫‪98,000 − 12,000‬‬

‫‪v − A‬‬
‫= '‪v‬‬ ‫نرمالسازی ‪ :μ( :z-score‬میانگین‪ :σ ،‬انحراف استاندارد)‬
‫‪‬‬
‫◼‬
‫‪A‬‬

‫‪73,600 − 54,000‬‬
‫‪= 1.225‬‬ ‫اگر میانگین برابر ‪ 54000‬و انحراف استاندارد ‪ 16000‬باشد داریم‪:‬‬ ‫◼‬
‫‪16,000‬‬
‫نرمالسازی با مقیاسگذاری دهدهی‬ ‫◼‬

‫‪v‬‬
‫‪v' = j‬‬ ‫که ‪ j‬در آن کوچکترین عدد صحیحی است که ‪Max(|ν’|) < 1‬‬
‫‪10‬‬
‫‪30‬‬
‫گسستهسازی‬
‫انواع مشخصه‬ ‫◼‬

‫اسمی‪ :‬مقادیری از یک مجموعه اسمی که ترتیب در آن اهمیت ندارد مانند رنگ (قرمز‪ ،‬آبی‪ ،‬زرد) ‪،‬‬ ‫◼‬

‫حرفه‬
‫ترتیبی‪ :‬مقادیری از یک مجموعه اسمی که مرتب در آن مهم و تاثیر گذار است مانند درجه نظامی یا‬ ‫◼‬

‫درجات تحصیلی (دیپلم‪ ،‬کارشناسی‪ ،‬کارشناسی ارشد‪ ،‬دکترا)‬


‫عددی‪ :‬اعداد حقیقی مانند اعداد صحیح‬ ‫◼‬

‫گسسته سازی‪ :‬دامنه یک مشخصه پیوسته را به بازههای مختلف تقسیم نمود‪.‬‬ ‫◼‬

‫لیبل های هر بازه میتواند جهت جایگزین کردن با مقادیر واقعی دادهها استفاده شود‬ ‫◼‬

‫کاهش سایز دادهها با استفاده از گسستهسازی‬ ‫◼‬

‫با ناظر در مقابل بیناظر‬ ‫◼‬

‫انفصال (باال به پایین) در برابر ادغام (پایین به باال)‬ ‫◼‬

‫گسستهسازی را میتوان به صورت بازگشتی برای یک مشخصه انجام داد‬ ‫◼‬

‫آمادهسازی جهت آنالیزهای بعدی مثل دستهبندی‬ ‫◼‬


‫‪31‬‬
‫روشهای گسستهسازی‬
‫روشهای معمول‪ :‬تمامی روشها بصورت بازگشتی نیز میتوانند انجام شوند‬ ‫◼‬

‫‪ Binning‬یا بستهبندی‬ ‫◼‬

‫انفصال باال به پایین و بیناظر‬ ‫◼‬

‫تحلیل هیستوگرام‬ ‫◼‬

‫انفصال باال به پایین و بیناظر‬ ‫◼‬

‫تحلیل خوشهبندی‬ ‫◼‬

‫انفصال باال به پایین یا ادغام پایین به باال و بیناظر‬ ‫◼‬

‫تحلیل درخت تصمیم‬ ‫◼‬

‫انفصال باال به پایین و باناظر‬ ‫◼‬

‫تحلیل همبستگی (مانند آزمون کای‪-‬دو)‬ ‫◼‬

‫ادغام پایین به باال و بیناظر‬ ‫◼‬

‫‪32‬‬
‫‪ Binning‬یا بستهبندی‬

‫پارتیشن بندی (تقسیم بندی) با عرض (فاصله) یکسان‬ ‫◼‬

‫تقسیم بازه اولیه به ‪ N‬بازه متساوی الفاصله‪ :‬شبکه یکنواخت‬ ‫◼‬

‫اگر ‪ A‬و ‪ B‬به ترتیب کمترین و بزرگترین مقادیر یک مشخصه باشند‪ ،‬آنگاه ‪ W‬یا عرض یک بازه‬ ‫◼‬

‫برابر است با ‪.W = (B –A)/N‬‬


‫این روش سادهترین راه است اما امکان دارد در آن دادههای پرت قابل توجهی ایجاد شود‪.‬‬ ‫◼‬

‫دادههای پیچ خورده (‪ )Skewed data‬به خوبی سازماندهی نمیشوند‪.‬‬ ‫◼‬

‫پارتیشن بندی(تقسیم بندی) با عمق یکسان ( تناوب)‬ ‫◼‬

‫تقسیم دامنه به ‪ N‬بازه به طوری که در هر بازه تقریباً تعداد مساویای از نمونهها باشد‬ ‫◼‬

‫مقیاسگذاری خوب دادهها‬ ‫◼‬

‫ممکن است مدیریت مشخصههای دسته ای (‪ )categorical attributes‬با پیچیدگی همراه‬ ‫◼‬

‫باشد‪.‬‬
‫‪33‬‬
‫روش ‪ Binning‬برای هموارسازی دادهها‬
‫❑ دادههای مربوط به قیمت (مرتب شده به صورت صعودی)‬
‫‪4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34‬‬
‫* پارتیشن بندی(تقسیم بندی) به بینها از طریق تناوب (عمق) یکسان‪:‬‬
‫‪- Bin 1: 4, 8, 9, 15‬‬
‫‪- Bin 2: 21, 21, 24, 25‬‬
‫‪- Bin 3: 26, 28, 29, 34‬‬
‫* هموارسازی به وسیلهی میانگین بینها‪:‬‬
‫‪- Bin 1: 9, 9, 9, 9‬‬
‫‪- Bin 2: 23, 23, 23, 23‬‬
‫‪- Bin 3: 29, 29, 29, 29‬‬
‫* هموارسازی به وسیلهی کران بینها‪:‬‬
‫‪- Bin 1: 4, 4, 4, 15‬‬
‫‪- Bin 2: 21, 21, 25, 25‬‬
‫‪- Bin 3: 26, 26, 26, 34‬‬
‫‪34‬‬
‫خالصه‬

‫کیفیت داده‪ :‬صحت‪ ،‬کامل بودن‪ ،‬سازگاری‪ ،‬بهنگام بودن‪ ،‬قابل باور بودن‪ ،‬تفسیرپذیری‬ ‫◼‬

‫پاکسازی داده‪ :‬برای مثال دادههای گمشده یا پرت‬ ‫◼‬

‫یکپارچه سازی داده از منابع مختلف‪:‬‬ ‫◼‬

‫مشکل شناسایی موجودیت‬ ‫◼‬

‫حذف افرونگیها‬ ‫◼‬

‫شناسایی ناسازگاریها‬ ‫◼‬

‫تقلیل داده‬ ‫◼‬

‫کاهش ابعاد‬ ‫◼‬

‫کاهش بزرگی (‪(Numerosity‬‬ ‫◼‬

‫فشرده سازی (‪ )compression‬دادهها‬ ‫◼‬

‫تبدیل داده و تفسیر داده‬ ‫◼‬

‫نرمال سازی‬ ‫◼‬

‫مفهوم ایجاد سلسله مراتب‬ ‫◼‬

‫‪35‬‬

You might also like