0% found this document useful (0 votes)

9 views35 pages

01 Preprocessing - Selected - Farsi

Uploaded by

Mina Kashi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

9 views35 pages

01 Preprocessing - Selected - Farsi

Uploaded by

Mina Kashi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 35

‫تحلیل داده و اطالعات‬

‫پویا حسینپور‬
‫عضو هیات علمی دانشکده مهندسی صنایع و سیستمهای مدیریت‬
‫دانشگاه صنعتی امیرکبیر‬

‫‪1‬‬
‫پیش پردازش داده‬

‫‪2‬‬
‫پیش پردازش داده‬

‫خالصهای از پیش پردازش داده‬ ‫◼‬

‫کیفیت داده‬ ‫◼‬

‫کارهای اصلی در پیش پردازش داده‬ ‫◼‬

‫پاکسازی داده‬ ‫◼‬

‫یکپارچه سازی داده‬ ‫◼‬

‫تقلیل داده‬ ‫◼‬

‫تغییر شکل دادن و گسسته کردن داده‬ ‫◼‬

‫‪3‬‬
‫پیش پردازش داده‬

‫خالصهای از پیش پردازش داده‬ ‫◼‬

‫کیفیت داده‬ ‫◼‬

‫کارهای اصلی در پیش پردازش داده‬ ‫◼‬

‫پاکسازی داده‬ ‫◼‬

‫یکپارچه سازی داده‬ ‫◼‬

‫تقلیل داده‬ ‫◼‬

‫تبدیل و گسسته سازی داده‬ ‫◼‬

‫خالصه‬ ‫◼‬

‫‪4‬‬
‫کیفیت داده‪ :‬چرا به پیش پردازش نیاز داریم؟‬
‫شاخصههای کیفیت داده‪ :‬با داشتن یک نگاه چند جانبه و مجموعه ای از ویژگی های زیر در داده ها‪ ،‬میتوان داده با‬ ‫◼‬

‫کیفیتی جهت پردازش داشت‪.‬‬

‫صحت‪ :‬درست یا نادرست‬ ‫◼‬

‫مثال‪ :‬اگر برای درآمد مقداری منفی ثبت شود‪ ،‬دیتای نادرست خواهیم داشت‪.‬‬ ‫◼‬

‫کامل بودن‪ :‬موجود هست یا نیست؟ ضبط شده است یا نشده است؟‬ ‫◼‬

‫سازگاری‪ :‬ساختار داده ها تغییر نکرده و همه یکدست باشند‬ ‫◼‬

‫مثال‪ :‬روز‪/‬ماه‪/‬سال یا ماه‪/‬روز‪/‬سال‬ ‫◼‬

‫بهنگام بودن‪ :‬به زمان وابسته هستند و اینکه بدانیم کدام داده ها در چه زمانی ثبت شده اند‪.‬‬ ‫◼‬

‫مثال‪ :‬اینکه حقوق ثبت شده برای افراد به تفکیک ماه وجود داشته و مشخص باشد‪.‬‬ ‫◼‬

‫قابل باور بودن‪ :‬دادهها به چه میزان قابل اعتمادند؟‬ ‫◼‬

‫مثال‪ :‬شناسایی داده پرت با اطالع از میانگین و ورایانس‪ .‬برای مثال حساب بانکی چندهزاردالری برای یک نوجوان‬ ‫◼‬

‫تفسیر پذیری‪ :‬دادهها به چه میزان از دید کاربر قابل فهم هستند؟‬ ‫◼‬

‫‪5‬‬
‫کارهای اصلی در پیش پردازش داده‬

‫پاکسازی داده‬ ‫◼‬

‫پر کردن مقادیر دادههای گمشده (‪ ،)missing values‬هموار کردن دادههای نویزدار (‪ ،)noisy data‬شناسایی یا‬ ‫◼‬

‫حذف دادههای پرت‪ ،‬برطرف کردن ناسازگاریها در داده‬

‫یکپارچه سازی داده‬ ‫◼‬

‫الحاق و یکپارچه کردن چندین منبع به درون یک مخزن دادههای منسجم مانند انبار دادهها‬ ‫◼‬

‫تقلیل داده‬ ‫◼‬

‫تبدیل داده های حجیم به داده های با حجم کمتر جهت پردازش و نگهداری بهتر‬

‫کاهش ابعاد‬ ‫◼‬

‫کاهش بزرگی )‪(Numerosity‬‬ ‫◼‬

‫فشرده سازی (‪ )Compression‬دادهها‬ ‫◼‬

‫تبدیل داده‬ ‫◼‬

‫نرمال سازی‬ ‫◼‬

‫مفهوم ایجاد سلسله مراتبی‬ ‫◼‬

‫‪6‬‬
‫پیش پردازش داده‬

‫خالصهای از پیش پردازش داده‬ ‫◼‬

‫کیفیت داده‬ ‫◼‬

‫کارهای اصلی در پیش پردازش داده‬ ‫◼‬

‫پاکسازی داده‬ ‫◼‬

‫یکپارچه سازی داده‬ ‫◼‬

‫تقلیل داده‬ ‫◼‬

‫تبدیل و گسسته سازی داده‬ ‫◼‬

‫خالصه‬ ‫◼‬

‫‪7‬‬
‫پاکسازی داده‬
‫داده در دنیای واقعی‪ ،‬کثیف و نامرتب است و هزاران داده بالقوه نادرست وجود دارد که باید برای استفاده آماده‬ ‫◼‬

‫شوند‪ .‬برای مثال داده هایی که بدلیل ابزار معیوب‪ ،‬خطای ناشی از انسان یا کامپیوتر و یا خطای ناشی ازنحوه انتقال‬
‫نادرست‪ ،‬اشتباه ثبت شده اند‪.‬‬
‫ناتمام‪ :‬کمبود مقادیر برخی از مشخصهها‪ ،‬کمبود برخی از مشخصههای مورد عالقه یا وجود تنها دادههای کلی‬ ‫◼‬

‫را ناتمام گویند‪.‬‬

‫◼ شغل=”“ (داده گمشده)‬
‫نویز‪ :‬خطا‪ ،‬اختالل و داده پرت زا نویز گویند‪.‬‬ ‫◼‬

‫درآمد=‪( -10‬خطا) (که البته در برخی کتب این مورد را نویز در نظر نگرفته و بعنوان داده غلط درنظر‬ ‫◼‬

‫می گیرند‪).‬‬
‫ناسازگاری‪ :‬اختالفات در کدگذاری یا اسامی را ناسازگاری گویند‪.‬‬ ‫◼‬

‫سن=‪ ، 42‬سال تولد= ‪ 4‬بهمن ‪1375‬‬ ‫◼‬

‫قبال با ‪ 3 ،2 ،1‬کد گذاری میکردیم‪ ،‬حال با ‪C ،B ،A‬‬ ‫◼‬

‫اختالف بین دادهها از منابع مختلف‬ ‫◼‬

‫عمدی (دادههای ازبین رفته پنهان)‪ :‬برخی داده ها بصورت عمدی اشتباه ثبت می شود و بین بسیاری افراد‬ ‫◼‬

‫رایج است‪.‬‬
‫بسیاری از افراد در فرم های مختلف تاریخ تولد را ‪ 1‬فروردین انتخاب می کنند‪.‬‬ ‫◼‬
‫‪8‬‬
‫داده گمشده )‪(Missing Data‬‬

‫داده همیشه در دسترس نیست‬ ‫◼‬

‫برای مثال‪ :‬برای خیلی از مشخصههای هر سطر دادههای ما (تاپل)‪ ،‬همانند میزان‬ ‫◼‬

‫درآمد یک مشتری‪ ،‬مقداری ثبت نشده است‪.‬‬

‫داده گمشده میتواند به دالیل زیر باشد‪:‬‬ ‫◼‬

‫نقص تجهیزات‬ ‫◼‬

‫به دلیل ناسازگاری با سایر دادههای ثبت شده حذف شده باشد‬ ‫◼‬

‫داده به دلیل سوء تفاهم یا اشتباه فهمیدن وارد نشده است‬ ‫◼‬

‫کم اهمیت در نظر گرفتن برخی دادهها و در نتیجه وارد نکردن آنان‬ ‫◼‬

‫ثبت نکردن تاریخچه یا تغییرات دادهها‬ ‫◼‬

‫دادههای گمشده ممکن است به استنباط نیاز داشته باشند‬ ‫◼‬

‫‪9‬‬
‫چگونه با دادههای گمشده برخورد کنیم؟‬
‫چشم پوشی از سطری (تاپلی) که داده گمشده دارد‪ :‬معموالً زمانی انجام میشود که برچسب (‪ )label‬یک‬ ‫◼‬

‫کالس مشخص نباشد (در زمان انجام طبقه بندی)‪ .‬این عمل در زمانی که درصد دادههای گمشده به ازای‬
‫هر مشخصه به طور قابل توجهی متفاوت است‪ ،‬موثر نیست‪.‬‬
‫پر کردن مقادیر دادههای گمشده به صورت دستی‪ :‬خسته کننده و نشدنی!‬ ‫◼‬

‫پر کردن مقادیر دادههای گمشده به صورت اتوماتیک‪:‬‬ ‫◼‬

‫یک ثابت سراسری‪ :‬برای مثال “گمشده” به عنوان یک کالس جدید از داده ها‬ ‫◼‬

‫میانگین هر مشخصه را به جای هر داده گمشده در آن مشخصه بگذاریم‪ :‬برای مثال معدل کل افراد‬ ‫◼‬

‫کالس را به ازای هر فردی که معدلش را نداریم (فارغ از اینکه داده گمشده به کدام دسته تعلق‬
‫دارد)‬
‫میانگین مشخصه دادههای یک کالس را به جای داده گمشده آن مشخصه بگذاریم‪ :‬برای مثال معدل‬ ‫◼‬

‫افراد درسخوان برای یک فرد درسخوان دیگر که معدلش را نداریم‪ .‬این روش از روش قبلی‬
‫هوشمندانهتر است‪.‬‬
‫محتمل ترین مقدار‪ :‬بر اساس روشهایی همانند فرمول بیز یا درخت تصمیم گیری‬ ‫◼‬

‫‪10‬‬
‫دادههای نویز دار‬
‫نویز‪ :‬معموال خطاهای تصادفی یا واریانس موجود در داده ها را نویز میگوییم‪.‬‬ ‫◼‬

‫مقادیر نادرست یک مشخصه میتواند به دالیل زیر باشد‪:‬‬ ‫◼‬

‫◼ خطای ابزارهای جمع آوری داده‬

‫◼ خطا در هنگام ورود داده‬
‫◼ مشکالت انتقال داده‬
‫مثال‪ :‬انتقال از یک دیتاست به مجموعه دیگر و عدم سازگاری فیلدها‬ ‫◼‬

‫محدودیت تکنولوژی‬ ‫◼‬

‫تغییرات در نامگذاری‬ ‫◼‬

‫مثال‪ :‬تغییر نام جداول و یا فیلد ها (تغییر از تحصیالت به آخرین مدرک تحصیلی)‬ ‫◼‬

‫دیگر مشکالت داده که نیاز به پاکسازی دارند‬ ‫◼‬

‫◼ رکوردهای تکراری‬
‫برای مثال داده های مربوط به وضعیت بیماران در صدم ثانیه ثیت میشده است اما این زمان به ثانیه‬ ‫◼‬

‫تغییر کرده و در نتیجه برای داده های قدیمی به ازای هر ثانیه مقادیر تکراری داریم‪.‬‬
‫دادههای ناقص‬ ‫◼‬

‫دادههای ناسازگار‬ ‫◼‬

‫‪11‬‬
‫هموارسازی دادههای نویز دار‬

‫روش بسته بندی یا ‪Binning‬‬ ‫◼‬

‫◼ در ابتدا دادهها را مرتب میکنیم‪ .‬سپس آنها را در داخل بستهها یا بینها تقسیم‬
‫میکنیم (با تناوب (فرکانس) یکسان)‬
‫◼ سپس میتوانیم دادههای یک بسته را با استفاده از میانگین (‪ ،)mean‬میانه‬
‫(‪ )median‬یا مقدار کرانی (‪ )boundary‬بستهها هموار کنیم‪.‬‬
‫رگرسیون‬ ‫◼‬

‫◼ هموارسازی از طریق فیت کردن دادهها بر روی یک تابع رگرسیون‬

‫خوشه بندی‬ ‫◼‬

‫◼ شناسایی و حذف دادههای پرت‬

‫بازرسی انسان و کامپیوتر‬ ‫◼‬

‫◼ شناسایی مقادیر مشکوک و بررسی آنان توسط انسان‬

‫‪12‬‬
‫پاکسازی داده به عنوان یک فرآیند‬
‫تشخیص انحراف داده‬ ‫◼‬

‫◼ استفاده از فراداده (‪ )metadata‬یا دانش ما درباره خصوصیات داده (برای مثال دامنه‪ ،‬طیف‪ ،‬وابستگی‪ ،‬توزیع)‬
‫◼ بررسی چندکارگی مشخصه(‪)field‬‬
‫◼ بررسی قواعد یکتایی‪ ،‬قواعد پیدرپی بودن و قاعدهی تهی(‪)Null‬‬
‫◼ استفاده از ابزارهای تجاری‬
‫◼ ابزارهای شست و شو و سایش داده‪ :‬استفاده از دامنه دانش سادهای (به عنوان مثال دانشی درباره‬
‫آدرسهای پستی‪ ،‬اشتباهات امالیی) برای تشخیص خطا و اصالح آن‬
‫◼ ابزارهای حسابرسی دادهها‪ :‬با استفاده از آنالیز داده برای کشف قواعد و قوانین موجود در دادهها و کشف‬
‫آنهایی که این قواعد و قوانین را نقض میکنند (برای مثال استفاده از همبستگی یا خوشه بندی برای‬
‫کشف دادههای پرت)‬
‫ابزارهای مهاجرت و تبدیل داده‬ ‫◼‬

‫◼ ابزارهای مهاجرت داده‪ :‬اجازه میدهد تبدیلها مشخص باشد (برای مثال جایگزینی ‪ gender‬با ‪)sex‬‬
‫◼ ابزار ‪( ETL‬استخراج‪/‬تبدیل‪/‬بارگذاری)‪ :‬به کاربران اجازه میدهند تا تبدیل ها را از طریق یک واسط گرافیکی‬
‫مشخص کنند‪.‬‬
‫ادغام دو فرآیند‬ ‫◼‬

‫◼ تکرارشونده و تعاملی (مثل ‪ Potter’s Wheels‬برای پاکسازی داده)‬

‫‪13‬‬
‫پیش پردازش داده‬

‫خالصهای از پیش پردازش داده‬ ‫◼‬

‫کیفیت داده‬ ‫◼‬

‫کارهای اصلی در پیش پردازش داده‬ ‫◼‬

‫پاکسازی داده‬ ‫◼‬

‫یکپارچه سازی داده‬ ‫◼‬

‫تقلیل داده‬ ‫◼‬

‫تبدیل و گسسته سازی داده‬ ‫◼‬

‫خالصه‬ ‫◼‬

‫‪14‬‬
‫یکپارچه سازی دادهها‬
‫یکپارچه سازی‪:‬‬ ‫◼‬

‫ادغام دادهها از چند منبع مختلف‬ ‫◼‬

‫یکپارچه سازی شِما (اِسکیما)‪ :‬برای مثال ‪( A.cust-id  B.cust-number‬ظاهر فیلدها یکدست‬ ‫◼‬

‫باشد)‬
‫یکپارچه کردن فرادادهها از منابع مختلف‬ ‫◼‬

‫مشکل شناسایی موجودیت‬ ‫◼‬

‫شناسایی موجودیتهای دنیای واقعی از منابع داده مختلف‪ .‬برای مثال‪:‬‬ ‫◼‬

‫‪( Bill Clinton = William Clinton‬هر دو موجودیت یکسان است و باید آن ها را شناخت‪).‬‬
‫شناسایی و حل تضادهای مقادیر داده ها‬ ‫◼‬

‫مقادیر مشخصهها برای یک موجودیت یکسان در دنیای واقعی در منابع مختلف‪ ،‬تفاوت دارد‪.‬‬ ‫◼‬

‫دالیل احتمالی‪ :‬نحوه نمایش متفاوت یا مقیاسهای متفاوت‪ .‬برای مثال متر و اینچ‬ ‫◼‬

‫‪15‬‬
‫حل افزونگی (‪ )Redundancy‬در یکپارچهسازی دادهها‬

‫افزونگی معموالً هنگام ادغام پایگاههای داده مختلف رخ میدهد‪.‬‬ ‫◼‬

‫شناسایی مورد‪ :‬مشخصهها یا موجودیت های یکسان‪ ،‬ممکن است اسامی مختلفی‬ ‫◼‬

‫در پایگاههای داده مختلف داشته باشند‪.‬‬

‫داده قابل استفاده‪ :‬یک مشخصه ممکن است در یک مشخصه دیگر استفاده شده‬ ‫◼‬

‫باشد‪ .‬برای مثال درآمد ساالنه‬

‫مشخصههای افزونه را میتوان با آنالیزهمبستگی و آنالیز کواریانس کشف کرد‪.‬‬ ‫◼‬

‫ادغام محتاطانه دادهها از پایگاههای مختلف میتواند به کاهش یا جلوگیری از افزونگی‬ ‫◼‬

‫و ناسازگاری و افزایش سرعت و کیفیت دادهکاوی کمک کند‪.‬‬

‫‪16‬‬
‫آنالیز همبستگی (برای دادههای اسمی)‬

‫آزمون کای‪-‬دو‬ ‫◼‬

‫(‬‫‪Observed‬‬ ‫‪−‬‬ ‫‪Expected‬‬‫)‬ ‫‪2‬‬

‫‪2 = ‬‬
‫‪Expected‬‬
‫هر چه مقدار ‪ Χ2‬بزرگتر باشد‪ ،‬احتمال وابستگی متغیرها بیشتر است‪.‬‬ ‫◼‬

‫آن سلولهایی که اختالف مقدار مشاهده شده آنان از مقدار مورد انتظار آنان بیشتر‬ ‫◼‬

‫است‪ ،‬در مقدار ‪ Χ2‬نقش بیشتری بازی میکنند (صورت کسر بزرگتر میشود)‪.‬‬
‫همبستگی داللتی بر علیت ندارد‪.‬‬ ‫◼‬

‫تعداد بیمارستانها با تعداد دزدیهای ماشین همبسته هستند‪.‬‬ ‫◼‬

‫ممکن است دلیل وقوع هردوی آنها‪ ،‬به متغیر سومی مانند جمعیت برگردد‪.‬‬ ‫◼‬

‫‪17‬‬
‫یک مثال برای آزمون کای‪-‬دو‬

‫شطرنج بازی میکند‬ ‫شطرنج بازی نمیکند‬ ‫جمع سطرها‬

‫فیلم علمی‪-‬تخیلی دوست دارد‬ ‫)‪250(90‬‬ ‫)‪200(360‬‬ ‫‪450‬‬
‫فیلم علمی‪-‬تخیلی دوست ندارد‬ ‫)‪50(210‬‬ ‫)‪1000(840‬‬ ‫‪1050‬‬
‫جمع ستونها‬ ‫‪300‬‬ ‫‪1200‬‬ ‫‪1500‬‬

‫محاسبه ‪( Χ2‬اعداد داخل پرانتز همان مقادیر مورد انتظار ما هستند که بر اساس توزیع‬ ‫◼‬

‫داده در دو دسته محاسبه شدهاند)‬

‫‪(250 − 90) 2 (50 − 210) 2 (200 − 360) 2 (1000 − 840) 2‬‬

‫= ‪‬‬
‫‪2‬‬
‫‪+‬‬ ‫‪+‬‬ ‫‪+‬‬ ‫‪= 507.93‬‬
‫‪90‬‬ ‫‪210‬‬ ‫‪360‬‬ ‫‪840‬‬

‫بدین ترتیب‪ ،‬دوست داشتن فیلم علمی‪-‬تخیلی و شطرنج بازی کردن همبسته هستند‪ .‬شایان ذکر است با‬ ‫◼‬

‫توجه به این عدد و درجه آزادی و آلفای تعیین شده و جدول مربوط به کای‪-‬دو فرض صفر رد شده و این‬
‫نتیجه حاصل می شود‪.‬‬
‫‪18‬‬
‫آنالیز کواریانس (برای دادههای عددی)‬

‫ضریب همبستگی یا ضریب گشتاور ضربی پیرسون از فرمول زیر محاسبه میشود‪:‬‬ ‫◼‬

‫)‪i=1 (ai − A)(bi − B‬‬ ‫‪‬‬

‫‪n‬‬ ‫‪n‬‬
‫‪(ai bi ) − n AB‬‬
‫= ‪rA, B‬‬ ‫=‬ ‫‪i =1‬‬
‫‪(n − 1) A B‬‬ ‫‪(n − 1) A B‬‬

‫که در آن ‪ A‬و ‪ B‬به ترتیب میانگین مربوط به ‪ A‬و ‪ n ،B‬تعداد سطرهای داده‪ σA ،‬و‬
‫‪ σB‬به ترتیب انحراف استاندارد مربوط ‪ A‬و ‪ B‬و )‪ Σ(aibi‬مجموع ضرب خارجی‬
‫‪ AB‬میباشند‪.‬‬
‫اگر ‪ rA,B > 0‬باشد‪ A ،‬و ‪ B‬به طور مثبت همبسته اند (با افزایش مقدار یکی‪ ،‬مقدار‬ ‫◼‬

‫دیگری نیز افزایش پیدا میکند) و در غیر این صورت بصورت منفی‪ .‬هر چه این مقدار‬
‫بیشتر باشد‪ ،‬همبستگی قویتر است‪.‬‬
‫اگر ‪ rA,B = 0‬باشد‪ A ،‬و ‪ B‬مستقل هستند‪.‬‬ ‫◼‬

‫‪19‬‬
Visually Evaluating Correlation

Scatter plots
showing the
similarity from
–1 to 1.

20
‫همبستگی(از نظر ارتباط خطی)‬

‫همبستگی ارتباط خطی را بین دو متغیر اندازه گیری میکند‪.‬‬ ‫◼‬

‫برای محسابه همبستگی‪ ،‬داده ها را استاندارد کرده و ضرب نقطه ای آن ها را بدست می‬ ‫◼‬

‫آوریم‪A( .‬و‪ B‬داده های اصلی و استاندارد نشده)‬

‫‪21‬‬
‫کواریانس (برای دادههای عددی)‬
‫کواریانس شبیه به همبستگی است‬ ‫◼‬

‫‪:‬ضریب همبستگی‬

‫که در آن ‪ A‬و ‪ B‬به ترتیب میانگین یا مقادیر مورد انتظار مربوط به ‪ A‬و ‪ n ،B‬تعداد سطرهای داده و ‪σA‬‬ ‫◼‬

‫و ‪ σB‬به ترتیب انحراف استاندارد مربوط ‪ A‬و ‪ B‬میباشند‪.‬‬

‫کواریانس مثبت‪ :‬اگر ‪ CovA,B > 0‬باشد آنگاه ‪ A‬و ‪ B‬هر دو تمایل دارند از مقادیر مورد انتظارشان بیشتر‬ ‫◼‬

‫باشند‪.‬‬
‫کواریانس منفی‪ :‬اگر ‪ CovA,B < 0‬باشد آنگاه ‪ A‬و ‪ B‬هر دو تمایل دارند از مقادیر مورد انتظارشان کمتر‬ ‫◼‬

‫باشند‪.‬‬
‫اگر ‪ A‬و ‪ B‬مستقل باشند‪ ،‬کواریانس نیز صفر است اما عکس این موضوع لزوماً برقرار نیست‪.‬‬ ‫◼‬

‫دو متغیر تصادفی ممکن است کواریانس صفر داشته باشند اما مستقل نباشند‪ .‬تنها تحت برخی از فرضهای اضافی (برای مثال‬ ‫◼‬

‫دادهها از توریع نرمال چند متغیره پیروی کنند) کواریانس صفر داللتی بر استقالل است‪.‬‬

‫‪22‬‬
‫یک مثال از کواریانس‬

‫فرم ساده شده آن‪:‬‬ ‫◼‬

‫فرض کنیم دو سهم ‪ A‬و ‪ B‬قیمتهای زیر را در طول یک هفته داشته باشند‪:‬‬ ‫◼‬

‫)‪(2, 5), (3, 8), (5, 10), (4, 11), (6, 14‬‬ ‫◼‬

‫سوال‪:‬اگر سهمهای ‪ A‬و ‪ B‬توسط یک روند مشابه در صنعت تاثیر پذیرند‪ ،‬آیا قیمتهای آنان باهم افزایش یا‬ ‫◼‬

‫کاهش پیدا میکنند؟‬

‫◼‬ ‫‪E(A) = (2 + 3 + 5 + 4 + 6)/ 5 = 20/5 = 4‬‬

‫◼‬ ‫‪E(B) = (5 + 8 + 10 + 11 + 14) /5 = 48/5 = 9.6‬‬

‫◼‬ ‫‪Cov(A,B) = (2×5+3×8+5×10+4×11+6×14)/5 − 4 × 9.6 = 4‬‬

‫از آنجایی که ‪ Cov(A, B) > 0‬است‪ ،‬قیمت سهمهای ‪ A‬و ‪ B‬باهم افزایش پیدا میکنند‪.‬‬ ‫◼‬
‫پیش پردازش داده‬

‫خالصهای از پیش پردازش داده‬ ‫◼‬

‫کیفیت داده‬ ‫◼‬

‫کارهای اصلی در پیش پردازش داده‬ ‫◼‬

‫پاکسازی داده‬ ‫◼‬

‫یکپارچه سازی داده‬ ‫◼‬

‫تقلیل داده‬ ‫◼‬

‫تبدیل و گسسته سازی داده‬ ‫◼‬

‫خالصه‬ ‫◼‬

‫‪24‬‬
‫استراتژیهای تقلیل داده‬
‫تقلیل داده‪ :‬یک مجموعه کم حجم تر از مجموعه داده اصلی داشته باشیم به طوری که با حجم داده کمتر‬ ‫◼‬
‫نتایج تحلیلی یکسان (یا تقریباً یکسان) با مجموعه داده اصلی را تولید کند‬
‫چرا به تقلیل داده نیاز داریم؟ در یک پایگاه یا انبار داده ممکن است ترابایتهایی از داده ذخیره شده باشد‪.‬‬ ‫◼‬
‫ممکن است برای یک مجموعه داده حجیم و بزرگ‪ ،‬تحلیل داده های پیچیده بسیار زمان بر بوده و سیستم‬
‫های قدرتمندی جهت پردازش نیاز داشته باشد‪.‬‬
‫استراتژیهای تقلیل داده‬ ‫◼‬

‫◼ کاهش ابعاد‪ ،‬برای مثال حذف مشخصههای بی اهمیت‬

‫◼ ‪Wavelet transforms‬‬
‫◼ )‪Principal Components Analysis (PCA‬‬
‫◼ ‪Feature subset selection, feature creation‬‬
‫◼ کاهش بزرگی (برخی به آن کاهش داده میگویند)‪ :‬بدون از دست رفتن داده ها‪ ،‬حجم داده ها کاهش‬
‫یابد‪.‬‬
‫◼ ‪Regression and Log-Linear Models‬‬
‫◼ ‪Histograms, clustering, sampling‬‬
‫◼ ‪Data cube aggregation‬‬
‫◼ فشردهسازی داده‬
‫‪25‬‬
‫تقلیل داده‪ :‬کاهش ابعاد‬
‫مشکالت مربوط به ابعاد‪/‬مصیبت ابعاد‬ ‫◼‬

‫با افزایش ابعاد‪ ،‬دادهها نیز به سرعت پراکنده و تنک میشوند‪.‬‬ ‫◼‬

‫بدین ترتیب چگالی و فاصله بین نقاط‪ ،‬که دو امر مهم در خوشه بندی و شناسایی دادههای پرت هستند‪ ،‬معنای‬ ‫◼‬

‫خود را کم کم از دست میدهند‪.‬‬

‫تعداد ترکیبات ممکن زیرشاخهها‪ ،‬به طور نمایی رشد پیدا میکنند‪.‬‬ ‫◼‬

‫کاهش ابعاد‬ ‫◼‬

‫جلوگیری از مشکالت مربوط به مصیبت ابعاد‬ ‫◼‬

‫کمک به حذف مشخصه های نامرتبط و کاهش نویز‬ ‫◼‬

‫کاهش زمان و فضای مورد نیاز برای دادهکاوی‬ ‫◼‬

‫کمک به مصورسازی راحتتر‬ ‫◼‬

‫تکنیکهای کاهش ابعاد‬ ‫◼‬

‫تبدیلهای موجک (‪)Wavelet transforms‬‬ ‫◼‬

‫تحلیل مولفههای اصلی (‪)PCA‬‬ ‫◼‬

‫روشهای با ناظر و غیرخطی (برای مثال انتخاب زیرمجموعهای از مشخصه ها)‬ ‫◼‬

‫‪26‬‬
‫تقلیل داده‪ :‬کاهش بزرگی‬
‫کاهش حجم داده بهوسیلهی انتخاب جایگزین و یا استفاده از شکل کوچکتری از‬ ‫◼‬
‫داده ها‬
‫روشهای پارامتری (مانند رگرسیون)‬ ‫◼‬

‫◼ به جای ذخیره دادههای واقعی‪ ،‬تنها پارامترهای مدل تخمین که بر روی دادهها‬
‫فیت شده است‪ ،‬نگهداری میشود (ممکن است دادههای پرت نیز نگهداری شوند)‬
‫◼ مثال‪ :‬مدلهای لگاریتم خطی‬
‫روشهای غیر پارامتری‬ ‫◼‬

‫◼ در این روشها‪ ،‬از قبل مدلی در نظر نمیگیریم‪.‬‬

‫◼ روشهای معروف‪ :‬هیستوگرام‪ ،‬خوشهبندی‪ ،‬نمونهگیری‬

‫‪27‬‬
‫پیش پردازش داده‬

‫خالصهای از پیش پردازش داده‬ ‫◼‬

‫کیفیت داده‬ ‫◼‬

‫کارهای اصلی در پیش پردازش داده‬ ‫◼‬

‫پاکسازی داده‬ ‫◼‬

‫یکپارچه سازی داده‬ ‫◼‬

‫تقلیل داده‬ ‫◼‬

‫تبدیل و گسسته سازی داده‬ ‫◼‬

‫خالصه‬ ‫◼‬

‫‪28‬‬
‫تبدیل داده‬
‫عملی که طی آن مجموعه مقادیر یک مشخصه به مجموعه مقادیر جایگزینی تصویر میشود به طوری‬ ‫◼‬

‫که هر کدام از مقادیر قبلی به وسیله یکی از مقادیر جدید شناخته خواهند شد‪.‬‬
‫روشها‬ ‫◼‬

‫هموارسازی‪ :‬حذف نویز از دادهها‬ ‫◼‬

‫ایجاد صفت‪/‬مشخصه‬ ‫◼‬

‫از مجموعه مشخصه های موجود‪ ،‬مشخصه جدیدی ساخته میشود‬ ‫◼‬

‫تجمیع‪ :‬خالصهسازی‪ ،‬ایجاد مکعب داده‬ ‫◼‬

‫نرمالسازی‪ :‬مقیاس کردن دادهها در یک بازه کوچکتر و مشخص‬ ‫◼‬

‫نرمالسازی ‪min-max‬‬ ‫◼‬

‫نرمالسازی ‪z-score‬‬ ‫◼‬

‫نرمالسازی با مقیاسگذاری دهدهی‬ ‫◼‬

‫گسستهسازی‪ :‬مفهوم سلسه مراتبی باال به پایین‬ ‫◼‬

‫‪29‬‬
‫نرمالسازی‬
‫نرمالسازی ‪ : min-max‬تبدیل به ]‪[new_minA, new_maxA‬‬ ‫◼‬

‫‪v − minA‬‬
‫= '‪v‬‬ ‫‪(new _ maxA − new _ minA) + new _ minA‬‬
‫‪maxA − minA‬‬
‫برای مثال نرمالسازی بازه درآمد ‪ 12000‬تا ‪ 98000‬به بازه به ]‪ [0, 1‬را انجام دادهایم‪ .‬حال مقدار درآمد‬ ‫◼‬

‫‪ 73000‬در این بازه جدید برابر است با‪:‬‬

‫‪73,600 − 12,000‬‬
‫‪(1.0 − 0) + 0 = 0.716‬‬
‫‪98,000 − 12,000‬‬

‫‪v − A‬‬
‫= '‪v‬‬ ‫نرمالسازی ‪ :μ( :z-score‬میانگین‪ :σ ،‬انحراف استاندارد)‬
‫‪‬‬
‫◼‬
‫‪A‬‬

‫‪73,600 − 54,000‬‬
‫‪= 1.225‬‬ ‫اگر میانگین برابر ‪ 54000‬و انحراف استاندارد ‪ 16000‬باشد داریم‪:‬‬ ‫◼‬
‫‪16,000‬‬
‫نرمالسازی با مقیاسگذاری دهدهی‬ ‫◼‬

‫‪v‬‬
‫‪v' = j‬‬ ‫که ‪ j‬در آن کوچکترین عدد صحیحی است که ‪Max(|ν’|) < 1‬‬
‫‪10‬‬
‫‪30‬‬
‫گسستهسازی‬
‫انواع مشخصه‬ ‫◼‬

‫اسمی‪ :‬مقادیری از یک مجموعه اسمی که ترتیب در آن اهمیت ندارد مانند رنگ (قرمز‪ ،‬آبی‪ ،‬زرد) ‪،‬‬ ‫◼‬

‫حرفه‬
‫ترتیبی‪ :‬مقادیری از یک مجموعه اسمی که مرتب در آن مهم و تاثیر گذار است مانند درجه نظامی یا‬ ‫◼‬

‫درجات تحصیلی (دیپلم‪ ،‬کارشناسی‪ ،‬کارشناسی ارشد‪ ،‬دکترا)‬

‫عددی‪ :‬اعداد حقیقی مانند اعداد صحیح‬ ‫◼‬

‫گسسته سازی‪ :‬دامنه یک مشخصه پیوسته را به بازههای مختلف تقسیم نمود‪.‬‬ ‫◼‬

‫لیبل های هر بازه میتواند جهت جایگزین کردن با مقادیر واقعی دادهها استفاده شود‬ ‫◼‬

‫کاهش سایز دادهها با استفاده از گسستهسازی‬ ‫◼‬

‫با ناظر در مقابل بیناظر‬ ‫◼‬

‫انفصال (باال به پایین) در برابر ادغام (پایین به باال)‬ ‫◼‬

‫گسستهسازی را میتوان به صورت بازگشتی برای یک مشخصه انجام داد‬ ‫◼‬

‫آمادهسازی جهت آنالیزهای بعدی مثل دستهبندی‬ ‫◼‬

‫‪31‬‬
‫روشهای گسستهسازی‬
‫روشهای معمول‪ :‬تمامی روشها بصورت بازگشتی نیز میتوانند انجام شوند‬ ‫◼‬

‫‪ Binning‬یا بستهبندی‬ ‫◼‬

‫انفصال باال به پایین و بیناظر‬ ‫◼‬

‫تحلیل هیستوگرام‬ ‫◼‬

‫انفصال باال به پایین و بیناظر‬ ‫◼‬

‫تحلیل خوشهبندی‬ ‫◼‬

‫انفصال باال به پایین یا ادغام پایین به باال و بیناظر‬ ‫◼‬

‫تحلیل درخت تصمیم‬ ‫◼‬

‫انفصال باال به پایین و باناظر‬ ‫◼‬

‫تحلیل همبستگی (مانند آزمون کای‪-‬دو)‬ ‫◼‬

‫ادغام پایین به باال و بیناظر‬ ‫◼‬

‫‪32‬‬
‫‪ Binning‬یا بستهبندی‬

‫پارتیشن بندی (تقسیم بندی) با عرض (فاصله) یکسان‬ ‫◼‬

‫تقسیم بازه اولیه به ‪ N‬بازه متساوی الفاصله‪ :‬شبکه یکنواخت‬ ‫◼‬

‫اگر ‪ A‬و ‪ B‬به ترتیب کمترین و بزرگترین مقادیر یک مشخصه باشند‪ ،‬آنگاه ‪ W‬یا عرض یک بازه‬ ‫◼‬

‫برابر است با ‪.W = (B –A)/N‬‬

‫این روش سادهترین راه است اما امکان دارد در آن دادههای پرت قابل توجهی ایجاد شود‪.‬‬ ‫◼‬

‫دادههای پیچ خورده (‪ )Skewed data‬به خوبی سازماندهی نمیشوند‪.‬‬ ‫◼‬

‫پارتیشن بندی(تقسیم بندی) با عمق یکسان ( تناوب)‬ ‫◼‬

‫تقسیم دامنه به ‪ N‬بازه به طوری که در هر بازه تقریباً تعداد مساویای از نمونهها باشد‬ ‫◼‬

‫مقیاسگذاری خوب دادهها‬ ‫◼‬

‫ممکن است مدیریت مشخصههای دسته ای (‪ )categorical attributes‬با پیچیدگی همراه‬ ‫◼‬

‫باشد‪.‬‬
‫‪33‬‬
‫روش ‪ Binning‬برای هموارسازی دادهها‬
‫❑ دادههای مربوط به قیمت (مرتب شده به صورت صعودی)‬
‫‪4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34‬‬
‫* پارتیشن بندی(تقسیم بندی) به بینها از طریق تناوب (عمق) یکسان‪:‬‬
‫‪- Bin 1: 4, 8, 9, 15‬‬
‫‪- Bin 2: 21, 21, 24, 25‬‬
‫‪- Bin 3: 26, 28, 29, 34‬‬
‫* هموارسازی به وسیلهی میانگین بینها‪:‬‬
‫‪- Bin 1: 9, 9, 9, 9‬‬
‫‪- Bin 2: 23, 23, 23, 23‬‬
‫‪- Bin 3: 29, 29, 29, 29‬‬
‫* هموارسازی به وسیلهی کران بینها‪:‬‬
‫‪- Bin 1: 4, 4, 4, 15‬‬
‫‪- Bin 2: 21, 21, 25, 25‬‬
‫‪- Bin 3: 26, 26, 26, 34‬‬
‫‪34‬‬
‫خالصه‬

‫کیفیت داده‪ :‬صحت‪ ،‬کامل بودن‪ ،‬سازگاری‪ ،‬بهنگام بودن‪ ،‬قابل باور بودن‪ ،‬تفسیرپذیری‬ ‫◼‬

‫پاکسازی داده‪ :‬برای مثال دادههای گمشده یا پرت‬ ‫◼‬

‫یکپارچه سازی داده از منابع مختلف‪:‬‬ ‫◼‬

‫مشکل شناسایی موجودیت‬ ‫◼‬

‫حذف افرونگیها‬ ‫◼‬

‫شناسایی ناسازگاریها‬ ‫◼‬

‫تقلیل داده‬ ‫◼‬

‫کاهش ابعاد‬ ‫◼‬

‫کاهش بزرگی (‪(Numerosity‬‬ ‫◼‬

‫فشرده سازی (‪ )compression‬دادهها‬ ‫◼‬

‫تبدیل داده و تفسیر داده‬ ‫◼‬

‫نرمال سازی‬ ‫◼‬

‫مفهوم ایجاد سلسله مراتب‬ ‫◼‬

‫‪35‬‬

احصایه چیست.docx1
100% (2)
احصایه چیست.docx1
9 pages
دستور کار آزمایشگاه پایگاه داده
No ratings yet
دستور کار آزمایشگاه پایگاه داده
14 pages
Data Cleaning
No ratings yet
Data Cleaning
17 pages
001
No ratings yet
001
25 pages
جزوه ۱ داده کاوی
No ratings yet
جزوه ۱ داده کاوی
51 pages
تعنص ةنیمز هنایار و قرب: یلیصحت هورگ هداد هاگیاپ یسیون همانرب: یتراهم ۀتشر SQL, Access یتاعلاطا کناب ربراک: انبم یتراهم درادناتسا مان 0ـ 84/80/1/3/2: یلوتم درادناتسا دک
No ratings yet
تعنص ةنیمز هنایار و قرب: یلیصحت هورگ هداد هاگیاپ یسیون همانرب: یتراهم ۀتشر SQL, Access یتاعلاطا کناب ربراک: انبم یتراهم درادناتسا مان 0ـ 84/80/1/3/2: یلوتم درادناتسا دک
338 pages
@farabar BI Data Mining Concepts
No ratings yet
@farabar BI Data Mining Concepts
315 pages
002
No ratings yet
002
75 pages
1 9143961472
No ratings yet
1 9143961472
26 pages
جزوه پایگاه داده
No ratings yet
جزوه پایگاه داده
415 pages
جزوه ۲ داده کاوی
No ratings yet
جزوه ۲ داده کاوی
88 pages
February 27, 2022 Data Mining: Concepts and Techniques 1
No ratings yet
February 27, 2022 Data Mining: Concepts and Techniques 1
72 pages
02 Preprocessing
No ratings yet
02 Preprocessing
19 pages
DBMS
No ratings yet
DBMS
38 pages
داده کاوی (جزوه ارائه) دیتا ماینینگ
No ratings yet
داده کاوی (جزوه ارائه) دیتا ماینینگ
56 pages
Access 2016
No ratings yet
Access 2016
56 pages
06 Model Selection - Farsi
No ratings yet
06 Model Selection - Farsi
45 pages
Data Mining
No ratings yet
Data Mining
27 pages
رهنمایی اموزش برنامه Spss با در نظر گرفتن روش تحقیق
No ratings yet
رهنمایی اموزش برنامه Spss با در نظر گرفتن روش تحقیق
220 pages
2 DB DataModeling
No ratings yet
2 DB DataModeling
66 pages
01
No ratings yet
01
47 pages
Pasokh Tashrihi Paygah Pishrafte
No ratings yet
Pasokh Tashrihi Paygah Pishrafte
93 pages
سرفصل - ها و بروشور دوره جامع کد 27
No ratings yet
سرفصل - ها و بروشور دوره جامع کد 27
26 pages
02 Preprocessing
No ratings yet
02 Preprocessing
30 pages
14 - Learning From Examples - SVM
No ratings yet
14 - Learning From Examples - SVM
37 pages
C++ Devep
No ratings yet
C++ Devep
126 pages
1 Merged
No ratings yet
1 Merged
28 pages
داده‌های کلان
No ratings yet
داده‌های کلان
17 pages
AP Mirkhan Ch01
No ratings yet
AP Mirkhan Ch01
22 pages
جزوه آمار و احتمال یازدهم
No ratings yet
جزوه آمار و احتمال یازدهم
63 pages
Database
No ratings yet
Database
95 pages
02 Statistical - Learning - Farsi
No ratings yet
02 Statistical - Learning - Farsi
32 pages
Data Mining - Abdul Baes
No ratings yet
Data Mining - Abdul Baes
47 pages
Rgda 00 - Intro
No ratings yet
Rgda 00 - Intro
15 pages
Dissertation Part 1 and 2
No ratings yet
Dissertation Part 1 and 2
63 pages
Presentation 1
No ratings yet
Presentation 1
46 pages
Dadekavi 4
No ratings yet
Dadekavi 4
12 pages
01 Introduction
No ratings yet
01 Introduction
22 pages
Week 5 A
No ratings yet
Week 5 A
94 pages
Dadekavi 3
No ratings yet
Dadekavi 3
32 pages
F1
No ratings yet
F1
39 pages
خلاصه کتاب توسعه برنامه سازی و پایگاه داده یازدهم
No ratings yet
خلاصه کتاب توسعه برنامه سازی و پایگاه داده یازدهم
23 pages
Power Bi: Types of Insights
No ratings yet
Power Bi: Types of Insights
6 pages
FDB 1
No ratings yet
FDB 1
29 pages
جزییات سرفصل های دانشمندداده
No ratings yet
جزییات سرفصل های دانشمندداده
11 pages
DW ...
No ratings yet
DW ...
24 pages
Chapter00 Syllabes
No ratings yet
Chapter00 Syllabes
11 pages
علی مظلوم تحقیق فصل اول پایگاه داده
No ratings yet
علی مظلوم تحقیق فصل اول پایگاه داده
25 pages
نکات مهم کتاب توسعه برنامه سازی و پایگاه داده یازدهم
No ratings yet
نکات مهم کتاب توسعه برنامه سازی و پایگاه داده یازدهم
8 pages
آزمون میان - ترم
No ratings yet
آزمون میان - ترم
2 pages
Gozaresh MIS01
No ratings yet
Gozaresh MIS01
5 pages
Rgda - Plan
No ratings yet
Rgda - Plan
3 pages
نقشه راه دیتاساینس با توضیحات کامل
No ratings yet
نقشه راه دیتاساینس با توضیحات کامل
10 pages
سولات ترم گذشته سیستم مدیریت انشائی
No ratings yet
سولات ترم گذشته سیستم مدیریت انشائی
6 pages
HW#1 STD
No ratings yet
HW#1 STD
5 pages
Scikit Learn CheatSheet BFCS0011
No ratings yet
Scikit Learn CheatSheet BFCS0011
5 pages
Data Analyst Farsi
No ratings yet
Data Analyst Farsi
11 pages
Ins Prop
No ratings yet
Ins Prop
12 pages
X Cifar10
No ratings yet
X Cifar10
2 pages