Big Data III Data Preprocessing
Big Data III Data Preprocessing
dengan RapidMiner
Budi Susanto
Data Mining:
RapidMiner - BudiConcepts
Susanto and Techniques, 3th ed., p. 47
Deskripsi Statistik
• Mengukur penyebaran data
o Rentang dan Kuartil
o Variasi dan Standard Deviasi
Data Mining:
RapidMiner - BudiConcepts
Susanto and Techniques, 3th ed., p. 48
BoxPlot
• Interquartil Range (IQR)
o Q3 – Q1
• Outlier data
o 1.5 x IQR
• Mengapa penting?
o Untuk memenuhi data quality
• Accuracy
• Completeness
• Consistency
o Disamping terdapat faktor data quality lain:
• Timeliness
• Believability
• interpretability
• Sehingga
o Data perlu dinormalisasi atau dibakukan.