0% menganggap dokumen ini bermanfaat (0 suara)
184 tayangan50 halaman

Materi Data Wrangling

Dokumen ini membahas tentang proses data wrangling yang mencakup pembersihan dan pengayaan data untuk menghasilkan wawasan yang dapat ditindaklanjuti. Penjelasan mencakup tahapan dalam data mining, tantangan kualitas data, serta teknik untuk menangani masalah seperti nilai yang hilang dan inkonsistensi. Selain itu, terdapat perbandingan alat-alat yang digunakan dalam data wrangling dan contoh dataset anggaran yang digunakan untuk analisis.

Diunggah oleh

amin rasyidi
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
184 tayangan50 halaman

Materi Data Wrangling

Dokumen ini membahas tentang proses data wrangling yang mencakup pembersihan dan pengayaan data untuk menghasilkan wawasan yang dapat ditindaklanjuti. Penjelasan mencakup tahapan dalam data mining, tantangan kualitas data, serta teknik untuk menangani masalah seperti nilai yang hilang dan inkonsistensi. Selain itu, terdapat perbandingan alat-alat yang digunakan dalam data wrangling dan contoh dataset anggaran yang digunakan untuk analisis.

Diunggah oleh

amin rasyidi
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 50

Knowledge Sharing Ngulik Data di Kanwil DJKN Jawa Timur

21 November 2024

Introduction to Data
Wrangling: from Raw Data to
Actionable Insights
Ira Puspitasari, S.T., M.T., Ph.D.
Universitas Airlangga
[email protected]
01 Pengantar Data Wrangling
• Data Science
• CRISP Data Mining

Agenda
• Data Wrangling

02 Tahapan Data Wrangling


• Cleaning Data
• Enriching Data

03 From Business Problems to


Data Analytics to Solutions
• Analisis Data Lanjutan

2
Data Science
Creates smart machines to
Study of data to extract Artificial mimic human behavior,
meaningful insights for Intelligence perform cognitive functions.
business.

Machine
Data Science Learning Uses algorithms to make
the AI learn without
programming it explicitly.
Data Analytics
Focuses on more
specific, business-
oriented applications Deep Cascade of Neural
of data examination Learning Network, part of M.L.
and interpretation.
Uses artificial neural networks
with multiple layers (hence
"deep") to progressively
extract higher-level features
from raw input.
Data Mining 3
Data
Understanding

put into real use in


order to realize some Data
return on investment Preparation

Crisp Data
Mining
Cross Industry Standard Process for
Data Mining (CRISP-DM; Shearer, 2000)

Data mining is a craft: science + technology + art

4
• Fase awal di semua proyek data mining
dan task data wrangling.
• Menetapkan tujuan bisnis (business
objective), kriteria keberhasilan, dan tujuan
teknis proyek data mining
• Menilai situasi: identifikasi ketersediaan
sumber daya yang mendukung kesuksesan
Business proyek, analisis resiko dan kontingensi
• Mengidentifikasi stakeholder
Understanding • Membuat rencana pelaksanaan proyek

• Merupakan pondasi untuk seluruh


tahapan proyek.
• Memastikan proyek selaras dengan
kebutuhan bisnis
5
• Incomplete (nilai atribut kosong, atribut
yang dibutuhkan tidak tersedia, atau
hany aterdapat data agrregat)
• Atribut yang dibutuhkan belum tentu
tersedia.
Masalah • Data relevan tidak terekam karena
misunderstanding pada pengumpulan
Kualitas Data kebutuhan atau kerusakan alat rekam.

di Dunia Nyata • Inaccurate atau noisy (terdapat error,


nilai yang tidak sesuai ekspektasi, nilai
di luar range normal)
• Inconsistent (ketidaksesuaian,
ketidakseragaman data)
• Inkonsistensi pada format, nilai, dan
unit/satuan.
6
Data Quality Dimensions
Completeness: fulfils Accuracy: the level to Consistency: the
expectations of which data represents absence of difference,
comprehensiveness, the real-world scenario when comparing two or
measures if the data is and confirms with a more representations of a
sufficient to deliver verifiable source. thing against a definition.
meaningful inferences and Multiple instances of data
decisions. version matches.

Validity: signifies that Uniqueness: indicates Timeliness: The


the value attributes are if it is a single recorded degree to which data
available for aligning instance in the data set represent reality from
with the specific used. Ensuring no the required point in
domain or requirement. duplication. time.
Example: ZIP Code,
Date of birth.
7
• Proses membersihkan,
mengorganisasikan, transformasi data
mentah (raw data) menjadi format yang
lebih sesuai untuk analisis, modeling,
dan pembuatan keputusan.
Data • Most labor-intensive step: kombinasi
teknik manual dan otomatis,
Preparation: penggunaan multitools.
Wrangling • Mempelajari dan menyiapkan data: proses
membersihkan data dan mengaplikasikan
berbagai teknik transformasi data yang
relevan,
• Survei dan visualisasi hasil untuk
mendapatkan profil keseluruhan data .

8
Data Preparation: Data cleaning

Wrangling
Data integration

• Data di dunia nyata umumnya rentan


terhadap noisy, data tidak lengkap,
dan inkonsistensi karena umumnya
volume data sangat besar dan
diperoleh dari sumber heterogen.
Data reduction
Attributes Attributes
• Data berkualitas buruk menghasilkan A1 A2 A3 ... A126 A1 A3 ... A115
output berkualitas rendah.

Transactions
T1 T1

Transactions
T2 T4
• Bagaimana melakukan data T3 ...
T4 T1456
wrangling untuk meningkatkan ...
kualitas data dan hasil analisis data? T2000

Data transformation !2, 32, 100, 59, 48 !0.02, 0.32, 1.00, 0.59, 0.48

Source: Jiwai, H., & Kamber, P. (2012). Data Mining


Figure 3.1 Forms of data and
concepts preprocessing.
techniques third edition. 9
From raw, unstructured, or messy data into
Data Wrangling a clean, structured, and usable format for
data science and analytics.

2. Cleaning Data 4. Validating Data


• Data collection •Transform data
• Data •Extract relevant
• Handling missing features, •Verify data integrity
understanding
values and errors •Merge datasets and •Confirm that the
• Tidy Data data adheres to
• Address include external
inconsistencies data sources standards
•Publish the final
1. Discovering and dataset
Structuring Data 3. Enriching Data

10
Perbandingan Tools Data Wrangling

Fitur WEKA Excel / Google Python R (Tidyverse) SQL Apache Spark


Sheets (Pandas)
User interface GUI GUI/Spreadsheet Code-based Code-based Query- Code-based
based
Learning curve Rendah Rendah Tinggi Tinggi Sedang Tinggi
Kapasitas data <1GB <1M baris >1TB <100GB >1TB >1PB
Visualisasi Built-in Built-in Charts Multiple ggplot2 Terbatas Terbatas
Libraries
Preprocessing GUI- Manual / Formula Automated Automated Query- Distributed
based based
Automasi Terbatas VBA Tinggi Tinggi Stored Workflow
Procedure
Integrasi Plugin Microsoft Suite Universal R Ecosystem Database Big Data Stack
11
02
Tahapan Data Wrangling

Cleaning Data
Enriching Data

12
Tujuan: identifikasi masalah pada
pengumpulan data, insights awal, and
bagian yang “menarik” untuk hipotesis.
Discovering • Pengumpulan Data: identifikasi data

and relevan dari berbagai sumber, verifikasi


ketersediaan data, acquire and load data.
Structuring • Penjelasan Data: memeriksa dan
Data menganalisis kelengkapan data dan
atributnya,
• Eksplorasi Data: analisis distribusi atribut,
Fase 2 CRISP DM – Data menjalankan analisis univariate and
Understanding multivariate, identifikasi hubungan
antarvariabel.

13
• Ignore the tuple: row data yang mengandung nilai
kosong pada satu atau lebih atribut tidak digunakan
pada tahap selanjutnya.
• Fill in the missing value manually: cara ini time
consuming dan tidak feasible untuk volume data besar
dengan banyak missing values.
• Use a global constant to fill in the missing value:
Cleaning Mengganti semua nilai yang kosong pada atribut
dengan suatu konstanta, seperti “Unknown”, −∞, “N/A”
Data • Use a measure of central tendency for the attribute
to fill in the missing value:
• Distribusi data normal: mean
Menangangi masalah • Distribusi data tidak normal (skewed): median
missing values
• Use the most probable value to fill in the missing
value: analisis regresi, tools inferensi, seperti Bayesian
formalism, atau decision tree.
14
• Penyebab inkonsistensi data:
• faktor manusia (human error),
• teknis pengumpulan data: sumber data heterogen,
waktu pengumpulan data berbeda, perbedaan
prosedur pengumpulan
• faktor teknologi: perbedaan format dan aplikasi,
masalah pada migrasi data, masalah integrasi data.

Cleaning • Langkah awal memeriksa inkonsistensi adalah


dengan merujuk pada metadata, yaitu data
Data tentang data, tipe data, domain atribut,
constraint, dll.

Menangani inkonsistensi • Data auditing tools:


data • mengidentifkasi aturan dan hubungan antaratribut
pada data,
• mengidentifikasi discrepancy pada data, yaitu nilai
yang melanggar aturan tersebut.
15
• Binning: teknik data smoothing yang mengganti nilai
suatu atribut numerik dengan cara berkonsultasi pada
nilai di sekitarnya.
• Regression: mengisi atau mengganti nilai suatu
atribut numerik berdasarkan fungsi regresi, yaitu
linear regression atau multiple regression.
• Outlier detection: deteksi nilai outlier dengan teknik
clustering,

Cleaning • Perlu berhati-hati melakukan data smoothing,


sesuaikan dengan tujuan pada tahap business
Data understanding.
• Resiko kehilangan informasi penting, dapat
mengaburkan tren atau pola alami data.
Teknik Data Smoothing • Distorsi data: mengubah karakteristik data,
untuk menangani Noisy Data mempengaruhi hasil interpretasi, dan berpotensi
(random error atau perbedaan menghasilkan pola palsu.
pada variabel terukur). • Mempengaruhi interpretasi data dan pembuatan
keputusan.

16
• Berisi data anggaran dari berbagai
Contoh departemen, dengan informasi tentang
Dataset alokasi anggaran, realisasi, jenis anggaran,
prioritas, dan status realisasinya.
Anggaran • Dataset ini dapat digunakan untuk analisis
efisiensi anggaran, penentuan prioritas, dan
pengelompokan pola pengeluaran.
• Tools: Google Sheets, WEKA.

17
Atribut (Kolom) Deskripsi Tipe Data
Kode unik yang mengidentifikasi setiap String
kode_anggaran
anggaran. (kategori)
Dataset Nama departemen yang mengelola anggaran String
Anggaran departemen
(misalnya, Keuangan, IT, Operasional, dll.). (kategori)

Jenis alokasi anggaran, seperti Belanja Barang, String


jenis_anggaran
Belanja Modal, Perjalanan Dinas, dll. (kategori)
Dataset: Kuartal waktu anggaran dialokasikan String
kuartal
1_ budget_raw.csv (Q1, Q2, Q3, Q4). (kategori)
tahun Tahun alokasi anggaran. Integer
Terdiri dari 10 atribut:
Nilai anggaran yang direncanakan (dalam
kategori, numerik, dan rencana
satuan moneter, misalnya Rupiah).
Float
temporal data.
Tingkat prioritas anggaran String
prioritas
200 data points / (Tinggi, Sedang, atau Rendah). (kategori)
instances. Status realisasi anggaran (Proses, Selesai, atau String
status
Tertunda). (kategori)

realisasi Nilai anggaran yang terealisasi (dalam Rupiah) Float

Waktu (dalam hari) yang dibutuhkan untuk


waktu_realisasi Integer
menyelesaikan realisasi anggaran.
18
Tidak Lengkap (Missing Values)
• Terdapat sejumlah nilai kosong pada atribut realisasi dan
Masalah Data waktu_realisasi, padahal status realisasi anggaran sudah
selesai.
• Terdapat sejumlah nilai kosong pada atribut
waktu_realisasi di mana nilai realisasi sudah muncul dan
Dataset: budget_raw.csv
status realisasi anggaran dalam proses.
Terdiri dari 10 atribut:
kategori, numerik, dan
temporal data. Tidak Konsisten (Inconsistency)
200 data points / • Atribut departemen mengandung nilai-nilai yang berbeda,
instances. tapi sebenarnya mengacu pada entitas yang sama.
• "SDM", "Sumber Daya Manusia", dan "Sumber Daya"
merujuk pada departemen yang sama.
• "Operasional” dan ”Operational” merujuk pada
departemen yang sama.
• "IT", "TI", dan "Teknologi Informasi" juga memiliki arti
yang sama.
19
Potensi Outlier (Noisy data) pada Data Numerik
• Amati atribut rencana, realisasi, dan waktu_realisasi
Masalah Data • Sejumlah nilai pada atribut rencana sangat tinggi atau
sangat rendah dibandingkan dengan distribusi umum.
• Sejumlah nilai waktu_realisasi tercatat sangat tinggi (lebih
Dataset: budget_raw.csv dari 60 hari).
Terdiri dari 10 atribut:
kategori, numerik, dan
Potensi Masalah Lainnya
temporal data.
• Periksa konsistensi format pada atribut jenis_anggaran,
200 data points / kuartal
instances.
• Periksa aturan bisnis / kebijakan / proses bisnis pada data.
Contoh: jika status Tertunda, maka seharusnya nilai
realisasi dan waktu_realisasi belum ada (kosong).
• Nilai realisasi tidak boleh lebih besar daripada nilai
rencana.

20
Teknik Melengkapi Nilai Atribut ‘realisasi’
• Diisi secara manual, konfirmasi ke PIC departemen
Cleaning Data yang bersangkutan à dapat dilakukan untuk volume
data kecil, usulan solusi mementingkan dan
membutuhkan akurasi data, waktu relatif lama.
Menangani missing • Menghapus instance / tuple yang mengandung nilai
values kosong pada satu atau lebih atributnya
• Hati-hati melakukan strategi ini!
melengkapi nilai atribut
yang kosong • Jika nilai kosong lebih dari 20 – 30% (tergantung
karakteristik data dan urgensi masalah), maka strategi
ini tidak dilakukan.
• Imputasi: diisi dengan nilai mean atau median.
• Isi nilai yang kosong dengan rata-rata atau median dari
realisasi untuk data serupa.
• Contoh: menggunakan nilai rata-rata realisasi
berdasarkan jenis_anggaran atau departemen
21
Teknik Melengkapi Nilai Atribut ‘waktu_realisasi’
• Diisi secara manual, konfirmasi ke PIC departemen
Cleaning Data yang bersangkutan à dapat dilakukan untuk volume
data kecil, usulan solusi mementingkan dan
membutuhkan akurasi data, waktu relatif lama.
• Menghapus instance / tuple yang mengandung nilai
Menangani missing kosong pada satu atau lebih atributnya
values
• Hati-hati melakukan strategi ini!
melengkapi nilai atribut • Jika nilai kosong lebih dari 20 – 30% (tergantung
yang kosong karakteristik data dan urgensi masalah), maka strategi ini
tidak dilakukan.
• Imputasi: diisi dengan nilai median.
• Isi nilai yang kosong dengan nilai median dari realisasi
untuk data serupa, misalnya berdasarkan jenis_anggaran
atau departemen
• Pastikan konsistensi dengan nilai atribut status dan
realisasi.
22
Imputasi: diisi dengan nilai berdasarkan status.
• Status proses atau selesai: isi nilai atribut realisasi dengan
nilai rata-rata, dan atribut waktu_realisasi dengan median.

Cleaning Data • Status tertunda: isi nilai atribut dengan 0.

1. Import file 1_budget_raw.csv ke Excel


• File à Open à pilih lokasi file budget_raw.csv untuk
Menangani missing diunggah ke server. Lalu buka file tersebut
values • Blok isi file budget_raw.csv, mulai sel A1:J201 à pilih
melengkapi nilai atribut menu Data à Create a filter.
yang kosong 2. Gunakan filter pada kolom realisasi, klik simbol
segitiga terbalik di bagian kanan header kolom
Tools: Excel
realisasi.
• Centang hanya pada pilihan nilai ‘Blanks’ (kosong).
3. Gunakan filter pada kolom status, klik simbol segitiga
terbalik di bagian kanan header kolom status.
• Centang hanya pada pilihan nilai ‘Selesai’.
23
4. Klik kursor ke sel K4: Hitung nilai rata-rata realisasi.
• Hitung nilai rata-rata realisasi dengan formula
AVERAGEIF(range_status, “Selesai”, range_realisasi)
Cleaning Data • Masukkan formula berikut di sel K4
=AVERAGEIF(H2:H201,"Selesai",I2:I201)
• Salin nilai hasil formulasi di K4 tersebut, lalu blok semua
Menangani missing baris yang muncul (setelah difilter) di kolom realisasi
yang nilainya kosong.
values
• Pilih menu Edit à Paste Special à Values only
melengkapi nilai atribut
5. Klik kursor ke sel L4: Hitung nilai median
yang kosong
waktu_realisasi untuk status Selesai.
Tool: Google Sheets • Masukkan formula median waktu_realisasi di sel L4
=MEDIAN(IF(H2:H210="Selesai", J2:J201))
• Salin nilai hasil formulasi di L4 tersebut, lalu blok semua
baris yang muncul (setelah difilter) di kolom
waktu_realisasi yang nilainya kosong.
• Pilih menu Edit à Paste Special à Values only
24
Tampilan Hasil dari Langkah 5

Nilai kosong di kolom


realisasi dan
waktu_realisasi
untuk status Selesai
sudah terisi 25
6. Ganti filter pada kolom status, klik simbol segitiga terbalik
di bagian kanan header kolom status.
• Centang hanya pada pilihan nilai ‘Proses’.
7. Klik kursor ke sel K9: Hitung nilai rata-rata realisasi.
Cleaning Data • Hitung nilai rata-rata realisasi dengan formula
AVERAGEIF(range_status, “Proses”, range_realisasi)
• Masukkan formula berikut di sel K9
=AVERAGEIF(H2:H201,"Proses",I2:I201)
Menangani missing
• Salin nilai hasil formulasi di K9 tersebut, lalu blok semua baris
values yang muncul (setelah difilter) di kolom realisasi yang nilainya
kosong.
melengkapi nilai atribut
yang kosong • Pilih menu Edit à Paste Special à Values only
8. Klik kursor ke sel L9: Hitung nilai median waktu_realisasi
Tool: Google Sheets
untuk status Proses.
• Masukkan formula median waktu_realisasi di sel L9
=MEDIAN(IF(H2:H210=”Proses", J2:J201))
• Salin nilai hasil formulasi di L9 tersebut, lalu blok semua baris
yang muncul (setelah difilter) di kolom waktu_realisasi yang
nilainya kosong.
• Pilih menu Edit à Paste Special à Values only 26
Tampilan Hasil dari Langkah 8

Nilai kosong di kolom


realisasi dan
waktu_realisasi
untuk status Proses
sudah terisi

27
9. Ganti filter pada kolom status, klik simbol
segitiga terbalik di bagian kanan header kolom
Cleaning Data status.
• Centang hanya pada pilihan nilai ‘Tertunda’.
10. Isi nilai kolom realisasi dan waktu_realisasi yang
Menangani missing kosong dengan nilai 0. Isi di salah satu sel, lalu
values salin ke semua baris yang nilainya masih
melengkapi nilai atribut kosong.
yang kosong 11. Jika semua nilai di kolom realisasi dan
waktu_reaalisasi sudah terisi, hapus isi data di
Tool: Google Sheets
sel K4, K9, L4, L9.
12. Unduh file csv yang sudah dibersihkan tersebut
• Pilih menu File à Download à Comma Separated
Values (.csv)
• Rename file menjadi 2_budget_cleaned.csv.
28
Tampilan Hasil dari Langkah 11

29
• Atribut departemen mengandung nilai-nilai yang
berbeda, tapi sebenarnya mengacu pada entitas yang
Cleaning Data sama.
• "SDM", "Sumber Daya Manusia", dan "Sumber Daya"
merujuk pada departemen yang sama.
Menangani • "Operasional” dan ”Operational” merujuk pada
Inkonsistensi departemen yang sama.
Data departemen • "IT", "TI", dan "Teknologi Informasi" juga memiliki
arti yang sama.
Tool: WEKA

• Menggunakan tool WEKA untuk menangani data


yang tidak konsisten pada atribut Departemen.

30
WEKA Waikato Environment for Knowledge Analysis
https://waikato.github.io/weka-wiki/downloading_weka/

Eksplorasi dataset dan menjalankan berbagai


algoritma machine learning

Menjalankan eksperimen yang lebih sistematis


dengan berbagai algoritma dan konfigurasi, uji
statistik untuk membandingkan performa model

Antarmuka grafis untuk merancang dan


menjalankan alur kerja machine learning (diagram).

Menggabungkan semua alat WEKA dalam satu


window

Antarmuka berbasis teks untuk menjalankan


perintah WEKA langsung dari command line

31
WEKA
1 Explorer
Preprocess
Open File: pilih file
2_budget_cleaned.
csv

Label departemen
tidak konsisten

32
WEKA
Explorer
1 2 6 1. Filter à Choose: filters à
unsupervised à attribute.
2. Pilih
RenameNominalValues,
lalu klik sekali
3. Isi selectedAttributes
dengan departemen
4. Isi valueReplacements
dengan nilai berikut:
TI:Teknologi Informasi,
IT:Teknologi Informasi,
3 SDM:Sumber Daya
4 Manusia, Sumber
Daya:Sumber Daya
Manusia,
Operational:Operasional,
5 Operation:Operasional
5. Klik OK
6. Klik Apply 33
WEKA
Explorer
1. Simpan File dengan
klik tombol Save.
2. Pilih type of file à CSV
files: comma delimiters
values (*.csv)
3. Nama file:
Label departemen 3_budget_cleaned_c
onsistent.csv
konsisten

34
Cleaning Data Potensi Outlier (Noisy data) pada Data
Numerik
• Amati atribut rencana dan realisasi
Deteksi Outlier • Sejumlah nilai pada atribut rencana sangat
Data rencana dan tinggi atau sangat rendah dibandingkan
realisasi dengan distribusi umum.

Tool: WEKA • Menggunakan tool WEKA untuk


mendeteksi data outlier untuk
ditindaklanjuti.

35
Deteksi
Outlier
1 2 7 1. Filter à Choose: filters à
unsupervised à attribute.
2. Pilih InterquartileRange,
lalu klik sekali
3. Isi attributeIndices
3 dengan 6,9. 6 dan 9
masing-masing adalah
indeks untuk atribut
rencana dan realisasi.
4. Isi extremeValuesFactor
4 dengan 4.0 atau nilai
lainnya yang sesuai.
5
5. Isi outlineFactor dengan
1.5 atau nilai lainnya yang
sesuai
6 6. Klik OK
7. Klik Apply

36
Deteksi
3 4
Outlier
1. Muncul 4 atribut baru yang
menunjukkan hasil deteksi
outlier dari atribut rencana
dan atribut realisasi.
2 2. Pada informasi tentang
outlier atribut rencana,
terrdapat 14 nilai yang
diketagorikan sebagai
outlier.
3. Untuk melihat nilai outlier
tersebut, klik tombol Edit
4. Untuk menyimpan file, klik
tombol Save. Pilih type of
1 file à CSV files: comma
delimiters values (*.csv)
Nama file:
4_budget_outlier.csv.

37
Deteksi Outlier

1
Berdasarkan hasil deteksi
outlier: nilai rencana pada
kode_anggaran BGT000015
terrmasuk outlier.

38
• Smoothing, untuk meminimalkan noise dalam data
dengan teknik binning, regression, and clustering.
Perhatikan tujuan analisis data sebelum melakukan
smoothing.
• Konstruksi atribut baru (feature construction):
penambahan atribut baru untuk meningkatkan kualitas
data, membantu proses mining di tahap selanjutnya.
• Normalization, transformasi nilai agar berada dalam
Enriching rentang yang lebih kecil atau umum seperti [−1,1] atau

Data
[0.0, 1.0]. Teknik: min-max, decimal scaling, z-score.
• Memberikan bobot yang sama pada semua atribut
• Sangat berguna untuk teknik clustering, neural networks
Transformasi Data • Discretization, mengubah repsentasi nilai numerik
menjadi interval atau label konseptual. Contoh: atribut
waktu_realisasi dapat diubah menjadi:
• interval nilai dengan label (0-26.33; 26.34-57.67; 57.68-
inf ) atau
• label konseptual (cepat, sedang, lambat).
39
Konstruksi
Atribut
Baru
1 2 6 Menambah atribut
baru rasio_realisasi

1. Filter à Choose: filters à


unsupervised à attribute.
2. Pilih AddExpression, lalu
klik sekali
3. Isi expression dengan
3 (a9/a6)*100. a6 dan a9
masing-masing adalah
4 indeks untuk atribut
rencana dan realisasi.
4. Isi name dengan
5 rasio_realisasi.
5. Klik OK
6. Klik Apply

40
Konstruksi
Atribut
3
Baru
Menambah atribut
baru rasio_realisasi

2 1. Atribut rasio_realisasi
berhasil ditambahkan.
2. Terdapat nilai
rasio_realisasi di atas 100%,
perlu ditindaklanjuti.
3. Untuk menyimpan file, klik
tombol Save. Pilih type of
file à CSV files: comma
delimiters values (*.csv)
Nama file:
5_budget_newattribute.csv.
1

41
• Ekstraksi fitur dengan Principal Component
Analysis (PCA): teknik reduksi dimensi yang
digunakan untuk mengubah data dengan dimensi
tinggi menjadi dimensi yang lebih rendah.
• PCA mencari representasi data terbaik dengan
mengidentifikasi sekumpulan atribut penting.
• Misalkan data yang akan direduksi terdiri dari vektor

Enriching data yang dijelaskan oleh n atribut atau dimensi.


• PCA mencari k vektor ortogonal berdimensi-n yang
Data paling baik digunakan untuk merepresentasikan data,
di mana k ≤ n.
• Data asli diproyeksikan ke ruang yang jauh lebih
Ekstraksi atribut / fitur kecil, sehingga menghasilkan reduksi dimensi.
relevan
• PCA dapat diterapkan pada atribut yang diurutkan
dan tidak diurutkan, dan dapat menangani data yang
sparse dan data dengan distribusi tidak normal.

42
• Dataset untuk analisis dapat berisi ratusan atribut,
yang di antaranya bersifat redundan atau mungkin
tidak relevan dengan task mining.
• Contoh: klasifikasi pelanggan berdasarkan apakah
pelanggan membeli musik baru yang populer atau
tidak. Pada kasus ini, atribut usia dan selera musik
relevan, sedangkan atribut nomor telepon pelanggan
tidak relevan.

Enriching • Mempertahankan atribut yang tidak relevan dapat


merugikan dan menyebabkan penurunan kualitas
Data pada proses analitika data.
• Solusi: melakukan reduksi data set dengan
Ekstraksi atribut / fitur menghilangkan atribut tidak relevan atau redundan.
relevan • Perhatikan bahwa penghapusan hanya dilakukan
pada dataset untuk proyek analisis data.
• Tidak melakukan penghapusan atau pengubahan
data pada basis data operasional.

43
• Masalah utama yang terjadi pada penggabungan
dataset dari sejumlah sumber: bagaimana
meminimalkan redundansi and inkonsistensi data?

• Entity Identification Problem


• Integrasi skema data dan pencocokkan objek dari
dataset yang berbeda bisa jadi rumit. Bagaimana cara
mencocokkan beragam entitas dari sumber data yang
berbeda?

Enriching • Bagaimana seorang data analyst atau sistem informasi


menyakini bahwa customer id di suatu database dan

Data cust num di database lainnya mengacu pada atribut


yang sama?

• Pencocokan atribut dari satu database ke database


lainnya pada proses integrasi memerlukan referensi
Proses merging data dari ke struktur data asli.
sejumlah sumber data • Memastikan bahwa functional dependency atribut-
atribut dan referential constraints di database sumber
sesuai dengan database target.

44
03
From Data Wrangling to
Business Solutions

Analisis Data Lanjutan

45
• Identifikasi jenis model yang sesuai
dengan tujuan dan karakteristik data,
seperti menemukan hubungan dalam
Analisis Data data, analisis diagnostik, dan analisis
Lanjut dan prediktif.

Pembuatan • Aktivitas melitputi pemilihan teknik


pemodelan, pembuatan desain
Model pengujian, pembangunan model, dan
evaluasi model.
• Teknik: statistik, machine learning, dan
kombinasi

46
Analisis Diagnostik:
• Evaluasi kinerja departemen dalam penggunaan anggaran
• Identifikasi bottleneck dalam proses realisasi
• Analisis faktor-faktor yang mempengaruhi keberhasilan
Analisis Data realisasi

Lanjut dan Analisis Prediktif


• Memprediksi waktu realisasi berdasarkan karakteristik
Pembuatan anggaran

Model • Estimasi realisasi anggaran untuk perencanaan yang


lebih akurat
• Identifikasi risiko keterlambatan/kegagalan realisasi

Pengambilan Keputusan
• Alokasi anggaran berbasis kinerja historis
• Penyesuaian timeline dan target realisasi yang lebih
realistis
47
Analisis Data Lanjut
dan Pembuatan Model

Monitoring & Evaluasi:


• Dashboard kinerja anggaran
real-time
• Early warning system untuk
potensi keterlambatan
• Evaluasi efektivitas kebijakan
anggaran

48
Terima kasih

49
Machine
Learning

Subfield of Artificial
Intelligence:
§ Learning without being
explicitly programmed,
§ Identifies relationships
and trends in data that
might otherwise not
accessible or identified.

50

Anda mungkin juga menyukai