Uts Ai
Uts Ai
Disusun Oleh :
Ahmad Sururi Alfaruq - 220431100053 (BAB 1-6)
Qusnul Nur Huda - 220431100023 (BAB 7-12)
2
BAB IX Sistem Rekomendasi.....................................................................................................64
BAB X Studi Kasus Tentang Pengunaan Teknik Data Mining dalam Ilmu Data.................69
BAB XI Data Mining Untuk Junior Data Scientist : Pemrograman Python Dasar..............74
BAB XII Data Mining Untuk Junior Data Scientist : Pemrograman Python Dasar............78
3
BAB I
Pendahuluan ke data mining
1.1 Abstrak
Data mining adalah alat yang kuat dan semakin populer yang menggunakan
pembelajaran mesin untuk mengungkap pola dalam data dan membantu bisnis tetap
kompetitif. Data scientist dilatih untuk memahami tujuan bisnis dan memilih teknik yang
tepat untuk eksplorasi dan praproses data. Setelah merumuskan pertanyaan bisnis, metode
data mining dipilih dan dievaluasi untuk menentukan kemampuannya dalam menyesuaikan
data set dan menjawab pertanyaan tersebut. Hasilnya kemudian dilaporkan kembali kepada
pemilik bisnis. Data mining adalah bagian penting dari bisnis modern, memungkinkan
organisasi untuk tetap bersaing dan tetap sukses. Dengan popularitasnya yang semakin
meningkat, kebutuhan akan data scientist pun meningkat dengan cepat.
Saat ini, analisis data menggunakan data mining semakin penting. Ekosistem digital
mendukung penyimpanan data dalam jumlah besar, baik melalui Teknologi Cloud maupun
Database dengan kapasitas memori yang besar. Selain itu, data ini dihasilkan oleh pengguna
di seluruh dunia secara real-time dengan kecepatan komunikasi tinggi melalui Jejaring
Sosial, yang menghasilkan pertumbuhan data yang sangat besar, yang dikenal sebagai Big
Data. Para pelaku bisnis di seluruh dunia dapat memanfaatkan hal ini. Misalnya, untuk
menganalisis pola pembelian pelanggan atau memprediksi jumlah bahan baku untuk
produksi, diperlukan teknik Data Mining untuk menganalisis pola dan memprediksi hasil
yang diperlukan dalam pengambilan keputusan oleh pengusaha.
2.1 Pengenalan
Analisis data untuk pengambilan keputusan bisnis dapat dilakukan dengan berbagai
teknik seperti Statistik Deskriptif dan Statistik Inferensial. Oleh karena itu, teknik Data
Mining bukanlah pengganti analisis data tradisional, melainkan harus dianggap sebagai
pengembangan teknik analisis yang lebih canggih seiring dengan kemajuan teknologi
pembelajaran mesin. Teknik ini mendukung pemrosesan data dalam jumlah besar, yaitu Big
Data. Akibatnya, Data Mining telah menghasilkan hasil yang akurat dan konsisten dengan
pertanyaan-pertanyaan bisnis.
4
1.1 implementasi Data Mining dan Tantangannya.
Dengan kebutuhan untuk analisis masalah, telah tercipta posisi yang bertanggung
jawab untuk analisis data, yaitu Data Scientist. Namun, Data Scientist tidak hanya berasal
dari ahli teknologi digital, tetapi bisa berasal dari siapa saja yang memiliki data. Teknisi
medis, yang memiliki informasi tentang kesehatan pasien dan memahami konteks industri
medis, dapat menjadi Data Scientist dengan kemampuan mengajukan pertanyaan dan
memahami sifat data.
Banyak industri telah mempekerjakan ilmuwan data yang tidak akrab dengan industri
tersebut atau kurang memiliki pengalaman dengan data yang harus mereka analisis. Oleh
karena itu, para ilmuwan data harus berkonsultasi dengan penanya, mungkin dari
departemen manajemen, dan para ahli untuk mendapatkan hasil yang konsisten dengan
fakta. Dalam pekerjaan ilmiah, data dapat diterapkan di berbagai industri sebagaimana
dipaparkan dalam contoh-contoh berikut.
Di pasar, untuk menentukan harga jual, konsumen dapat melihat sebuah model yang
terdiri dari banyak sub-model. Harganya bervariasi tergantung pada komponen mobil.
Namun, konsumen tetap dapat menemukan harga yang serupa di semua sub-model.
Misalnya, Sub-model 1 harganya 1.000.000 baht. Sub-model 2 dihargai 1.600.000 baht,
dan Sub-model 3 dihargai 1.700.000 baht. Jelas bahwa perbedaan antara Sub-model 2 dan
3 hanya 100.000 baht. Penetapan harga seperti itu disebabkan oleh pembagian pelanggan
menjadi 3 kelompok sesuai dengan jumlah sub-model yang ada, yaitu tiga. Teknik data
mining kemudian digunakan untuk menganalisis harga tengah dari setiap segmen
pelanggan untuk setiap sub-model. Jika tidak ada analisis data oleh para data scientist
menggunakan teknik-teknik ini, pelaku bisnis umum mungkin akan membagi harga
menjadi 1.000.000 baht, 1.300.000 baht, dan 1.700.000 baht untuk masing-masing sub-
data. Oleh karena itu, teknik clustering digunakan untuk menentukan harga penjualan
mobil agar dapat menetapkan harga yang sesuai untuk setiap kelompok sasaran, sehingga
dealer juga mendapatkan keuntungan yang maksimal.
Untuk memprediksi harga kondominium di Bangkok (Sunkpho dan Ramjan, 2020)
menggunakan analisis data, ditemukan bahwa variabel-variabel yang mempengaruhi
harga kondominium di Bangkok adalah jarak dari kondominium ke stasiun Skytrain dan
MRT, jumlah kamar, jumlah lantai, dan usia kondominium. Ilmuwan data menggunakan
5
teknik deep learning untuk menganalisis variabel-variabel tersebut dan harganya, dan
ditemukan bahwa semakin dekat jarak dari kondominium ke stasiun Skytrain dan MRT,
semakin tinggi harganya. Semakin banyak jumlah kamar, semakin rendah harga
kondominium tersebut. Semakin banyak jumlah lantai, semakin tinggi harganya. Dan jika
usia kondominium lebih muda, harganya lebih tinggi. Oleh karena itu, industri real estat
kondominium dapat mempertimbangkan variabel-variabel tersebut untuk menentukan
harga yang tepat untuk proyek kondominium.
Untuk mengkategorikan peminjam yang memiliki kemampuan membayar utang, bank
harus mengklasifikasikan peminjam mereka. Untuk mempromosikan layanan bank,
peminjam diyakinkan untuk memperpanjang pinjaman mereka dengan penawaran
menarik seperti suku bunga yang lebih rendah (Refinance). Para data scientist dapat
menggunakan teknik data mining untuk mengklasifikasikan pelanggan dengan
menganalisis berbagai variabel. Karena bank memiliki informasi tentang peminjam
seperti usia, pendapatan, durasi pinjaman, tingkat gagal bayar, dan jumlah pinjaman
tambahan yang telah disetujui, mereka dapat mengklasifikasikan peminjam yang mampu
membayar utang, sehingga dapat menawarkan promosi pemasaran. Bank dapat
meningkatkan pendapatan bunga mereka lebih lanjut.
Dari contoh kasus, ilmuwan data tidak hanya perlu mengembangkan pengetahuan mereka
dalam analisis data dengan teknik data mining, tetapi juga harus mempelajari statistik,
teknologi basis data, visualisasi data, dan pengetahuan yang relevan dengan industri analitik
data. Meskipun ilmu data menawarkan manfaat bagi berbagai industri, industri-industri
tersebut masih menghadapi tantangan dimensi berikut (Tanantong, 2020).
Skalabilitas: Ukuran data terus tumbuh akibat pembaruan pengguna jejaring sosial atau
dari pembaruan mitra bisnis (Almasoud, Al-Khalifa, dan Al-Salman, 2019). Sebagai contoh,
agen perjalanan dari seluruh dunia memperbarui informasi pemesanan mereka melalui
Global Distribution System (GDS) secara bersamaan dan melakukan transaksi secara terus-
menerus. Akibatnya, basis data terus membesar seiring dengan bertambahnya pengguna.
Oleh karena itu, dari perspektif industri yang perlu menggunakan big data untuk analisis,
algoritma dalam manajemen data, akses informasi, transfer data melalui jaringan
berkecepatan tinggi, serta teknik data mining dapat mendukung pemrosesan data dalam
skala besar.
6
Dimensionalitas Tinggi: Dengan teknologi informasi, baik dalam bentuk file foto atau
video dengan resolusi lebih tinggi, teknologi ini dapat mendeteksi sifat dari hambatan.
Ketika digabungkan, gambar-gambar kendaraan otonom ini dapat menghasilkan sejumlah
besar data beresolusi tinggi (Lawal, Ibrahim, Sani, dan Yaakob, 2020). Akibatnya, ilmuwan
data diharuskan untuk memperbaiki algoritma mereka dalam Eksplorasi Data dan Pra-
Pemrosesan untuk analisis yang lebih akurat.
Data yang Beragam dan Kompleks: Karena organisasi menyimpan informasi dalam data
warehouse, gudang tersebut mengandung sejumlah besar atribut dan tipe data, karena data
yang dibuat oleh setiap platform jejaring sosial bervariasi tergantung pada desainnya
(Berman, 2018). Oleh karena itu, ini merupakan tantangan besar bagi para data scientist
untuk mengumpulkan data tersebut dan memilih hanya atribut yang berguna untuk analisis.
Selain itu, untuk mempersiapkan data dari berbagai sumber, para data scientist perlu
mengoptimalkan data dan membentuknya sesuai dengan standar yang tepat untuk setiap
jenis teknik data mining.
Kepemilikan dan Distribusi Data: Saat ini, organisasi di seluruh dunia menyimpan data
melalui teknologi cloud dengan sistem penyimpanan terdistribusi. Akibatnya, sumber data
tersebar di seluruh dunia. Akses ke volume data yang besar memerlukan jaringan publik
berkecepatan tinggi dan sangat aman (Jiang, Jiang, dan Wang, 2020). Oleh karena itu,
keamanan penyimpanan data dan hak pemrosesan data di masing-masing negara telah
menjadi tantangan bagi para ilmuwan data. Di Thailand, di mana Undang-Undang
Perlindungan Data Pribadi diberlakukan, ilmuwan data tidak dapat mengambil data
pelanggan untuk dianalisis tanpa persetujuan.
1.1 Proses Analisis Data dengan Teknik Data Mining
Teknik Data Mining digunakan untuk menganalisis data dan mencari pola data dari set
data besar (Bramer, 2016). Teknik ini dibagi menjadi empat kategori utama: Klasifikasi,
Prediksi Numerik, Aturan Asosiasi, dan Klustering. Teknik analitik ini tidak baru muncul,
tetapi telah digunakan untuk analisis data guna mendapatkan hasil dalam berbagai bentuk
pengambilan keputusan. Perbedaan utama antara teknik data mining dan analisis statistik
deskriptif serta inferensial adalah penggunaan teknik Pembelajaran Mesin (Machine
Learning, ML) (Bell, 2015; Chiarini, Kohli, dan Forsgren, 2021). Akibatnya, teknik data
mining mampu menganalisis data hingga hasilnya lebih mendekati fakta. Selain itu,
7
perkembangan ini telah menghasilkan bentuk pemrosesan data baru seperti Deep Learning
yang cocok untuk menganalisis volume data besar dan data non-linear atau Aturan Asosiasi
(Association Rule Mining). Selanjutnya, ilmuwan data dapat menerapkan model untuk
menganalisis data sesuai dengan masalah bisnis. Oleh karena itu, teknik data mining
digunakan dalam berbagai bentuk penemuan pengetahuan. Misalnya, dapat digunakan untuk
menganalisis pola tumor yang dapat berkembang menjadi kanker. Teknik ini juga dapat
menganalisis pelanggan yang memiliki kemampuan untuk melunasi pinjaman, yang cocok
untuk promosi pemasaran dan ekspansi ke jalur kredit baru.
Proses analisis data dengan teknik data mining dalam bentuk Proses Penemuan
Pengetahuan (Knowledge Discovery Process) (Cardona, Gomez, dan Trujillo, 2014; Kyaw
dan Limsiroratana, 2019; Gupta, Sahayadhas, dan Gupta, 2020) terdiri dari:
A. Sumber Data: Ilmuwan data dapat mengakses beberapa sumber data secara bersamaan
untuk menentukan kemungkinan bahwa dataset tersebut dapat digunakan untuk
menganalisis guna memperoleh hasil yang sesuai untuk menjawab pertanyaan.
B. Penyimpanan Data: Ilmuwan data dapat mengumpulkan set data dari satu sumber, basis
data internal, beberapa sumber, mitra bisnis, dan jejaring sosial seperti Twitter.
Penyimpanan data dapat berupa format data tunggal atau format set data, yang dibentuk
dengan menggabungkan dataset dari beberapa sumber data.
C. Pemilihan dan Pra-Pemrosesan Data: Ilmuwan data dapat menggunakan teknik
pemrosesan data untuk memilih data. Misalnya, hubungan antara variabel dalam dataset
dan variabel target dianalisis dengan mencari saran dari ahli mengenai dataset tersebut.
Kemudian, data dipersiapkan untuk diproses dengan teknik data mining seperti
mengatasi nilai yang hilang dan menghilangkan outlier.
D. Data Mining: Ilmuwan data perlu memilih teknik data mining yang sesuai untuk
memperoleh hasil yang dapat digunakan untuk menjawab pertanyaan. Pada langkah ini,
ilmuwan data juga dapat meninjau apakah teknik data mining sesuai untuk menganalisis
dataset yang ada dan apakah teknik tersebut dapat menjawab pertanyaan. Jika dataset
dan Teknik data mining tidak konsisten, ilmuwan data dapat mempertimbangkan dua
skenario: memodifikasi metode analisis data baru untuk menggantikan metode lama
tetapi tetap memperoleh hasil yang dapat digunakan secara bergantian, atau
mempertimbangkan untuk mengubah dataset agar sesuai untuk analisis data.
8
E. Interpretasi: Hasil yang diperoleh dari analisis dengan teknik data mining masih terlihat
sebagai data kuantitatif atau Visualisasi Data (Samasiri, 2020). Ilmuwan data perlu
menginterpretasikan hasil tersebut agar para penanya dapat memahaminya. Oleh karena
itu, ketika bertanya kepada mereka yang ingin menggunakan data, ilmuwan data perlu
terlebih dahulu menentukan apakah pertanyaan tersebut memerlukan teknik data
mining, atau cukup menggunakan data mentah untuk memprosesnya agar dapat
menjawab pertanyaan tersebut.
Namun, Proses Penemuan Pengetahuan umumnya digunakan untuk analisis data. Proses
Standar Lintas Industri untuk Data Mining (Cross-industry Standard Process for Data
Mining: CRISP-DM) dikembangkan dengan tujuan menganalisis data yang berkaitan
dengan bisnis (SPSS Inc, 2000).
A. Pemahaman Bisnis: Pada awalnya, ilmuwan data bekerja dengan penanya bisnis,
manajemen senior, atau ahli domain untuk mendefinisikan masalah di mana teknik
visualisasi data atau data mining dapat digunakan untuk menjawab serangkaian
pertanyaan terkait konteks bisnis. Dalam industri medis atau olahraga, yang memiliki
konteks berbeda, ilmuwan data perlu mempertimbangkan lingkungan internal dalam
organisasi seperti anggaran, sumber daya manusia yang mendukung analisis data, dan
jumlah waktu untuk menganalisis data. Keberhasilan analisis data harus ditetapkan
sehingga ketika selesai, dapat menunjukkan apakah data yang diperoleh dapat
digunakan untuk menjawab pertanyaan bisnis. Akhirnya, teknologi yang digunakan
untuk analisis, baik perangkat keras maupun perangkat lunak, dapat dipilih. Misalnya,
jika pertanyaan yang diberikan memerlukan pemrosesan data besar, ilmuwan data perlu
menggunakan perangkat keras komputasi berkinerja tinggi untuk memperpendek waktu
pemrosesan. Jika mereka ingin mengurangi waktu untuk membuat model analisis data,
perangkat lunak siap pakai dapat diterapkan. Namun, ini memerlukan biaya yang lebih
tinggi dibandingkan dengan analisis data menggunakan pemrograman dalam bahasa
sumber terbuka.
B. Pemahaman Data: Proses ini bertujuan untuk memverifikasi apakah dataset yang ada,
baik di dalam bisnis maupun di luar bisnis, seperti umpan balik pelanggan di jejaring
sosial, dapat digunakan untuk menganalisis data. Dalam proses ini, ilmuwan data dan
penanya dapat bekerja sama untuk memastikan bahwa data yang ada akurat dan
9
konsisten dengan konteks bisnis. Dengan demikian, data tersebut dapat digunakan untuk
analisis guna menjawab pertanyaan bisnis dengan tepat dan konsisten. Pada tahap ini,
ilmuwan data harus berkonsultasi dengan para ahli data untuk mendefinisikan arti dan
menentukan format jenis data serta melakukan Eksplorasi Data melalui berbagai alat
dalam bentuk informasi visual untuk memeriksa adanya outlier atau informasi yang
tidak lengkap. Ilmuwan data kemudian dapat menentukan metode pembersihan data
yang tepat untuk persiapan data pada langkah berikutnya.
C. Persiapan Data: Proses ini adalah langkah di mana ilmuwan data menyempurnakan
dataset menjadi format yang sesuai untuk teknik data mining, dengan menghilangkan
data yang tidak lengkap, mengisi data yang hilang, atau menggabungkan dataset dari
berbagai sumber. Pada tahap ini, ilmuwan data memilih data yang dapat digunakan
untuk memproses hasil (Pemilihan Fitur). Melalui proses pemahaman data, ilmuwan
data harus memilih metode untuk membersihkan data, seperti mengisi data yang tidak
lengkap atau menghilangkan data yang kosong, serta memodifikasi jenis data agar siap
untuk analisis data dengan teknik mining data, seperti mengubah huruf menjadi angka.
Kemudian, ilmuwan data akan membuat dataset dari data yang telah dibersihkan agar
menjadi dataset yang siap digunakan untuk analisis data dengan teknik data mining.
D. Pemodelan: Ilmuwan data memilih teknik data mining, seperti Regresi Polinomial atau
Regresi Linier Sederhana, yang sesuai dengan kumpulan masalah, untuk mendapatkan
hasil yang sejalan dengan kebutuhan para pelaku bisnis. Hasil analisis data yang paling
mendekati fakta dapat dipilih. Ini tercermin dalam efisiensi pemrosesan dari masing-
masing teknik mining data. Setelah teknik data mining Supervised-Learning dipilih,
ilmuwan data perlu mempertimbangkan segmentasi data untuk mengajarkan
pembelajaran mesin pada Set Pelatihan (Train Set). Selanjutnya, proporsi data yang
digunakan dalam pengujian (Set Pengujian/Test Set) dipertimbangkan sebelum
membawa semua data untuk dianalisis dalam model. Pada langkah ini, ilmuwan data
dapat kembali dan menyempurnakan data agar siap untuk analisis data sehingga hasil
yang diperoleh lebih akurat.
E. Evaluasi Model: Ilmuwan data dapat memilih sejumlah teknik data mining dengan
kemampuan analisis data yang dapat digunakan untuk tujuan yang sama. Dengan kata
lain, untuk mengevaluasi kinerja model, presisi model bukanlah satu-satunya hal yang
10
perlu dipertimbangkan, tetapi juga konsistensi hasil analisis. Dalam banyak kasus,
ilmuwan data mungkin menemukan bahwa hasil yang diperoleh dari analisis data tidak
konsisten dengan pertanyaan bisnis. Ilmuwan data dapat menetapkan keberhasilan
analisis data dalam proses pemahaman bisnis sebagai ukuran efektivitas analisis data.
F. Implementasi: Ini bertujuan untuk mengambil hasil guna menjawab pertanyaan bisnis
untuk mendukung keputusan bisnis. Hasil tersebut dapat meramalkan jumlah bahan
baku yang harus disiapkan untuk kuartal ke-4. Dalam proses ini, hasil yang diperoleh
dari teknik data mining bersifat numerik. Ini memerlukan interpretasi hasil dalam
format yang dapat dipahami oleh masyarakat umum. Oleh karena itu, ilmuwan data
diharuskan menyiapkan presentasi lisan beserta dokumen pendukung agar penanya
bisnis dapat memahami hasil yang diperoleh dari analisis. Selain itu, selama presentasi,
ilmuwan data dapat mengajukan pertanyaan dari perspektif lain. Lebih lanjut, dalam
proyek analisis data mendatang, termasuk memberikan umpan balik kepada organisasi
tentang informasi tersebut, organisasi perlu mengumpulkan dan mengumpulkan data
yang bermanfaat untuk analisis di masa depan.
Dari Proses Penemuan Pengetahuan dan Proses Standar Lintas Industri untuk Data
mining: CRISP-DM. Buku ini merangkum proses analisis data dengan teknik data mining
seperti yang ditunjukkan pada Gambar 1.
Gambar 1. Analisis data menggunakan Teknik data mining
11
BAB II
Data
2.1 Abstrak
Langkah awal bagi seorang data scientist ketika menangani pertanyaan bisnis adalah
mengidentifikasi jenis data, karena tidak semua jenis data dapat digunakan dalam analisis
data mining. Oleh karena itu, data scientist harus memilih jenis data yang sesuai dengan
teknik data mining dan mengklasifikasikan data menjadi jenis kategorikal dan kontinu,
terlepas dari sumber data tersebut. Kontrol kualitas merupakan faktor penting bagi data
scientist, terutama jika pengumpulan data dilakukan dengan buruk atau tidak dirancang
dengan baik, yang dapat menyebabkan masalah seperti nilai yang hilang. Setelah data
scientist memperoleh dataset yang relevan, mereka harus memeriksa outlier (pencilan) yang
terkait dengan setiap fitur untuk memastikan bahwa data tersebut cocok untuk dianalisis.
Mengamati outlier melalui visualisasi data, seperti diagram pencar, adalah praktik umum di
kalangan data scientist, yang menekankan pentingnya penentuan jenis data.
2.2 Pengenalan
Meskipun Administrator atau Ahli Domain di setiap industri memahami pentingnya
menggunakan analisis data untuk memecahkan masalah atau menggerakkan organisasi, dan
meskipun mereka sadar akan kemajuan dalam analisis data menggunakan teknik data mining,
mereka sering kali tidak dapat menghubungkan data yang ada dengan teknik pemrosesan data
yang tepat. Dalam banyak kasus, ditemukan bahwa pengembangan visualisasi data sudah
cukup untuk menganalisis data dan menjawab pertanyaan tanpa perlu menggunakan teknik
data mining. Sebaliknya, dalam beberapa kasus, organisasi tidak memiliki cukup data untuk
dianalisis guna menjawab pertanyaan yang telah ditentukan.
Alasan utamanya adalah karena para administrator atau ahli domain di organisasi kurang
memahami data apa yang dapat digunakan dan bagaimana pertanyaan harus diajukan agar
mendapatkan data yang berguna. Banyak organisasi telah mengembangkan ahli domain
mereka menjadi data scientist dan melatih mereka dalam berbagai jenis analisis data. Posisi
data scientist sangat penting karena mereka dapat menggunakan data yang ada untuk
menganalisis dan memecahkan masalah secara tepat waktu. Sebagai contoh, di industri
medis, data pasien dapat digunakan untuk menganalisis perawatan. Oleh karena itu,
12
penggunaan data dalam setiap bentuk analisis data menjadi poin penting bagi mahasiswa
ilmu data.
2.3 Atribut
Atribut data digunakan untuk mendefinisikan ruang lingkup Objek Data. Misalnya,
atribut data adalah jenis kelamin, dan objek data adalah laki-laki, perempuan, atau tanpa
jenis kelamin. Atribut data juga digunakan dalam konteks yang berbeda (Inmon dan
Lindstedt, 2015). Ketika para data scientist menulis program, atribut data dianggap sebagai
variabel dan dipandang sebagai fitur. Data scientist mengumpulkan data dalam sebuah
dataset yang terdiri dari fitur yang menyimpan banyak catatan. Dalam ilmu data, catatan ini
disebut "Instance". Struktur untuk menyimpan Fitur, Objek Data, dan Instance adalah
sebagai berikut (Gru¨tter, 2019: Angiulli & Fassetti, 2021).
Tabel 1. Contoh fitur, objek data, dan instance.
Awal Nama Akhir Nama
Jirapon Sunkpho
Sarawut Ramjan
Kom Campiranon
Pada Tabel 1, terdapat total 2 fitur yang terdiri dari nama depan dan nama belakang. Fitur
nama depan adalah Jirapon, Sarawut, dan Kom, sedangkan fitur nama belakang adalah
Sunkpho, Ramjan, dan Campiranon, masing-masing. Ketika objek data dari beberapa fitur
digabungkan, mereka menjadi Instance. Dari Tabel 1, terdapat 3 Instance yang terdiri dari
Jirapon Sunkpho, Sarawut Ramjan, dan Kom Campiranon, masing-masing.
Dimensionalitas Data: Merupakan jumlah fitur dalam sebuah dataset (Li, Horiguchi, dan
Sawaragi, 2020). Dalam ilmu data, fokusnya adalah menganalisis data di berbagai bidang
tanpa terlalu memperhatikan penyimpanan data sejak awal. Jumlah dimensi merupakan
masalah yang harus dipertimbangkan oleh data scientist untuk memilih hanya fitur yang
dapat mendukung analisis. Oleh karena itu, para data scientist perlu mengurangi jumlah
dimensi agar memiliki fitur yang diperlukan untuk analisis data. Ini memungkinkan data
scientist untuk mengurangi waktu dan sumber daya digital yang dibutuhkan untuk
memproses sejumlah besar instance dari dataset.
Resolusi: Merupakan ukuran yang digunakan untuk menyimpan Objek Data dalam setiap
Fitur. Dalam Ilmu Data (Wang et al., 2019), ketika para data scientist mengumpulkan dataset
13
dari berbagai sumber, sering kali terdapat masalah dalam menyimpan data yang sama
dengan berbagai ukuran. Misalnya, Fitur tinggi dari dataset A diukur dalam sentimeter,
sedangkan Fitur tinggi dari dataset B disimpan dalam inci. Oleh karena itu, sebelum
menerapkan dataset tersebut, para data scientist harus melakukan Transformasi Atribut atau
mengubah bentuk Objek Data agar berada dalam satu bentuk atau yang lainnya.
2.4 Tipe Data
Teknik mining dan visualisasi data yang berbeda menggunakan berbagai jenis data. Ini
bisa menggunakan hanya satu jenis data atau kombinasi dari berbagai jenis. Ini menjadi
tantangan besar bagi ilmuwan data untuk menganalisis data guna mengidentifikasi apakah
data tersebut konsisten dengan teknik penambangan data dan untuk menjawab pertanyaan
yang telah ditentukan. Data dapat dibagi menjadi 2 jenis.
A. Data Kategorikal
Data Kategorikal adalah data yang dihitung dan dianggap sebagai data kuantitatif
tanpa kontinuitas. Ini juga mencakup Skala Nominal dan Skala Ordinal. Setiap kategori
memiliki penggunaan yang berbeda (Van et al., 2005).
1. Skala Nominal: Merupakan data yang dikumpulkan sebagai pengelompokan
(Andrews dan Messenger, 1973), seperti jenis kelamin, termasuk perempuan, laki-
laki, dan gender lainnya. Ketika ilmuwan data menggunakan skala nominal dalam
analisis data, mereka dapat membandingkan data dari skala nominal; laki-laki dan
perempuan
seperti yang
ditunjukkan
dalam contoh.
Gambar 1. Contoh
visualisasi data dengan
skala nominal.
14
Seperti yang terlihat dalam gambar, ilmuwan data dapat membandingkan Skala
Nominal untuk menggambarkan data dengan Mode atau data yang paling banyak
terduplikasi. Misalnya, data berkisar antara 0-5, mode 3 berarti angka 3 adalah yang
paling banyak dipilih. Data berkisar antara 6-10, mode 7 berarti angka 7 adalah yang
paling banyak dipilih. Ilmuwan data sebaiknya tidak menggunakan skala nominal
untuk menghitung dengan cara menjumlahkan, mengurangkan, mengalikan,
membagi, atau mengambil rata-rata. Misalnya, jika data menunjukkan bahwa
terdapat 7,5 laki-laki, itu tidak masuk akal dalam analisis data karena pada
kenyataannya tidak mungkin ada 7,5 orang. Selain itu, mengubah huruf menjadi
angka tidak dapat memberikan nilai nyata pada angka tersebut untuk dihitung. Jika
Kecamatan Bang Rak diberi nilai sebagai No. 1 dan Kecamatan Sathorn sebagai No.
2, maka 1 ditambah 2 sama dengan 3 tidak memiliki arti dalam interpretasi data.
Dalam banyak kasus, data skala nominal dapat digunakan dengan jenis data lainnya
untuk memproses visualisasi data seperti dalam contoh.
Sebagaimana terlihat dari gambar, Skala Nominal adalah tingkat kelangsungan
hidup dan tingkat kematian perokok yang dikembangkan menjadi visualisasi dalam
bentuk histogram yang menunjukkan rentang orang yang hidup dan yang mati di
sumbu x, serta frekuensi orang yang hidup dan yang mati di sumbu y.
2. Skala Ordinal mewakili abstraksi dengan angka ordinal (Yager, 2020). Niat adalah
emosi individu. Data scientist dapat mewakili emosi tersebut sebagai Skala Likert
yang berkisar dari 1 hingga 5. Misalnya, “tidak ada niat untuk membeli” diwakili
oleh angka 1, sementara “kemungkinan membeli” diwakili oleh angka 2, dengan
intensitas niat membeli berkisar dari lemah hingga kuat pada angka 5. Ketika emosi
diwakili oleh angka, data scientist dapat menarik kesimpulan. Jika responden
memilih angka 4 paling banyak, emosi ini tidak dapat ditentukan dalam nilai rata-
rata. Angka 4,5 tidak dapat diinterpretasikan sebagai tingkat niat pembelian. Namun,
data scientist dapat menerapkan skala ordinal yang disebut Pembelajaran Terawasi
15
seperti Regresi dalam analisis data, dengan merespons masalah yang ditentukan.
Misalnya, niat pembelian pada produk A memiliki pengaruh yang signifikan terhadap
niat pembelian pada produk B.
Gambar 2. Contoh penerapan skala nominal dengan data lain.
B. Data Kontinu
Data kontinu adalah data yang disajikan dengan angka riil (Mesner dan Shalizi, 2021),
seperti data keuangan dan data suhu. Data ini dapat digunakan untuk menghitung rata-
rata, seperti data mengenai rata-rata gaji karyawan yang telah bekerja di perusahaan
selama lebih dari 5 tahun. Data scientist dapat mengembangkan visualisasi dari data
kontinu sebagai berikut.
Menurut gambar tersebut, data scientist membuat diagram sebar dari data kontinu di
mana data di sumbu x mewakili suhu, dan sumbu y mewakili jumlah ozon. Data dari
kedua fitur tersebut adalah angka riil. Tidak masalah apakah data asli yang diimpor oleh
data scientist dari sumber atau luar merupakan Data Kategorikal atau Data Kontinu, data
scientist harus mempertimbangkan tujuan analisis data. Kemudian, data scientist dapat
memilih teknik penambangan yang sesuai untuk menganalisis data. Data yang diinginkan
kemudian dapat dipilih.
Gambar 3. Contoh visualisasi dari data kontinu
16
17
BAB III
Instalasi Perangkat Lunak dan Pengenalan RapidMiner
2.5 Abstrak
Perangkat lunak data mining berlisensi dan open-source telah mempermudah data
scientist dalam memproses dan menganalisis kumpulan data besar. Python dan R adalah alat
open-source yang populer digunakan untuk mengajarkan teknik data mining, termasuk
klasifikasi dan pengelompokan data. Namun, salah satu tantangan utama bagi ahli domain
yang ingin meningkatkan keterampilan di bidang data science adalah pemrograman
komputer. Perangkat lunak berlisensi seperti RapidMiner menawarkan solusi untuk masalah
ini, karena dirancang untuk pemrosesan data mining tanpa memerlukan keterampilan
pemrograman komputer. RapidMiner memungkinkan data scientist untuk membawa
kumpulan data dan model mining mereka ke dalam proses analisis yang mencakup semua
mekanisme ilmu data. RapidMiner juga menawarkan berbagai model pendukung untuk
praproses data dan membuat visualisasi data selama eksplorasi data. Setelah data mining
selesai, RapidMiner menampilkan hasil yang mudah dipahami, sehingga data scientist dapat
dengan efektif menjelaskan jawaban dari pertanyaan bisnis kepada pemangku kepentingan.
Dengan antarmuka yang ramah pengguna, RapidMiner adalah pilihan yang sangat baik bagi
mereka yang tidak memiliki latar belakang teknis dalam pemrograman.
2.6 Pengenalan
Perangkat lunak RapidMiner sangat populer dalam pekerjaan data science dan telah
digunakan dalam pelatihan pengembangan data scientist (Chisholm, 2013: Klinkenberg &
Hofmann, 2014: Kotu & Deshpande, 2014). Para ilmuwan dapat mempelajari berbagai teknik
data mining dan menerapkan konsep tersebut dalam analisis data menggunakan RapidMiner
tanpa perlu menulis program apa pun. Selain itu, perangkat lunak RapidMiner mendukung
setiap langkah kerja lapangan dalam bidang ilmu data. Data scientist dapat mengimpor
18
dataset ke dalam perangkat lunak RapidMiner untuk segera mengeksplorasi data melalui
visualisasi fitur. Dalam persiapan data, para ilmuwan dapat menggunakan model yang ada
dalam perangkat lunak RapidMiner untuk menyesuaikan data mereka agar siap dianalisis
dengan berbagai teknik data mining. RapidMiner juga menyediakan kumpulan data contoh
yang dapat digunakan oleh para ilmuwan untuk bereksperimen dengan data selama pelatihan
mereka.
2.7 Instalasi Perangkat Lunak RapidMiner
Para profesor dan pelajar teknik data mining yang ingin menggunakan perangkat lunak
RapidMiner sebagai alat untuk belajar dan bereksperimen dalam analisis data dapat
19
Seperti yang terlihat, my.RapidMiner.com akan mengirimkan email yang meminta
pengguna untuk mengonfirmasi permintaan unduhan perangkat lunak. Pengguna kemudian
harus memverifikasi email tersebut.
Dari gambar, setelah email diverifikasi, my.RapidMiner.com akan mengunduh perangkat
lunak seperti yang ditunjukkan pada gambar di bawah ini.
Dari gambar, periksa jenis sistem operasi di dalam komputer. Dalam hal sistem operasi
Windows yang memiliki 2 tipe; 32 Bit dan 64 Bit, pilih unduhan yang sesuai dengan sistem
operasi. Dan dalam hal sistem operasi MAC OS atau Linux, pilih unduhan sesuai dengan
sistem operasi. Setelah unduhan selesai, Anda akan menerima file untuk instalasi perangkat
lunak.
Ketika Anda mengklik dua kali pada File Instalasi, layar awal akan muncul. Kemudian
tekan tombol Next > untuk melanjutkan ke langkah berikutnya.
Gambar 2.. Mengisi informasi untuk memverifikasi identitas Anda.
20
Gambar 3. Kirim sebuah email untuk konfirmasi.
Dari gambar, baca Perjanjian Lisensi dan tekan I Agree untuk melanjutkan ke langkah
berikutnya. Pada langkah ini, pilih lokasi file untuk menginstal perangkat lunak. Kemudian
tekan tombol Install. Setelah menyelesaikan proses instalasi perangkat lunak, tekan Finish
untuk mulai menggunakan perangkat lunak RapidMiner.
Gambar 4. Konfirmasi (Verifikasi) dari unduhan perangkat lunak lewat pesan elektronik
Gambar 5.
Unduhan
Perangkat
Lunak
RapidMiner
21
Gambar 6. Instalasi Perangkat Lunak RapidMiner
22
Gambar 7. Memulai Instalasi Perangkat Lunak RapidMiner
Gambar 8. Persetujuan Lisensi
23
2.8 Memulai dengan Perangkat Lunak Rapidminer
Ilmuwan data dapat memulai penggunaan perangkat lunak RapidMiner dengan masuk ke
perangkat lunak RapidMiner. Sebuah jendela akan muncul; kemudian, ilmuwan data dapat
mulai memodelkan dengan memilih Proses Kosong sebagai berikut.
Saat memasuki perangkat lunak RapidMiner, terdapat 5 komponen: 1. Menu Utama 2.
Tampilan 3. Repositori 4. Operator dan 5. Parameter. Setiap komponen mendukung
pengguna seperti yang terlihat pada gambar di bawah ini.
Pengguna dapat membuat file yang menyimpan model dalam perangkat lunak
RapidMiner yang disebut Proses. Ini berfungsi untuk mengakses setiap file yang disimpan di
dalam komputer, merekam proses, dan memproses data mining dari menu dan ikon di bagian
Menu Utama.
Data scientist dapat membuat model data mining di bagian Desain. Ketika memproses
model, hasil analisis data kemudian dapat diperiksa di bagian Hasil.
Data scientist dapat mengimpor dataset untuk dianalisis ke dalam perangkat lunak
RapidMiner dengan cara mengimpor data. Para ilmuwan dapat mengakses proses yang telah
direkam dan mengambil dataset yang sudah disediakan oleh perangkat lunak RapidMiner,
sehingga data scientist dapat membuat model dari dataset tersebut (RapidMiner, Inc., 2020).
Gambar 9. Pilih lokasi berkas
24
Untuk mengambil setiap bagian dari model penambangan data untuk diatur dan
dihubungkan, ilmuwan data dapat menyesuaikan parameter default untuk mengontrol
operasi pemrosesan agar analisis data lebih akurat. Ilmuwan data dapat berlatih
menggunakan RapidMiner, dimulai dengan dataset contoh yang disebut Iris untuk membuat
suatu proses:
Dalam gambar, ilmuwan data melalui repositori dengan mengakses folder tempat dataset
contoh, bernama Iris, disimpan, dan kemudian mengimpor dataset Iris ke dalam pemodelan.
Ilmuwan data kemudian menggambar garis untuk menghubungkan output dari dataset Iris ke
Hasil. Saat dijalankan, Anda akan menerima hasil pemrosesan seperti yang ditunjukkan pada
gambar di bawah ini.
Dari dataset tersebut, ilmuwan data dapat mulai mengeksplorasi data dengan memeriksa
pola-pola data di bagian Statistik:
Dari gambar tersebut, ilmuwan data dapat mulai mengeksplorasi data melalui statistik,
yang memberikan rincian mendetail tentang data di setiap fitur. Dari sampel, dataset Iris
terdiri dari 7 fitur, dengan variabel target yang menyimpan informasi tentang spesies bunga
Iris, serta fitur lainnya. Ukuran bunga Iris dicantumkan dalam statistik, yang juga
menunjukkan nilai terkecil, nilai terbesar, dan nilai rata-rata. Dan dari pemeriksaan awal
terhadap data, ilmuwan data dapat mengeksplorasi sifat data dengan lebih detail melalui
25
pengembangan
visualisasi
(Ironfrown,
2016: Global Mindset
University,
2020: Tuition, 2021).
Gambar 10. Instalasi telah
berhasil
26
Gambar 13. Tampilan
27
Gambar 17. Mengimpor data set ke dalam proses
28
Gambar 18. Hasil dari dataset Iris
Gambar 19. Menjelajahi model-model data dengan statistic
29
Gambar 20. Pengembangan data visualisasi diagram kotak
BAB IV
Pra Pemrosesan Data dan Contoh klasifikasi data dengan rapid miner
30
2.9 Abstrak
Dalam buku ini, fokusnya adalah pada data mining menggunakan RapidMiner. Namun,
penting untuk dicatat bahwa ada langkah-langkah penting lainnya yang perlu
dipertimbangkan saat mendalami dunia data mining. Bab ini berfungsi sebagai pengantar
proses pra-pemrosesan data menggunakan RapidMiner, memungkinkan pembaca untuk
berlatih dengan contoh set data yang tersedia di platform tersebut. Dengan RapidMiner, pra-
pemrosesan data dimulai dengan mengeksplorasi data secara visual dan kemudian memilih
fitur-fitur yang akan dianalisis dengan setiap teknik data mining. Mengelola nilai yang hilang
dalam sebuah fitur juga merupakan langkah penting dalam proses ini, yang dapat dilakukan
dengan menghilangkan atau menggantinya dengan nilai yang sesuai. Selain itu, RapidMiner
memungkinkan para ilmuwan data untuk mendeteksi outlier dan melakukan normalisasi fitur
dengan mudah menggunakan desain diagram, tanpa memerlukan keterampilan pemrograman
komputer. Untuk membantu pembaca terbiasa dengan alat yang ditawarkan oleh RapidMiner,
sebuah teknik klasifikasi akan ditunjukkan langkah demi langkah di dalam buku ini.
2.10 Pengenalan
RapidMiner adalah alat yang mendukung sepanjang proses pekerjaan data science (Mat,
Lajis & Nasir, 2018). Para ilmuwan data dapat mengimpor set data ke dalam perangkat lunak
RapidMiner untuk mempersiapkan data agar siap diproses dengan berbagai teknik data
mining (Dai et al., 2016: Samsani, 2016: Phan, Wu & Phan, 2021). Dalam Manajemen Nilai
yang Hilang dan Manajemen Outlier, ketika data tersedia, para ilmuwan data dapat
menggunakan berbagai model data mining, baik Supervised Learning maupun Unsupervised
Learning (Cai et al., 2016: Mandhare & Idate, 2017: Susanti & Azizah, 2017: Abu-Soud,
2019). Algoritma pemrosesan dirancang melalui koneksi model, dan kemudian hasil
pemrosesan data dijalankan. Untuk menghubungkan model-model tersebut, kebutuhan akan
pemrograman komputer tidak diperlukan. Oleh karena itu, para ilmuwan dapat dengan cepat
memodifikasi model pada setiap langkah dan melakukan pemrosesan ulang untuk
meningkatkan akurasi pemrosesan model.
2.11 Pra Pemrosesan data menggunakan perangkat lunak rapid miner
Untuk mengimpor dataset ke dalam model data mining menggunakan perangkat lunak
RapidMiner, data scientist dapat memanipulasi data dengan Microsoft Excel. Misalnya,
Transformasi Atribut dilakukan untuk mengubah bentuk data sebelum diimpor ke perangkat
31
lunak RapidMiner. Mereka juga dapat memilih operator dalam RapidMiner. Sebuah
eksperimen dapat dilakukan untuk mempersiapkan data sebagai berikut:
Gambar 1. Menggunakan dataset sampel Titanic.
Data scientist dapat memilih untuk menggunakan dataset sampel Titanic untuk
eksperimen. Setelah dataset diimpor ke dalam proses, data scientist menghubungkan output
dataset ke bagian Hasil, dan menjalankan model. Hasilnya adalah sebagai berikut.
Gambar 2. Detail data set titanic
Seperti yang terlihat dalam rincian dataset, dataset terdiri dari 1.309 catatan, dan nilai
yang hilang muncul di dalam dataset. Dalam RapidMiner, tanda tanya digunakan untuk
mewakili Nilai yang Hilang. Ketika data scientist mengakses bagian statistik Usia, itu
menampilkan rincian Nilai yang Hilang, seperti yang ditunjukkan di bawah ini.
Gambar 3. Rincian nilai yang hilang pada atribut usia.
32
Saat melihat atribut Usia, terdapat 263 Nilai yang Hilang. Namun, untuk menganalisis
data, Usia diperlukan. Data scientist perlu menangani nilai-nilai yang hilang dengan
beberapa cara. Data scientist kemudian dapat menekan tombol Buka Visualisasi untuk
menampilkan informasi visual seperti yang terlihat di bawah ini.
Dari gambar tersebut, data scientist dapat mempertimbangkan distribusi data dengan
visualisasi histogram yang menampilkan rentang usia pada sumbu x, dan menampilkan
frekuensi data pada sumbu y. Ketika mempertimbangkan dataset Titanic, data scientist fokus
pada karakteristik para penyintas dan korban dari kecelakaan kapal Titanic. Oleh karena itu,
data scientist perlu mempertimbangkan fitur-fitur yang berguna untuk analisis data. Dan
ketika mempertimbangkan dataset, beberapa fitur harus dikecualikan. Hal ini disebabkan
oleh dua alasan. Pertama, fitur pada Nama Penumpang, Nomor Tiket, dan Pelabuhan
Keberangkatan yang memberikan informasi tentang tujuan penumpang harus dihilangkan
karena tidak memengaruhi tingkat kelangsungan hidup. Alasan lainnya adalah beberapa
data, yaitu Nomor Kabin dan Nomor Perahu Penyelamat, memiliki jumlah nilai yang hilang
yang besar, yang memengaruhi akurasi analisis data. Data scientist dapat menggunakan
operator yang disebut Select Attributes untuk menghapus fitur yang tidak diinginkan dari
dataset seperti yang ditunjukkan pada gambar.
Seperti yang terlihat jelas pada gambar, data scientist menghubungkan model pada
dataset ke Select Attribute, kemudian menghubungkan Select Attribute ke bagian Hasil.
Sementara itu, data scientist menentukan parameter dengan memilih Tipe Filter Atribut
sebagai subset, kemudian memilih Select Attributes, dan kemudian memilih hanya fitur yang
diinginkan. Proses ini disebut Seleksi Fitur (Feature Selection).
Gambar 4. Visualisasi dari data umur.
33
Gambar 5. Pilih Atribut
Sebagai hasil dari Seleksi Fitur, ketika menjalankan model pada dataset, hanya fitur yang
terpilih yang tersisa. Ini dilakukan untuk mempersiapkan data sebelum diproses dengan
teknik data mining, seperti yang ditunjukkan pada gambar di bawah ini.
Data scientist dapat memanipulasi nilai yang hilang untuk fitur tertentu dengan mengatur
Tipe Filter Atribut sebagai subset dan memilih Select Attributes. Dari contoh tersebut, para
ilmuwan memilih Usia, kemudian menentukan nilai default sebagai Rata-rata. Oleh karena
itu, data nilai yang hilang dalam Usia akan diganti dengan nilai rata-rata seperti yang
ditunjukkan dalam gambar.
Ketika memanipulasi data nilai yang hilang, data scientist harus mempertimbangkan data
outlier. Seperti yang terlihat dalam contoh, fitur tersebut disebut Tarif Penumpang atau harga
tiket yang sangat mahal, yang dapat dipertimbangkan dari informasi visual sebagai berikut.
34
Dari data histogram visual, data scientist dapat mengamati rentang data yang tidak
berkumpul dengan data lainnya dan memiliki frekuensi yang rendah. Oleh karena itu, data
semacam itu dapat dianggap sebagai outlier, dan dapat dimanipulasi menggunakan model
bernama Detect Outlier (Distances) sebagai berikut.
Pada gambar tersebut, data scientist dapat memeriksa data outlier dan memperoleh hasil
dari eksekusi seperti yang terlihat di bawah ini.
Mengenai fitur tambahan, Outlier, data scientist dapat menentukan apakah data tersebut
merupakan Outlier atau tidak. Jika iya, fitur tersebut akan menunjukkan True, dan jika tidak,
fitur tersebut akan menunjukkan False
Untuk menentukan Parameter dalam Jumlah Tetangga, data dibandingkan dengan 10
angka lainnya. Jika terdapat perbedaan, maka itu akan dianggap sebagai outlier. Jumlah
Outlier mengacu pada jumlah data yang dianggap oleh data scientist sebagai Outlier. Dalam
hal ini, para ilmuwan dapat menentukan 100 outlier. Setelah memvalidasi data outlier, para
ilmuwan dapat menghapus outlier dari dataset menggunakan model Filter Examples.
Setelah Filter Examples diimpor ke dalam Proses, data scientist mendefinisikan kondisi
untuk menghapus Outliers dari Dataset dengan menetapkan Parameter di bagian Filter, dan
memilih Outliers untuk sama dengan False.
Ketika model dieksekusi, dataset memiliki nilai outlier sebagai false, untuk menyimpan
hanya data yang bukan outlier.
Gambar 7. Dataset dari fitur pemilihan
35
Gambar 8. Memanipulasi dengan data yang hilang.
Dari gambar tersebut, data scientist dapat memilih jenis pemrosesan data dengan
menyesuaikan parameter, seperti yang ditunjukkan di bawah ini.
Pada gambar tersebut, data scientist memilih Tipe Filter Atribut sebagai Subset,
kemudian menekan tombol Select Attribute dan fitur yang bernama Usia. Selanjutnya, pilih
Metode untuk menyesuaikan nilai dalam Usia menjadi Transformasi Rentang (Range
Transformation) agar data usia dapat disesuaikan berkisar antara 0 hingga 1. Hasil dari
eksekusi ditunjukkan pada gambar.
Oleh karena itu, dalam proses survei dan persiapan data, para ilmuwan harus menjelajahi
data melalui visualisasi data terlebih dahulu. Data nilai yang hilang dan data outlier
kemudian dimanipulasi dengan pemrosesan lebih lanjut (Luengo et al., 2020).
36
Gambar 10. Titanic dataset setelah memanipulasi nilai yang hilang
Gambar
11.
37
Gambar 12. Pemeriksaan outlier.
39
Gambar 15. Menghilangkan data outlier dari data set
40
Gambar 19. Menugaskan parameter untuk menormalisasi
Berdasarkan gambar, ilmuwan data menetapkan parameter sebagai 5 node daun. Analisis
menunjukkan bahwa tingkat kematian lebih tinggi pada pria dibandingkan wanita. Ilmuwan
data kemudian perlu menguji kinerja model menggunakan dataset. Ilmuwan menggunakan
dataset Titanic sebagai contoh. Dataset asli digunakan untuk menguji dan menentukan
tanpa perlu pemrograman (Ghous dan Kovács, 2020). Ilmuwan dapat menggunakan dataset
yang berguna untuk analisis data guna mengajarkan pembelajaran mesin. Ini akan mengarah
pada pengujian data yang efisien. Buku ini memperkenalkan berbagai teknik penambangan
data untuk diuji, guna mendapatkan hasil atas pertanyaan dengan menggunakan RapidMiner
sebagai alat analisis data.
42
Gambar 22. Nilai dari analisis pohon keputusan
43
BAB V
Klasifikasi
2.13 Abstrak
Dalam dunia data mining, klasifikasi merupakan teknik yang sangat populer untuk
pembelajaran terawasi (supervised learning). Kemampuannya untuk mengidentifikasi pola
dalam data dengan membaginya menjadi set pelatihan dan menggunakan machine learning
menjadikannya alat penting untuk menjawab pertanyaan-pertanyaan krusial terkait data.
Misalnya, klasifikasi dapat membantu bisnis mengidentifikasi pelanggan dengan potensi
pembelian tinggi. Salah satu fitur menonjol dari klasifikasi adalah k-nearest neighbors (k-
NN), yang memungkinkan data diklasifikasikan sesuai dengan set data pelatihan. Decision
tree (pohon keputusan) juga sering digunakan untuk mendukung pengambilan keputusan
dengan menghasilkan diagram yang mudah diinterpretasikan. RapidMiner adalah alat data
mining yang luar biasa yang dapat menerapkan berbagai teknik klasifikasi, termasuk k-NN,
decision tree, dan naïve Bayes. Dalam buku ini, pembaca dapat mengikuti panduan langkah
demi langkah untuk menggunakan teknik-teknik ini dengan RapidMiner guna mencapai
klasifikasi data yang efektif.
2.14 Pengenalan
Klasifikasi data bertujuan untuk mengklasifikasikan atau mengidentifikasi data, seperti
klasifikasi pelanggan yang kemungkinan besar akan pindah ke perusahaan telekomunikasi
lain. Hasil yang diperoleh dari analisis berupa Data Diskrit atau Kategorikal, yang
menunjukkan kelompok atau tipe data (Vichi, Ritter & Giusti, 2013). Dalam ilmu data,
kelompok data ini disebut sebagai Label Kelas (Class Label). Memiliki variabel target berarti
mengklasifikasikan data menggunakan prinsip Pembelajaran Terawasi (Supervised Learning)
dalam pemrosesan data dengan membagi data menjadi dua bagian (Mishra & Vats, 2021).
Bagian pertama digunakan untuk melatih mesin agar belajar, dan bagian kedua untuk
menguji kinerja model. Teknik klasifikasi data diproses sebagai berikut.
Seperti yang terlihat pada gambar, ilmuwan data dapat menggunakan Algoritma
Klasifikasi seperti K-Nearest Neighbor (k-NN) atau Decision Tree untuk membuat Model
Klasifikasi menggunakan Data Pelatihan guna melatih mesin agar dapat mempelajari pola
dan memperoleh hasil yang diperlukan dari klasifikasi data (Liu, 2021; Mladenova, 2021).
Setelah itu, Data Uji digunakan untuk menerapkan model dan menguji kinerja akurasinya.
44
Data uji dan hasil yang diperoleh dari klasifikasi kemudian dibandingkan untuk
mengevaluasi performa model.
Gambar 1. Analisis data dengan klasifikasi
45
B. Validasi Silang.
Metode Validasi Silang (Cross Validation) bertujuan untuk menentukan jumlah
putaran pembagian ke dalam siklus k dengan membagi data menjadi 2 bagian di setiap
siklus (Mnich et al., 2020). Misalnya, jumlah pembagian data ditentukan dan k sama
dengan 4. Oleh karena itu, pada Putaran 1, Validasi Silang akan mengidentifikasi bagian
1 data sebagai Set Data Pengujian, dan bagian 2–4 sebagai Set Data Pelatihan. Pada
putaran kedua, Validasi Silang akan menetapkan bagian 2 data sebagai Set Data
Pengujian, dan bagian 1 serta 3–4 sebagai Set Data Pelatihan. Pada putaran ketiga,
Validasi Silang akan menetapkan bagian 3 sebagai Set Data Pengujian, dan bagian 1–2
serta 4 sebagai Set Data Pelatihan. Terakhir, pada putaran keempat, Validasi Silang akan
menetapkan bagian 4 sebagai Set Data Pengujian, dan bagian 1–3 sebagai Set Data
Pelatihan, seperti yang terlihat di bawah ini.
Gambar 2. Validasi Silang
Proses ini memungkinkan Model Klasifikasi untuk dilatih dan diuji dalam seluruh
set data. Akibatnya, meskipun ilmuwan data menerima set data dengan jumlah instance
yang lebih sedikit, mereka tetap dapat melatih pembelajaran mesin dengan baik. Untuk
menguji akurasi Teknik Klasifikasi, set data dibagi ke dalam sejumlah putaran k. Rata-
rata presisi dari semua putaran diambil untuk dihitung guna memperoleh nilai presisi,
yang menjadi representasi pemrosesan set data untuk setiap putaran.
46
C. Akurasi Model
Ilmuwan data dapat mengukur efisiensi klasifikasi data menggunakan Confusion
Matrix yang tidak hanya menampilkan jumlah klasifikasi yang benar, tetapi juga jumlah
kesalahan klasifikasi, seperti yang terlihat pada contoh berikut (Görtler et al., 2021).
Tabel 1. Confusion Matrix
Nilai yang Diprediksi
Ya Tidak
Nilai yang Ya 40 10
Sebenarnya Tidak 30 20
Menurut tabel tersebut, jika hasil kinerja yang dievaluasi dengan Confusion
Matrix diperoleh seperti yang terlihat di tabel, ini berarti ada 40 klasifikasi yang benar
“Ya” atau “True Positive”, dan terdapat 10 kesalahan klasifikasi, yaitu “False Negative”.
Ini berarti ada 50 “Ya” dalam data aktual, tetapi model hanya dapat mengenali dengan
benar sebanyak 40. Di sisi lain, terdapat 30 klasifikasi yang benar “Tidak” atau “True
Negative”, dan terdapat 20 kesalahan klasifikasi data, yang disebut “False Positive”. Ini
berarti bahwa dalam data aktual, ada 50 “Tidak”, tetapi model hanya dapat mengenali
dengan benar sebanyak 20.
D. Presisi dan Recall.
Untuk menilai akurasi data, presisi juga dapat digunakan untuk menunjukkan
akurasi klasifikasi untuk data seperti Sabun atau Sampo. Recall digunakan untuk
menunjukkan akurasi klasifikasi sesuai dengan data aktual, seperti Sabun dan Sampo,
seperti yang terlihat pada contoh berikut (Khan & Ali Rana, 2019).
Tabel 2. Presisi dan Recall
Nilai yang Diprediksi
Recall
Sabun Sampo
Nilai yang Sabun 40 10 80%
Sebenarnya Sampo 30 20 40%
Presisi 57% 66%
Dari tabel tersebut, ilmuwan data dapat menentukan akurasi klasifikasi data
dengan 2 pengukuran. Yang pertama adalah Presisi. Ini menunjukkan rasio akurasi dari
setiap kelas, di mana Sabun memiliki akurasi 57%. Ini dihitung dengan membagi 40
47
dengan 70. Total klasifikasi data Sabun dan Sampo menunjukkan akurasi 66%, yang
dihitung dengan membagi 20 dengan 30, yaitu proporsi dari semua klasifikasi Sampo.
Pengukuran lainnya adalah Recall, yaitu data nyata yang diklasifikasikan dengan akurat.
Akurasi yang sesuai dengan data aktual Sabun adalah 80%, yang dihitung dengan
membagi 40 dengan 50. Dan akurasi dari data Sampo yang aktual adalah 40 persen, yang
dihitung dengan 20 dibagi 50.
2.16 Overfitting dan Underfitting
Dalam pemrosesan dengan teknik data mining, ilmuwan data dapat menghadapi
masalah dengan hasil dalam dua cara:
A. Overfitting: Ketika dataset yang digunakan untuk memproses dan hasilnya memiliki
hubungan yang sangat dekat, hasil yang diperoleh dari peramalan atau klasifikasi
menjadi sangat akurat (Junaidi et al., 2021). Namun, ditemukan bahwa hasil
peramalan atau klasifikasi menunjukkan akurasi yang sangat rendah saat menguji
model.
B. Underfitting: Ketika hasil dari pengajaran mesin dan pengujian model memiliki
akurasi yang sangat rendah, hasil yang diperoleh, saat diuji, menunjukkan akurasi
yang rendah (Zhang, Zhang, & Jiang, 2019).
Untuk mengatasi kedua masalah ini, ilmuwan perlu menggunakan teknik Cross
Validation sehingga model dapat mempelajari seluruh dataset. Dan kinerja peramalan
atau klasifikasi data dapat diuji hingga masalah terkait overfitting dan underfitting dapat
dihilangkan. Kemudian, ilmuwan dapat menerapkan pemrosesan tersebut pada pengujian
yang memiliki akurasi lebih tinggi.
48
BAB VI
Pembelajaran Mendalam
2.17 Abstrak
Jaringan saraf tiruan (neural network) dan teknik pembelajaran mendalam (deep learning)
adalah alat penting bagi ilmuwan data dalam menganalisis big data untuk peramalan dan
klasifikasi. Dalam pembelajaran terawasi (supervised learning), set data dibagi menjadi set
pelatihan dan set uji, dan jaringan saraf berulang kali menyesuaikan bobot data agar lebih
sesuai dengan data aktual. Buku ini menawarkan panduan praktis untuk melakukan
eksperimen jaringan saraf dengan RapidMiner, yang dapat diikuti pembaca langkah demi
langkah. Untuk big data, terutama data non-linear, deep learning dapat diterapkan. Bab ini
memperkenalkan dua jenis deep learning: convolutional neural networks (CNN) untuk
analisis gambar dan recurrent neural networks (RNN) untuk data berurutan atau deret waktu.
Buku ini menyediakan demonstrasi kedua teknik tersebut menggunakan RapidMiner,
sehingga mudah diakses bagi pembaca yang ingin memperdalam pemahaman mereka tentang
alat-alat yang kuat ini.
2.18 Pengenalan
Pada awal mula ketika orang-orang pertama kali menyebut kecerdasan buatan, terdapat
banyak motivasi untuk mengembangkan kecerdasan buatan yang mampu memberikan
respons mirip manusia. Namun, tantangan pada era tersebut adalah bahwa komputasi
kecerdasan buatan memerlukan teknologi komputasi berkinerja tinggi dan volume data
eksperimen yang besar, yang mengakibatkan kemajuan kecerdasan buatan yang bertahap.
Saat ini, di era teknologi komputasi berkinerja tinggi seperti GPU dengan jaringan
berkecepatan tinggi (Telikani, Shah Bahrami, & Gandomi, 2021), ilmuwan data mampu
menggunakan teknik data mining untuk beroperasi pada teknologi komputasi berkinerja
tinggi dan mengumpulkan big data untuk eksperimen menggunakan teknik yang sesuai
untuk pemrosesan semacam itu. Teknik pembelajaran mendalam digunakan untuk
menganalisis data tidak terstruktur yang terdiri dari gambar, suara, dan teks (Fernando et al.,
2021; Hongyi Zhu, Samtani, Brown, & Hsinchun Chen, 2021). Ada dua jenis pembelajaran
mendalam: Jaringan Saraf Konvolusional dan Jaringan Saraf Rekuren (Lakshmi Devi &
49
Samundeeswari V, 2021; Snineh et al., 2021). Model pembelajaran mendalam memodulasi
pra-konfigurasi data untuk pemrosesan bersamaan dengan teknik jaringan saraf. Jaringan
Saraf Buatan (ANN) adalah teknik data mining yang menawarkan baik klasifikasi maupun
prediksi numerik, yang dianggap sebagai pembelajaran terawasi (Thankachan, Prakash &
Jothi, 2021). Ilmuwan data harus terlebih dahulu mengajarkan mesin untuk belajar sebelum
menguji data. Dalam hal ilmuwan data mengklasifikasikan data dengan pembelajaran
mendalam, data diklasifikasikan oleh bidang linier. Sebaliknya, dengan menggunakan
jaringan saraf, ilmuwan data dapat mengklasifikasikan data yang erat terkait dengan fakta
menggunakan Fungsi Non-Linier. Jaringan saraf, oleh karena itu, digunakan dalam dua cara:
pertama, Pengenalan Pola, seperti pengenalan wajah pengguna untuk identifikasi atau
otentikasi untuk mengakses telepon (Ghorpade & Koneru, 2021), dan akhirnya Peramalan,
seperti peramalan tren harga saham (Chinnarasri, Nonsawang & Supharatid, 2012). Buku ini
membahas prinsip-prinsip jaringan saraf buatan dan pembelajaran mendalam dalam format
CNN dan RNN sebagai berikut.
2.19 Jaringan Saraf Buatan (ANN)
A. Konsep Kerja Jaringan Saraf Buatan : ANN
Jaringan Saraf Buatan mensimulasikan aktivitas otak manusia dengan setiap node
mewakili sel otak, dan menghubungkan setiap node untuk membentuk jaringan yang
akan digunakan untuk pemrosesan (Chow dan Cho, 2007; Aggarwal, 2018). Oleh
karena itu, jaringan saraf terdiri dari 4 bagian:
1. Input Neural digunakan untuk mendukung data yang akan dianalisis dengan model.
Jumlah node input tergantung pada jumlah variabel atau fitur yang digunakan untuk
menganalisis data.
2. Output Neural adalah hasil yang diperoleh dari pemrosesan. Ini dapat memiliki satu
atau lebih hasil tergantung pada pertanyaan analisis data.
3. Hidden Layer adalah setiap lapisan node yang meningkatkan efisiensi pemrosesan
jaringan saraf.
4. Links adalah koneksi dari setiap node. Setiap Link menghitung Bobot, yang harus
diteruskan ke node berikutnya.
Oleh karena itu, jaringan saraf mengoptimalkan node-nya, sehingga para ilmuwan
dapat menganalisis respons dari set data yang diimpor ke dalam model. Model utama
50
dari jaringan saraf adalah Perceptron. Model ini dirancang untuk menganalisis data
dengan input neural dan output neural tanpa membuat hidden layers untuk memprediksi
angka.
Untuk mengajarkan pembelajaran mesin dan menguji data dengan jaringan saraf,
keduanya fokus pada penyesuaian bobot dari setiap link, yang dikenal sebagai Back
Propagation Artificial Neural Network (BP-ANN) (Ramirez-Hernandez et al., 2020;
Guo, Zhang, dan Chen, 2021) dengan proses sebagai berikut.
1. Model Jaringan Saraf Buatan memperkirakan hasil analisis.
2. Hasil tersebut dibandingkan dengan hasil aktual yang telah diajarkan para ilmuwan
kepada pembelajaran mesin untuk menganalisis Kesalahan.
3. Model ini mengambil kesalahan untuk menyesuaikan Bobot di setiap lapisan agar
mencapai kesesuaian antara nilai yang dianalisis dan data aktual. Proses ini diulang
hingga nilai kesalahan mencapai tingkat yang dapat diterima.
Mengulangi untuk menyesuaikan Bobot semacam itu bertujuan untuk mengajarkan
pembelajaran mesin dan meningkatkan akurasi analisis data. Setiap kali pengulangan
disebut sebagai Epochs. Ilmuwan data memasukkan 1.000 catatan ke dalam model
jaringan saraf, dan jumlah Epochs adalah 500, maka akan ada 500.000 kali pengulangan
untuk mengajarkan pembelajaran mesin. Oleh karena itu, semakin besar jumlah data
dan jumlah node dalam model, semakin banyak waktu dan pemrosesan digital yang
dibutuhkan oleh ilmuwan data. Dari proses kerja yang memerlukan komputasi untuk
menganalisis semua data, model jaringan saraf cocok untuk data numerik. Oleh karena
itu, jika ilmuwan data perlu menganalisis data teks dalam proses persiapan data, perlu
mengonversi huruf menjadi angka sebelum memasukkan data ke dalam model.
51
Gambar 1. Jaringan Syaraf Buatan (ANN)
BAB VII
CLUSTERING
ABSTRAK
Chapter 7 membahas
tentang clustering, yaitu teknik
yang signifikan dalam data mining
yang berfungsi untuk
mengelompokkan data
berdasarkan kesamaan.
Teknik ini
memungkinkan pembagian
data menjadi beberapa
kelompok (cluster), di mana
elemen dalam satu kelompok
lebih mirip satu sama lain dibandingkan dengan elemen di kelompok yang berbeda. Chapter ini
menjelaskan berbagai metode clustering, termasuk K-Means, Hierarchical Clustering, dan
52
DBSCAN, serta menggambarkan aplikasi praktisnya dalam berbagai bidang seperti pemasaran
dan analisis citra. Selain itu, penekanan diberikan pada pentingnya mengevaluasi hasil clustering
untuk memastikan bahwa kelompok yang terbentuk relevan dan efektif. Pembaca juga akan
menerima panduan tentang penerapan teknik clustering menggunakan RapidMiner, mulai dari
tahap persiapan data hingga analisis hasil. Dengan pemahaman ini, diharapkan pembaca dapat
menggunakan teknik clustering untuk mengungkap wawasan berharga dari data yang mereka
miliki.
PENDAHULUAN
Clustering adalah teknik data mining Unsupervised-Learning. Para ilmuwan data dapat
mengelompokkan data kuantitatif tanpa mendefinisikan variabel target (terlabel) atau membagi
dataset menjadi dua bagian untuk melatih mesin pembelajaran. Teknik clustering mengumpulkan
data yang serupa ke dalam satu kelompok dan membawa data yang tidak serupa ke dalam
kelompok lain. Oleh karena itu, clustering dapat diterapkan di berbagai industri, seperti
segmentasi pelanggan berdasarkan perilaku pembelian pelanggan. Pelanggan dalam kelompok
yang sama cenderung memiliki perilaku pembelian dan harga yang diharapkan yang serupa.
Clustering diterapkan agar sektor bisnis dapat merancang rencana pemasaran yang sesuai untuk
setiap kelompok pelanggan. Ini juga dapat digunakan untuk mendiagnosis tahap kanker pada
setiap pasien berdasarkan ukuran tumor yang tumbuh di organ pasien.
Meskipun proses ilmu data menyediakan metode komputasi untuk mendapatkan jumlah
cluster yang optimal, penentuan jumlah cluster tergantung pada tujuan analisis. Para ilmuwan
data perlu berkonsultasi dengan para ahli di bidangnya untuk mendapatkan jumlah cluster yang
tepat untuk dianalisis. Misalnya, clustering ukuran baju yang akan diproduksi dengan
menganalisis data clustering dari dataset riwayat pembelian. Dengan cara ini, para ahli data dapat
memberikan saran tentang jumlah cluster ukuran baju yang sesuai, seperti kecil, sedang, dan
besar.
Clustering dapat digunakan untuk menganalisis centroid data di setiap cluster. Ini dapat
diterapkan untuk menetapkan harga jual mobil berdasarkan riwayat pembelian. Setiap model
mobil dapat diproduksi dalam berbagai spesifikasi. Setelah analisis, dealer mobil dapat
menetapkan berbagai harga untuk setiap spesifikasi di bawah model mobil yang sama dengan
menggunakan data di setiap kelompok. Misalnya, mobil Model A dengan spesifikasi tingkat
53
dasar seharga 1.300.000 baht. Mobil Model A dengan spesifikasi menengah seharga 1.600.000
baht. Mobil Model A dengan spesifikasi tertinggi seharga 1.700.000 baht. Seperti yang
disebutkan dalam contoh, penentuan harga berasal dari analisis menggunakan teknik clustering.
Para ilmuwan data dapat melakukan analisis centroid untuk setiap kelompok data sesuai dengan
perilaku pembelian pelanggan.
K-MEANS CLUSTERING
Setelah para ilmuwan data ditanya tentang sifat data, seperti perilaku pembelian masing-
masing kelompok pelanggan, mereka perlu mencari dataset yang konsisten untuk menjawab
pertanyaan-pertanyaan tersebut. Dataset yang awalnya diterima dikategorikan sebagai Data
Tidak Berlabel, yaitu data yang belum dikelompokkan atau didefinisikan namanya atau
maknanya. Oleh karena itu, dataset ini dapat dikelompokkan dan didefinisikan sesuai dengan
tujuan analisis data, seperti definisi pelanggan; apakah kelas menengah atau kelas atas.
Pengelompokan data dapat dilakukan dengan membawa 2 Objek Data; lebar baju dan
panjang baju; untuk membuat sebuah Titik Data; ukuran. Para ilmuwan data dapat
mengembangkan tampilan dalam format Scatter Plot untuk melihat perpotongan di titik data
yang dibuat dari 2 objek data, dan kemudian memberi warna pada setiap titik data sesuai dengan
cluster. Misalnya, titik data berwarna kuning mewakili ukuran medium, dan titik data berwarna
cokelat mewakili ukuran besar.
gambar 1. Data yang tidak diberi label dan data setelah pengelompokan
Untuk mengelompokkan data menggunakan algoritma K-Means, ilmuwan data dapat mengimpor
dataset kuantitatif ke dalam model K-Means, kemudian menentukan jumlah kluster, dan
melakukan analisis pengelompokan. Prosesnya adalah sebagai berikut:
54
1. Tentukan jumlah kluster menjadi k variabel. Misalnya, k = 2.
2. Model K-Means secara acak menempatkan 2 titik nol ke dalam dataset, dengan asumsi
bahwa pusat 1 adalah C0, dan pusat 2 adalah C1.
3. Model K-Means kemudian akan menghitung jarak dari setiap titik data ke pusat.
Misalnya, ia akan menghitung jarak antara pusat C0 dan titik data a, serta menghitung
jarak antara pusat C1 dan titik data a. Sementara itu, K-Means menghitung jarak antara
pusat C0 dan titik data b, serta menghitung jarak antara pusat C1 dan titik data b. Ketika
titik data a lebih dekat ke C0 daripada C1, maka titik data a akan dikelompokkan ke
dalam Kluster 0. Demikian pula, ketika jarak antara titik data b lebih dekat ke C1
daripada C0, maka titik data b akan dikelompokkan ke dalam Kluster 1.
4. Ketika titik data sudah dikelompokkan dalam bentuk kluster, K-Means kemudian akan
menghitung jarak rata-rata dari titik pusat setiap kluster ke semua titik data, dan
kemudian memindahkan posisi kedua pusat tersebut. Setelah itu, ia akan melakukan
perhitungan seperti pada langkah 3 dan membandingkan jarak rata-rata dari pusat ke titik
data setiap kluster dengan rata-rata perhitungan sebelumnya. Jika rata-rata bervariasi atau
lebih besar dari 0, proses pengelompokan belum selesai. Jadi, K-Means akan mengulang
proses ini berulang kali agar titik data berada pada posisi terdekat dengan pusat setiap
kluster. Jika rata-rata sama dengan putaran sebelumnya, atau sama dengan 0, proses
pengelompokan dianggap selesai, dan K-Means tidak akan lagi memindahkan titik pusat.
55
Jarak antara titik data dan pusat setiap kelompok dalam kluster K-Means dapat dihitung dengan
dua cara: Jarak Manhattan dan Jarak Euclidean.
1. Jarak Manhattan: Merupakan metode untuk menghitung jarak dalam data kuantitatif
dengan mengurangkan objek data dari setiap instansi, dan menjumlahkan hasil dari
semua objek data bersama-sama seperti yang ditunjukkan dalam contoh (Haviluddin et
al., 2020).
56
Dari contoh dataset, untuk menghitung jarak antara instansi yang bernama Jirapon
Sunkpho dan Sarawut Ramjan, objek data dari setiap instansi dapat dihitung sebagai
berikut:
Jarak antara kedua instansi adalah 39,06. Jika objek data bersifat literal, ilmuwan
data dapat mengganti data yang identik dengan angka 1, dan data yang berbeda dengan
angka 0 sebelum menghitung dengan metode Jarak Euclidean yang biasa. Ini disebut
Jarak Ukur Euclidean Campuran.
Terkait dengan segmentasi menggunakan K-Means, ilmuwan data diharuskan untuk
memperhatikan outlier, yang digunakan untuk menghitung jarak antara titik data dan
pusat. Oleh karena itu, ilmuwan data perlu mempersiapkan data (Pra-pemrosesan Data)
sebelum melakukan segmentasi.
Namun, ilmuwan data seharusnya mempertimbangkan sifat pengelompokan dalam
dataset sebelum menentukan jumlah kluster yang tepat. Misalnya, sebagian besar data
perilaku pembelian pelanggan dikelompokkan menjadi dua grup, di mana setiap grup
memiliki titik data dengan kepadatan tinggi. Jika ilmuwan data mendefinisikan tiga grup,
grup ketiga mungkin hanya berisi sejumlah kecil titik data yang tidak signifikan untuk
digunakan karena tidak mencerminkan hasil yang mendukung pengambilan keputusan.
HIRARKI
Pengelompokan Hierarkis adalah prinsip yang mendukung pengambilan keputusan
ilmuwan data (Rezaeijo, 2021; Zhou et al., 2021). Untuk menentukan jumlah kluster data,
terdapat 4 metode untuk menghitung jarak antara kluster data:
1. Menghitung jarak dari Titik Data di setiap grup yang paling dekat satu sama lain.
57
2. Menghitung jarak dari Titik Data di setiap grup dengan jarak terjauh.
3. Menghitung jarak dari jarak rata-rata setiap grup.
4. Menghitung jarak antara pusat setiap grup.
Algoritma Pengelompokan Aglomeratif adalah metode pengelompokan yang mendukung
Pengelompokan Hierarkis.
1. Bawa Objek Data dengan 2 atau lebih variabel untuk membuat Titik Data yang dapat
ditampilkan melalui Grafik Sebar (Scatter Plot) guna melihat lokasi Titik Data yang
dibuat, seperti jumlah pelanggan dan penjualan makanan. Setelah itu, pelanggan dapat
dikelompokkan.
2. Agglomerative (Bottom-Up): Dimulai dengan setiap data sebagai cluster terpisah dan
secara bertahap menggabungkan cluster yang paling mirip hingga semua data menjadi satu
cluster besar.
3. Divisive (Top-Down): Dimulai dengan satu cluster besar yang mencakup semua data,
kemudian membagi cluster tersebut menjadi sub-cluster yang lebih kecil.
Proses Agglomerative Clustering
1. Inisialisasi: Setiap data dianggap sebagai cluster individu.
2. Penghitungan Jarak: Hitung jarak antara setiap pasangan cluster menggunakan
metrik seperti Euclidean, Manhattan, atau lainnya.
3. Penggabungan Cluster: Temukan dua cluster terdekat dan gabungkan mereka
menjadi satu cluster baru.
4. Iterasi: Ulangi langkah 2 dan 3 hingga semua data tergabung dalam satu cluster atau
hingga jumlah cluster yang diinginkan tercapai.
Dendrogram
Hasil dari hierarchical clustering sering kali divisualisasikan dalam bentuk
dendrogram, yaitu diagram pohon yang menunjukkan bagaimana cluster terbentuk.
Tinggi dari cabang pada dendrogram menunjukkan jarak di mana penggabungan
cluster terjadi.
Kelebihan dan Kekurangan
Kelebihan:
Tidak memerlukan jumlah cluster yang ditentukan sebelumnya.
Memberikan informasi yang lebih detail melalui struktur hierarki.
58
Kekurangan:
Memiliki kompleksitas waktu yang lebih tinggi, sehingga kurang efisien untuk dataset
besar.
Sensitif terhadap noise dan outliers.
Hierarchical clustering sangat berguna dalam analisis eksploratif data, di mana
pemahaman struktur data adalah penting. Metode ini sering digunakan dalam berbagai
bidang, termasuk biologi, pemasaran, dan pengolahan citra.
APLIKASI CLUSTERING
1. Segmentasi Pasar
Clustering digunakan untuk mengelompokkan konsumen berdasarkan karakteristik
tertentu, seperti perilaku pembelian, preferensi, dan demografi. Dengan memahami segmen
pasar yang berbeda, perusahaan dapat menyesuaikan strategi pemasaran dan produk mereka
untuk memenuhi kebutuhan spesifik setiap kelompok.
2. Analisis Gambar
Dalam pengolahan citra, clustering digunakan untuk mengelompokkan piksel yang
memiliki warna atau intensitas yang serupa. Ini berguna dalam pengenalan pola, segmentasi
gambar, dan pengolahan video, di mana objek dalam gambar dapat dengan mudah
diidentifikasi dan dipisahkan.
3. Deteksi Anomali
Clustering dapat membantu dalam mendeteksi anomali atau data yang tidak biasa dalam
dataset. Dengan mengelompokkan data normal, titik data yang tidak termasuk dalam cluster
mana pun dapat diidentifikasi sebagai anomali, yang penting dalam keamanan siber dan
pemantauan sistem.
4. Pengelompokan Dokumen
Dalam pemrosesan bahasa alami, clustering digunakan untuk mengelompokkan dokumen atau
teks berdasarkan kemiripan konten. Ini berguna dalam sistem rekomendasi, pengarsipan
dokumen, dan pencarian informasi.
59
5. Biologi dan Genetika
Clustering sering digunakan dalam analisis data genetik untuk mengelompokkan gen atau
spesies berdasarkan pola ekspresi gen atau karakteristik genetik lainnya. Ini membantu dalam
penelitian evolusi, pengobatan, dan pemahaman penyakit.
6. Rekomendasi Sistem
Sistem rekomendasi dapat memanfaatkan clustering untuk mengelompokkan pengguna atau
item berdasarkan kesamaan, sehingga memungkinkan rekomendasi yang lebih tepat
berdasarkan preferensi pengguna.
Silhouette Score: Mengukur seberapa dekat objek dalam cluster dengan objek dalam
cluster lain. Nilai berkisar antara -1 hingga 1, di mana nilai yang lebih tinggi
menunjukkan clustering yang lebih baik.
Dunn Index: Menghitung rasio antara jarak terjauh antar cluster dengan jarak terdekat
dalam cluster. Semakin tinggi nilai Dunn Index, semakin baik pemisahan antar cluster.
Adjusted Rand Index (ARI): Mengukur kesamaan antara hasil clustering dengan label
ground truth yang diketahui. Nilai berkisar antara -1 hingga 1, dengan nilai 1
menunjukkan kesamaan sempurna.
60
Normalized Mutual Information (NMI): Mengukur seberapa banyak informasi yang
dibagikan antara dua partisi (hasil clustering dan ground truth). NMI juga berkisar antara
0 hingga 1.
3. Visualisasi
4. Stabilitas Clustering
Menguji stabilitas clustering dengan mengulangi proses clustering pada subset data yang
berbeda dan membandingkan hasilnya. Ketika hasil clustering konsisten, ini
menunjukkan bahwa metode clustering tersebut stabil.
5. Interpretabilitas
Memastikan bahwa setiap cluster dapat diinterpretasikan dengan baik dan memberikan
wawasan yang berguna. Pemahaman tentang karakteristik masing-masing cluster dapat
membantu dalam mengambil keputusan yang lebih baik.
Clustering adalah teknik analisis yang digunakan untuk mengelompokkan data berdasarkan
kesamaan tertentu. Proses ini memungkinkan data scientist untuk menemukan pola dalam data
tanpa perlu label atau kategori yang telah ditentukan sebelumnya. Berikut adalah langkah-
langkah implementasi clustering menggunakan RapidMiner:
1. Persiapan Data:
61
o Sebelum melakukan clustering, penting untuk melakukan praproses data. Ini
termasuk penghapusan data yang hilang, normalisasi, dan penghapusan outlier.
RapidMiner menyediakan alat untuk melakukan semua langkah ini dengan
mudah.
2. Memilih Algoritma Clustering:
o RapidMiner menawarkan berbagai algoritma clustering, seperti K-Means,
DBSCAN, dan Hierarchical Clustering. Pilihan algoritma tergantung pada
karakteristik data dan tujuan analisis.
3. Parameterisasi:
o Setelah memilih algoritma, pengguna harus mengatur parameter yang relevan,
seperti jumlah cluster untuk K-Means. Ini dapat dilakukan melalui antarmuka
pengguna RapidMiner yang intuitif.
4. Menjalankan Proses Clustering:
o Setelah semua pengaturan selesai, pengguna dapat menjalankan proses clustering.
RapidMiner akan melakukan analisis dan mengelompokkan data sesuai dengan
algoritma yang dipilih.
5. Evaluasi Hasil:
o Setelah proses clustering selesai, pengguna dapat mengevaluasi hasilnya.
RapidMiner menyediakan visualisasi, seperti scatter plot, untuk membantu
pengguna memahami bagaimana data dikelompokkan. Pengguna dapat
memeriksa distribusi cluster dan memvalidasi hasil dengan menggunakan metrik
evaluasi seperti silhouette score.
6. Interpretasi dan Tindak Lanjut:
o Hasil clustering perlu diinterpretasikan untuk mendapatkan wawasan yang
berguna. Data scientist harus menganalisis karakteristik masing-masing cluster
dan menentukan implikasi bisnis dari hasil tersebut.
KESIMPULAN
Clustering digunakan untuk mengklasifikasikan data kuantitatif dan diterapkan dalam
berbagai cara, seperti segmentasi pelanggan dan klasifikasi penyakit. Data scientist dapat
mengimpor data kuantitatif ke dalam perangkat lunak RapidMiner dan menggunakan teknik
62
penambangan data seperti K-Means Clustering atau DBSCAN untuk mengelompokkan data.
Dalam pengelompokan data yang baik, data dalam setiap kelompok harus terkelompok dengan
baik, tetapi setiap cluster harus terpisah dengan jelas satu sama lain. Di dalam perangkat lunak
RapidMiner, tersedia model bersama dengan penggunaan visualisasi data untuk menilai efisiensi
pengelompokan oleh para ahli dat
63
BAB VIII
ASSOCIATION RULE
ABSTRAK
Bisnis semakin mencari cara untuk memahami perilaku konsumen dan kebiasaan
pembelian guna menganalisis hubungan antara berbagai produk yang dibeli oleh pelanggan.
Dengan memanfaatkan teknik penambangan aturan asosiasi, bisnis dapat mengidentifikasi
produk yang saling melengkapi dan menggabungkannya untuk meningkatkan penjualan. Bab ini
memberikan gambaran tentang penambangan aturan asosiasi, suatu bentuk pembelajaran tanpa
pengawasan yang memungkinkan ilmuwan data untuk menganalisis hubungan antara item data
dalam sebuah dataset. Bab ini menjelaskan algoritma Apriori, salah satu fitur dari penambangan
aturan asosiasi, dan menyoroti bagaimana ilmuwan data dapat berkolaborasi dengan ahli domain
untuk mencapai tujuan bisnis seperti pencocokan produk dan menguji efisiensi hasil aturan
asosiasi. Pembaca dapat mengikuti panduan langkah-demi-langkah untuk mengalami teknik
penambangan aturan asosiasi menggunakan RapidMiner, yang memungkinkan mereka
mengembangkan pemahaman tentang alat analitis yang berharga ini.
PENDAHULUAN
Dalam sektor bisnis, ada kebutuhan untuk menjual beberapa produk sekaligus. Misalnya,
supermarket sering menawarkan beberapa produk kepada pelanggan mereka, seperti
menawarkan sabun bersama dengan sampo. Pencocokan produk semacam ini dilakukan dengan
menganalisis aturan asosiasi pada perilaku pembelian pelanggan, di mana pelanggan yang
membeli sabun sering juga membeli sampo. Oleh karena itu, aturan asosiasi digunakan untuk
memproses dataset besar untuk menganalisis aturan korelasi yang tersembunyi dalam data.
Teknik ini juga digunakan untuk menganalisis aturan korelasi yang dapat terjadi bersama;
misalnya, ketika mobil mengalami kerusakan, itu dapat menyebabkan kecelakaan saat
berkendara. Dalam memproses big data dengan aturan asosiasi, ilmuwan data mungkin diberikan
sejumlah aturan. Oleh karena itu, ilmuwan data perlu menganalisis manfaat dan efisiensi aturan
asosiasi dalam aplikasi praktis di industri. Teknik penambangan data tidak hanya digunakan
64
untuk menganalisis data bisnis, tetapi juga diterapkan di banyak industri seperti diagnosis medis,
penambangan web, dan bioinformatika.
Association Rule Mining adalah teknik yang digunakan untuk menganalisis hubungan
antara data dalam satu variabel atau beberapa variabel. Teknik ini sering digunakan dalam
konteks analisis pasar untuk menemukan pola dalam data transaksi. Sebagai contoh, pemasar
mungkin ingin mengetahui hashtag yang paling efektif untuk digunakan dalam mempromosikan
produk di media sosial. Dengan menggunakan teknik Association Rule Mining, data scientist
dapat menganalisis aturan asosiasi antara berbagai hashtag, yang memungkinkan mereka untuk
memahami hubungan antara hashtag yang digunakan dan kebutuhan pelanggan. Association
Rule Mining menghasilkan aturan yang menunjukkan bagaimana item yang berbeda
berhubungan satu sama lain. Misalnya, aturan dapat menunjukkan bahwa jika pelanggan
menggunakan hashtag tertentu, mereka kemungkinan besar juga akan tertarik pada produk terkait
lainnya.
65
untuk menempatkan kedua produk tersebut berdekatan di toko atau menawarkan diskon untuk
pembelian gabungan. Dengan demikian, penerapan teknik Association Rule Mining dapat
meningkatkan efektivitas strategi pemasaran, memperbaiki pengalaman pelanggan, serta
mengoptimalkan penjualan dan profitabilitas.
66
IMPLIKASI BISNIS
Dengan menganalisis pola pembelian, perusahaan dapat mengidentifikasi produk yang
sering dibeli bersamaan. Misalnya, jika data menunjukkan bahwa pelanggan yang membeli roti
juga cenderung membeli selai, bisnis dapat menawarkan paket produk yang menggabungkan
keduanya, sehingga meningkatkan peluang penjualan. Selain itu, teknik ini memungkinkan
pemasaran yang lebih efektif. Perusahaan dapat mengembangkan kampanye yang lebih terarah
dengan memahami asosiasi antara produk. Jika analisis menunjukkan bahwa pelanggan yang
membeli produk A juga membeli produk B, perusahaan dapat menargetkan iklan produk B
kepada pelanggan yang telah membeli produk A, sehingga meningkatkan kemungkinan konversi.
Pengelolaan stok juga dapat dioptimalkan menggunakan wawasan dari analisis asosiasi.
Dengan mengetahui produk mana yang sering dibeli bersama, perusahaan dapat memastikan
ketersediaan kedua produk tersebut di rak, sehingga memenuhi permintaan pelanggan dan
mengurangi risiko kehabisan stok. Di sisi lain, data dari analisis ini bisa digunakan untuk inovasi
produk baru. Wawasan tentang preferensi pelanggan dapat membantu perusahaan
mengembangkan produk yang sesuai dengan kebutuhan pasar, sehingga meningkatkan daya
saing.
Terakhir, teknik ini juga berkontribusi pada peningkatan pengalaman pelanggan. Dengan
memberikan rekomendasi yang lebih relevan berdasarkan pola pembelian, perusahaan dapat
menciptakan pengalaman berbelanja yang lebih personal dan meningkatkan loyalitas pelanggan.
Secara keseluruhan, Association Rule Mining memberikan wawasan yang berharga bagi
perusahaan untuk meningkatkan strategi pemasaran, pengelolaan inventaris, dan pengembangan
produk, serta untuk memahami perilaku pelanggan dengan lebih baik.
KESIMPULAN
Association Rule Mining bertujuan untuk mengidentifikasi pola atau hubungan signifikan
antar item. Contohnya, analisis pembelian barang di ritel dapat mengungkapkan produk yang
sering dibeli bersamaan. Dalam chapter ini, penulis menjelaskan langkah-langkah analisis,
termasuk penggunaan metrik seperti support, confidence, dan lift untuk menilai kekuatan
hubungan antar item. Teknik ini banyak diterapkan dalam pemasaran, terutama dalam
rekomendasi produk di e-commerce, di mana analisis data pelanggan membantu memberikan
67
saran yang sesuai berdasarkan pola pembelian sebelumnya. Namun, tantangan yang dihadapi
termasuk pengelolaan data yang besar dan kompleks, serta penentuan parameter yang tepat untuk
menghasilkan aturan yang relevan. Secara keseluruhan, Association Rule Mining adalah alat
yang kuat dalam data mining yang dapat memberikan wawasan berharga bagi bisnis dalam
mengembangkan strategi pemasaran dan produk yang lebih efektif.
68
BAB IX
SISTEM REKOMENDASI
ABSTRAK
Sistem rekomendasi adalah alat penting yang digunakan oleh departemen pemasaran untuk
memberikan rekomendasi produk kepada pelanggan. Ilmuwan data juga menggunakan analisis
sistem rekomendasi untuk menilai efektivitas saran produk dan layanan. Ada dua jenis sistem
rekomendasi: berbasis konten dan pemfilteran kolaboratif. Rekomendasi berbasis konten
didasarkan pada riwayat pembelian pelanggan, sementara pemfilteran kolaboratif menyarankan
produk berdasarkan perilaku pembelian. Pemfilteran kolaboratif dapat dibagi menjadi
pemfilteran berbasis konten, yang menyarankan produk berdasarkan perilaku pembelian yang
mirip, dan pemfilteran berbasis item, yang menyarankan produk berdasarkan atributnya.
Pemfilteran kolaboratif berbasis pengguna dan berbasis item serta metode probabilistik
digunakan untuk menganalisis data dan memberikan saran produk. Bisnis mengandalkan sistem
rekomendasi untuk mencapai berbagai tujuan, seperti retensi pelanggan dan peningkatan ROI.
RapidMiner dapat menganalisis data mengikuti prinsip-prinsip sistem rekomendasi, seperti yang
ditunjukkan dalam bab ini, langkah demi langkah.
PENDAHULUAN
Banyak organisasi memiliki kumpulan data yang dapat digunakan untuk mendukung
pengambilan keputusan dalam hal seperti data pemasaran. Data tersebut kemudian digunakan
untuk membuat sistem rekomendasi. Misalnya, ketika seorang pelanggan masuk ke toko buku
online, sistem rekomendasi akan menawarkan buku-buku yang mirip dengan yang sebelumnya
dipesan oleh pelanggan tersebut. Ini bertujuan untuk meningkatkan kemungkinan pelanggan
melakukan pembelian. Sistem rekomendasi dapat meningkatkan penjualan secara signifikan
untuk toko online. Sistem ini banyak digunakan di berbagai industri, seperti pariwisata dan
perhotelan, di mana sistem memberikan saran tentang akomodasi dan atraksi sesuai dengan
selera pelanggan.
69
JENIS-JENIS SISTEM REKOMENDASI
Sistem ini menganalisis atribut dari item yang telah dinilai oleh pengguna untuk
merekomendasikan item serupa. Misalnya, jika seorang pengguna menyukai film tertentu,
sistem akan merekomendasikan film lain yang memiliki genre, sutradara, atau aktor yang
sama. Pengguna mendapatkan rekomendasi yang relevan berdasarkan preferensi pribadi
mereka.
Metode ini berfokus pada interaksi pengguna dengan item dan mengidentifikasi pola
berdasarkan perilaku pengguna lain. Sistem ini dapat dibagi menjadi dua jenis:
o User-Based: Mencari pengguna lain yang memiliki pola rating serupa dan
merekomendasikan item yang mereka sukai.
o Item-Based: Menganalisis item yang mirip dan merekomendasikan item yang
sering dinilai tinggi oleh pengguna yang sama.
Dapat memberikan rekomendasi yang lebih luas karena tidak bergantung pada atribut item.
70
o Collaborative Filtering: Mengandalkan interaksi pengguna untuk
merekomendasikan item berdasarkan preferensi pengguna lain yang serupa.
o Content-Based Filtering: Menggunakan fitur item untuk merekomendasikan
item yang mirip dengan yang telah disukai pengguna sebelumnya.
o Hybrid Methods: Menggabungkan kedua metode di atas untuk meningkatkan
akurasi rekomendasi.
Modeling:
Membangun model rekomendasi menggunakan teknik yang sesuai, seperti algoritma
pembelajaran mesin. RapidMiner menyediakan berbagai alat untuk membantu dalam
proses ini.
Evaluasi Model:
Setelah model dibangun, penting untuk mengevaluasi kinerjanya. Ini bisa dilakukan
dengan menggunakan metrik seperti akurasi, presisi, recall, dan F1-score. Cross-
validation juga dapat digunakan untuk memastikan model tidak overfitting.
Implementasi dan Penyebaran:
Setelah model dievaluasi dan disempurnakan, sistem rekomendasi dapat
diimplementasikan dalam aplikasi nyata, seperti platform e-commerce atau layanan
streaming.
Monitoring dan Pemeliharaan:
Setelah sistem direalisasikan, penting untuk terus memonitor kinerjanya dan
memperbarui model berdasarkan umpan balik pengguna dan data baru yang masuk.
71
o Content-Based Filtering: Menggunakan fitur dari item untuk merekomendasikan
item serupa. Misalnya, jika seorang pengguna menyukai film tertentu, sistem akan
merekomendasikan film lain dengan genre atau aktor yang sama.
3. Proses Implementasi di RapidMiner:
o Persiapan Data: Mengimpor dataset yang berisi informasi tentang pengguna,
item, dan interaksi mereka (seperti rating atau pembelian).
o Preprocessing: Membersihkan dan memformat data agar siap digunakan. Ini
termasuk menghapus duplikasi, menangani nilai yang hilang, dan mengubah
format data jika diperlukan.
o Modeling: Memilih dan menerapkan algoritma rekomendasi yang sesuai.
RapidMiner menyediakan berbagai operator untuk menerapkan teknik seperti
collaborative filtering, content-based filtering, dan hybrid approaches.
o Evaluasi Model: Menggunakan metrik seperti precision, recall, dan F1-score
untuk mengukur efektivitas sistem rekomendasi. RapidMiner memungkinkan
pengguna untuk melakukan cross-validation untuk mendapatkan hasil yang lebih
akurat.
o Deployment: Mengimplementasikan model yang telah dilatih ke dalam sistem
untuk digunakan secara nyata. Ini bisa melibatkan integrasi dengan aplikasi web
atau sistem lain.
4. Studi Kasus:
o Buku ini juga mencakup studi kasus yang menunjukkan bagaimana teknik ini
diterapkan dalam konteks nyata, termasuk analisis hasil dan perbaikan yang dapat
dilakukan untuk meningkatkan akurasi rekomendasi.
KESIMPULAN
Dalam chapter ini, dijelaskan berbagai teknik yang digunakan dalam sistem rekomendasi,
termasuk Collaborative Filtering dan Content-Based Filtering. Teknik-teknik ini menganalisis
data pengguna untuk mengidentifikasi pola dan hubungan, sehingga dapat menghasilkan
rekomendasi yang lebih akurat. RapidMiner sebagai alat analisis data juga diperkenalkan dalam
konteks pembangunan sistem rekomendasi. Penulis menjelaskan langkah-langkah yang
diperlukan untuk mengolah data dan menerapkan algoritma yang tepat dalam RapidMiner. Selain
72
itu, terdapat contoh studi kasus yang menunjukkan penerapan sistem rekomendasi dalam industri
nyata, yang menunjukkan dampaknya terhadap kepuasan pelanggan dan peningkatan penjualan.
Namun, chapter ini juga menyentuh tantangan yang dihadapi dalam pengembangan sistem
rekomendasi, seperti masalah privasi dan kebutuhan untuk memperbarui model secara berkala
dengan data terbaru. Secara keseluruhan, sistem rekomendasi dianggap sebagai elemen krusial
dalam analisis data modern, dan pemahaman mendalam tentang teknik ini sangat penting bagi
para ilmuwan data dan profesional di berbagai sektor.
73
BAB X
STUDI KASUS TENTANG PENGGUNAAN TEKNIK DATA
MINING DALAM ILMU DATA
ABSTRAK
Bab ini menyajikan penelitian ilmu data yang dilakukan oleh penulis Sarawut Ramjan dan
Jirapon Sunkpho, yang menunjukkan penggunaan RapidMiner untuk mengumpulkan data dari
media sosial. Penelitian tersebut mencakup analisis kepuasan pelanggan untuk aplikasi mobile,
memprediksi harga kondominium di Bangkok, dan menemukan pola permintaan dan penawaran
berdasarkan data media sosial Thailand menggunakan pendekatan penambangan aturan asosiasi.
Selain itu, bab ini juga membahas topik lain seperti klasifikasi tingkat keparahan korosi di bawah
isolasi untuk baja karbon di lingkungan laut dan variabel yang mempengaruhi keselamatan
berkendara pilot. Bab ini bermanfaat bagi pembaca yang tidak memiliki pengalaman di bidang
ilmu data serta bagi perusahaan yang tertarik menggunakan teknik data mining. Penelitian ini
menekankan bahwa keterampilan aplikasi perangkat lunak bukan satu-satunya faktor penting,
tetapi juga pemahaman tentang proses ilmu data, seperti eksplorasi data, pra-pemrosesan data,
penambangan data, dan presentasi data, yang merupakan keterampilan yang esensial dan
berguna.
PENDAHULUAN
Buku ini telah menyebutkan teknik data mining baik dalam konteks Pembelajaran Terawasi
(Supervised Learning) maupun Pembelajaran Tak Terawasi (Unsupervised Learning) dengan
menggunakan RapidMiner sebagai alat analisis data. Beberapa studi kasus dari penelitian penulis
disajikan sebagai contoh untuk menganalisis data nyata. Studi kasus ini tidak hanya merupakan
penerapan teknik data mining untuk memproses data, tetapi juga mencakup proses lain dalam
pekerjaan ilmu data.
74
2. Memprediksi harga kondominium di Bangkok menggunakan teknik penambangan web, yang
diterbitkan di jurnal “Srinakharinwirot Research and Development”.
3. Pendekatan Penambangan Aturan Asosiasi untuk Mengungkap Pola Permintaan dan
Penawaran Berdasarkan Data Media Sosial Thailand, yang diterbitkan dalam International
Journal of Knowledge and Systems Science.
4. Klasifikasi Tingkat Keparahan Korosi di Bawah Isolasi untuk Baja Karbon di Lingkungan
Laut, yang merupakan bagian dari Studi Independen Program Ilmu Data di mana penulis
adalah pembimbing.
5. Variabel yang Mempengaruhi Keselamatan Berkendara Pilot, yang juga merupakan bagian
dari Studi Independen Program Ilmu Data di mana penulis adalah pembimbing.
Dalam proses Pemahaman Bisnis, kuncinya adalah bahwa perusahaan energi telah
mempertanyakan variabel yang memengaruhi kepuasan dan ketidakpuasan pelanggan sehingga
BUMN dapat mengembangkan fitur. Oleh karena itu, peneliti telah merumuskan masalah untuk
analisis data, yaitu Klasifikasi data yang harus digunakan untuk memprediksi kepuasan
pelanggan.
75
Pemahaman Data
Setelah itu, peneliti memasuki proses Pemahaman Data. Dataset yang mengumpulkan
kepuasan pelanggan terhadap aplikasi mobile diimpor ke dalam perangkat lunak RapidMiner
untuk melakukan survei. Data yang dikumpulkan mencakup tingkat kepuasan, jenis kelamin,
usia, pendidikan, jumlah penggunaan aplikasi mobile per tahun, penggunaan aplikasi mobile per
bulan, keandalan, dan penggunaan aplikasi mobile dalam situasi darurat. Dari data survei,
ditemukan bahwa 81% pelanggan merasa puas menggunakan aplikasi mobile dengan tingkat
kepuasan 4 - 5 pada Skala Likert, dan 19% pelanggan menunjukkan tingkat kepuasan 3 atau
lebih rendah.
76
4. Persiapan Data
Data yang Hilang dalam Data Demografis diisi menggunakan teknik Impute Missing
Value dalam perangkat lunak RapidMiner. Sisa data dalam atribut digunakan untuk
mengisi data kosong dengan data yang serupa. Tujuan dari analisis data adalah untuk
mencari variabel yang menyebabkan kepuasan dan ketidakpuasan pelanggan. Peneliti
merevisi data Skala Likert menjadi kelas biner dengan hanya dua nilai. Perubahan
dilakukan pada format data. Untuk data kepuasan pada skala 4 - 5, diubah menjadi
"puas," dan tingkat kepuasan dari 3 dan lebih rendah diubah menjadi "tidak puas."
5. Pemodelan
Peneliti menggunakan 3 teknik data mining untuk menganalisis data: Naïve Bayes,
Decision Tree, dan Regresi Logistik, dan membagi data menjadi 2 bagian sesuai dengan
prinsip Supervised Learning. 80 persen digunakan untuk melatih machine learning dan 20
persen untuk pengujian performa model. Peneliti kemudian membuat model dengan
ketiga teknik data mining tersebut. Dataset diimpor ke dalam model. Saat menguji
akurasi analisis, tingkat akurasi Naïve Bayes, Decision Tree, dan Regresi Logistik
masing-masing adalah 92,76%, 91,03%, dan 92,41%.
6. Evaluasi
Analisis data menunjukkan bahwa Naïve Bayes sedikit lebih akurat dibandingkan
Decision Tree dan Regresi Logistik. Namun, ketika mempertimbangkan Precision dan
Recall, Decision Tree adalah yang paling akurat. Oleh karena itu, peneliti memilih untuk
mempertimbangkan hasil analisis data Decision Tree, dan mengungkapkan bahwa
variabel yang paling penting yang menyebabkan kepuasan dan ketidakpuasan pelanggan
adalah Kemudahan Penggunaan Aplikasi Mobile dan Fitur Pembayaran.
7. Penerapan
Setelah menganalisis data, peneliti menyarankan perusahaan energi untuk
mengembangkan versi baru dari aplikasi mobile, yang harus mencakup perbaikan dalam
kemudahan penggunaan dan fitur pembayaran untuk meningkatkan kepuasan pelanggan
dan mengurangi ketidakpuasan. Setelah perusahaan mengembangkan versi baru dari
Aplikasi Mobile dan digunakan oleh pelanggan di daerah metropolitan, peneliti akan
mengumpulkan data dan menganalisis hasilnya dengan cara yang sama untuk menguji
performa versi baru dari Aplikasi Mobile tersebut.
77
KESIMPULAN
Bab 10 dari dokumen ini berfokus pada studi kasus yang menggambarkan penerapan teknik
penambangan data dalam ilmu data. Bab ini menekankan bagaimana berbagai industri telah
berhasil memanfaatkan penambangan data untuk mendapatkan wawasan dari dataset besar,
sehingga meningkatkan proses pengambilan keputusan. Contoh-contoh praktis ditunjukkan,
menampilkan efektivitas teknik seperti klasifikasi, pengelompokan, dan penambangan aturan
asosiasi dalam skenario dunia nyata.Dengan menganalisis kasus-kasus tertentu, para penulis
menunjukkan potensi transformasional dari penambangan data, menggambarkan bagaimana
organisasi dapat meningkatkan efisiensi operasional dan kepuasan pelanggan. Wawasan yang
diperoleh dari studi kasus ini menjadi panduan berharga bagi calon ilmuwan data, memberikan
mereka pemahaman yang lebih jelas tentang cara menerapkan teknik penambangan data dalam
konteks mereka sendiri. Secara keseluruhan, bab ini menekankan pentingnya penambangan data
sebagai alat krusial untuk menangani masalah kompleks dan mendorong inovasi di berbagai
sektor.
78
79
BAB XI
DATA MINING UNTUK JUNIOR DATA SCIENTISTS:
PEMROGRAMAN PYTHON DASAR
ABSTRAK
Ketersediaan alat siap pakai untuk data mining telah mempermudah pemrosesan data.
Namun, dalam banyak kasus, paket perangkat lunak tersebut tidak cukup fleksibel untuk
memungkinkan perbaikan algoritmik. Oleh karena itu, para ilmuwan data perlu menulis program
komputer untuk menyesuaikan metode pemrosesan sejalan dengan paket perangkat lunak. Bab
ini memperkenalkan Python, sebuah bahasa pemrograman yang menyediakan pustaka yang
mendukung pekerjaan data science. Kontennya mencakup sintaks pemrograman Python, seperti
variabel, pemrograman terstruktur, pemrograman pengambilan keputusan, pemrograman
rekursif, penanganan struktur data, dan penanganan file. Selain itu, bab ini memperkenalkan
Google Colab sebagai alat untuk eksperimen pemrograman. Ini memberikan dasar yang krusial
bagi mahasiswa data science yang akan memproses data menggunakan teknik data mining di bab
berikutnya dengan pemrograman Python. Meskipun para ilmuwan data tidak perlu memiliki
pemahaman mendalam tentang pemrograman komputer, mempelajari bahasa komputer itu
penting, dan bab ini ditujukan untuk pemula.
PENDAHULUAN
Sejumlah industri saat ini fokus pada data science karena mereka menyadari nilai data
untuk mendukung pengambilan keputusan. Baik itu di industri medis, industri otomotif, atau
komunitas ilmiah, ilmuwan data telah menjadi posisi yang banyak dicari oleh banyak organisasi.
Seorang ilmuwan data dapat dibentuk dari ahli pengetahuan yang ada di dalam organisasi itu
sendiri atau diambil dari luar. Bagaimanapun, setiap organisasi menganalisis data berdasarkan
prinsip bertanya, mencari sumber daya, mengeksplorasi data dan pra-pemrosesan, menganalisis
data menggunakan teknik data mining, dan menyajikan hasilnya kepada penanya. Saat ini, ada
banyak alat untuk mengeksplorasi dan mempersiapkan data, serta mesin untuk menggunakan
teknik data mining untuk menganalisis data. Salah satu alat ini adalah Python, yang menyediakan
pustaka perintah untuk mengembangkan visualisasi data, mengeksplorasi dan mempersiapkan
data, serta menganalisis data dengan teknik data mining. Selain itu, ilmuwan data dapat
memproses data dengan algoritma Python tanpa membatasi ukuran data. Python sendiri dianggap
80
sebagai sumber terbuka yang memungkinkan organisasi untuk menganalisis data dengan teknik
data mining, yang mengurangi biaya sumber daya digital. Oleh karena itu, Python adalah alat
yang berguna bagi pemula dalam data science
81
PENERAPAN ALGORITMA DATA MINING
Dasar Pemrograman Python:
Kumpulan Pustaka:
Contoh Kasus:
Diberikan contoh kasus di mana algoritma digunakan untuk menganalisis data riwayat
pelanggan atau data penjualan. Ini mencakup langkah-langkah mulai dari pengumpulan
data, pemrosesan, hingga penerapan algoritma yang sesuai.
Evaluasi Model:
Chapter juga membahas pentingnya evaluasi model setelah penerapan. Metode evaluasi
seperti cross-validation dan penggunaan metrik seperti akurasi, presisi, dan recall
dijelaskan untuk menilai kinerja model.
82
Praktik Langsung:
KESIMPULAN
Dalam chapter ini, penulis menjelaskan pentingnya bahasa pemrograman Python sebagai alat
yang kuat untuk data science, terutama bagi pemula yang ingin memahami konsep-konsep dasar
data mining. Penulis memulai dengan membahas berbagai pustaka Python yang relevan, seperti
Pandas untuk manipulasi data, NumPy untuk komputasi numerik, dan Matplotlib serta Seaborn
untuk visualisasi data. Dengan menggunakan pustaka ini, pembaca diajak untuk melakukan
eksplorasi data, membersihkan dataset, dan melakukan analisis awal.
Selanjutnya, chapter ini menjelaskan bagaimana menerapkan teknik data mining dasar, seperti
klasifikasi dan clustering, menggunakan algoritma yang tersedia di pustaka seperti Scikit-learn.
Penulis memberikan contoh konkret untuk membantu pembaca memahami cara kerja algoritma
tersebut, serta bagaimana menginterpretasikan hasil yang diperoleh. Selain itu, penulis menyoroti
pentingnya pemahaman terhadap statistik dasar dan bagaimana hal tersebut dapat diterapkan
dalam pemrograman Python untuk analisis data. Pembaca juga diajak untuk mengikuti praktik
terbaik dalam penulisan kode, termasuk pengorganisasian proyek dan dokumentasi, yang akan
sangat berguna ketika bekerja dalam tim atau menyampaikan hasil analisis.
Di akhir chapter, penulis menekankan bahwa penguasaan Python tidak hanya akan
mempermudah dalam melakukan analisis data, tetapi juga membuka peluang karir yang lebih
luas dalam bidang data science. Dengan pemahaman yang kuat tentang dasar-dasar
pemrograman dan penerapan teknik data mining, junior data scientists dapat lebih percaya diri
dalam menghadapi tantangan di dunia nyata. Secara keseluruhan, chapter ini berfungsi sebagai
jembatan bagi para pemula untuk masuk ke dalam dunia data science, memberikan mereka alat
dan pengetahuan yang diperlukan untuk memulai perjalanan mereka dalam analisis data.
83
BAB XII
DATA MINING UNTUK JUNIOR DATA SCIENTISTS: ANALISIS
DATA DENGAN PYTHON
ABSTRAK
Penting bagi junior data scientists untuk mempelajari pemrograman komputer karena paket
perangkat lunak data science mungkin tidak selalu memenuhi kebutuhan analisis data. Python
menawarkan berbagai pustaka algoritma untuk analisis data, termasuk NumPy, Pandas,
Matplotlib, Seaborn, dan Scikit-learn. NumPy dan Pandas membantu dalam mengorganisir
dataset sebagai bagian dari tahap pra-pemrosesan, sementara Matplotlib dan Seaborn
menyediakan berbagai perintah visualisasi data. Alat visualisasi ini sangat penting dalam proses
eksplorasi data, seperti membuat histogram dan diagram sebar, serta menampilkan hasil data
mining seperti hasil analisis kluster. Scikit-learn adalah pustaka yang populer di industri data
science yang menawarkan berbagai perintah data mining untuk regresi, konstruksi keputusan,
dan analisis kluster, mencakup baik pembelajaran terawasi maupun tidak terawasi. Oleh karena
itu, junior data scientists harus mempelajari pemrograman Python untuk aplikasi data science,
terutama saat menggunakan paket perangkat lunak yang memerlukan pengeditan model dengan
perintah Python.
PENDAHULUAN
Saat ini, terdapat berbagai alat yang digunakan untuk menganalisis data selama alur kerja,
termasuk alat ekstraksi data, alat survei data, alat persiapan data, alat analisis data dengan teknik
data mining, dan alat visualisasi data. Setiap langkah memiliki perangkat lunak yang siap
digunakan, baik dalam bentuk perangkat lunak instan maupun perangkat lunak pemrograman.
Python adalah alat yang mendukung seluruh alur kerja karena dapat digunakan untuk tujuan
analisis data; memanipulasi dataset, mengimpor rutinitas, mengembangkan visualisasi data, dan
analisis data dengan teknik data mining menggunakan Pustaka.
NumPy Library
NumPy Library menyediakan serangkaian perintah yang dapat dijalankan oleh ilmuwan data
untuk memanipulasi dataset yang diimpor dan kemudian memprosesnya dalam rangkaian
84
perintah Python. Perpustakaan ini fokus pada pengumpulan data ke dalam format yang siap
untuk diproses dengan teknik data mining:
Array
Python mendukung penyimpanan data dalam array, yang tersusun dalam baris dan kolom.
Variabel array dapat menyimpan data dari satu hingga beberapa dimensi. Strukturnya adalah
sebagai berikut:
Oleh karena itu, ketika memanipulasi dataset yang memerlukan variabel array untuk menyimpan
data, ilmuwan data dapat menjalankan perintah dari perpustakaan NumPy dengan sintaks sebagai
berikut:
85
import numpy as np # variabel yang menjalankan rangkaian perintah
Dari sintaks tersebut, ilmuwan data dapat memanggil perintah .array dari perpustakaan NumPy
untuk membuat variabel array, yang dapat diprogram seperti dalam contoh.
Dalam gambar, ilmuwan data memanggil perintah .array dari perpustakaan NumPy di mana
variabel mm menjalankan perintah untuk menghasilkan data array 5, 6, dan 7, masing-masing.
Kemudian data tersebut dimasukkan ke dalam variabel a dan ditampilkan melalui perintah print.
Ketika ilmuwan data berniat menyimpan data sebagai array 2 dimensi, mereka juga dapat
menggunakan perintah .array dari perpustakaan NumPy. Sintaksnya adalah sebagai berikut:
Dari sintaks tersebut, ilmuwan data dapat menambahkan data kedua. Dalam Python, data di
dalam tanda kurung dihitung sebagai 1 baris.
86
Dalam perpustakaan NumPy, terdapat juga serangkaian perintah .arange yang dapat digunakan
oleh ilmuwan data untuk membuat deretan angka, yaitu variabel array, untuk penggunaan
lainnya. Sintaksnya adalah sebagai berikut:
Perintah .reshape
Setelah ilmuwan data membuat dataset array dengan perintah .arange, mereka dapat
menyusun data ke dalam ukuran baris dan kolom yang ditentukan dengan menggunakan perintah
.reshape dari perpustakaan NumPy, seperti dalam sintaks berikut:
Setelah membuat dataset dengan perintah .arange, ilmuwan data dapat menyesuaikan data ke
dalam format baris dan kolom yang ditentukan menggunakan perintah .reshape.
Perintah .linspace
Tidak hanya pernyataan .arange yang dapat digunakan untuk membuat array dataset,
perintah .linspace dari perpustakaan NumPy juga dapat digunakan untuk membuat dataset
periodik.
87
Dari sintaks tersebut, ilmuwan data memanggil perintah .linspace, menentukan angka awal
dan angka akhir dari dataset yang dibuat, serta menentukan frekuensi jumlah data yang akan
dihasilkan dalam rentang data.
Kesimpulan
Ketika ilmuwan data mulai mempelajari Python untuk analisis big data, mereka pertama-tama
perlu menyadari bahwa Python menyediakan sejumlah perpustakaan yang dapat digunakan untuk
mendukung analisis data, termasuk Pandas, NumPy, SciPy, dan Scikit-Learn. Selain mempelajari
perintah dan metode pemrograman, pengetahuan tentang data mining juga merupakan hal yang
perlu dieksplorasi oleh ilmuwan data agar dapat memilih teknik data mining yang tepat untuk
masalah yang diberikan. Python juga mendukung eksplorasi data melalui visualisasi dan
persiapan data. Python adalah alat yang mendukung proses ilmu data dan analitik big data karena
mengurangi penggunaan sumber daya digital. Selain itu, buku ini juga menggunakan alat Google
Colab di mana ilmuwan data dapat menulis dan menguji perintah Python melalui Web Browser
tanpa perlu menginstal Editor Perangkat Lunak dan Interpreter untuk perpustakaan di komputer
mereka.
88