Tugas Data Warehouse Dan Data Mining
Tugas Data Warehouse Dan Data Mining
DI SUSUN OLEH :
SAEFUL HIKAYAT
KELAS D1/D3 TKJ
SEMESTER 2
POLITEKNIK SUKABUMI
Jalan Babakan Sirna No. 25 Kota Sukabumi
MENGENAL
DATA WAREHOUSE DAN DATA MINING
A. DATA MINING
1. PENDAHULUAN
Data mining dikenal di dunia sains dan matematis namun juga digunakan secara
lebih luas oleh para pemasar untuk merangkum data konsumen dari beragam
Web site.
Data mining muncul setelah banyak dari pemilik data baik perorangan maupun
organisasi mengalami penumpukan data yang telah terkumpul selama beberapa
tahun, misalnya data pembelian, data penjualan, data nasabah, data transaksi,
email dan sebagainya. Kemudian muncul pertanyaan dari pemilik data tersebut,
apa yang harus dilakukan terhadap tumpukan data tersebut.
Misalnya, perangkat lunak data mining bisa membantu perusahaan ritel untuk
menemukan pelanggan yang memiliki ketertarikan tertentu. Istilah ini umumnya
dipersempit artinya yaitu hanya untuk menggambarkan perangkat lunak yang
merepresentasikan data dengan cara-cara yang baru. Namun sebenarnya
perangkat lunak data mining tidak hanya berfungsi mengubah presentasi tersebut,
melainkan juga menemukan relasi tak dikenal antar-data.
2. KEBUTUHAN BISNIS
Dalam dunia bisnis yang selalu dinamis dan penuh persaingan, para pelakunya
harus senantiasa memikirkan cara-cara untuk terus survive dan jika mungkin
mengembangkan skala bisnis mereka. Untuk mencapai hal itu, dapat diringkaskan
tiga kebutuhan bisnis, yaitu:
Pencarian solusi dari masalah-masalah ini akan berkaitan dengan penemuan dan
pemanfaatan dari berbagai jenis pola-pola yang tersembunyi dari gudang datayang
kemungkinan sudah dimiliki oleh perusahaan. Penjelasan lebih lanjut dari
masalah-masalah di atas dan konsep dasar yang dipikirkan oleh para pelaku dan
penganalisis bisnis sebagai solusinya diberikan di bawah ini :
a. Perumusan target.
Para ahli pemasaran menggunakan teknik-teknik tertentu untuk memilih
orang-orang yang menjadi target pemasaran untuk disuguhi advertensi
tertentu. Tujuannya antar lain adalah untuk meningkatkan profit perusahaan,
pengenalan produk secara luas, atau hasil-hasil terukur lainnya.
b. Personalisasi.
Para ahli pemasaran memanfaatkan personalisasi untuk memilih advertensi
yang paling sesuai untuk (atau memberikan rekomendasi tertentu kepada)
orang tertentu. Personalisasi dapat dipandang sebagai kontradiksi dari
“perumusan target”. Pada perumusan target, yang disasar adalah sebanyak
mungkin orang yang memiliki potensi untuk membeli produkproduk tertentu,
sedangkan pada personalisasi, tujuannya adalah agar kustomer yang sudah
menjadi pelanggan membeli sebanyak mungkin produkproduk yang dijual
oleh perusahaan.
d. Manajemen pengetahuan.
Sistem ini mengidentifikasi dan memanfaatkan pola-pola di dalam dokumen
yang berbahasa alami, atau berformat text. Di sini didefinisikan asosiasi antara
kata-kata dan konteksnya dalam konsep tingkat-atas. Hal ini dapat dilakukan
dengan “melatih” sistem dengan dokumen-dokumen yang sudah ditandai
dengan konsep-konsep yang relevan. Sistem kemudian membangun sebuah
pencocok pola untuk tiap konsep. Ketika dihadapkan pada dokumen baru,
pencocok pola akan memutuskan tingkat relevansi dari dokumen ini terhadap
konsep. Pendekatan ini dapat digunakan untuk menyortir dokumen-dokumen
baru yang masuk ke dalam kategori-kategori yang sudah ada. Juga dapat
digunakan untuk mempersonalisasi publikasi online. Selain itu, dapat juga
dimanfaatkan untuk menciptakan atau membangkitkan dokumen jawaban-
jawaban secara otomatis terhadap pertanyaan-pertanyaan yang masuk.
e. Pengelompokan (Clustering).
Pengelompokan mengidentifikasi orang-orang yang memiliki kesamaan
karakteristik tertentu, dan kemudian menggunakan karakteristik tersebut
sebagai “vektor karakteristik” atau “centroid”. Pengelompokan ini digunakan
oleh perusahaan untuk membuat laporan mengenai karakteristik umum dari
grup-grup pengunjung (kustomer) yang berbeda.
f. Estimasi dan Prediksi.
Estimasi menerka sebuah nilai yang belum diketahui, misalnya penghasilan
seseorang, ketika informasi lain mengenai orang tersebut diketahui. Prediksi
memperkirakan nilai untuk masa mendatang, misalnya probabilitas orang
untuk membeli sebuah mobil baru tahun depan, ketika orang itu belum
melakukannya. Atau nilai saham yang akan dibeli tahun depan.
g. Pohon keputusan.
Pohon keputusan ini dapat dipandang sebagai diagram alir dari titik-titik
pertanyaan yang menuju pada sebuah keputusan. Pohon keputusan ini
diterapkan pada sistem pemilihan produk-produk yang dijual perusahaan.
Ketersediaan teknologi informasi dalam skala yang terjangkau: Saat ini teknologi
informasi berbasis sistem yang terbuka sudah dapat diadopsi secara luas. Ini
termasuk sistem manajemen basis data, kakas penganalisis, dan yang terkini
adalah pertukaran informasi dan publikasi melalui jaringan Intranet. Faktor-faktor
tersebut di atas dikombinasikan dengan konsep solusi bisnis yang telah diuraikan
sebelumnya, telah melahirkan teknologi data mining. Data mining dimaksudkan
untuk memberikan solusi nyata bagi para pengambil keputusan di dunia bisnis,
untuk mengembangkan bisnis mereka.B
5. BAHASAN UMUM DATA MINING
Data Mining merupakan teknologi baru yang sangat berguna untuk membantu
perusahaan-perusahaan menemukan informasi yang sangat penting dari gudang
data mereka. Kakas data mining meramalkan tren dan sifat-sifat perilaku bisnis
yang sangat berguna untuk mendukung pengambilan keputusan penting. Analisis
yang diotomatisasi yang dilakukan oleh data mining melebihi yang dilakukan oleh
sistem pendukung keputusan tradisional yang sudah banyak digunakan. Data
Mining dapat menjawab pertanyaan-pertanyaan bisnis yang dengan cara
tradisional memerlukan banyak waktu untuk menjawabnya. Data Mining
mengeksplorasi basis data untuk menemukan pola-pola yang tersembunyi,
mencari informasi pemrediksi yang mungkin saja terlupakan oleh para pelaku
bisnis karena terletak di luar ekspektasi mereka.
Data mining didefinisikan sebagai satu set teknik yang digunakan secara otomatis
untuk mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-
relasi yang kompleks pada set data yang sangat besar. Set data yang dimaksud di
sini adalah set data yang berbentuk tabulasi, seperti yang banyak
diimplementasikan dalam teknologi manajemen basis data relasional. Akan tetapi,
teknik-teknik data mining dapat juga diaplikasikan pada representasi data yang
lain, seperti domain data spatial, berbasis text, dan multimedia (citra). Data mining
dapat juga didefinisikan sebagai “pemodelan dan penemuan polapola yang
tersembunyi dengan memanfaatkan data dalam volume yang besar”. Data mining
menggunakan pendekatan discovery-based dimana pencocokan pola (pattern-
matching) dan algoritmaalgoritma yang lain digunakan untuk menentukan relasi-
relasi kunci di dalam data yang diekplorasi. Data mining merupakan komponen
baru pada arsitektur sistem pendukung keputusan (DSS) di perusahaan-
perusahaan.
Beberapa pengertian data mining yang berhasil penulis himpun dari beberapa
pendapat adalah sebagai berikut.
1. Secara sederhana dapat didefinisikan bahwa Data mining adalah ekstraksi
informasi atau pola yang penting atau menarik dari data yang ada di database
yang besar sehingga menjadi informasi yang sangat berharga[1].
2. Data mining merupakan proses penemuan yang efisien sebuah pola terbaik
yang dapat menghasilkan sesuatu yang bernilai dari suatu koleksi data yang
sangat besar[2].
3. Data mining adalah suatu pola yang menguntungkan dalam melakukan search
pada sebuah database yang terdapat pada sebuah model. Proses ini dilakukan
berulang-ulang (iterasi) hingga didapat satu set pola yang memuaskan yang
dapat berfungsi sesuai yang diharapkan [3].
4. Data mining adalah sebuah class dari suatu aplikasi database yang mencari
pola-pola yang tersembunyi di dalam sebuah group data yang dapat
digunakan untuk memprediksi prilaku yang akan datang[7].
5. Data mining adalah suatu kelas aplikasi database yang berfungsi melakukan
pencarian pola-pola tersembunyi di dalam suatu kumpulan data yang bisa
digunakan untuk memprediksikan trend atau perilaku yang akan datang.
Bagaimana tepatnya data mining “menggali” hal-hal penting yang belum diketahui
sebelumnya atau memprediksi apa yang akan terjadi? Teknik yang digunakan
untuk melaksanakan tugas ini disebut pemodelan. Pemodelan di sini
dimaksudkan sebagai kegiatan untuk membangun sebuah model pada situasi
yang telah diketahui “jawabannya” dan kemudian menerapkannya pada situasi
lain yang akan dicari jawabannya. Sebagai contoh di sini diambil pencarian solusi
bisnis di bidang telekomunikasi3. Ada beberapa perusahaan telekomunikasi yang
beroperasi di sebuah negara dan dimisalkan pihak manajemen sebuah perusahaan
bermaksud untuk menjaring kustomer baru untuk jasa layanan sambungan
langsung jarak jauh (SLJJ). Pihak manajemen dapat “menghubungi” calon-calon
kustomer dengan memilih secara acak kemudian menawari mereka dengan diskon
khusus, dengan hasil yang kemungkinan besar kurang menggemberikan, atau
dengan memanfaatkan pengalaman-pengalaman bisnis yang saat ini sudah
tersimpan di basis data perusahaan untuk membangun sebuah model. Perusahaan
ini telah memiliki banyak informasi mengenai kustomer perusahaan tersebut:
umur, jenis kelamin, sejarah penggunaan fasilitas kredit dan penggunaan SLJJ.
Juga sudah diketahui informasi mengenai calon-calon kustomer: umur, jenis
kelamin, sejarah penggunaan fasilitas kredit, dll. Masalahnya adalah penggunaan
SLJJ untuk para calon kustomer ini belum diketahui, karena mereka saat ini
menjadi kustomer dari perusahaan lain. Yang dipikirkan pihak manajemen adalah
mencari calon kustomer yang akan menggunakan banyak jasa SLJJ. Usaha untuk
mencari jawaban masalah ini dilakukan dengan membangun sebuah model. Tabel
1 memberikan ilustrasi mengenai pembangunan model untuk menentukan calon
kustomer (prospek) di sebuah gudang data.
Gol dari pemodelan ini adalah untuk membuat perkiraan yang didasari kalkulasi
untuk mengisi informasi di kuadran kanan bawah pada Tabel 1, berdasar pada
informasi umum dan khusus yang sudah ada (dimiliki oleh perusahaan itu).
Misalnya, sebuah model sederhana untuk perusahaan telekomunikasi itu adalah:
98% kustomer “milik” perusahaan itu yang berpenghasilan $60.000/tahun
membelanjakan lebih dari $80/bulan untuk penggunaan SLJJ. Model ini kemudian
dapat diterapkan untuk menarik kesimpulan dari informasi khusus (sebagai data
prospek), dimana saat ini informasi khusus tersebut tidak dimiliki oleh
perusahaan. Dengan model ini, calon-calon kustomer baru dapat ditarget secara
selektif. Skenario lain dalam membangun model adalah: memprediksi apa yang
akan terjadi di masa mendatang. Model ini ditunjukkan oleh Tabel 2.
Secara garis besar, langkah-langkah utama dalam proses KDD adalah (lihat
Gambar 1):
Komponen data mining pada proses KDD seringkali merupakan aplikasi iteratif
yang berulang dari metodologi data mining tertentu. Pada pembahasan di sini akan
digunakan istilah pola dan model. Pola dapat diartikan sebagai instansiasi dari
model. Sebagai contoh f(x) = 3x2 + x adalah pola dari model f(x) = ax2 + bx. Data
mining melakukan “pengepasan” atau pencocokan model ke, atau menentukan
pola dari data yang diobservasi. Ada dua pendekatan matematis yang digunakan
dalam pencocokan model: statistik yang memberikan efek non-deterministik dan
logik yang murni deterministik. Yang lebih banyak digunakan adalah pendekatan
statistik, mengingat ketidakpastian yang ada dalam proses pembangkitan data di
dunia nyata. Kebanyakan metodologi data mining didasarkan pada konsep mesin
belajar, pengenalan atau pencocokan pola dan statistik: klasifikasi, pengelompokan
(clustering), pemodelan grafis, dll.4
Setelah tugas-tugas utama dari data mining didefinisikan seperti di atas, maka
perlu dirumuskan algoritma-algoritma untuk mencari solusi dari tugas-tugas
tersebut di atas. Dalam setiap algoritma data mining ada tiga komponen utama
yaitu representasi model, evaluasi model dan metodologi pencarian.
a) Representasi Model adalah bahasa untuk mendeskripsikan pola-pola yang
dapat ditemukan. Jika representasi terlalu terbatas, maka tidak akan ada
jumlah waktu pelatihan maupun sampel yang mencukupi, yang akan
menghasilkan model yang akurat untuk data.
b) Evaluasi Model mengestimasi tingkat kecocokan sebuah pola tertentu untuk
memenuhi kriteria pada proses KDD. Evaluasi pada keakuratan prediksi
(validasi) didasarkan pada validasi silang. Evaluasi kualitas deskriptif
berkaitan dengan akurasi, kebaruan, utilitas dan kemampuan untuk dipahami
dari model yang diterapkan. Kriteria logika dan statistik dapat digunakan
untuk evaluasi model.
c) Metodologi Pencarian terdiri dari dua komponen: pencarian parameter dan
pencarian model. Pada pencarian parameter, algoritma harus mencari parameter-
parameter yang mengoptimisasi kriteria evaluasi model dengan tersedianya
data yang diobservasi dan representasi model yang tetap. Pencarian model
terjadi sebagai sebuah loop di atas metodologi pencarian parameter :
representasi model diubah sehingga dibentuk satu keluarga model-model.
Ada banyak metodologi data mining, tapi di sini hanya akan dibahas yang populer
saja. Bahasan metodologi akan meliputi segi representasi model, evaluasi model
dan metodologi pencarian.
Representasi dari metodologi ini cukup sederhana: gunakan sampel dari basis data
untuk mengaproksimasi sebuah model, misalnya, prediksi sampel-sampel baru
diturunkan dari properti sampel-sampel yang “mirip” di dalam model yang
prediksinya sudah diketahui. Teknik ini misalnya adalah klasifikasi
tetanggaterdekat, algoritma regresi dan sistem reasoning berbasis-kasus. Gambar 6
menunjukkan hasil dari klasifikasi tetangga terdekat pada himpunan data
peminjaman: kelas pada setiap titik di dalam ruang 2-dimensi sama dengan kelas
dari titik terdekat di dalam himpunan data yang ditelaah dan orisinil.
Kekurangan pada metodologi berbasis sampel (misalnya jika dibandingkan
dengan berbasis-pohon) adalah dibutuhkannya metrik jarak yang akurat untuk
mengevaluasi jarak antara titik-titik data.
Jika aturan dan pohon-keputusan memiliki sebuah representasi yang terbatas pada
logika proporsional, pembelajaran relasional (yang juga dikenal sebagai
pemrograman logika induksi) menggunakan bahasa pola yang lebih sederhana
dengan logika tingkatsatu. Pembelajar relasional dengan mudah dapat
menemukan formula seperti X=Y. Kebanyakan riset pada metodologi evaluasi
model untuk pembelajaran relasional bersifat logik.
8. TEKNOLOGI YANG MENDATANGKAN PROFIT
Banyak perusahaan yang sudah meluncurkan aplikasi data mining (KDD) dan telah
mendapatkan keuntungan. Teknologi ini tidak hanya cocok untuk digunakan oleh
industri-industri yang mengelola informasi secara intensif seperti perbankan,
tetapi juga perusahaan apa saja yang ingin memanfaatkan gudang data untuk
memanajemen kustomer dengan lebih baik. Dua faktor penting yang menentukan
keberhasilan penggunaan dari data mining adalah : gudang data yang berukuran
besar dan terintegrasi dengan baik, dan pemahaman atau identifikasi yang baik
terhadap proses bisnis dimana data mining akan diaplikasikan5. Beberapa contoh
bidang-bidang bisnis yang telah berhasil menerapkan aplikasi data mining adalah :
10. KESIMPULAN
Data mining, yang hadir sebagai teknologi untuk memanfaatkan ketersediaan data
bisnis yang melimpah, telah membantu para pelaku bisnis untuk
mempertahankan dan mengembangkan bisnis mereka. Akan tetapi, agar teknologi
data mining dan KDD ini dapat dimanfaatkan terus dengan baik, teknologi ini
harus terus dapat “bekerja” berdampingan dengan bidang lain di dunia teknologi
informasi yang berkembang dengan sangat cepat. Penyempurnaan di sana-sini
masih terus diperlukan, karena itu peluang riset di bidang ini masih terbuka lebar.
Pustaka
Selain penggunaan sumber data yang sama, ada sebagian proses yang sama
diulang untuk setiap cabang (job stream sama sekali terpisah), terutama proses
untuk mengambil data yang dibutuhkan (extraction) dari database milik sistem
operasional bank (yang disiang harinya dipakai untuk menangani segala macam
transaksi, baik atas permintaan pelanggan melalui kantor cabang, ATM maupun
internet banking, juga proses administrasi oleh bank sendiri). Situasi ini dapat
digambarkan sebagai berikut.
Mengapa mengambil dan memproses data yang sama berulang kali? Pertanyaan
inilah yang menjadi alasan utama mengapa data warehouse diperlukan.
Ada alasan lain, akibat situasi diatas, yang selalu menimbulkan keraguan pemakai
tingkat-atas (senior manager, misalnya kepala wilayah) akan kebenaran informasi
yang diperolehnya. Laporan harian pada contoh bank-bank diatas diatas dijadikan
sumber data oleh fungsi-fungsi dikantor cabang dan wilayah, untuk membuat
laporan yang lain untuk keperluan masing-masing. Akibat berantainya
penggunaan dan pemrosesan individu ini (terutama re-entry manual, perbedaan
pengertian nilai data (definisi dan makna) dan formula perhitungan), maka bila
mereka mengadakan rekonsiliasi kembali berdasar laporan individu tersebut
(misalnya waktu rapat manajemen antar fungsi), hampir selalu muncul masalah
inconsistency informasi.
Sistem gudang data (Data Warehouse) dibangun untuk mengatasi masalah teknis
dan bisnis dalam kasus-kasus sejenis diatas, yaitu kasus kasus yang berkaitan
dengan pengunaan data dan informasi untuk mengambil keputusan bisnis dan
manajemen. Bandingkan gambar 2 berikut ini dengan
gambar 1.
Data hanya diambil dan diproses sekali, disimpan didalam data warehouse
(proses ini disebut ETL = Extract, Transform, Load); hanya bagian proses yang
unik dari setiap pemakaian data yang dilaksanakan masing-masing (biasanya
menggunakan software khusus – specialized tool).
Fungsi utama Data Warehouse adalah: Mengambil (termasuk data dari luar yang
dibutuhkan, misalnya daftar kode pos dari kantor pos), mengumpulkan,
mempersiapkan (transforming, seperti membersihkan, mengintegrasikan,
decoding), menyimpan (loading), dan menyediakan data untuk pemakai atau
aplikasi yang bersifat query/reporting (read-only); hanya satu data terpercaya ini
yang digunakan oleh semua yang membutuhkan (single version of truth), untuk
pelaporan, analisa informasi dan mengambil keputusan (analytical application).
Ada 4 sifat yang mencirikan data yang disimpan didalam data warehouse – ini
didefinisikan oleh salah satu mahaguru data warehousing (Bill Inmon).
Non-volatile: Sekali masuk kedalam data warehouse, data-data, terutama data tipe
transaksi, tidak akan pernah di update atau dihapus (delete).