Data Mining Walmart
Data Mining Walmart
menangani data tersebut. Proses untuk menangani data tersebut dikenal dengan Knowledge Discovery in Databases (KDD). Data Mining adalah kegiatan untuk menemukan informasi atau pengetahuan yang berguna secara otomatis dari data yang jumlahnya besar. Data Mining merupakan salah satu proses dari keseluruhan proses yang ada pada Knowledge Discovery in Databases (KDD). KDD sendiri merupakan sekumpulan proses untuk menemukan pengetahuan yang bermanfaat dari data. KDD terdiri dari serangkaian langkah perubahan, termasuk data preprocessing dan juga post processing. Data preprocessing merupakan langkah untuk mengubah data mentah menjadi format yang sesuai untuk tahap analisis berikutnya. Selain itu data preprocessing juga digunakan untuk membantu dalam pengenalan atribut dan data segmen yang relevan dengan task data mining. Data preprocessing kemungkinan akan membutuhkan waktu yang sangat lama, hal ini dikarenakan data yang mentah kemungkinan disimpan dengan format dan database yang berbeda. Post processing meliputi semua operasi yang harus dilakukan agar hasil dari Data Mining dapat diakses dan lebih mudah untuk diinterpretasikan oleh para analis. Teknik visualisasi juga dapat digunakan untuk mempermudah para analis untuk menggali dan memahami kegunaan dari data mining. Kumpulan proses dalam KDD meliputi : pembersihan data (data cleaning), integrasi data (data integration), pemilihan data (data selection), transformasi data (data transformation), penambangan data (data mining), evaluasi pola (pattern evaluation), dan presentasi pengetahuan (knowledge presentation). Berdasarkan definisi ini terlihat bahwa data mining hanya merupakan salah satu proses dari keseluruhan proses yang ada pada KDD, tetapi merupakan proses yang sangat penting dalam usaha menemukan pola-pola yang berguna dari sejumlah data yang besar (data tersebut bisa disimpan dalam basisdata, data warehouse, atau media penyimpanan informasi lainnya). Data Mining Task Pada umumnya, data mining task dibagi menjadi dua kategori yang penting, yaitu: 1. Predictive tasks Tujuan dari task ini adalah untuk memprediksi nilai sebuah atribut yang penting berdasarkan nilai dari atribut yang lainnya. Atribut yang diprediksi biasanya dikenal sebagai target atau dependent variable, sedangkan atribut yang digunakan untuk melakukan prediksi dikenal dengan explanatory atau independent variable. 2. Descriptive task Tujuan dari task ini adalah untuk menghasilkan pola (correlations, trends, clusters, trajecttories dan anomalies) yang merangkum keterhubungan dalam data.
Dari gambar diatas , data yang ada dapat digunakan sebagai inti dari data mining task. Data mining task tersebut antara lain: 1) Predictive Modelling Predictive Modelling digunakan untuk membangun sebuah model untuk target variable sebagai fungsi dari explanatory variable. Explanatory variable dalam hal ini merupakan semua atribut yang digunakan untuk melakukan prediksi, sedangkan target variable merupakan atribut yang akan diprediksi nilainya. Predictive modeling task dibagi menjadi dua tipe yaitu : Classification digunakan untuk memprediksi nilai dari target variable yang discrete (diskret) dan regression digunakan untuk memprediksi nilai dari target variable yang continu (berkelanjutan). 2) Association Analysis Association analysis digunakan untuk menemukan aturan association yang memperlihatkan kondisi-kondisi nilai atribut yang sering muncul secara bersamaan dalam sebuah himpunan data. 3) Cluster Analysis Tidak seperti klasifikasi yang menganalisa kelas data obyek yang mengandung label. Clustering menganalisa objek data tanpa memeriksa kelas label yang diketahui. Label-label kelas dilibatkan di dalam data training. Karena belum diketahui sebelumnya. Clustering merupakan proses pengelompokkan sekumpulan objek yang sangat mirip. 4) Anomaly Detection Anomaly Detection merupakan metode pendeteksian suatu data dimana tujuannya adalah menemukan objek yang berbeda dari sebagian besar objek lain. Anomaly dapat di deteksi dengan menggunakan uji statistik yang menerapkan model distribusi atau probabilitas untuk data.
Definisi Ada beberapa definisi dari data mining yang dikenal di buku-buku teks data mining. Diantaranya adalah :
Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya
Menarik untuk diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Dari definisi-definisi itu, dapat dilihat ada beberapa faktor yang mendefinisikan data mining : 1. data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu 2. objek dari data mining adalah data yang berjumlah besar atau kompleks 3. tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang mungkin memberikan indikasi yang bermanfaat Sejarah Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar 1 menunjukkan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistic, database dan juga information retrieval.
Gambar 1 Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti classification, neural network, genetic algorithm dll. sudah lama dikenal di dunia kecerdasan buatan. Statistik memberikan kontribusi pada data mining dengan teknikteknik untuk menyeleksi data dan evaluasi hasil data mining selain teknik-teknik data mining seperti clustering. Yang membedakan persepsi terhadap data mining adalah perkembangan teknik-teknik data mining untuk aplikasi pada database skala besar. Sebelum populernya data mining, teknik-teknik tersebut pada umunya diterapkan untuk data skala kecil saja. Selain itu beberapa teknik dari bidang database untuk transformasi data juga merupakan bagian integral dari proses data mining.
wikipedia
Data mining adalah proses penggalian pola dari data. Data mining menjadi alat yang semakin penting untuk mengubah data menjadi informasi. Hal ini umumnya digunakan dalam berbagai profil praktik, seperti pemasaran, pemantauan, pendeteksian penipuan dan penemuan ilmiah. Data mining bisa digunakan untuk mencari pola dalam data tetapi seringkali dilakukan hanya pada data sampel. Pertambangan proses tidak akan efektif jika sampel tersebut bukan representasi yang baik dari tubuh yang lebih besar dari data. Data mining tidak dapat menemukan pola yang mungkin ada dalam tubuh lebih besar dari data jika pola tidak hadir dalam sampel yang "ditambang." Ketidakmampuan untuk menemukan pola yang bisa menjadi penyebab untuk beberapa perselisihan antara pelanggan dan penyedia layanan. Oleh karena itu data mining tidak sangat mudah, tapi mungkin bisa berguna jika data yang dikumpulkan sampel yang cukup representatif. Penemuan pola tertentu dalam data set tertentu tidak berarti
bahwa pola yang ditemukan di tempat lain dalam data yang lebih besar dari sampel yang diambil. Suatu bagian penting dari proses ini adalah verifikasi dan validasi pola dalam data sampel lainnya. Terkait hal pengerukan data, data rekan memancing dan data mengacu pada penggunaan data teknik pertambangan untuk ukuran sampel (atau mungkin) terlalu kecil untuk kesimpulan statistik yang akan dibuat tentang validitas pola yang ditemukan (lihat juga data-mengintip bias). Data pengerukan mungkin, bagaimanapun, adalah digunakan untuk mengembangkan hipotesis baru, yang kemudian harus divalidasi dengan set sampel cukup besar. Data mining biasanya melibatkan empat tugas kelas: [11] * clustering - tugas mencari kelompok dan struktur dalam data dalam beberapa cara lain "yang sama", tanpa menggunakan struktur yang dikenal dalam data. * Klasifikasi - adalah tugas generalisasi dikenal struktur yang akan diterapkan ke data baru. Sebagai contoh, sebuah program email yang mungkin mencoba untuk mengklasifikasikan email sebagai sah atau spam. umum algoritma pohon keputusan, termasuk belajar, tetangga terdekat, klasifikasi Bayesian naif dan jaringan syaraf. * Regresi - Upaya untuk menemukan fungsi yang model data dengan kesalahan minimal. * Asosiasi aturan belajar - Mencari hubungan antara variabel-variabel. Misalnya supermarket dapat mengumpulkan data mengenai kebiasaan konsumen membeli. Menggunakan kaidah asosiasi untuk belajar, supermarket dapat menentukan produk yang sering dibeli bersamaan dan menggunakan informasi ini untuk tujuan pemasaran. Ini kadang-kadang disebut sebagai analisis pasar keranjang.