0% menganggap dokumen ini bermanfaat (0 suara)
34 tayangan20 halaman

Getting To Know Your Data

1. Dokumen tersebut membahas tentang visualisasi data dan statistik deskriptif dasar untuk memahami data.

Diunggah oleh

alfina richi
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
34 tayangan20 halaman

Getting To Know Your Data

1. Dokumen tersebut membahas tentang visualisasi data dan statistik deskriptif dasar untuk memahami data.

Diunggah oleh

alfina richi
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 20

Getting to Know Your Data

KELOMPOK
6
Alfina Richi ( 4211250008 )

Dimas Wahyudi ( 4211250016 )

Divia Dwi Arfika ( 4211250017 )

Marchell Hutabarat ( 4213550020 )


1. Objek Data dan Jenis Atribut
Kumpulan data terdiri dari objek-objek data. Objek data mewakili sebuah entitas dalam basis
data penjualan, objek penjualan, objek dapat berupa pelanggan, item toko, dan penjualan. Jika objek data
disimpan dalam database, objek data tersebut adalah tupel data. Artinya, baris-baris database berhubungan
dengan objek data, dan kolom-kolomnya berhubungan dengan atribut. Pada bagian ini, kita
mendefinisikan atribut dan melihat berbagai jenis atribut.

1 Atribut Nominal

2 Atribut Biner

3 Atribut Ordinal

4 Atribut Numerik

5 Atribut Diskrit versus Atribut Kontinu


01 02 03
Atribut Nominal Atribut Biner Atribut Ordinal
Nominal berarti "berkaitan Atribut biner adalah atribut Atribut ordinal adalah atribut
dengan nama." Nilai dari nominal yang hanya dengan kemungkinan nilai
atribut nominal adalah memiliki dua kategori atau yang memiliki urutan atau
simbol atau nama-nama status: 0 atau 1, di mana 0 peringkat di antara mereka,
benda. Setiap nilai mewakili biasanya berarti bahwa tetapi besarnya antara nilai-
beberapa jenis kategori, atribut tersebut tidak ada, nilai yang berurutan tidak
kode, atau status, sehingga dan 1 berarti atribut tersebut diketahui.
atribut nominal juga disebut ada. Biner disebut sebagai
sebagai kategorikal. Boolean jika dua statusnya
sesuai dengan benar dan
salah.
04 05
Atribut Diskrit versus Atribut Kontinu
Atribut Numerik
Atribut numerik bersifat kuantitatif; Ada banyak cara untuk mengatur tipe atribut.
Tipe-tipe tersebut tidak saling eksklusif.
yaitu, merupakan kuantitas yang
Algoritma klasifikasi yang dikembangkan dari
dapat diukur, direpresentasikan bidang pembelajaran mesin sering kali
dalam bilangan bulat atau nilai berbicara tentang atribut sebagai atribut diskrit
nyata. Atribut numerik dapat atau kontinu. Setiap jenis dapat diproses
secara berbeda. Atribut diskrit memiliki
berskala interval atau berskala serangkaian nilai yang terbatas atau tak
rasio. terbatas, yang mungkin atau mungkin tidak
direpresentasikan sebagai bilangan bulat.
2. Deskripsi Statistik Dasar Data
Agar prapemrosesan data berhasil, penting untuk memiliki gambaran keseluruhan data.
Deskripsi statistik dasar dapat digunakan untuk mengidentifikasi properti data dan menyoroti nilai data
mana yang harus diperlakukan sebagai noise atau gangguan. Bagian ini membahas tiga area deskripsi
statistik dasar. . Kita mulai dengan ukuran tendensi sentral yang mengukur lokasi tengah dari suatu
distribusi data. Secara intuitif, jika diberikan sebuah atribut, di mana sebagian besar nilai-nilainya
jatuh. Secara khusus, kita akan membahas mean, median, modus, dan nilai tengah. Selain menilai
kecenderungan sentral dari kumpulan data, kita juga ingin memiliki gambaran tentang penyebaran
data. Artinya, bagaimana data tersebar.
2.1 Mengukur Tendensi Sentral Mean, Median, dan Mode
Memperkirakan bahwa kita mempunyai beberapa atribut X, seperti gaji, yang telah dicatat
untuk sekumpulan objek. Misal x1,x2,...,xN adalah himpunan N nilai observasi atau observasi untuk X. Di
sini, nilai-nilai ini juga dapat disebut sebagai kumpulan data (untuk X). Jika kita merencanakan observasi
untuk gaji, di manakah sebagian besar nilainya akan jatuh? Hal ini memberi kita gambaran tentang
kecenderungan sentral data. Ukuran tendensi sentral meliputi mean, median, modus, dan kelas menengah.
Ukuran numerik yang paling umum dan efektif dari “pusat” sekumpulan data adalah mean (aritmatika).
Meskipun rata-rata merupakan satu-satunya besaran yang paling berguna untuk mendeskripsikan suatu
kumpulan data, namun rata-rata tidaklah demikian selalu merupakan cara terbaik untuk mengukur pusat
data.
2.2 Mengukur Sebaran Data: Rentang, Kuartil, Varians, Deviasi
Standar, dan Rentang Interkuartil
● Jangkauan Kuartil dan Jangkauan Interkuartil
Misalkan x1,x2,...,xN adalah himpunan observasi untuk beberapa atribut numerik, X. Rentangnya dari
himpunan tersebut adalah selisih antara nilai terbesar (maks()) dan terkecil (min()). Misalkan data untuk atribut X diurutkan
dalam urutan numerik yang meningkat. Membayangkan bahwa kita dapat memilih titik data tertentu untuk membagi
distribusi data menjadi berukuran sama set berturut-turut, Titik data ini disebut kuantil.
● Varians dan Standar Deviasi
Varians dan deviasi standar adalah ukuran penyebaran data. Mereka menunjukkan caranya menyebarkan
distribusi data adalah. Standar deviasi yang rendah berarti data observasi cenderung sangat mendekati mean, sedangkan
standar deviasi yang tinggi menunjukkan hal tersebut data tersebar pada rentang nilai yang luas.
2.3 Tampilan Grafis Deskripsi Statistik Dasar Data
● Quantile Plot
Biarkan xi , untuk i = 1 sampai N, jadilah data yang diurutkan menaik diurutkan sehingga x1 adalah observasi terkecil dan xN adalah observasi
terbesar untuk beberapa ordinal atau atribut numerik X. Setiap observasi, xi, dipasangkan dengan persentase, fi, yang menunjukkan bahwa kira-
kira fi × 100% data berada di bawah nilai xi. Kami mengatakan “kira-kira” karena mungkin tidak ada nilai yang tepat pecahan, fi , dari data di
bawah xi . Catatan bahwa persentil 0,25 sama dengan kuartil Q1, persentil 0,50 adalah median, dan persentil 0,75 adalah Q3.
● Quantile Quantile Plot
Plot kuantil-kuantil, atau plot qq, membuat grafik kuantil dari satu distribusi univariat terhadap kuantil lain yang bersesuaian. Ini adalah alat
visualisasi yang kuat di dalamnya memungkinkan pengguna untuk melihat apakah ada peralihan dari satu distribusi ke distribusi lainnya.
● Histogram
Histogram (atau histogram frekuensi) setidaknya berumur satu abad dan digunakan secara luas. “Histos” artinya tiang atau tiang, dan “gram”
artinya bagan, jadi histogram adalah bagan tiang .
● Scatter Plots dan Data Correlation
Plot sebar adalah metode yang berguna untuk memberikan tampilan pertama pada data bivariat untuk dilihat kelompok titik dan outlier, atau
untuk mengeksplorasi kemungkinan hubungan korelasi. Dua atribut, X dan Y, berkorelasi jika satu atribut mengimplikasikan atribut lainnya.
Korelasi bisa positif, negatif, atau nol (tidak berkorelasi).
3. Visualisasi Data
Visualisasi data adalah teknik yang digunakan untuk mengkomunikasikan informasi dengan
jelas dan efektif melalui representasi grafis. Penerapannya luas, baik dalam lingkungan kerja untuk tujuan
pelaporan, manajemen bisnis, maupun pemantauan kemajuan tugas. Selain itu, visualisasi data juga
menjadi alat penting untuk mengidentifikasi hubungan data yang mungkin sulit terlihat dalam data
mentah. Terdapat beberapa pendekatan representatif yang kami bahas, seperti teknik berorientasi piksel,
teknik proyeksi geometris, teknik berbasis ikon, serta teknik berbasis hierarki dan grafik.

1 Teknik Visualisasi Berorientasi Piksel


2 Teknik Visualisasi Proyeksi Geometris

3 Teknik Visualisasi Berbasis Ikon

4 Teknik Visualisasi Hirarki

5 Memvisualisasikan Data dan Hubungan yang Kompleks


01 02 03
Teknik Visualisasi Teknik Visualisasi Proyeksi Teknik Visualisasi Berbasis
Berorientasi Piksel Geometris Ikon
Salah satu cara sederhana untuk Teknik visualisasi berorientasi Teknik visualisasi berbasis
memvisualisasikan nilai dari piksel memiliki kelemahan karena
ikon adalah pendekatan yang
tidak secara efektif memahami
sebuah dimensi dalam kumpulan menggunakan ikon kecil
distribusi data dalam ruang
data berdimensi m adalah multidimensi dan tidak untuk merepresentasikan
dengan menggunakan teknik menggambarkan kepadatan di data multidimensi. Dua
berorientasi piksel. Dalam teknik subruang. Sebaliknya, teknik teknik berbasis ikon yang
ini, dibuat m jendela pada layar, proyeksi geometris membantu populer adalah wajah
satu untuk setiap dimensi. Setiap menemukan proyeksi menarik dari
Chernoff dan figur tongkat.
data multidimensi, namun
nilai dari m dimensi dalam suatu
menghadapi tantangan dalam
rekaman data dipetakan ke m memvisualisasikan ruang
piksel pada posisi yang sesuai di berdimensi tinggi dalam tampilan
jendela tersebut. 2-D.
04 05
Teknik Visualisasi Hirarki Memvisualisasikan Data dan
Hubungan yang Kompleks
Dalam visualisasi data, ketika kita berurusan dengan Visualisasi data awalnya digunakan terutama
untuk data numerik, tetapi semakin banyak
kumpulan data besar yang memiliki dimensi tinggi,
data non-numerik seperti teks dan jejaring
sulit untuk memvisualisasikan semua dimensi secara sosial yang menjadi fokus. Teknik visualisasi
bersamaan. Teknik visualisasi hierarki adalah baru dikembangkan untuk jenis data ini,
pendekatan yang mempartisi semua dimensi menjadi seperti tag cloud untuk visualisasi statistik tag
dalam teks. Tag-cloud menampilkan tag dalam
himpunan bagian atau subruang yang divisualisasikan
urutan abjad atau sesuai pilihan pengguna,
secara hierarkis. Salah satu metode representatif dalam dengan ukuran font atau warna menunjukkan
hal ini adalah "Dunia-dalam-Dunia," juga dikenal tingkat pentingan tag.

sebagai n-Vision.
4. Mengukur Persamaan dan Ketidaksamaan Data
Dalam aplikasi data mining, seperti pengelompokan, analisis outlier, dan klasifikasi tetangga
terdekat, memerlukan cara untuk menilai sejauh mana objek-objek serupa atau berbeda dibandingkan satu
sama lain. Sebagai contoh, sebuah toko mungkin ingin mencari kelompok objek pelanggan, yang
menghasilkan kelompok pelanggan dengan karakteristik serupa (misalnya, pendapatan serupa, area tempat
tinggal, dan usia serupa). Informasi tersebut kemudian dapat digunakan untuk pemasaran. Kumpulan objek
data tersebut diatur sehingga objek-objek (data-data) dalam sebuah kelompok mirip satu sama lain dan
berbeda dengan objek-objek dalam kelompok lain. Bagian ini menyajikan ukuran kemiripan dan
perbedaan, yang disebut sebagai ukuran kedekatan. Kemiripan dan perbedaan berkaitan.
4.1 Data Matrix versus Dissimilarity Matrix
Dalam bagian ini, kami membicarakan objek yang dijelaskan oleh beberapa atribut. Oleh
karena itu, kami perlu melakukan perubahan dalam notasi. Misalkan kita memiliki n objek (seperti orang,
barang, atau kursus) yang dijelaskan oleh p atribut (juga disebut pengukuran atau fitur, seperti usia, tinggi,
berat, atau jenis kelamin). Objek-objek tersebut adalah x 1 = (x11, x12, ..., x1p), x2 = (x21, x22, ..., x2p), dan
seterusnya, di mana xij adalah nilai untuk objek x i pada atribut ke-j. Untuk singkatnya, selanjutnya kami
akan merujuk pada objek x i sebagai objek i. Objek-objek tersebut dapat berupa tupel dalam basis data
relasional, dan juga disebut sebagai sampel data atau vektor fitur .
4.2 Ukuran Kedekatan untuk Atribut Nominal
Sebuah atribut nominal dapat memiliki dua atau lebih keadaan. Sebagai contoh, warna peta
adalah atribut nominal yang mungkin memiliki, misalnya, lima keadaan: merah, kuning, hijau, merah
muda, dan biru. Biarkan jumlah keadaan dari atribut nominal tersebut adalah M. Keadaan-keadaan tersebut
dapat dilambangkan dengan huruf, simbol, atau kumpulan bilangan bulat, seperti 1, 2, ..., M. Perhatikan
bahwa bilangan bulat tersebut digunakan hanya untuk pengolahan data dan tidak mewakili urutan tertentu.
Kedekatan antara objek yang dijelaskan oleh atribut nominal dapat dihitung menggunakan skema
pengkodean alternatif. Atribut nominal dapat dikodekan menggunakan atribut biner asimetris dengan
membuat atribut biner baru untuk masing-masing dari M keadaan.
4.3 Ukuran Kedekatan untuk Atribut Biner
Ingatlah bahwa atribut biner hanya memiliki dua keadaan: 0 dan 1, di mana 0 berarti atribut
tidak ada, dan 1 berarti atribut ada. Diberikan atribut perokok yang menggambarkan seorang pasien,
misalnya, 1 menunjukkan bahwa pasien merokok, sedangkan 0 menunjukkan bahwa pasien tidak
merokok. Menganggap atribut biner sebagai atribut numerik dapat menyesatkan. Oleh karena itu,
metode khusus untuk data biner diperlukan untuk menghitung perbedaan. Ingatlah bahwa untuk atribut
biner simetris, setiap keadaan memiliki nilai yang sama. Perbedaan yang didasarkan pada atribut biner
simetris disebut sebagai perbedaan biner simetris. Untuk atribut biner asimetris, kedua keadaan tidak
memiliki kepentingan yang sama, seperti hasil positif (1) dan negatif (0) dari tes penyakit. Diberikan dua
atribut biner asimetris, kesepakatan dua angka 1 (kesesuaian positif) kemudian dianggap lebih signifikan
daripada kesepakatan dua angka 0 (kesesuaian negatif). Oleh karena itu, atribut biner semacam itu sering
dianggap "monary" (memiliki satu keadaan).
4.4 Perbedaan Data Numerik: Jarak Minkowski
Dalam bagian ini, kami menjelaskan ukuran jarak yang umum digunakan untuk menghitung
perbedaan objek yang dijelaskan oleh atribut numerik. Ukuran-ukuran ini termasuk jarak Euclidean,
Manhattan, dan Minkowski. Dalam beberapa kasus, data dinormalisasi sebelum perhitungan jarak
diterapkan. Ini melibatkan transformasi data agar berada dalam rentang yang lebih kecil atau umum,
seperti [−1,1] atau [0.0, 1.0]. Pertimbangkan atribut tinggi, misalnya, yang dapat diukur dalam meter
atau inci. Secara umum, mengekspresikan atribut dalam satuan yang lebih kecil akan menghasilkan
rentang yang lebih besar untuk atribut tersebut, dan oleh karena itu cenderung memberikan pengaruh
atau "bobot" yang lebih besar pada atribut tersebut.
4.5 Ukuran Kemiripan untuk Atribut Ordinal
Nilai-nilai dari atribut ordinal memiliki urutan atau peringkat yang berarti tentang mereka, namun
besaran antara nilai-nilai berurutan tersebut tidak diketahui. Sebagai contoh, urutan kecil, sedang, besar
untuk atribut ukuran. Atribut ordinal juga dapat diperoleh dari diskritisasi atribut numerik dengan
membagi rentang nilai ke dalam sejumlah kategori yang terbatas. Kategori-kategori ini dikelompokkan
menjadi peringkat. Artinya, rentang atribut numerik dapat dipetakan ke atribut ordinal f yang memiliki
Mf state.
4.6 Dissimilarity untuk Atribut Tipe Campuran
Bagian 4.2 hingga 4.5 membahas cara menghitung dissimilarity antara objek yang dijelaskan oleh atribut
dengan tipe yang sama, di mana tipe-tipe ini dapat berupa nominal, biner simetris, biner asimetris,
numerik, atau ordinal. Namun, dalam banyak basis data nyata, objek dijelaskan oleh campuran tipe
atribut. Secara umum, sebuah basis data dapat mengandung semua tipe atribut ini. "Jadi, bagaimana kita
bisa menghitung dissimilarity antara objek dengan tipe atribut campuran?" Salah satu pendekatan adalah
dengan mengelompokkan setiap jenis atribut bersama-sama, melakukan analisis data terpisah (misalnya,
pengelompokan) untuk setiap jenis. Ini mungkin memungkinkan jika analisis ini menghasilkan hasil
yang kompatibel.
4.7 Kemiripan Cosine
Sebuah dokumen dapat direpresentasikan oleh ribuan atribut, masing-masing mencatat frekuensi kata
tertentu (seperti kata kunci) atau frasa dalam dokumen tersebut. Dengan demikian, setiap dokumen
adalah objek yang direpresentasikan oleh apa yang disebut sebagai vektor frekuensi. Vektor frekuensi
istilah biasanya sangat panjang dan jarang (yaitu, mereka memiliki banyak nilai 0). Aplikasi yang
menggunakan struktur semacam ini termasuk pengambilan informasi, pengelompokan dokumen teks,
taksonomi biologis, dan pemetaan fitur gen. Pengukuran jarak tradisional yang telah kita pelajari dalam
bab ini tidak cocok untuk data numerik yang sangat jarang seperti ini.
Thanks

Anda mungkin juga menyukai