0% menganggap dokumen ini bermanfaat (0 suara)
24 tayangan9 halaman

Understanding Data

Diunggah oleh

vikaismayamaya
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
24 tayangan9 halaman

Understanding Data

Diunggah oleh

vikaismayamaya
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 9

Understanding Data

My Skill
·
Follow
4 min read
·
Feb 26, 2024
13

Basic Data from Data Science & Data Analysis Path


MySkill.id

Introduction to Data and Data Types

Pengertian dan Karakteristik Data

Data adalah kumpulan fakta, angka, atau informasi yang


diperoleh melalui pengamatan, pengukuran, atau
pengumpulan informasi. Data memiliki karakteristik berupa:

 Relevansi: data harus relevan dengan tujuan analisis


yang ingin dicapai

 Akurasi: data harus akurat dan dapat dipercaya


 Kelengkapan: data harus lengkap dan tidak ada yang
hilang atau terlewat

 Konsistensi: data harus konsisten dan tidak


bertentangan

Tipe Data

 Numerical Data adalah data yang berupa angka dan


dapat dihitung. Contoh: Usia, pendapatan.

 Categorical Data adalah data yang menggambarkan


kategori atau kelompok. Contoh: jenis kelamin, kategori
produk.

 Ordinal Data adalah data yang memiliki urutan atau


tingkatan. Contoh: tingkat pendidikan

Representasi dan Format Data

Visualisasi representasi dan format data


Sumber gambar: https://saptatunas.com/perbedaan-
structured-unstructured-dan-semi-structured-data/

Tipe-tipe data dapat ditampilkan dalam beberapa bentuk dan


format, yaitu:

 Structured data: data yang diatur dalam format


terstruktur, seperti tabel atau basis data.

 Unstructured data: data yang tidak memiliki format


teratur, seperti teks, gambar, atau radio.

 Semi-structured data: data yang memiliki sedikit


struktur, seperti XML atau JSON.

Sumber Data

Data berasal dari dua sumber, yaitu sumber internal dan


sumber eksternal. Sumber internal adalah data yang
dihasilkan dari dalam organisasi seperti data transaksi atau
data operasional. Contohnya adalah yang berasal dari Basis
Data Pelanggan, Data Penjualan, Laporan Keuangan,
Inventaris dan Stok, Data Karyawan.

Sedangkan sumber eksternal adalah data yang diperoleh


dari sumber di luar organisasi, seperti data publik atau data
dari mitra bisnis. Contohnya adalah yang berasal dari Data
Pasar, Data Pesaing, Laporan Berita dan Media, Data
Pemerintah dan Regulasi, dan Data Sosial Media.

Metode Pengumpulan Data

1. Survey: data dikumpulkan melalui pertanyaan langsung


kepada responden

2. Observation: data dikumpulkan melalui pengamatan


kegiatan atau perilaku

3. Experiment: data dikumpulkan melalui pengujian dan


manipulasi variabel

Untuk menentukan metode pengumpulan data kita perlu


memperhatikan beberapa hal sebagai berikut:

1. Menentukan tujuan penelitian atau analisis. Kita


perlu memahami dengan jelas apa yang ingin kita ketahui
atau kita capai melalui pengumpulan data. Kita harus
mengidentifikasi pertanyaan penelitian atau tujuan
analisis.

2. Identifikasi tujuan data yang dibutuhkan. Sebelum


mengumpulkan data kita harus menentukan jenis data
yang diperlukan untuk menjawab pertanyaan penelitian
atau untuk mencapai tujuan analisis yang akan kita
lakukan. Apakah kita memerlukan data kuantitatif (angka
dan statistik) atau kualitatif (deskripsi dan wawancara).
3. Evaluasi ketersediaan data. Kita harus terlebih dahulu
mempertimbangkan apakah data yang kita butuhkan
sudah tersedia secara eksternal atau apakah kita perlu
mengumpulkan sendiri. Apabila data yang dibutuhkan
sudah tersedia, kita hanya perlu mengakses. Namun,
apabila data yang kita butuhkan belum ada, kita perlu
merencanakan metode pengumpulannya.

Data Exploration and Visualization


Teknik Exploratory Data Analysis (EDA) adalah suatu proses
penyelidikan dan pemahaman data melalui metode grafis dan
statistik. Teknik EDA memiliki beberapa teknik yang
meliputi:

1. Statistik Deskriptif, yaitu menggambarkan dan


menggali wawasan tentang data melalui ukuran pusat,
ukuran penyebaran, dan visualisasi grafis.

2. Penemuan Pola, yaitu mengidentifikasi pola, korelasi,


dan hubungan dalam data melalui teknik seperti analisis
klaster, asosiasi, atau pemodelan prediktif sederhana.

Data Visualization Principles and Best Practice

Prinsip-prinsip dan praktik terbaik visualisasi data


membantu mengkomunikasikan informasi dengan efektif dan
jelas. Beberapa prinsip dan praktik terbaik yang perlu
diperhatikan, yaitu:

1. Kejelasan. Kita perlu memastikan bahwa visualisasi


mudah dibaca, dengan penggunaan label yang jelas dan
skala yang sesuai.

2. Sederhana. Kita perlu menyederhanakan visualisasi


dengan menghilangkan elemen yang tidak perlu dan
mempertahankan fokus pada pesan utama.

3. Kesesuaian. Pilih jenis visualisasi yang paling sesuai


dengan jenis data dan tujuan komunikasi.

4. Warna. Kita dapat menggunakan warna dan kontras


dengan hati-hati untuk memperjelas informasi dan
membedakan elemen dengan jelas.

Tools and Software for Data Exploration and Visualization

 Python libraries: Matplotlib, Seaborn, dan Plotly adalah


beberapa pustaka populer dalam python yang
menyediakan fungsi untuk membuat visualisasi data.

 Tableau: software yang memungkinkan pengguna untuk


membuat visualisasi data yang interaktif dan mudah
dipahami tanpa pengetahuan pemrograman yang
mendalam.
Data Cleaning and Preprocessing

Data Quality Assessment and Data Cleaning Techniques

Penilaian kualitas data adalah proses evaluasi terhadap data


untuk mengidentifikasi masalah dan kekurangan teknik
pembersihan data atau data cleaning, yang meliputi:

1. Duplikasi: menghapus duplikat data yang tidak


diperlukan.

2. Validasi: memeriksa integritas data dan memastikan


kesesuaian dengan aturan atau batasan tertentu.

3. Standarisasi: Mengubah data ke format standar yang


konsisten.

4. Formatting: Mengubah format data agar sesuai dengan


kebutuhan analisis.

Handling Missing Data, Outliers, and Inconsistencies

1. Data Imputation: mengisi niali yang hilang dengan nilai


yang dapat diperkirakan berdasarkan metode statistik
atau pemodelan.

2. Outlier Treatment: mengidentifikasi dan menangani


outlier dengan teknik seperti penghapusan, subtitusi, atau
transformasi data.
3. Data Consistency Check: memeriksa kesesuaian data
dengan aturan atau kriteria tertentu dan menangani
inkonsistensi apabila ditemukan.

Data Transformation and Normalization

Transformasi dan normalisasi data adalah langkah untuk


mengubah data ke dalam format yang lebih cocok untuk
analisis. Beberapa teknik yang umum digunakan meliputi:

 Log Transform: mengubah data dengan skala besar


menjadi distribusi yang lebih normal dengan
menggunakan logaritma.

 Min-Max Scaling: mengubah data menjadi rentang nilai


tertentu, umunya antara 0 dan 1.

 Standardization: mengubah data menjadi distribusi


standar dengan rata-rata 0 dan deviasi standar 1.

Data Integration and Data Fusion

Integrasi data adalah proses menggabungkan data dari


sumber yang berbeda menjadi suatu dataset yang utuh.
Sedangkan data fusion atau penggabungan data adalah
sebuah proses menggabungkan data yang redundan atau
saling melengkapi untuk menghasilkan dataset yang lebih
lengkap dan akurat.
Teknik dan algoritma yang digunakan dalam integrasi dan
penggabungan data meliputi perbandingan,
korelasi, dan pencocokan data.

Anda mungkin juga menyukai