0% menganggap dokumen ini bermanfaat (0 suara)
17 tayangan4 halaman

Analisis Data Dasar

Diunggah oleh

Beras
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
17 tayangan4 halaman

Analisis Data Dasar

Diunggah oleh

Beras
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 4

Introduction to Data and Data Types

Pengertian dan Karakteristik Data

Data adalah kumpulan fakta, angka, atau informasi yang diperoleh melalui pengamatan,
pengukuran, atau pengumpulan informasi. Data memiliki karakteristik berupa:

Relevansi: data harus relevan dengan tujuan analisis yang ingin dicapai

Akurasi: data harus akurat dan dapat dipercaya

Kelengkapan: data harus lengkap dan tidak ada yang hilang atau terlewat

Konsistensi: data harus konsisten dan tidak bertentangan

Tipe Data

 Numerical Data

Adalah data yang berupa angka dan dapat dihitung. Contoh: Usia, pendapatan.

 Categorical Data

Adalah data yang menggambarkan kategori atau kelompok. Contoh: jenis kelamin,
kategori produk.

 Ordinal Data

Adalah data yang memiliki urutan atau tingkatan. Contoh: tingkat pendidikan

Tipe-tipe data dapat ditampilkan dalam beberapa bentuk dan format, yaitu:

Structured data: data yang diatur dalam format terstruktur, seperti tabel atau basis data.

Unstructured data: data yang tidak memiliki format teratur, seperti teks, gambar, atau radio.

Semi-structured data: data yang memiliki sedikit struktur, seperti XML atau JSON.

Sumber Data

Data berasal dari dua sumber, yaitu sumber internal dan sumber eksternal. Sumber internal
adalah data yang dihasilkan dari dalam organisasi seperti data transaksi atau data operasional.
Contohnya adalah yang berasal dari Basis Data Pelanggan, Data Penjualan, Laporan Keuangan,
Inventaris dan Stok, Data Karyawan.
Sedangkan sumber eksternal adalah data yang diperoleh dari sumber di luar organisasi, seperti
data publik atau data dari mitra bisnis. Contohnya adalah yang berasal dari Data Pasar, Data
Pesaing, Laporan Berita dan Media, Data Pemerintah dan Regulasi, dan Data Sosial Media.

Metode Pengumpulan Data

 Survey: data dikumpulkan melalui pertanyaan langsung kepada responden

 Observation: data dikumpulkan melalui pengamatan kegiatan atau perilaku

 Experiment: data dikumpulkan melalui pengujian dan manipulasi variabel

Untuk menentukan metode pengumpulan data kita perlu memperhatikan beberapa hal sebagai
berikut:

Menentukan tujuan penelitian atau analisis. Kita perlu memahami dengan jelas apa yang ingin
kita ketahui atau kita capai melalui pengumpulan data. Kita harus mengidentifikasi pertanyaan
penelitian atau tujuan analisis.

Identifikasi tujuan data yang dibutuhkan. Sebelum mengumpulkan data kita harus menentukan
jenis data yang diperlukan untuk menjawab pertanyaan penelitian atau untuk mencapai tujuan
analisis yang akan kita lakukan. Apakah kita memerlukan data kuantitatif (angka dan statistik)
atau kualitatif (deskripsi dan wawancara).

Evaluasi ketersediaan data. Kita harus terlebih dahulu mempertimbangkan apakah data yang
kita butuhkan sudah tersedia secara eksternal atau apakah kita perlu mengumpulkan sendiri.
Apabila data yang dibutuhkan sudah tersedia, kita hanya perlu mengakses. Namun, apabila data
yang kita butuhkan belum ada, kita perlu merencanakan metode pengumpulannya.

Data Exploration and Visualization

Teknik Exploratory Data Analysis (EDA) adalah suatu proses penyelidikan dan pemahaman data
melalui metode grafis dan statistik. Teknik EDA memiliki beberapa teknik yang meliputi:

 Statistik Deskriptif, yaitu menggambarkan dan menggali wawasan tentang data melalui
ukuran pusat, ukuran penyebaran, dan visualisasi grafis.

 Penemuan Pola, yaitu mengidentifikasi pola, korelasi, dan hubungan dalam data melalui
teknik seperti analisis klaster, asosiasi, atau pemodelan prediktif sederhana.
Data Visualization Principles and Best Practice

Prinsip-prinsip dan praktik terbaik visualisasi data membantu mengkomunikasikan informasi


dengan efektif dan jelas. Beberapa prinsip dan praktik terbaik yang perlu diperhatikan, yaitu:

 Kejelasan.

Kita perlu memastikan bahwa visualisasi mudah dibaca, dengan penggunaan label yang
jelas dan skala yang sesuai.

 Sederhana.

Kita perlu menyederhanakan visualisasi dengan menghilangkan elemen yang tidak perlu
dan mempertahankan fokus pada pesan utama.

 Kesesuaian.

Pilih jenis visualisasi yang paling sesuai dengan jenis data dan tujuan komunikasi.

 Warna.

Kita dapat menggunakan warna dan kontras dengan hati-hati untuk memperjelas
informasi dan membedakan elemen dengan jelas.

Tools and Software for Data Exploration and Visualization

 Python libraries: Matplotlib, Seaborn, dan Plotly adalah beberapa pustaka populer dalam
python yang menyediakan fungsi untuk membuat visualisasi data.

 Tableau: software yang memungkinkan pengguna untuk membuat visualisasi data yang
interaktif dan mudah dipahami tanpa pengetahuan pemrograman yang mendalam.

Data Cleaning and Preprocessing

Data Quality Assessment and Data Cleaning Techniques

Penilaian kualitas data adalah proses evaluasi terhadap data untuk mengidentifikasi masalah
dan kekurangan teknik pembersihan data atau data cleaning, yang meliputi:

 Duplikasi: menghapus duplikat data yang tidak diperlukan.

 Validasi: memeriksa integritas data dan memastikan kesesuaian dengan aturan atau
batasan tertentu.

 Standarisasi: Mengubah data ke format standar yang konsisten.


 Formatting: Mengubah format data agar sesuai dengan kebutuhan analisis.

 Handling Missing Data, Outliers, and Inconsistencies

 Data Imputation: mengisi niali yang hilang dengan nilai yang dapat diperkirakan
berdasarkan metode statistik atau pemodelan.

 Outlier Treatment: mengidentifikasi dan menangani outlier dengan teknik seperti


penghapusan, subtitusi, atau transformasi data.

 Data Consistency Check: memeriksa kesesuaian data dengan aturan atau kriteria
tertentu dan menangani inkonsistensi apabila ditemukan.

Data Transformation and Normalization

Transformasi dan normalisasi data adalah langkah untuk mengubah data ke dalam format yang
lebih cocok untuk analisis. Beberapa teknik yang umum digunakan meliputi:

 Log Transform: mengubah data dengan skala besar menjadi distribusi yang lebih normal
dengan menggunakan logaritma.

 Min-Max Scaling: mengubah data menjadi rentang nilai tertentu, umunya antara 0 dan 1.

 Standardization: mengubah data menjadi distribusi standar dengan rata-rata 0 dan


deviasi standar 1.

Data Integration and Data Fusion

Integrasi data adalah proses menggabungkan data dari sumber yang berbeda menjadi suatu
dataset yang utuh. Sedangkan data fusion atau penggabungan data adalah sebuah proses
menggabungkan data yang redundan atau saling melengkapi untuk menghasilkan dataset yang
lebih lengkap dan akurat.

Teknik dan algoritma yang digunakan dalam integrasi dan penggabungan data meliputi
perbandingan, korelasi, dan pencocokan data.

Anda mungkin juga menyukai