Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 9
Understanding Data
My Skill · Follow 4 min read · Feb 26, 2024 13
Basic Data from Data Science & Data Analysis Path
MySkill.id
Introduction to Data and Data Types
Pengertian dan Karakteristik Data
Data adalah kumpulan fakta, angka, atau informasi yang
diperoleh melalui pengamatan, pengukuran, atau pengumpulan informasi. Data memiliki karakteristik berupa:
Relevansi: data harus relevan dengan tujuan analisis
yang ingin dicapai
Akurasi: data harus akurat dan dapat dipercaya
Kelengkapan: data harus lengkap dan tidak ada yang hilang atau terlewat
Konsistensi: data harus konsisten dan tidak
bertentangan
Tipe Data
Numerical Data adalah data yang berupa angka dan
dapat dihitung. Contoh: Usia, pendapatan.
Categorical Data adalah data yang menggambarkan
kategori atau kelompok. Contoh: jenis kelamin, kategori produk.
Ordinal Data adalah data yang memiliki urutan atau
tingkatan. Contoh: tingkat pendidikan
Representasi dan Format Data
Visualisasi representasi dan format data
Sumber gambar: https://saptatunas.com/perbedaan- structured-unstructured-dan-semi-structured-data/
Tipe-tipe data dapat ditampilkan dalam beberapa bentuk dan
format, yaitu:
Structured data: data yang diatur dalam format
terstruktur, seperti tabel atau basis data.
Unstructured data: data yang tidak memiliki format
teratur, seperti teks, gambar, atau radio.
Semi-structured data: data yang memiliki sedikit
struktur, seperti XML atau JSON.
Sumber Data
Data berasal dari dua sumber, yaitu sumber internal dan
sumber eksternal. Sumber internal adalah data yang dihasilkan dari dalam organisasi seperti data transaksi atau data operasional. Contohnya adalah yang berasal dari Basis Data Pelanggan, Data Penjualan, Laporan Keuangan, Inventaris dan Stok, Data Karyawan.
Sedangkan sumber eksternal adalah data yang diperoleh
dari sumber di luar organisasi, seperti data publik atau data dari mitra bisnis. Contohnya adalah yang berasal dari Data Pasar, Data Pesaing, Laporan Berita dan Media, Data Pemerintah dan Regulasi, dan Data Sosial Media.
Metode Pengumpulan Data
1. Survey: data dikumpulkan melalui pertanyaan langsung
kepada responden
2. Observation: data dikumpulkan melalui pengamatan
kegiatan atau perilaku
3. Experiment: data dikumpulkan melalui pengujian dan
manipulasi variabel
Untuk menentukan metode pengumpulan data kita perlu
memperhatikan beberapa hal sebagai berikut:
1. Menentukan tujuan penelitian atau analisis. Kita
perlu memahami dengan jelas apa yang ingin kita ketahui atau kita capai melalui pengumpulan data. Kita harus mengidentifikasi pertanyaan penelitian atau tujuan analisis.
2. Identifikasi tujuan data yang dibutuhkan. Sebelum
mengumpulkan data kita harus menentukan jenis data yang diperlukan untuk menjawab pertanyaan penelitian atau untuk mencapai tujuan analisis yang akan kita lakukan. Apakah kita memerlukan data kuantitatif (angka dan statistik) atau kualitatif (deskripsi dan wawancara). 3. Evaluasi ketersediaan data. Kita harus terlebih dahulu mempertimbangkan apakah data yang kita butuhkan sudah tersedia secara eksternal atau apakah kita perlu mengumpulkan sendiri. Apabila data yang dibutuhkan sudah tersedia, kita hanya perlu mengakses. Namun, apabila data yang kita butuhkan belum ada, kita perlu merencanakan metode pengumpulannya.
Data Exploration and Visualization
Teknik Exploratory Data Analysis (EDA) adalah suatu proses penyelidikan dan pemahaman data melalui metode grafis dan statistik. Teknik EDA memiliki beberapa teknik yang meliputi:
1. Statistik Deskriptif, yaitu menggambarkan dan
menggali wawasan tentang data melalui ukuran pusat, ukuran penyebaran, dan visualisasi grafis.
2. Penemuan Pola, yaitu mengidentifikasi pola, korelasi,
dan hubungan dalam data melalui teknik seperti analisis klaster, asosiasi, atau pemodelan prediktif sederhana.
Data Visualization Principles and Best Practice
Prinsip-prinsip dan praktik terbaik visualisasi data
membantu mengkomunikasikan informasi dengan efektif dan jelas. Beberapa prinsip dan praktik terbaik yang perlu diperhatikan, yaitu:
1. Kejelasan. Kita perlu memastikan bahwa visualisasi
mudah dibaca, dengan penggunaan label yang jelas dan skala yang sesuai.
2. Sederhana. Kita perlu menyederhanakan visualisasi
dengan menghilangkan elemen yang tidak perlu dan mempertahankan fokus pada pesan utama.
3. Kesesuaian. Pilih jenis visualisasi yang paling sesuai
dengan jenis data dan tujuan komunikasi.
4. Warna. Kita dapat menggunakan warna dan kontras
dengan hati-hati untuk memperjelas informasi dan membedakan elemen dengan jelas.
Tools and Software for Data Exploration and Visualization
Python libraries: Matplotlib, Seaborn, dan Plotly adalah
beberapa pustaka populer dalam python yang menyediakan fungsi untuk membuat visualisasi data.
Tableau: software yang memungkinkan pengguna untuk
membuat visualisasi data yang interaktif dan mudah dipahami tanpa pengetahuan pemrograman yang mendalam. Data Cleaning and Preprocessing
Data Quality Assessment and Data Cleaning Techniques
Penilaian kualitas data adalah proses evaluasi terhadap data
untuk mengidentifikasi masalah dan kekurangan teknik pembersihan data atau data cleaning, yang meliputi:
1. Duplikasi: menghapus duplikat data yang tidak
diperlukan.
2. Validasi: memeriksa integritas data dan memastikan
kesesuaian dengan aturan atau batasan tertentu.
3. Standarisasi: Mengubah data ke format standar yang
konsisten.
4. Formatting: Mengubah format data agar sesuai dengan
kebutuhan analisis.
Handling Missing Data, Outliers, and Inconsistencies
1. Data Imputation: mengisi niali yang hilang dengan nilai
yang dapat diperkirakan berdasarkan metode statistik atau pemodelan.
2. Outlier Treatment: mengidentifikasi dan menangani
outlier dengan teknik seperti penghapusan, subtitusi, atau transformasi data. 3. Data Consistency Check: memeriksa kesesuaian data dengan aturan atau kriteria tertentu dan menangani inkonsistensi apabila ditemukan.
Data Transformation and Normalization
Transformasi dan normalisasi data adalah langkah untuk
mengubah data ke dalam format yang lebih cocok untuk analisis. Beberapa teknik yang umum digunakan meliputi:
Log Transform: mengubah data dengan skala besar
menjadi distribusi yang lebih normal dengan menggunakan logaritma.
Min-Max Scaling: mengubah data menjadi rentang nilai
tertentu, umunya antara 0 dan 1.
Standardization: mengubah data menjadi distribusi
standar dengan rata-rata 0 dan deviasi standar 1.
Data Integration and Data Fusion
Integrasi data adalah proses menggabungkan data dari
sumber yang berbeda menjadi suatu dataset yang utuh. Sedangkan data fusion atau penggabungan data adalah sebuah proses menggabungkan data yang redundan atau saling melengkapi untuk menghasilkan dataset yang lebih lengkap dan akurat. Teknik dan algoritma yang digunakan dalam integrasi dan penggabungan data meliputi perbandingan, korelasi, dan pencocokan data.