Pertemuan 4 - IDE Dan Sumber Data Pada Data Science
Pertemuan 4 - IDE Dan Sumber Data Pada Data Science
a. Sintaks yang Bersih dan Mudah Dibaca: Membuatnya ideal untuk pemula.
b. Library yang Luas: Libraries seperti NumPy untuk manipulasi array, Pandas
untuk manipulasi data frame, Matplotlib dan Seaborn untuk visualisasi data,
Scikit-learn untuk machine learning, dan TensorFlow dan PyTorch untuk
deep learning.
c. Komunitas Besar: Memberikan dukungan yang luas dan beragam sumber
belajar.
d. Fleksibilitas: Bisa digunakan untuk berbagai tugas dari analisis data hingga
pengembangan web (menggunakan frameworks seperti Django atau Flask)
dan scripting.
Tools yang digunakan
Jika terjadi kendala check status atau beberapa perintah tidak berfungsi dengan baik,
lakukan perubahan atau penambahan pada Environment Variables. Pada:
Start Menu Edit the system Environment Variables Environment Variables User
Variables Path edit isi bagian lokasi folder Script python.
• Contoh: C:\Users\KAPRODI-SI\AppData\Local\Programs\Python\Python310\Scripts
Install Library Python
1. Untuk melakukan install library python dapat menggunakan perintah: pip install
<namalibrary>, contoh langkah install library pada tools Visual Studio Code:
2. Buka Lembar Kerja baru pada Visual Studio Code
3. Pilih View Terminal, kemudian masukkan perintah: pip install <namalibrary>
4. Untuk mengetahui perintah apa saja yang ada pada pip bisa memasukkan perintah
“pip” pada terminal;
5. Install library numpy: Pip install numpy
6. Lakukan langkah yang sama pada instal 3 library lainnya yaitu: Pandas, Matplotlib,
Seaborn
Sumber Data
Data Primer dalam Data Science
Dalam data science, data primer adalah data yang dikumpulkan secara
langsung oleh peneliti atau analis untuk tujuan spesifik proyek atau analisis
mereka. Pengumpulan data primer biasanya dilakukan ketika data yang ada (data
sekunder) tidak memadai, tidak relevan, atau tidak tersedia untuk kebutuhan
penelitian khusus tersebut. Data primer sangat berharga karena dapat disesuaikan
dengan kebutuhan khusus suatu proyek dan cenderung lebih akurat dan relevan.
Data primer dapat dikumpulkan melalui berbagai metode seperti : Survei dan
Kuesioner, Wawancara, Observasi
Data Sekunder dalam Data Science
Dalam konteks data science, "data sekunder" merupakan data yang sudah
dikumpulkan dan diproses oleh pihak lain dan tidak secara khusus dikumpulkan
untuk tujuan penelitian atau analisis saat ini. Penggunaan data sekunder sering
menjadi pilihan yang efisien dalam hal waktu dan biaya, terutama dalam proyek-
proyek data science yang memerlukan akses ke dataset besar atau longitudinal.
Keuntungan :
a. Hemat Waktu dan Biaya: Mengumpulkan data primer bisa sangat mahal dan
memakan waktu; data sekunder menyediakan akses cepat ke data.
b. Akses ke Dataset yang Luas: Memungkinkan analisis terhadap data yang
mungkin terlalu besar atau kompleks untuk dikumpulkan sendiri.
c. Studi Longitudinal: Memungkinkan analisis tren jangka panjang
menggunakan data yang telah dikumpulkan selama bertahun-tahun.
Data Sekunder dalam Data Science (Lanjutan)
Keterbatasan :
a. Relevansi dan Ketepatan: Mungkin tidak sepenuhnya sesuai dengan
kebutuhan spesifik atau pertanyaan penelitian.
b. Kualitas dan Konsistensi: Variabilitas dalam cara data dikumpulkan dan
diproses oleh sumber aslinya bisa mempengaruhi kualitas.
c. Keterbatasan Akses: Beberapa data mungkin terbatas atau memiliki
pembatasan dalam hal penggunaannya.
Salah satu cara untuk mendapatkan data sekunder dalam data science yaitu
dengan cara mencari dataset yang bersifat public seperti pada:
1. Kaggle: https://www.kaggle.com/
2. UCI Machine Learning Repository: https://archive.ics.uci.edu/
3. Satu Data Indonesia https://katalog.data.go.id/
Mengumpulkan Data – Dataset Cars4u
Salah satu data yang akan digunakan pada Latihan pembelajaran data science ini
yaitu dataset mobil (Data Sekunder), Dalam dataset ini akan mencoba
menganalisis harga mobil bekas , data dapat diunduh pada:
1. Link Dataset: https://www.kaggle.com/datasets/sukhmanibedi/cars4u
2. Nama Datase: Cars4u
3. Jumlah attribute: 14
4. Format: csv
Mengubah Text Editor Visual Studio Code menjadi
Jupyter Notebook (Optional)
Buka aplikasi VS Code
pilih File open folder (pilih folder lokasi penyimpanan dataset)
Tambahkan extension Jupyter notebook install