100% menganggap dokumen ini bermanfaat (1 suara)
378 tayangan16 halaman

Pertemuan 4 - IDE Dan Sumber Data Pada Data Science

Diunggah oleh

saghifa.sff
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
100% menganggap dokumen ini bermanfaat (1 suara)
378 tayangan16 halaman

Pertemuan 4 - IDE Dan Sumber Data Pada Data Science

Diunggah oleh

saghifa.sff
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 16

Pertemuan 4

ALGORITMA DATA SCIENCE


Integrated Development Environment (IDE) dan
Sumber data pada Data Science
Pengantar Bahasa Pemrograman Dalam Data Science

Pengolahan data dalam Data Science diperlukan sebuah bahasa pemrograman,


Bahasa pemrograman yang umum digunakan dalam bidang data science meliputi:
1. Python: Sangat populer di kalangan data scientist karena memiliki kemudahan
penggunaannya, library yang luas seperti Pandas, NumPy, Scikit-learn,
TensorFlow, dan PyTorch, serta memiliki komunitas yang besar.
2. R: Khusus dirancang untuk statistik dan visualisasi data. R memiliki banyak
paket seperti ggplot2, dplyr, dan shiny yang sangat berguna untuk analisis data
dan visualisasi.
Pengantar Bahasa Pemrograman Dalam Data Science
(Lanjutan)
3. Julia: Bahasa yang relatif baru dan dirancang khusus untuk komputasi
numerik dan data science. Julia menggabungkan kemudahan pemrograman
dengan kecepatan yang mendekati bahasa pemrograman tingkat rendah
seperti C.
4. Java/Scala: Terutama digunakan dalam lingkungan big data, terutama dengan
alat-alat seperti Apache Spark. Scala, yang berjalan di atas JVM (Java Virtual
Machine), sangat populer dalam pengembangan big data.

Dalam pembelajaran ini akan menggunakan bahasa pemrograman Python yang


merupakan salah satu bahasa pemrograman yang populer digunakan dalam data
science.
Kelebihan Bahasa Pemrograman Python pada Data Science

a. Sintaks yang Bersih dan Mudah Dibaca: Membuatnya ideal untuk pemula.
b. Library yang Luas: Libraries seperti NumPy untuk manipulasi array, Pandas
untuk manipulasi data frame, Matplotlib dan Seaborn untuk visualisasi data,
Scikit-learn untuk machine learning, dan TensorFlow dan PyTorch untuk
deep learning.
c. Komunitas Besar: Memberikan dukungan yang luas dan beragam sumber
belajar.
d. Fleksibilitas: Bisa digunakan untuk berbagai tugas dari analisis data hingga
pengembangan web (menggunakan frameworks seperti Django atau Flask)
dan scripting.
Tools yang digunakan

Dalam pembelajaran ini akan menggunakan beberapa tools untuk mendukung


proses pembelajaran:
1. Python (https://www.python.org/downloads/)
2. Development Environment
tools untuk Development Environment yang dapat digunakan adalah:
a. Google Colab (https://colab.research.google.com/)
b. Visual Studio Code (https://code.visualstudio.com/download)
c. Tools Lainnya seperti Jupyter Notebook, Anaconda dan lainnya.
3. Library Python
a. NumPy
b. Pandas
c. Matplotlib
d. Seaborn
Install Python

1. Download Python pada https://www.python.org/downloads/, pilih sesuai


dari versi windows yang dipergunakan maka pilih versi stabil (stable version)
yang akan didownload.
2. Buka (dengan melakukan klik 2x) file installer python yang baru saja
didownload, ikuti langkah instalasi sampai selesai.
3. Cek status instalasi python dengan membuka promp command  ketikkan
“python” atau python3

Jika terjadi kendala check status atau beberapa perintah tidak berfungsi dengan baik,
lakukan perubahan atau penambahan pada Environment Variables. Pada:
Start Menu  Edit the system Environment Variables  Environment Variables  User
Variables Path  edit  isi bagian lokasi folder Script python.
• Contoh: C:\Users\KAPRODI-SI\AppData\Local\Programs\Python\Python310\Scripts
Install Library Python

1. Untuk melakukan install library python dapat menggunakan perintah: pip install
<namalibrary>, contoh langkah install library pada tools Visual Studio Code:
2. Buka Lembar Kerja baru pada Visual Studio Code
3. Pilih View  Terminal, kemudian masukkan perintah: pip install <namalibrary>
4. Untuk mengetahui perintah apa saja yang ada pada pip bisa memasukkan perintah
“pip” pada terminal;
5. Install library numpy: Pip install numpy

6. Lakukan langkah yang sama pada instal 3 library lainnya yaitu: Pandas, Matplotlib,
Seaborn
Sumber Data
Data Primer dalam Data Science

Dalam data science, data primer adalah data yang dikumpulkan secara
langsung oleh peneliti atau analis untuk tujuan spesifik proyek atau analisis
mereka. Pengumpulan data primer biasanya dilakukan ketika data yang ada (data
sekunder) tidak memadai, tidak relevan, atau tidak tersedia untuk kebutuhan
penelitian khusus tersebut. Data primer sangat berharga karena dapat disesuaikan
dengan kebutuhan khusus suatu proyek dan cenderung lebih akurat dan relevan.
Data primer dapat dikumpulkan melalui berbagai metode seperti : Survei dan
Kuesioner, Wawancara, Observasi
Data Sekunder dalam Data Science

Dalam konteks data science, "data sekunder" merupakan data yang sudah
dikumpulkan dan diproses oleh pihak lain dan tidak secara khusus dikumpulkan
untuk tujuan penelitian atau analisis saat ini. Penggunaan data sekunder sering
menjadi pilihan yang efisien dalam hal waktu dan biaya, terutama dalam proyek-
proyek data science yang memerlukan akses ke dataset besar atau longitudinal.

Keuntungan :
a. Hemat Waktu dan Biaya: Mengumpulkan data primer bisa sangat mahal dan
memakan waktu; data sekunder menyediakan akses cepat ke data.
b. Akses ke Dataset yang Luas: Memungkinkan analisis terhadap data yang
mungkin terlalu besar atau kompleks untuk dikumpulkan sendiri.
c. Studi Longitudinal: Memungkinkan analisis tren jangka panjang
menggunakan data yang telah dikumpulkan selama bertahun-tahun.
Data Sekunder dalam Data Science (Lanjutan)
Keterbatasan :
a. Relevansi dan Ketepatan: Mungkin tidak sepenuhnya sesuai dengan
kebutuhan spesifik atau pertanyaan penelitian.
b. Kualitas dan Konsistensi: Variabilitas dalam cara data dikumpulkan dan
diproses oleh sumber aslinya bisa mempengaruhi kualitas.
c. Keterbatasan Akses: Beberapa data mungkin terbatas atau memiliki
pembatasan dalam hal penggunaannya.

Salah satu cara untuk mendapatkan data sekunder dalam data science yaitu
dengan cara mencari dataset yang bersifat public seperti pada:
1. Kaggle: https://www.kaggle.com/
2. UCI Machine Learning Repository: https://archive.ics.uci.edu/
3. Satu Data Indonesia https://katalog.data.go.id/
Mengumpulkan Data – Dataset Cars4u
Salah satu data yang akan digunakan pada Latihan pembelajaran data science ini
yaitu dataset mobil (Data Sekunder), Dalam dataset ini akan mencoba
menganalisis harga mobil bekas , data dapat diunduh pada:
1. Link Dataset: https://www.kaggle.com/datasets/sukhmanibedi/cars4u
2. Nama Datase: Cars4u
3. Jumlah attribute: 14
4. Format: csv
Mengubah Text Editor Visual Studio Code menjadi
Jupyter Notebook (Optional)
 Buka aplikasi VS Code
pilih File  open folder (pilih folder lokasi penyimpanan dataset)
 Tambahkan extension Jupyter notebook  install

 Tambahkan file baru dengan nama : LatihanDTS (format ipnyb)


 File  New File  pilih Jupyter notebook
Tugas

1. Pastikan semua perangkat Komputer mahasiswa sudah terinstall Tools dan


Library yang dibutuhkan
2. Membuat Kelompok dengan Maksimal anggota 5
3. Lakukan praktik pencarian data sekunder untuk digunakan sebagai referensi
sumber data pada tugas utama matakuliah Algoritma Data Science
4. Tugas dikumpulkan dan didiskusikan pada pertemuan 9 sesuai dengan
Template yang ditentukan
Ketentuan Proyek Akhir Matakuliah

1. Presentasi Proyek Akhir dilakukan di pertemuan 10-16 dengan ketentuan


sebagai berikut :
a. Jumlah anggota setiap kelompok Maksimal 6 anggota (optional)
tergantung jumlah mahasiswa pada kelas tersebut.
b. Isi dari final project :
Ketentuan Proyek Akhir Matakuliah

b. Masing-masing kelompok membuat paper laporan pembuatan final


project
c. Program,Paper dan Presentasi di Burning Kedalam CD
d. Masing-masing kelompok mempresentasikan hasil final projectnya.
e. Presentasi disajikan dengan media presentasi yang isinya berupa alur
logika program dan eksekusi running program
f. Penilaian di tentukan oleh dosen pengajar diruang kelas
2. Tema Projek di serahkan ke dosen pengajar di Pertemuan ke 2
3. Projek sudah bisa di kerjakan setelah di lakukan penyerahan tema kepada
dosen pengajar
4. Penilaian dilakukan oleh dosen pengajar ketika presentasi

Link Template Project: https://s.id/Template-Project-ADS

Anda mungkin juga menyukai