0% menganggap dokumen ini bermanfaat (0 suara)
140 tayangan149 halaman

Modul Algoritma Data Science

Dokumen ini membahas pengantar data science dan sejarahnya. Data science adalah ilmu yang mempelajari teknik ekstraksi data untuk menghasilkan pengetahuan. Data science terdiri dari beberapa tahapan seperti pengumpulan, pengolahan, dan analisis data.

Diunggah oleh

rflapriandi
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
140 tayangan149 halaman

Modul Algoritma Data Science

Dokumen ini membahas pengantar data science dan sejarahnya. Data science adalah ilmu yang mempelajari teknik ekstraksi data untuk menghasilkan pengetahuan. Data science terdiri dari beberapa tahapan seperti pengumpulan, pengolahan, dan analisis data.

Diunggah oleh

rflapriandi
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 149

Algoritma Data Science

Pertemuan 1 – Pengantar Data Science


Pengantar Data Science
Data science merupakan ilmu pengetahuan multidisiplin yang secara
khusus mempelajari data terutama yang sifatnya kuantitatif. Selain itu
data science dapat pula didefisnisikan sebagai proses penggalian data
sehingga dihasikan produk data yang benar atau dengan kata lain, Data
Science merupakan sebuah proses untuk memproduksi pengetahuan
data (data insight). Data Science merupakan suatu proses yang
dilakukan untuk menghasilkan pengetahuan data (data insight). Data
insight merupakan sebuah simpulan yang dapat memberikan
rekomendasi atau prediksi untuk kebutuhan tertentu.
Pengantar Data Science
Data Scientist merupakan seseorang yang melakukan pengolahan data
tersebut sehingga menghasilkan pengetahuan. Data scientist adalah
seseorang yang harus mampu melakukan mining data dengan
mengekstraknya hingga menemukan data yang akurat yang dapat digunakan
oleh para pemangku kebijakan.

Seorang data scientist dituntut memiliki kreativitas dan kecerdikan dalam


menggunakan kemampuan teknisnya untuk membangun dan menemukan
solusi yang cerdas untuk setiap permasalahan.
Seorang data scientist harus mampu mengidentifikasi permasalahan,
mengumpulkan data dari berbagai sumber yang berbeda, mengatur
informasi dan menerjemahkan hasil menjadi solusi. Untuk menghasilkan
produk data yang benar data science memiliki terdiri dari tiga fase yaitu
desain data, pengumpulan data, dan analisis data.
Data is a new currency.
Kalimat tersebut akhir-akhir ini santer diperbincangkan dikaitkan
dengan pergerakan transformasi digital, mengisyaratkan betapa
bernilainya data bagi sebuah langkah strategis bisnis.
Data science dapat pula didefinisikan sebagai cabang ilmu yang
memperlajari teknik ektransi data sehingga bermakna dan logis. Dalam
data science ini juga terdiri dari beberapa tahapan kegiatan yaitu
penambangan data dan analisis data, dengan menggunakan
pengetahuan pada cabang ilmu matematika, statistik, dan teknologi
informasi, pemrograman komputer, pengenalan pola, pembelajaran
mesin
1. Machine Learning, Machine Learning adalah cabang ilmu
kecerdasan buatan (Artificial Intelligence) yang mempelajari
bagaimana dapat memberikan kemampuan belajar pada sebuah
mesin (komputer, mini komputer) dengan menggunakan algoritma
tertentu.

2. Traditional Software Merupakan cabang ilmu yang dihasilkan


dari irisan cabang ilmu komputer dengan SME (Subject Matter
Expertise). SME sendiri merupakan pengetahuan yang digunakan
untuk mengembangkan sistem yang dapat membantu proses
bisnis pada sebuah instansi. Penerapan traditional software ini
telah digunakan hampir di seluruh instansi pemerintahan maupun
swasta atau pada perusahaan, contohnya e-learning, e-library,
online banking, Point of Sales (PoS).

3. Traditional Research, Traditional research merupakan cabang


ilmu yang diperoleh dari irisan pada ilmu matematika dan
statistika dengan SME (Subject Matter Expertise). Traditional
research telah dilakukan diberbagai baik di perusahaan, instansi
serta universitas.
Sejarah Data Science
• Dimulai sejak 1962, sejarah data science memiliki perjalanan yang sangat panjang.
Berikut beberapa poin waktu dan sejarah singkatnya.

• Tahun 1962
• John Tukey menulis “The Future of Data Analysis“ yang menggambarkan pergeseran
dalam dunia statistik. Tukey mengacu pada penggabungan statistik dan komputer ketika
komputer pertama kali digunakan untuk memecahkan masalah matematika.

• Tahun 1974
• Peter Naur menerbitkan buku yang berjudul "The Concise Survey of Computer Methods".
Dalam buku tersebut, ada survei tentang metode pemrosesan data kontemporer dalam
berbagai aplikasi. Naur mendefinisikan data science sebagai ilmu yang mengelola data.
Sejarah Data Science
• Tahun 1977
• The International Association for Statistical Computing (IASC) dibentuk dengan
misi menghubungkan teknologi komputer modern, metodologi statistik
tradisional, serta pengetahuan untuk menghasilkan informasi dan pengetahuan
berbasis data.

• Tukey juga menulis “Exploratory Data Analysis” yang membahas pentingnya data
dalam menguji hipotesis. Tukey berpendapat bahwa harus ada kolaborasi antara
eksplorasi dengan analisis data konfirmatori.

• Tahun 1989
• Gregory Piatetsky-Shapiro menyelenggarakan dan memimpin workshop berjudul
"Knowledge Discovery in Databases" (KDD) untuk yang pertama kalinya.
Sejarah Data Science
• Tahun 1994
• Business Week menerbitkan "Database Marketing" yang menggambarkan
bagaimana perusahaan mengumpulkan begitu banyak informasi tentang
konsumen agar dapat diolah untuk membuat prediksi perilaku konsumen. Hasil
dari proses tersebut akan digunakan untuk menyusun pemasaran yang tepat.
Namun, masih banyak perusahaan yang kewalahan dalam mengelola banyaknya
data yang mereka miliki.

• Tahun 1996
• Untuk pertama kalinya, istilah data science dimasukkan dalam judul konferensi
oleh International Federation of Classification Societies (IFCS). Di samping itu,
Usama Fayyad, Gregory Piatetsky-Shapiro, dan Padhraic Smyth menerbitkan
“From Data Mining to Knowledge Discovery in Databases (KDD)” yang
menjabarkan keseluruhan proses untuk menemukan informasi penting dari data.
Sejarah Data Science
• Tahun 1997
• Profesor C. F. Jeff Wu dalam kuliah perdana statistik di Universitas Michigan, menyerukan agar
statistik diganti namanya menjadi data science dan ahli statistik diganti namanya menjadi data
scientist.

• Tahun 1999
• Jacob Zahavi mengatakan perlunya alat baru untuk menangani jumlah data yang sangat besar dan
terus berkembang. Dalam tulisan “Mining Data for Nuggets of Knowledge”, Zahavi menekankan
pada masalah skalabilitas dalam data mining yang menunjukkan tantangan teknis dalam
mengembangkan model untuk menganalisis data dengan lebih baik, mendeteksi hubungan
nonlinier, dan interaksi antarelemen.

• Tahun 2001
• Sejarah data science pada tahun ini adalah terciptanya Software-as-a-Service (SaaS) untuk
pertama kalinya.
Sejarah Data Science
• Tahun 2002
• International Council for Science: Committee on Data for Science and Technology mulai
menerbitkan “Data Science Journal” yang berupa platform bagi data scientist untuk saling
bertukar ide.

• Tahun 2005
• Thomas H. Davenport, Don Cohen, dan Al Jacobson menerbitkan “Competing on Analytics,” yang
mengungkapkan bahwa beberapa perusahaan mulai menggunakan analisis statistik dan
kuantitatif serta pemodelan prediktif sebagai elemen utama dalam menghadapi persaingan.
Penelitian ini kemudian diterbitkan di Harvard Business Review dan diperluas (bersama Jeanne G.
Harris) ke dalam buku "Competing on Analytics: The New Science of Winning".

• Tahun 2006
• Hadoop 0.1.0, open source database yang bersifat nonrelasional dirilis dan menjadi bagian dalam
rangkaian sejarah data science.
Sejarah Data Science
• Tahun 2008
• "Data scientist" menjadi kata kunci dan akhirnya menjadi bagian dari bahasa. DJ
Patil dan Jeff Hammerbacher dari LinkedIn dan Facebook diberi pujian karena
memulai penggunaannya sebagai kata kunci.

• Tahun 2009
• Istilah NoSQL diperkenalkan kembali oleh Johan Oskarsson ketika ia mengadakan
diskusi tentang open source database nonrelasional.

• Tahun 2010
• Drew Conway membuat “The Data Science Venn Diagram” yang mencakup
keterampilan meretas, pengetahuan matematika dan statistik, dan keahlian
substantif.
Sejarah Data Science
• Tahun 2011
• Daftar pekerjaan untuk data scientist meningkat sebesar 15.000 persen.
Ada juga peningkatan seminar dan konferensi yang dikhususkan untuk data
science dan big data. Di sisi lain, James Dixon, CTO Pentaho,
mempromosikan konsep data lakes yang mengacu pada penerimaan
informasi menggunakan database nonrelasional (NoSQL).

• Tahun 2015
• Teknik deep learning digunakan untuk membuat Google Voice. Di dalam
Google, total proyek perangkat lunak yang menggunakan AI meningkat
menjadi lebih dari 2.700 proyek sepanjang tahun.
Aplikasi Data Science dalam Industri
Analisis Foto Medis
Sektor kesehatan mendapatkan manfaat yang besar dari aplikasi Data Science
dalam pencitraan medis. Big Data Analytics in Healthcare. Menurut penelitian
tersebut, teknik pencitraan yang populer termasuk magnetic resonance imaging
(MRI), sinar-X, computed tomography, mamografi, dan sebagainya.
Berbagai metode digunakan untuk mengatasi perbedaan dalam modalitas, resolusi,
dan dimensi gambar-gambar ini, untuk meningkatkan kualitas gambar, mengekstrak
data dari gambar dengan lebih efisien, dan memberikan interpretasi yang paling
akurat. Teknik pemrosesan gambar yang paling populer berfokus pada
peningkatan, segmentasi, dan denoising yang memungkinkan analisis mendalam
tentang anatomi organ, dan deteksi berbagai kondisi penyakit.
Aplikasi yang paling menjanjikan bertujuan untuk mendeteksi tumor, stenosis
arteri, penggambaran organ, dll. Metode dan kerangka kerja yang berbeda
berkontribusi pada pencitraan medis dalam berbagai aspek. Pengindeksan citra
medis berbasis konten, dan analisis wavelet untuk klasifikasi tekstur padat.
Aplikasi Data Science dalam Industri
Deteksi penipuan di sektor keuangan. Sebagian besar bank dan
perusahaan keuangan saat ini menggunakan data science untuk
mengklasifikasikan, mengkategorikan, dan mengelompokkan data yang
dapat mengindikasikan pola penipuan. Hal ini diperlukan untuk
menghindari proses kriminalisasi yang sedang berlangsung dalam
sistem perusahaan. Sistem pakar perusahaan keuangan juga dapat
mengodekan data yang dapat mendeteksi penipuan dalam bentuk yang
tidak terduga.
Aplikasi Data Science dalam Industri
penetapan harga yang dinamis. Penetapan harga ini dibentuk oleh
bisnis e-commerce untuk mengelompokkan pelanggan atau konsumen
yang sesuai. Penetapan harga yang dinamis juga diperlukan agar setiap
kelompok pelanggan dapat menawarkan produk dengan harga yang
sesuai dengan kebutuhannya. Perhitungan harga dinamis perusahaan
biasanya mempertimbangkan berbagai kategori data, termasuk: lead
time, penilaian aset, dan fasilitas yang disediakan oleh produk.
Aplikasi Data Science dalam Industri
digunakan untuk merekrut bintang muda potensial. Mereka
menggunakan statistik dalam game yang sering diabaikan oleh tim lain
untuk memprediksi pemain potensial dan membangun tim yang kuat
dengan biaya rendah.
Data Mining
Data mining merupakan bagian penting dari analisis data dan menjadi bagian
dari disiplin ilmu data science. Dalam teknik yang lebih lanjut, data mining
termasuk proses penemuan pengetahuan dalam basis data atau yang
disebut juga Knowledge Discovery in Database (KDD). Suatu metodologi ilmu
data untuk mengumpulkan, memproses, dan menganalisis data.

Data mining adalah proses memilah-milah kumpulan data besar untuk


mengidentifikasi pola dan hubungan yang dapat membantu memecahkan
masalah bisnis melalui analisis data. Teknik data mining memungkinkan
perusahaan untuk memprediksi tren masa depan dan membuat keputusan
bisnis yang lebih tepat.
Data Mining
Selain itu, data mining juga memudahkan data scientist menganalisis
sejumlah data besar dengan cepat dan membantu perusahaan
mengumpulkan informasi yang kredibel. Data mining juga membantu
digital marketer memahami pola perilaku customer dan preferensinya,
sehingga iklan bertarget yang dilakukan efektif. Data mining juga
membantu memprediksi suatu tren yang bisa dimanfaatkan untuk
kebutuhan bisnis.
Machine Learning vs Data Mining
Machine Learning adalah proses menemukan algoritma untuk meningkatkan
pengalaman dan kemampuan sistem secara otomatis yang berasal dari data.
Machine learning mengajarkan komputer cara belajar dan memahami
parameter yang diberikan. Tujuan utamanya adalah untuk membuat model
yang dapat membuat prediksi atau klasifikasi yang akurat.

Data Mining adalah proses mengekstraksi informasi yang berguna dari


sejumlah data yang besar. Tujuannya adalah untuk menemukan pola baru,
akurat, dan berguna dalam data, mencari makna dan informasi yang relevan
untuk organisasi atau individu yang membutuhkannya. Data mining
dirancang untuk mengekstrak aturan dari data dalam jumlah besar.
Kenapa Data Mining?
1. Meningkatkan Kualitas Layanan: Dengan data mining, bisnis dapat
meningkatkan kualitas layanan.
2. Mendorong Penjualan: Data mining dapat membantu bisnis
mendorong penjualan.
3. Melakukan Analisis Risiko: Data mining memungkinkan bisnis untuk
melakukan analisis risiko.
4. Mengoptimalkan Pengeluaran: Data mining dapat membantu bisnis
mengoptimalkan pengeluaran mereka.
Kenapa Data Mining?
5. Memahami Konsumen: Data mining membantu bisnis memahami
konsumen mereka lebih baik.
6. Memastikan Produksi Berjalan Baik: Data mining dapat membantu
bisnis memastikan bahwa produksi mereka berjalan dengan baik.
7. Mengelola Pasokan Bahan Baku: Data mining dapat membantu
bisnis mengelola pasokan bahan baku mereka dengan lebih baik.
Fungsi Data Mining
1. Descriptive: Memahami lebih jauh tentang data yang diamati lalu
data tersebut dan mengetahui karakteristik dari data yang
dimaksud.

2. Predictive: Menemukan pola tertentu dari suatu data, pola-pola


yang telah dapat digunakan untuk memprediksi variabel lainnya
yang belum diketahui nilainya ataupun jenisnya.
Tahapan dalam data science - The Cross-industry
standard process for data mining (CRISP-DM)
Business
Data Understanding Data Preparation
Understanding

Deployment Evaluation Modeling

1. Business Understanding: Tahap ini melibatkan pemahaman tujuan dan persyaratan proyek data mining dari
perspektif bisnis, dan kemudian mengubah tujuan ini menjadi definisi masalah data mining.
2. Data Understanding:Tahap ini melibatkan pembersihan data, transformasi data, dan seleksi fitur.
3.Data Preparation: Pada tahap ini, penggalian dan pemeriksaan data dilakukan untuk memahami pola dan tren
dalam data.
4. Modeling:. Tahap ini melibatkan pemilihan teknik pemodelan yang sesuai, desain tes, dan pembuatan model atau
model menggunakan teknik yang dipilih
5. Evaluation: Tahap ini melibatkan penilaian model atau model dalam konteks tujuan bisnis.
6. Deployment: Tahap ini melibatkan implementasi model ke dalam sistem operasional, pengaturan rencana
pemeliharaan, dan pengaturan pemantauan model.
Latihan Soal
1. Apa itu Data Science?
a. Ilmu yang mempelajari data terutama yang sifatnya kuantitatif
b. Proses penggalian data
c. Proses untuk memproduksi pengetahuan data (data insight)
d. Semua jawaban benar
e. Tidak ada jawaban yang benar
2. Apa itu Data Insight?
a. Sebuah simpulan yang dapat memberikan rekomendasi atau prediksi untuk kebutuhan tertentu
b. Proses penggalian data
c. Ilmu yang mempelajari data terutama yang sifatnya kuantitatif
d. Semua jawaban benar
e. Tidak ada jawaban yang benar
Latihan Soal
3. Apa peran seorang Data Scientist?
a. Melakukan pengolahan data sehingga menghasilkan pengetahuan
b. Melakukan mining data dengan mengekstraknya hingga menemukan data yang akurat
c. Mengidentifikasi permasalahan, mengumpulkan data dari berbagai sumber yang berbeda, mengatur
informasi dan menerjemahkan hasil menjadi solusi
d. Semua jawaban benar
e. Tidak ada jawaban yang benar
4. Berapa tahap yang ada dalam proses data science untuk menghasilkan produk data yang benar?
a. Satu
b. Dua
c. Tiga
d. Empat
e. Lima
Latihan Soal
5. Apa yang dimaksud dengan transformasi digital dalam konteks data science?
a. Proses penggalian data
b. Proses untuk memproduksi pengetahuan data (data insight)
c. Pergerakan yang mengisyaratkan betapa bernilainya data bagi sebuah langkah strategis bisnis
d. Semua jawaban benar
e. Tidak ada jawaban yang benar
ALGORITMA DATA SCIENCE
Pertemuan 2 – Data Science, Statistika dan Aljabar Linier
Statistika dan Data Science
Data science merupakan gabungan dari berbagai bidang ilmu, termasuk
matematika, statistika, ilmu komputer, ilmu manajemen, dan ilmu
komunikasi. Statistika dan data science saling terkait erat.

Statistika adalah ilmu yang mempelajari data dan peluang, dan merupakan
penunjang utama dalam data science. Statistika membantu dalam
mengumpulkan, menganalisis, dan mempresentasikan data.

Sementara itu, data science adalah ilmu yang mempelajari data secara lebih
mendalam, termasuk mengolah, menganalisis, mendistribusikan data, dan
mengubah data menjadi informasi.
Statistika dan Data Science
Dalam data science, statistika digunakan sebagai inti dari algoritma
machine learning yang canggih, menangkap dan menerjemahkan pola
data menjadi bukti yang dapat ditindaklanjuti.

Data science menggunakan statistika untuk mengumpulkan, meninjau,


menganalisa dan menarik kesimpulan dari data, serta menerapkan
model matematika yang diukur ke variabel yang sesuai. Jadi, meskipun
statistika dan data science memiliki perbedaan dalam konsep, ukuran
data, jenis masalah yang dipelajari, dan proses pemodelannya,
keduanya sama-sama bertujuan untuk mendapatkan informasi dari
data.
Statistika dan Data Science
1. Statistik Deskriptif:
- Mean (Rata-Rata): Nilai yang didapatkan dari penjumlahan seluruh data yang
dibagi dengan jumlah data tersebut atau rata-rata.
- Median: Nilai tengah dalam suatu rangkaian data.
- Mode: Nilai yang paling sering muncul dalam kumpulan data.
- Range (Rentang): Selisih antara nilai maksimum dan minimum dalam
kumpulan data.
- Variance (Varians): Rata-rata dari kuadrat selisih setiap nilai data dan mean.
- Standard Deviation (Simpangan Baku): Akar kuadrat dari varians, membantu
kita memahami variasi dalam kumpulan data. Semakin besar
simpangan bakunya, semakin besar pula variasi data tersebut
Statistika dan Data Science
2. Statistik Inferensial:
- Digunakan untuk membuat kesimpulan atau prediksi dari data¹.

3. Distribusi Probabilitas:
- Digunakan untuk menghitung probabilitas peluang, atau teknik
pengurangan dimensi, over and under sampling, hingga teknik bayesian
statistik.

Semua rumus ini memiliki peran penting dalam analisis data dan membantu
dalam pengambilan keputusan berdasarkan data tersebut. Meskipun
sederhana, mereka merupakan fondasi penting dalam dunia data science
dan statistika.
Distribusi Probabilitas
Konsep ini berkaitan dengan kemungkinan hasil tertentu dalam suatu
eksperimen atau survey. Konsep bayesian merupakan konsep yang
menjelaskan penggunaan probabilitas untuk memodelkan proses
pengambilan sampel dan mengontrol situasi tidak pasti sebelum proses
pengumpulan data dilakukan.
Dalam konsep bayesian, tingkat ketidakpastian sebelum
mengumpulkan data disebut dengan probabilitas prior. Probabilitas ini
akan diperbarui menjadi probabilitas posterior setelah data berhasil
dikumpulkan.
Distribusi Probabilitas
Konsep bayesian merupakan konsep utama dalam model machine
learning sehingga seorang calon data scientist harus benar-benar
memahami konsep ini.

Distribusi Probabilitas yang umum digunakan adalah:


1. Distribusi Probabilitas Kumulatif atau Distribusi Probabilitas Normal:
Distribusi ini digunakan untuk menggambarkan variabel acak yang
berkelanjutan
2. Distribusi Probabilitas Diskrit atau Distribusi Probabilitas Binomial:
Distribusi ini digunakan untuk menggambarkan variabel acak yang
diskrit, seperti hasil dari pelemparan koin atau dadu.
Distribusi Probabilitas Normal
Distribusi normal adalah salah satu jenis distribusi probabilitas yang paling
sering digunakan dalam analisis statistik. Berikut adalah rumus fungsi
kepadatan peluang distribusi normal untuk peubah acak X²:

Keterangan:
x adalah peubah acak kontinu dan −∞⩽x⩽∞
Distribusi normal memiliki dua parameter yaitu mean μ dan varian σ2 dimana
−∞⩽μ⩽∞ dan σ2>0. Dengan demikian fungsi f(x;μ,σ2) dapat dibaca bahwa
peubah acak x mengikuti distribusi normal dengan rata-rata μ dan varian σ2,
dan dapat ditulis menjadi X∼N(μ,σ2).
Penerapan Distribusi Probabilitas Normal
Industri: PT X mengklaim berat buah mangga “B” adalah 350 gram dengan
standar deviasi 50 gram. Jika berat mangga mengikuti distribusi normal, kita
bisa menghitung probabilitas bahwa berat buah mangga mencapai kurang
dari 250 gram, sehingga akan diprotes oleh konsumen.
Pendidikan: Distribusi normal sering digunakan untuk menilai skor tes
seperti IQ2. Misalnya, jika skor IQ mengikuti distribusi normal dengan rata-
rata 100 dan standar deviasi 15, kita bisa menghitung probabilitas seseorang
memiliki IQ di atas 130 (sering dianggap sebagai ambang batas untuk
‘kecerdasan yang sangat tinggi’).
Kesehatan: Dalam bidang kesehatan, distribusi normal sering digunakan
untuk memodelkan variabel seperti tekanan darah atau tinggi badan dalam
populasi.
Penerapan Distribusi Probabilitas Diskrit
Ujian: Misalnya, seorang siswa menjawab 10 pertanyaan pilihan ganda dan
setiap pertanyaan memiliki empat pilihan jawaban. Jika siswa menebak
semua jawaban, probabilitas mendapatkan jawaban yang benar bisa dihitung
menggunakan distribusi binomial2.
Kualitas Kontrol: Dalam industri manufaktur, distribusi binomial bisa
digunakan untuk menghitung probabilitas cacat produk. Misalnya, jika
probabilitas sebuah produk cacat adalah 0.05, maka kita bisa menghitung
probabilitas mendapatkan 0, 1, 2, …, n produk cacat dalam sampel n
produk2.
Ekonomi: Misalnya, distribusi pendapatan perekonomian negara antara
negara miskin dan kaya.
Pendidikan: Misalnya, penilaian Intelligent Quotient Level pada anak.
Bisnis: Misalnya, berapa peluang meraih untung dari investasi di reksa dana.
Fungsi Analisis Distribusi
1. Mengidentifikasi Karakteristik Data: Distribusi data menjelaskan
bagaimana nilai-nilai atau data dalam satu set tersebar di sepanjang rentang
nilai¹. Dengan memahami distribusi data, kita dapat mengetahui ciri-ciri unik
data kita dan membantu kita mengambil kesimpulan lebih jelas tentang
suatu populasi atau fenomena.

2. Membantu dalam Pengambilan Keputusan: Distribusi data dapat


membantu kita dalam membuat keputusan berdasarkan data. Misalnya, jika
kita memiliki data tentang tinggi badan semua teman sekelas, kita mungkin
ingin tahu bagaimana sebaran tinggi badan mereka. Apakah mayoritas
teman kita tingginya di sekitar rata-rata, atau ada yang super tinggi atau
super pendek?
Fungsi Analisis Distribusi
3. Pemilihan Metode Analisis yang Tepat: Mengetahui distribusi data
sangat krusial dalam menentukan metode analisis yang tepat.
Beberapa metode statistika mensyaratkan data yang digunakan harus
memiliki distribusi tertentu. Oleh karena itu, untuk bisa menentukan
metode mana yang akan digunakan, kita harus menyesuaikan dengan
distribusi yang dimiliki oleh data.

4. Simulasi dan Prediksi: Distribusi data juga digunakan dalam simulasi


dan prediksi. Misalnya, dalam dunia komputer, kita sering
menggunakan distribusi uniform untuk membuat angka acak dengan
peluang yang sama di antara dua nilai tertentu.
Regresi
Regresi dalam data science adalah metode matematika yang
memungkinkan ilmuwan data untuk memprediksi hasil kontinu (y)
berdasarkan nilai satu atau lebih variabel prediktor (x). Regresi
digunakan saat Anda mencoba menemukan hubungan antara variabel.
Dalam Machine Learning dan pemodelan statistik, hubungan tersebut
digunakan untuk memprediksi hasil dari peristiwa lampau.
Secara umum, regresi adalah metode analisis yang menyelidiki
hubungan antara dua variabel, yaitu variabel dependen dan variabel
independen. Metode ini digunakan untuk memprediksi nilai kontinyu,
seperti mengestimasi kadar emisi CO2 dari mesin mobil, memprediksi
harga rumah berdasarkan karakteristiknya, mengetahui pengaruh
promosi terhadap nilai penjualan, dan sebagainya.
Regresi
Ada dua tipe regresi utama yang sering digunakan dalam data science, yaitu
regresi linier dan regresi non-linier:
1. Regresi Linier: Regresi ini akan mengacu pada satu variabel independen
(X1) untuk membuat prediksi (y).
2. Regresi Non-Linier: Regresi ini akan mengacu pada dua atau lebih variabel
independen (X1) untuk membuat prediksi (y).

Regresi digunakan dalam berbagai situasi, seperti memprediksi penjualan


berdasarkan faktor-faktor seperti pengenalan produk baru, perubahan
demografi, hingga strategi pemasaran. Selain itu, regresi juga digunakan saat
memerlukan perkiraan efek paparan atas hasil yang diberikan, harus
memprediksi hasil hanya dengan variabel yang telah diketahui,
menyeimbangkan kelompok yang berbeda, membuat contoh model untuk
menggantikan data yang hilang, dan muncul rekaman data yang tidak biasa.
Aljabar Linier dalam Data Science
Secara umum, aljabar linier merupakan salah satu pondasi penting dalam
data science. Dengan memahami konsep-konsep dalam aljabar linier,
ilmuwan data dapat mengembangkan model yang lebih efisien dan efektif.
Berikut adalah beberapa penerapannya:

1. Matriks dan Operasi Matriks: Aljabar linier sangat bergantung pada


penggunaan matriks dan operasi matriks. Data untuk setiap model Machine
Learning umumnya disimpan dalam bentuk vektor dan matriks, dan nilai
yang terkandung dianggap sebagai koefisien persamaan linier.

2. Menyelesaikan Persamaan Linier: Aljabar linier digunakan untuk


menyelesaikan persamaan linier simultan. Ini sangat penting dalam
pembelajaran mesin dan algoritma data science lainnya.
Aljabar Linier dalam Data Science
3. Transformasi Linier: Aljabar linier mendefinisikan studi tentang
vektor, matriks, bidang, pemetaan, dan garis yang diperlukan untuk
transformasi linier. Transformasi ini berperan penting dalam
pembelajaran mesin sehingga algoritma Machine Learning dapat
beroperasi pada kumpulan data dalam jumlah besar.

4. Optimasi: Aljabar linier juga digunakan dalam permasalahan


optimasi yang melibatkan matriks. Optimasi adalah bagian penting dari
banyak algoritma data science.
Matriks
Secara umum, matriks memainkan peran penting dalam data science, mulai
dari penyimpanan dan transformasi data hingga evaluasi model. Matriks
dalam data science memiliki beberapa fungsi penting:
1. Penyimpanan Data: Dalam data science, data biasanya disimpan dalam
bentuk matriks. Setiap baris dalam matriks mewakili satu sampel data, dan
setiap kolom mewakili satu fitur.
2. Operasi Matriks: Operasi matriks seperti penjumlahan, pengurangan,
perkalian, dan pembagian digunakan dalam berbagai algoritma machine
learning.
3. Transformasi Data: Matriks digunakan untuk melakukan transformasi
data. Misalnya, dalam Principal Component Analysis (PCA), matriks
kovariansi dari data digunakan untuk mengubah basis data ke basis yang
baru.
Matriks
4. Analisis Data: Matriks juga digunakan dalam analisis data. Misalnya,
dalam teknik analisis data seperti Matriks BCG, matriks digunakan
untuk membantu perusahaan dalam menganalisis serta mengelola unit
usaha dan lini produknya.

5. Evaluasi Model: Dalam machine learning, matriks seperti confusion


matrix digunakan untuk mengevaluasi performa model.
Data Frame
DataFrame adalah struktur data 2 dimensi yang berbentuk tabular, yang
terdiri dari baris dan kolom. DataFrame dapat menyimpan berbagai jenis
data, seperti angka, string, dan lainnya. Setiap kolom pada DataFrame
merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada
Series.

DataFrame sangat berguna dalam analisis data dan ilmu data karena
memudahkan dalam mengelola dan menganalisis data dalam format tabular.
Dengan DataFrame, Anda dapat memfilter data, melakukan operasi
aritmatika, melakukan agregasi data, dan banyak lainnya. Selain itu,
DataFrame juga terintegrasi dengan baik dengan library Python lainnya,
seperti Pandas, yang memungkinkan manipulasi, pengorganisasian, dan
pembersihan data menjadi lebih mudah.
Matriks dan Data Frame
Matriks dan DataFrame adalah dua struktur data yang sering digunakan dalam
analisis data dan data science. Secara umum, matriks dan DataFrame adalah dua
struktur data yang saling melengkapi dan keduanya penting dalam berbagai aplikasi
analisis data dan data science. Berikut adalah hubungan antara keduanya:

1. Representasi Data: Baik matriks maupun DataFrame digunakan untuk


menyimpan dan memanipulasi data dalam format tabular atau grid. Matriks
biasanya digunakan untuk data numerik, sedangkan DataFrame dapat menampung
berbagai jenis data, seperti angka, string, dan lainnya.

2. Struktur: Matriks adalah array dua dimensi di mana setiap elemen memiliki tipe
data yang sama. DataFrame, di sisi lain, adalah struktur data tabular yang terdiri
dari baris dan kolom, di mana setiap kolom dapat memiliki tipe data yang berbeda.
Matriks dan Data Frame
3. Manipulasi Data: DataFrame, khususnya dalam konteks library
Pandas di Python, memberikan lebih banyak fleksibilitas dan fungsi
untuk manipulasi data dibandingkan matriks. Misalnya, dengan
DataFrame, Anda dapat memfilter data, melakukan operasi aritmatika,
dan melakukan agregasi data.

4. Visualisasi Data: DataFrame juga terintegrasi dengan baik dengan


library visualisasi data seperti Seaborn, memudahkan dalam analisis
dan visualisasi data.
Latihan Soal
1. Apa yang dimaksud dengan mean?
a. Nilai yang didapatkan dari penjumlahan seluruh data yang dibagi dengan jumlah data tersebut atau
rata-rata
b. Nilai tengah dalam suatu rangkaian data
c. Nilai yang paling sering muncul dalam kumpulan data
d. Selisih antara nilai maksimum dan minimum dalam kumpulan data
e. Rata-rata dari kuadrat selisih setiap nilai data dan mean.
2. Apa yang dimaksud dengan median?
a. Nilai yang didapatkan dari penjumlahan seluruh data yang dibagi dengan jumlah data tersebut atau rata-rata
b. Nilai tengah dalam suatu rangkaian data
c. Nilai yang paling sering muncul dalam kumpulan data
d. Selisih antara nilai maksimum dan minimum dalam kumpulan data
e. Rata-rata dari kuadrat selisih setiap nilai data dan mean
Latihan Soal
1. Apa yang dimaksud dengan mean?
a. Nilai yang didapatkan dari penjumlahan seluruh data yang dibagi dengan jumlah data tersebut atau
rata-rata
b. Nilai tengah dalam suatu rangkaian data
c. Nilai yang paling sering muncul dalam kumpulan data
d. Selisih antara nilai maksimum dan minimum dalam kumpulan data
e. Rata-rata dari kuadrat selisih setiap nilai data dan mean.
2. Apa yang dimaksud dengan median?
a. Nilai yang didapatkan dari penjumlahan seluruh data yang dibagi dengan jumlah data tersebut atau rata-rata
b. Nilai tengah dalam suatu rangkaian data
c. Nilai yang paling sering muncul dalam kumpulan data
d. Selisih antara nilai maksimum dan minimum dalam kumpulan data
e. Rata-rata dari kuadrat selisih setiap nilai data dan mean
Latihan Soal
3. Apa yang dimaksud dengan range?
a. Nilai yang didapatkan dari penjumlahan seluruh data yang dibagi dengan jumlah data tersebut atau rata-rata
b. Nilai tengah dalam suatu rangkaian data
c. Nilai yang paling sering muncul dalam kumpulan data
d. Selisih antara nilai maksimum dan minimum dalam kumpulan data
e. Rata-rata dari kuadrat selisih setiap nilai data dan mean
4. Apa yang dimaksud dengan mode?
a. Nilai yang didapatkan dari penjumlahan seluruh data yang dibagi dengan jumlah data tersebut atau rata-rata
b. Nilai tengah dalam suatu rangkaian data
c. Nilai yang paling sering muncul dalam kumpulan data
d. Selisih antara nilai maksimum dan minimum dalam kumpulan data
e. Rata-rata dari kuadrat selisih setiap nilai data dan mean
Latihan Soal
5. Apa yang dimaksud dengan variance?
a. Nilai yang didapatkan dari penjumlahan seluruh data yang dibagi dengan jumlah data tersebut atau rata-
rata
b. Nilai tengah dalam suatu rangkaian data
c. Nilai yang paling sering muncul dalam kumpulan data
d. Selisih antara nilai maksimum dan minimum dalam kumpulan data
e. Rata-rata dari kuadrat selisih setiap nilai data dan mean
ALGORITMA DATA SCIENCE
Pertemuan 3 – Transformasi Data, Hipotesa dan Model
Transformasi Data
Transformasi data dalam Python biasanya dilakukan dengan menggunakan
library seperti Pandas. Berikut adalah beberapa cara untuk melakukan
transformasi data:

1. Mengubah Tipe Data: Anda dapat mengubah tipe data pada dataframe
dengan menggunakan fungsi `astype()`.

2. Menghapus Baris: Anda dapat menghapus baris pada dataframe dengan


menggunakan fungsi `drop()`.

3. Mengubah Nama Kolom: Anda dapat merubah nama kolom pada


dataframe dengan menggunakan atribut `columns` dan metode `rename()`.
Transformasi Data
4. Menambah dan Menghapus Kolom: Anda dapat menambah dan
menghapus kolom pada dataframe.

5. Manipulasi Data: Anda dapat melakukan manipulasi data seperti


mengurutkan, memilih, dan menghapus nilai-nilai duplikat.

6. Mengubah Nilai Data: Anda dapat mentransfer nilai data ke


dataframe dengan fungsi atau mapping.
Transformasi Data
7. Mengganti Nilai yang Hilang: Anda dapat menggunakan metode
`fillna()` untuk menggantikan nilai data yang hilang.

8. Mengubah Nama Baris atau Kolom: Dengan metode `rename()`,


Anda dapat mengubah nama baris atau kolom yang Anda inginkan
dengan menggunakan struktur library.

9. Mengelompokkan Data: Anda dapat menggunakan metode `cut()`


untuk mengelompokkan data ke dalam interval tertentu.
Hipotesa
Hipotesis adalah dugaan atau pernyataan sementara yang digunakan untuk
menyelesaikan suatu permasalahan dalam penelitian yang kebenarannya
harus diuji secara empiris. Dalam konteks penelitian, hipotesis menjadi poin
yang penting karena menjadi dasar dugaan substansial dari peneliti
mengenai topik permasalahan penelitian untuk nantinya dibuktikan dalam
proses penelitian secara metodologis, ilmiah, dan empiris.
Secara singkat dan sederhana, hipotesis penelitian adalah dugaan
sementara. Dugaan tersebut dibuat oleh penulis atau peneliti dengan
mengacu pada data awal yang diperoleh. Kemudian dugaan benar atau salah
ditentukan berdasarkan hasil penelitian.
Menurut Kamus Besar Bahasa Indonesia (KBBI), hipotesis adalah sesuatu
yang dianggap benar untuk alasan atau pengutaraan pendapat (teori,
proposisi, dan sebagainya) meskipun kebenarannya masih harus dibuktikan.
Hipotesa
Hipotesis juga bisa diartikan sebagai jawaban sementara terhadap masalah
yang masih bersifat praduga karena masih harus dibuktikan kebenarannya.
Dugaan jawaban tersebut merupakan kebenaran yang sifatnya sementara,
yang akan diuji kebenarannya dengan data yang dikumpulkan melalui
penelitian.

Hipotesis juga merupakan kesimpulan sementara yang didasarkan pada


observasi dan data yang tersedia yang digunakan sebagai dasar untuk
menguji suatu fenomena atau konsep. Hipotesis merupakan prediksi tentang
hasil yang diharapkan dari penelitian yang akan dilakukan dan biasanya
merupakan jawaban sementara atas research questions yang telah diajukan.
Pengujian Hipotesa
Pengujian Hipotesis: Secara umum, pengujian hipotesis digunakan ketika
peneliti ingin membuat keputusan atau menarik kesimpulan tentang
populasi berdasarkan data sampel. Pengujian hipotesis digunakan dalam
penelitian dalam beberapa situasi berikut:

1. Menguji kebenaran teori: Hipotesis seringkali berdasarkan teori yang ada


dan pengujian hipotesis dapat membantu dalam memverifikasi kebenaran
dari teori tersebut.
2. Memberikan gagasan baru untuk mengembangkan suatu teori: Dengan
melakukan pengujian hipotesis, peneliti dapat menemukan fenomena atau
hubungan baru yang belum pernah dijelaskan sebelumnya oleh teori yang
ada.
Pengujian Hipotesa
3. Memperluas pengetahuan penelitian mengenai suatu gejala yang
sedang dipelajari: Pengujian hipotesis dapat membantu peneliti dalam
memahami lebih dalam tentang fenomena atau gejala yang sedang diteliti.
4. Menguji dugaan penelitian: Hasil penelitian yang memperkuat hipotesis
harus melalui proses pengujian dan observasi yang cermat.
5. Menyusun problem statement: Hipotesis yang dibuat dalam proses
penyusunan problem statement, hanya berdasarkan teori dan sesuatu yang
peneliti yakini kebenarannya, sehingga pada tahapan akhir dari setiap
penelitian ilmiah, dengan menggunakan hipotesis sebagai research question-
nya, harus dilakukan uji untuk menguji kebenaran dari dugaan penelitian
yang tercermin pada hipotesis.
Model
Model dalam data science sangat penting dalam proses pengambilan
keputusan berdasarkan data. Model dalam data science memiliki beberapa
fungsi penting:

1. Representasi Data: Model data memberikan pemahaman tentang


bagaimana bisnis beroperasi dan bagaimana menggunakan data dengan cara
yang dapat dipahami semua orang.

2. Pemilihan dan Pelatihan Model: Model dipilih sesuai dengan tujuan


analisis dan dilatih menggunakan data yang telah dipersiapkan. Parameter
model kemudian dioptimalkan untuk meningkatkan kinerja.

3. Evaluasi Model: Model dievaluasi menggunakan metrik yang sesuai,


seperti akurasi, presisi, atau recall.
Model
4. Pemahaman Data: Pemodelan data memberi Anda kesempatan untuk
memahami data serta memilih teknologi yang tepat untuk menyimpan dan
mengelola data.

5. Mengurangi Kesalahan: Pemodelan data dapat mengurangi kesalahan


dalam pengembangan perangkat lunak basis data dan memfasilitasi
kecepatan dan efisiensi desain serta pembuatan basis data.

6. Menciptakan Konsistensi: Pemodelan data menciptakan konsistensi


dalam dokumentasi data dan desain sistem di seluruh organisasi.
Evaluasi Model
Evaluasi model untuk memastikan kualitas dan keandalan model yang
dikembangkan. Dengan memperhatikan tugas ini, data sciencetist dapat
memastikan bahwa keputusan dan pengetahuan yang diambil dari data
dapat menjadi dasar yang solid dalam pengambilan keputusan bisnis atau
dalam pengembangan lebih lanjut. Evaluasi model dalam data science
memiliki beberapa fungsi penting:
1. Validasi Kinerja: Evaluasi model memberikan pemahaman yang jelas
tentang sejauh mana model dapat memberikan hasil yang akurat. Dengan
melakukan evaluasi, ilmuwan data dapat memvalidasi kehandalan prediksi
yang dihasilkan oleh model.
2. Identifikasi Kekurangan: Melalui proses evaluasi, ilmuwan data dapat
mengidentifikasi kelemahan atau kekurangan dari model yang
dikembangkan. Misalnya, model mungkin tidak dapat menangani situasi
yang tidak pernah terjadi sebelumnya atau memiliki kesalahan yang
signifikan pada subset tertentu dari data.
Evaluasi Model
3. Optimalisasi Parameter: Evaluasi memungkinkan ilmuwan data untuk
mengoptimalkan parameter model. Dalam banyak kasus, model machine
learning memiliki parameter yang dapat disesuaikan untuk mencapai kinerja
yang lebih baik.

4. Pemilihan Model: Evaluasi model membantu dalam memilih model


terbaik dari berbagai model yang tersedia. Dengan membandingkan tingkat
eror dari setiap model pada set pengujian, ilmuwan data dapat memilih
model yang paling sesuai dengan tujuan analisis mereka.

5. Menghindari Overfitting: Evaluasi model juga membantu dalam


menghindari overfitting, yaitu kondisi di mana model terlalu fit dengan data
pelatihan dan performanya menurun ketika diterapkan pada data baru.
Optimasi Model
Optimasi dalam data science adalah proses mencari nilai terbaik dari
suatu fungsi tujuan dalam suatu himpunan yang diizinkan. Fungsi
tujuan biasanya adalah fungsi kesalahan yang ingin diminimalkan atau
suatu ukuran kinerja yang ingin dimaksimalkan.
Metode optimasi yang umum digunakan dalam data science antara lain
Stochastic Gradient Descent (SGD), Adam, dan metode numerik
lainnya. Teknik optimasi secara umum dapat dibagi menjadi dua
bagian, yaitu Mathematical Programming dan Combinatorial
Optimization.
Optimasi Model
Berikut adalah beberapa penerapan optimasi dalam data science:

1. Pembelajaran Mesin: Dalam pembelajaran mesin, optimasi


digunakan untuk menyesuaikan model dengan data pelatihan.
Misalnya, dalam regresi linier, kita ingin meminimalkan kesalahan
kuadrat antara prediksi model dan nilai sebenarnya.

2. Pemilihan Model: Optimasi juga digunakan dalam pemilihan model,


di mana kita mencoba menemukan model terbaik dari sekumpulan
model yang mungkin.
Optimasi Model
3. Penyusunan Parameter: Dalam banyak algoritma machine learning, ada
parameter yang perlu disesuaikan untuk mendapatkan kinerja terbaik.
Optimasi digunakan untuk menemukan nilai parameter ini.

4. Pengurangan Dimensi: Teknik seperti Principal Component Analysis (PCA)


menggunakan optimasi untuk menemukan proyeksi data ke ruang
berdimensi lebih rendah yang mempertahankan sebanyak mungkin varians
dari data asli.

5. Jaringan Saraf Tiruan: Dalam jaringan saraf tiruan, optimasi digunakan


untuk menyesuaikan bobot dan bias dalam jaringan agar dapat
meminimalkan fungsi kesalahan.
Latihan Soal
1. Bagaimana cara mengubah tipe data pada dataframe di Python?
a. Menggunakan fungsi astype()
b. Menggunakan fungsi drop()
c. Menggunakan atribut columns
d. Menggunakan metode rename()
e. Menggunakan metode cut()
2. Bagaimana cara merubah nama kolom pada dataframe di Python?
a. Menggunakan fungsi astype()
b. Menggunakan fungsi drop()
c. Menggunakan atribut columns
d. Menggunakan metode rename()
e. Menggunakan metode cut()
Latihan Soal
3. Bagaimana cara menghapus baris pada dataframe di Python?
a. Menggunakan fungsi astype()
b. Menggunakan fungsi drop()
c. Menggunakan atribut columns
d. Menggunakan metode rename()
e. Menggunakan metode cut()
4. Bagaimana cara melakukan manipulasi data seperti mengurutkan, memilih, dan menghapus nilai-nilai
duplikat pada dataframe di Python?
a. Menggunakan fungsi astype()
b. Menggunakan fungsi drop()
c. Menggunakan atribut columns
d. Menggunakan metode rename()
e. Menggunakan metode cut()
Latihan Soal
5. Bagaimana cara mentransfer nilai data ke dataframe di Python?
a. Menggunakan fungsi astype()
b. Menggunakan fungsi drop()
c. Menggunakan atribut columns
d. Menggunakan metode rename()
e. Menggunakan metode cut()
Pertemuan 4
ALGORITMA DATA SCIENCE
Integrated Development Environment (IDE) dan
Sumber data pada Data Science
Pengantar Bahasa Pemrograman Dalam Data Science

Pengolahan data dalam Data Science diperlukan sebuah bahasa pemrograman,


Bahasa pemrograman yang umum digunakan dalam bidang data science meliputi:
1. Python: Sangat populer di kalangan data scientist karena memiliki kemudahan
penggunaannya, library yang luas seperti Pandas, NumPy, Scikit-learn,
TensorFlow, dan PyTorch, serta memiliki komunitas yang besar.
2. R: Khusus dirancang untuk statistik dan visualisasi data. R memiliki banyak
paket seperti ggplot2, dplyr, dan shiny yang sangat berguna untuk analisis data
dan visualisasi.
Pengantar Bahasa Pemrograman Dalam Data Science
(Lanjutan)
3. Julia: Bahasa yang relatif baru dan dirancang khusus untuk komputasi
numerik dan data science. Julia menggabungkan kemudahan pemrograman
dengan kecepatan yang mendekati bahasa pemrograman tingkat rendah
seperti C.
4. Java/Scala: Terutama digunakan dalam lingkungan big data, terutama dengan
alat-alat seperti Apache Spark. Scala, yang berjalan di atas JVM (Java Virtual
Machine), sangat populer dalam pengembangan big data.

Dalam pembelajaran ini akan menggunakan bahasa pemrograman Python yang


merupakan salah satu bahasa pemrograman yang populer digunakan dalam data
science.
Kelebihan Bahasa Pemrograman Python pada Data Science

a. Sintaks yang Bersih dan Mudah Dibaca: Membuatnya ideal untuk pemula.
b. Library yang Luas: Libraries seperti NumPy untuk manipulasi array, Pandas
untuk manipulasi data frame, Matplotlib dan Seaborn untuk visualisasi data,
Scikit-learn untuk machine learning, dan TensorFlow dan PyTorch untuk
deep learning.
c. Komunitas Besar: Memberikan dukungan yang luas dan beragam sumber
belajar.
d. Fleksibilitas: Bisa digunakan untuk berbagai tugas dari analisis data hingga
pengembangan web (menggunakan frameworks seperti Django atau Flask)
dan scripting.
Tools yang digunakan

Dalam pembelajaran ini akan menggunakan beberapa tools untuk mendukung


proses pembelajaran:
1. Python (https://www.python.org/downloads/)
2. Development Environment
tools untuk Development Environment yang dapat digunakan adalah:
a. Google Colab (https://colab.research.google.com/)
b. Visual Studio Code (https://code.visualstudio.com/download)
c. Tools Lainnya seperti Jupyter Notebook, Anaconda dan lainnya.
3. Library Python
a. NumPy
b. Pandas
c. Matplotlib
d. Seaborn
Install Python

1. Download Python pada https://www.python.org/downloads/, pilih sesuai


dari versi windows yang dipergunakan maka pilih versi stabil (stable version)
yang akan didownload.
2. Buka (dengan melakukan klik 2x) file installer python yang baru saja
didownload, ikuti langkah instalasi sampai selesai.
3. Cek status instalasi python dengan membuka promp command  ketikkan
“python” atau python3

Jika terjadi kendala check status atau beberapa perintah tidak berfungsi dengan baik,
lakukan perubahan atau penambahan pada Environment Variables. Pada:
Start Menu  Edit the system Environment Variables  Environment Variables  User
Variables Path  edit  isi bagian lokasi folder Script python.
• Contoh: C:\Users\KAPRODI-SI\AppData\Local\Programs\Python\Python310\Scripts
Install Library Python

1. Untuk melakukan install library python dapat menggunakan perintah: pip install
<namalibrary>, contoh langkah install library pada tools Visual Studio Code:
2. Buka Lembar Kerja baru pada Visual Studio Code
3. Pilih View  Terminal, kemudian masukkan perintah: pip install <namalibrary>
4. Untuk mengetahui perintah apa saja yang ada pada pip bisa memasukkan perintah
“pip” pada terminal;
5. Install library numpy: Pip install numpy

6. Lakukan langkah yang sama pada instal 3 library lainnya yaitu: Pandas, Matplotlib,
Seaborn
Sumber Data
Data Primer dalam Data Science

Dalam data science, data primer adalah data yang dikumpulkan secara
langsung oleh peneliti atau analis untuk tujuan spesifik proyek atau analisis
mereka. Pengumpulan data primer biasanya dilakukan ketika data yang ada (data
sekunder) tidak memadai, tidak relevan, atau tidak tersedia untuk kebutuhan
penelitian khusus tersebut. Data primer sangat berharga karena dapat disesuaikan
dengan kebutuhan khusus suatu proyek dan cenderung lebih akurat dan relevan.
Data primer dapat dikumpulkan melalui berbagai metode seperti : Survei dan
Kuesioner, Wawancara, Observasi
Data Sekunder dalam Data Science

Dalam konteks data science, "data sekunder" merupakan data yang sudah
dikumpulkan dan diproses oleh pihak lain dan tidak secara khusus dikumpulkan
untuk tujuan penelitian atau analisis saat ini. Penggunaan data sekunder sering
menjadi pilihan yang efisien dalam hal waktu dan biaya, terutama dalam proyek-
proyek data science yang memerlukan akses ke dataset besar atau longitudinal.

Keuntungan :
a. Hemat Waktu dan Biaya: Mengumpulkan data primer bisa sangat mahal dan
memakan waktu; data sekunder menyediakan akses cepat ke data.
b. Akses ke Dataset yang Luas: Memungkinkan analisis terhadap data yang
mungkin terlalu besar atau kompleks untuk dikumpulkan sendiri.
c. Studi Longitudinal: Memungkinkan analisis tren jangka panjang
menggunakan data yang telah dikumpulkan selama bertahun-tahun.
Data Sekunder dalam Data Science (Lanjutan)
Keterbatasan :
a. Relevansi dan Ketepatan: Mungkin tidak sepenuhnya sesuai dengan
kebutuhan spesifik atau pertanyaan penelitian.
b. Kualitas dan Konsistensi: Variabilitas dalam cara data dikumpulkan dan
diproses oleh sumber aslinya bisa mempengaruhi kualitas.
c. Keterbatasan Akses: Beberapa data mungkin terbatas atau memiliki
pembatasan dalam hal penggunaannya.

Salah satu cara untuk mendapatkan data sekunder dalam data science yaitu
dengan cara mencari dataset yang bersifat public seperti pada:
1. Kaggle: https://www.kaggle.com/
2. UCI Machine Learning Repository: https://archive.ics.uci.edu/
3. Satu Data Indonesia https://katalog.data.go.id/
Mengumpulkan Data – Dataset Cars4u
Salah satu data yang akan digunakan pada Latihan pembelajaran data science ini
yaitu dataset mobil (Data Sekunder), Dalam dataset ini akan mencoba
menganalisis harga mobil bekas , data dapat diunduh pada:
1. Link Dataset: https://www.kaggle.com/datasets/sukhmanibedi/cars4u
2. Nama Datase: Cars4u
3. Jumlah attribute: 14
4. Format: csv
Mengubah Text Editor Visual Studio Code menjadi
Jupyter Notebook (Optional)
 Buka aplikasi VS Code
pilih File  open folder (pilih folder lokasi penyimpanan dataset)
 Tambahkan extension Jupyter notebook  install

 Tambahkan file baru dengan nama : LatihanDTS (format ipnyb)


 File  New File  pilih Jupyter notebook
Tugas

1. Pastikan semua perangkat Komputer mahasiswa sudah terinstall Tools dan


Library yang dibutuhkan
2. Membuat Kelompok dengan Maksimal anggota 5
3. Lakukan praktik pencarian data sekunder untuk digunakan sebagai referensi
sumber data pada tugas utama matakuliah Algoritma Data Science
4. Tugas dikumpulkan dan didiskusikan pada pertemuan 9 sesuai dengan
Template yang ditentukan
Ketentuan Proyek Akhir Matakuliah

1. Presentasi Proyek Akhir dilakukan di pertemuan 10-16 dengan ketentuan


sebagai berikut :
a. Jumlah anggota setiap kelompok Maksimal 6 anggota (optional)
tergantung jumlah mahasiswa pada kelas tersebut.
b. Isi dari final project :
Ketentuan Proyek Akhir Matakuliah

b. Masing-masing kelompok membuat paper laporan pembuatan final


project
c. Program,Paper dan Presentasi di Burning Kedalam CD
d. Masing-masing kelompok mempresentasikan hasil final projectnya.
e. Presentasi disajikan dengan media presentasi yang isinya berupa alur
logika program dan eksekusi running program
f. Penilaian di tentukan oleh dosen pengajar diruang kelas
2. Tema Projek di serahkan ke dosen pengajar di Pertemuan ke 2
3. Projek sudah bisa di kerjakan setelah di lakukan penyerahan tema kepada
dosen pengajar
4. Penilaian dilakukan oleh dosen pengajar ketika presentasi

Link Template Project: https://s.id/Template-Project-ADS


Pertemuan 5
ALGORITMA DATA SCIENCE
Business Understanding dan Data Preparation
Menggunakan Python
Bussines Understanding
Salah satu tahapan pada model Cross-Industry Standard Process for Data Mining
(CRISP-DM) adalah Business Understanding. Tahap Business Understanding
merupakan tahap pertama yang perlu dilakukan dalam model CRISP-DM.

Business Understanding merupakan Langkah dalam menentukan tujuan bisnis,


menilai situasi saat ini, menetapkan tujuan penambangan data, dan
mengembangkan rencana proyek .

Dalam beberapa penelitian, Business Understanding dilakukan untuk menilai


tujuan dan persyaratan bisnis untuk menentukan area masalah machine
learning.
Library Python untuk Data Science
Pandas adalah module atau library dalam Bahasa pemrograman python
yang dapat digunakan untuk pengolahan data.
Library pandas tersedia gratis sehingga tidak membutuhkan sumber
daya apapun dalam mempelajari dan menggunakan module ini.
Sebelum menggunakan library ini perlu melakukan import library dengan
perintah berikut: import pandas as nm_variabel.

Menyimpan Data menjadi DataFrame (Pandas)

Pilih +Code untuk menambahkan baris kode baru


Bussines Understanding
Tujuan utama pemahaman data adalah untuk mendapatkan gambaran umum
tentang data, yang meliputi jumlah baris dan kolom, nilai dalam data, tipe data,
dan nilai yang hilang dalam kumpulan data.
 Menampilkan 5 Data Teratas (head) dan 5 data terakhir (tail)

 Memahami tipe data dan Informasi tentang data


untuk memahami tipe data dan informasi tentang data, termasuk jumlah
record di setiap kolom, data yang memiliki null atau tidak null, Tipe data,
penggunaan memori kumpulan data dapat menggunakan (info)

 S
Data Preparation – Check Duplikasi Data
 Check Duplikasi Data (nunique)
nunique() berdasarkan beberapa nilai unik di setiap kolom dan deskripsi data,
kita dapat mengidentifikasi kolom kontinu dan kategorikal dalam data. Data
duplikat dapat ditangani atau dihapus berdasarkan analisis lebih lanjut
Contoh: data.nunique()
Data Preparation – Perhitungan Nilai
 Menghitung Nilai yang Hilang (isnull)
isnull() secara luas telah dilakukan di semua langkah pra-pemrosesan untuk
mengidentifikasi nilai null dalam data.
1. Isnull() digunakan untuk mengetahui baris/ record yang tidak memiliki
nilai
2. data.isnull().sum() digunakan untuk mendapatkan jumlah record yang
hilang di setiap kolom
Data Preparation – Pengurangan Data
Beberapa kolom atau variabel dapat dihilangkan jika tidak menambah nilai
analisis. Dalam kumpulan data, kolom S.No hanya memiliki nilai ID, dengan
asumsi nilai tersebut tidak memiliki kekuatan prediktif untuk memprediksi
variabel dependen.
Data Preparation – Menambahkan Kolom Data Baru
Akan sulit untuk mengetahui umur mobil jika dalam format tahun karena Umur
mobil merupakan faktor yang mempengaruhi Harga Mobil. Maka perlu
Menambahkan kolom baru “Car_Age” untuk mengetahui umur mobil.
Data Preparation – Split Data
Karena nama mobil tidak akan menjadi prediktor harga yang bagus dalam data
saat ini. Namun kita dapat memproses kolom ini untuk mengekstrak informasi
penting menggunakan nama merek dan Model. Mari kita pisahkan nama dan
perkenalkan variabel baru “Merek” dan “Model”
Data Preparation – Pembersihan Data
Beberapa nama variabel tidak relevan dan tidak mudah dipahami.
Beberapa data mungkin mengalami kesalahan entri data, dan beberapa variabel
mungkin memerlukan konversi tipe data. Kita perlu memperbaiki masalah ini pada
data .
Data Preparation – Pembersihan Data (Lanjutan)
Pada contoh, Nama merek 'Isuzu' 'ISUZU' dan 'Mini' dan 'Land' terlihat salah. Ini
perlu menampilkan data Brand tersebut menggunakan rumus berikut:
Data Preparation – Pembersihan Data (Lanjutan)
ada contoh, Nama merek 'Isuzu' 'ISUZU' dan 'Mini' dan 'Land' terlihat salah. Ini
perlu diperbaiki menggunakan coding berikut ini:

Pada pertemuan ini telah melakukan analisis data mendasar, Menampilkan, dan
pembersihan data. Selanjutnya akan melanjutkan pada proses EDA pada
pertemuan selanjutnya.
Tugas

1. Gunakan Dataset sudah didapatkan pada tugas pertemuan sebelumnya,


2. Lakukan Langkah berikut ini pada dataset kelompok:
 Business Under standing
a. Latar belakang Pemilihan Dataset
b. Menjelaskan Type dan Informasi Data

 Data Preparation
a. Jelaskan tahapan apa saja yang digunakan pada tahap Data
Preparation
b. Jelaskan hasil setiap tahapan yang digunakan

3. Tugas dikumpulkan dan didiskusikan pada pertemuan 9

Note: Hasil Tugas dapat dilanjutkan dan merupakan bagian dari Tugas Besar
Matakuliah Algoritma Dat Science
Pertemuan 6
ALGORITMA DATA SCIENCE
Analisis Data Eksplorasi (ADE)
AA1

Analisis Data Eksplorasi (ADE)


Eksplorasi data dilakukan sebagai Langkah awal untuk mengetahui
karakterisitik dari data sebelum dilakukan preprocessing guna memperoleh
hasil serta informasi data yang ingin dianalisis.

Tahapan ini bertujuan untuk menyeleksi Teknik pemrosesan dan analisis data
yang sesuai serta memanfaatkan kemampuan manusia untuk memahami pola
dari suatu data, karena tidak semua pola dikenali tools analisis data.

Eksplorasi Data meliputi bidang Analisis Data Eksplorasi yang dikembangkan


oleh ahli statistic (John Tukey), Analisis Eksplorasi Data (ADE) adalah suatu
filosofi / pendekatan yang digunakan dalam analisis data menggunakan
beberapa Teknik (umumnya Grafis) untuk mengoptimalkan pengetahuan/
wawasan ke dalam dataset, menemukan struktur yang menjadi dasar dataset,
mengekstrak variable yang penting, mendeteksi outlier dan anomaly, menguji
asumsi yang menjadi dasar set data, mengembangkan model parsimonious,
dan menentukan pengaturanfaktor yang normal.
Slide 2

AA1 Abdussomad; 29/01/2024


AA2

Grafik Statistik dan Analisis data eksplorasi


Analisis data eksplorasi berbeda dengan grafik statistika, Grafik
Statistika adalah Kumpulan Teknik berbasis grafik dan semua
berfokus pada suatu aspek karakteristik data. Sedangkan ADE
meliputi aspek yang lebih luas. ADE merupakan pendekatan
untuk analisis data yang menunda asumsi umum tentang model
seperti apa yang diikuti data dengan pendekatan secara langsung
sehingga memungkinkan strktur dan model yang mendasarnya
dapat diungkap dari data itu sendiri.

Analisis Data Eksplorasi mengacu pada proses penting dalam


melakukan penyelidikan awal pada data untuk menemukan pola
guna memeriksa asumsi dengan bantuan ringkasan statistik dan
representasi grafis.
Slide 3

AA2 Abdussomad; 29/01/2024


ADE – Ringkasan Statistik
Ringkasan statistik memberikan deskripsi data yang cepat dan sederhana.
mencakup Hitungan, Mean, Deviasi Standar, median, mode, nilai minimum, nilai
maksimum, rentang, deviasi standar, dll

Untuk menghitung ringkasan statistik pada python dapat menggunakan


.describe() method pada pandas. describe() method mampu bekerja pada data
numerik serta data objek seperti string . Output untuk keduanya akan berisi
bidang yang berbeda.
Untuk data numerik, hasilnya akan Untuk data Object, hasilnya akan
mencakup: mencakup:
a. count, a. count,
b. mean b. Unique
c. standard deviation c. Top
d. minimum d. freq
e. maximum
f. 25 percentile
g. 50 percentile
h. 75 percentiles
ADE – Ringkasan Statistik (Praktik)
 Lanjutkan Latihan Analisis Data yang dilakukan pada pertemuan sebelumnya
 Menampilkan Ringkasan Statistik dengan .describe()

Method .describe() pada hasil diatas hanya menampilkan data dengan type
numeric.
 Untuk menampilkan ringkasan statistic dengan bentuk diagonal lainnya
dengan menambahkan transpose() atau .T diakhir method .describe() Menjadi
ADE – Ringkasan Statistik (Praktik) - Lanjutan

• Untuk menampilkan semua Data termasuk Object pada ringkasan Statistik


pada python dapat menggunakan .describe(include='all').T
ADE –Ringkasan Statistik (Analisa)
• Tahun berkisar antara 1996-2019 dan memiliki rentang yang tinggi yang
menunjukkan mobil bekas berisi mobil model terbaru dan mobil model lama.
• Rata-rata Kilometer yang ditempuh pada mobil Bekas adalah 58k KM. Rentang
tersebut menunjukkan perbedaan besar antara min dan max karena nilai max
yang menunjukkan 650000 KM menunjukkan bukti adanya outlier (nilai yang
jauh berbeda dari nilai lainnya dalam kumpulan data). Catatan ini dapat
dihapus.
• Nilai minimum Mileage menunjukkan 0, mobil tidak akan dijual dengan 0
mileage. Memungkinkan terjadi kesalahan entri data.
• Sepertinya Engine dan Power memiliki outlier, dan datanya miring ke kanan.
• Rata-rata jumlah kursi dalam sebuah mobil adalah 5. Kursi mobil merupakan
fitur penting dalam kontribusi harga.
• Harga maksimal mobil bekas adalah 160k yang cukup aneh, harga yang mahal
untuk mobil bekas. Memungkinkan terjadi kesalahan entri data atau adanya
outlier .
PRA ADE – Ringkasan Statistik (Praktik)

• Sebelum memisahkan antara nilai


numeric dan object, perlu diketahui
type dari masing-masing variables
dengan method .dtypes.
• Terdapat 5 Variables dengan type:
Numeric
• Terdapat 11 Variables dengan Type:
Object
PRA ADE – Ringkasan Statistik (Praktik)
• Memisahkan antara nilai numeric dan object
• Diperlukan library Numpy untuk data numeric, tambahkan library numpy
pada lembar kerja seperti kode berikut:
ADE – Visualisasi Data
Menganalisis/memvisualisasikan kumpulan data dengan mengambil satu
variabel dalam satu waktu. Visualisasi data dalam analisis data bersifat sangat
penting. kita harus memutuskan grafik apa yang akan diplot untuk lebih
memahami data yang akan dianalisis, visualisasi data pada python menggunakan
salah satu library yaitu Matplotlib dan Seaborn.

pembuat Matplotlib Bernama John D. Hunter, Matplotlib adalah modul python


untuk menggambar plot 2D dengan kualitas tinggi, Matplotlib mampu membuat
plots, histogram, spectra, bar charts, errorchards, scatterplots dan lainnya.

Seaborn adalah module yang ditambahkan ke dalam kode program agar


tampilan chart lebih modern. Seaborn sangat mudah karena terintegrasi secara
otomatis dengan matplotlib. Seaborn pertama kali diperkenalkan oleh Michael
Askom
ADE – Visualisasi Data

Analisis Data Eksplorasi dapat dilakukan untuk variabel Kategorikal dan


Numerik. Variabel kategorikal dapat divisualisasikan menggunakan:
 Count plot,
 Bar Chart,
 Pie Plot, dll.
Variabel Numerik dapat divisualisasikan menggunakan:
 Histogram
 Box Plot
 Density Plot, dll.
Dalam pembelajaran ini melakukan analisis Univariat menggunakan
Histogram dan Box Plot untuk Variabel kontinu.
ADE – Visualisasi Data Numerik
Pada Visualisasi Data Numerik menggunakan histogram dan boxplot yang
digunakan untuk menunjukkan pola variabel, karena beberapa variabel
memiliki skewness dan outlier.
ADE – Visualisasi Data Numerik (Lanjutan)

Penjelasan Analisis secara langsung oleh Dosen Pengampu sekaligus praktik


ADE – Visualisasi Data Kategorikal
Pada Visualisasi Data Kategorikal menggunakan Count plot yang digunakan
untuk memberikan pola faktor-faktor yang mempengaruhi harga mobil
ADE – Visualisasi Data Kategorikal (Lanjutan)

Dari plot penghitungan, kita dapat memperoleh observasi di bawah ini


a. 53% mobil memiliki jenis bahan bakar Diesel, hal ini menunjukkan mobil diesel
memberikan performa yang lebih tinggi
b. 72% mobil memiliki transmisi manual
ADE – Visualisasi Data Kategorikal (Lanjutan)

Dari plot penghitungan, kita dapat memperoleh observasi di bawah ini


a. Mumbai memiliki jumlah mobil terbanyak yang tersedia untuk dibeli, diikuti
oleh Hyderabad dan Coimbatore
b. 82 % mobil adalah mobil milik pertama. Hal ini menunjukkan sebagian besar
pembeli lebih memilih membeli mobil pemilik pertama
ADE – Visualisasi Data Kategorikal (Lanjutan)

Dari plot penghitungan, kita dapat memperoleh observasi di bawah ini


a. 20% mobil milik merek Maruti diikuti oleh 19% mobil milik Hyundai
b. WagonR menempati peringkat pertama di antara semua model yang tersedia
untuk dibeli
Tugas

1. Gunakan Dataset sudah didapatkan pada tugas pertemuan sebelumnya dan


lanjutkan pada tugas ini,
2. Lakukan Langkah berikut ini pada dataset kelompok:
 Analisis Data Eksplorasi
a. Jelaskan tahapan apa saja yang digunakan pada tahap Analisis Data
Eksplorasi (ADE)
b. Jelaskan hasil setiap tahapan yang digunakan
c. Link Source Code dengan Format yang support dengan (Google
Colab)

3. Tugas dikumpulkan dan didiskusikan pada pertemuan 9

Note: Hasil Tugas dapat dilanjutkan dan merupakan bagian dari Tugas Besar
Matakuliah Algoritma Data Science
ALGORITMA DATA SCIENCE
Pertemuan 7 – Deep Learning, Big Data, Etika dan Hukum AI (Data Science)
Deep Learning
Deep learning adalah bagian dari kecerdasan buatan (AI) dan machine
learning menggunakan algoritma yang dapat meniru proses kerja otak
manusia. Teknologi ini sangat efektif untuk mengolah data mentah dan
menciptakan pola untuk keperluan pengambilan keputusan. Deep
learning juga dikenal sebagai deep neural learning atau deep network
learning.
Algortima untuk meniru cara kerja otak manusia adalah algoritma
jaringan syaraf tiruan atau artificial neural network dan turunannya.
Deep learning menyusun algoritma berlapis-lapis untuk menciptakan
“jaringan saraf tiruan”, sebuah struktur yang menyerupai otak manusia,
yang dapat mempelajari dan membuat keputusan “cerdas” sendiri.
Deep learning juga digunakan dalam teknologi yang muncul seperti
mobil otonom, realitas virtual, dan masih banyak lagi. Model deep
learning merupakan file komputer yang telah dilatih oleh para ilmuwan
data untuk melakukan tugas menggunakan algoritme atau serangkaian
langkah yang telah ditentukan.
Deep learning biasanya dilakukan pada data yang lebih banyak, dan
hasilnya tidak cukup bagus jika datanya sedikit.
Deep learning mampu mengenali pola dan informasi tanpa
pengawasan dari data yang tidak terstruktur atau tidak berlabel.
Teknologi ini digunakan dalam berbagai aplikasi, seperti pengenalan
suara, deteksi objek, terjemahan bahasa, dan lainnya.
Kenapa Deep Learning
Deep learning akan membantu Anda memahami teknologi modern dan
bagaimana menerapkannya untuk memecahkan masalah nyata.
1. Penerapan Luas: Deep learning telah diterapkan dalam berbagai
produk berteknologi tinggi seperti self-driving car, asisten digital,
Google Translate, dan voice-activated device.
2. Pemrosesan Data Tidak Terstruktur: Deep learning dapat
memproses data tidak terstruktur seperti teks dan gambar.
3. Otomatisasi Ekstraksi Fitur: Deep learning dapat mengotomatisasi
proses ekstraksi fitur tanpa perlu melakukan proses pelabelan secara
manual.
4. Hasil Berkualitas Tinggi: Deep learning dapat memberikan hasil akhir
yang berkualitas.
5. Pengurangan Biaya Operasional: Deep learning dapat mengurangi
biaya operasional.
6. Manipulasi Data yang Efektif: Deep learning dapat melakukan
manipulasi data dengan lebih efektif.
7. Meningkatkan Kualitas Aplikasi: Deep learning dapat menganalisis
pola pemakaian pengguna dalam aplikasi, seperti memberikan
rekomendasi film favorit pengguna.
Contoh pemanfaatan deep learning
1. Netflix dan YouTube: Deep learning digunakan sebagai alat untuk memberikan
rekomendasi video berdasarkan pola pemakaian pengguna.
2. Mobil Tanpa Pengemudi: Deep learning digunakan dalam teknologi mobil tanpa
pengemudi seperti Tesla. Teknologi ini memungkinkan kendaraan untuk mengenali
tanda berhenti dan membedakan pejalan kaki dari tiang lampu.
3. Asisten Digital: Deep learning digunakan dalam asisten digital seperti Cortana,
Alexa, dan Siri.
4. Penerjemah: Deep learning digunakan dalam sistem penerjemah seperti Google
Translate dan SayHi.
5. Pengenalan Wajah: Deep learning digunakan dalam teknologi pengenalan wajah
seperti yang digunakan oleh Facebook dan iOS.
6. Chatbots dan Layanan Pelanggan Otomatis: Deep learning digunakan dalam
chatbots dan layanan pelanggan otomatis seperti yang digunakan oleh Sephora,
Fandango, dan AccuWeather.
Big Data
Big data adalah kumpulan data yang sangat besar, kompleks dan terus
bertambah setiap waktu. Data ini dihasilkan dari aktivitas internet yang
rutin dilakukan, baik untuk tujuan pribadi maupun bisnis. Big data
mencakup data yang dihasilkan dari berbagai sumber dan dalam
berbagai format, termasuk teks, audio, dan video.

Big data digunakan dalam berbagai bidang, seperti kesehatan,


pertanian, perpajakan, dan lainnya. Dengan big data, perusahaan dapat
mengumpulkan, menyimpan, mengelola, dan menganalisis data dalam
jumlah besar untuk mendukung pengambilan keputusan atau
kebijakan.
Big Data
Big data memiliki beberapa karakteristik utama, sering disebut sebagai
5V:
1. Volume: Merujuk pada jumlah data yang sangat besar.
2. Velocity: Kecepatan transfer data juga sangat berpengaruh dalam
proses pengiriman data dengan efektif dan stabil.
3. Variety: Jenis variasi data yang dimiliki oleh big data lebih banyak
daripada menggunakan sistem database SQL.
Big Data
4. Value: Value merujuk pada nilai atau informasi yang dapat dimanfaatkan
oleh perusahaan. Dalam konteks big data, ini berarti data yang diperoleh,
disimpan, dan dianalisis harus memiliki nilai atau informasi yang dapat
dimanfaatkan. Nilai data sangat penting karena dapat memberikan insight,
knowledge, dan informasi yang berharga.

5. Veracity: Veracity berkaitan dengan tingkat keakuratan dan kepercayaan


data. Dalam konteks big data, ini berarti data yang diperoleh, disimpan, dan
dianalisis harus dapat diandalkan dan benar-benar representatif. Keakuratan
data merupakan faktor kunci dalam pengambilan keputusan yang efektif.
Ketika data tidak akurat, risiko pengambilan keputusan yang salah menjadi
lebih besar. Oleh karena itu, big data veracity adalah konsep yang sangat
penting dalam menjaga kualitas data dalam lingkungan bisnis.
Big data biasanya merujuk pada data yang berukuran sangat besar, biasanya
dalam skala terabyte (1 terabyte = 1.000 gigabyte) atau petabyte (1 petabyte
= 1.000.000 gigabyte). Namun, ukuran data yang spesifik untuk dikategorikan
sebagai big data dapat bervariasi tergantung pada kemampuan teknologi dan
perangkat lunak yang digunakan untuk menangkap, menyimpan, mengelola,
dan menganalisis data.
Sebagai contoh, Facebook menghasilkan sekitar 400 petabyte data per hari,
atau 400.000.000 gigabyte per hari, yang tentunya sudah dikategorikan
sebagai big data.
Namun, perlu diingat bahwa ukuran data bukanlah satu-satunya faktor yang
menentukan apakah suatu kumpulan data dapat dianggap sebagai big data.
Faktor lain seperti kecepatan data masuk (velocity), variasi jenis data
(variety), nilai data (value), dan kebenaran data (veracity) juga penting.
Jenis-Jenis Big Data
1. Data Terstruktur (Structured Data): Data ini tersusun dengan baik dan
terdefinisikan. Data ini mudah dipahami oleh komputer maupun manusia.
Data ini juga dapat tersimpan, dianalisis, dan diproses menggunakan format
yang baik.
2. Data Semi-Terstruktur (Semi-Structured Data): Data ini sebenarnya
adalah data terstruktur, tapi tidak lengkap dan tidak memenuhi syarat
sebagai data yang terstruktur seperti RDBMS. Contoh data ini adalah
dokumen NoSQL yang memiliki kata kunci untuk pemrosesan dan CSV file.
3. Data Tidak Terstruktur (Unstructured Data): Data ini tidak terstruktur
maupun terdefinisikan dengan baik, sehingga lebih sulit untuk ditangani,
dipahami, dan dianalisis. Contoh unstructured data adalah data komentar di
media sosial, kicauan di Twitter, posting-an, dan like.
Mengelola Big Data
Tantangan dalam pengelolaan big data juga ada, seperti kesulitan
menemukan data yang dibutuhkan. Oleh karena itu, penting untuk memiliki
strategi yang tepat dalam mengelola big data. Mengelola big data melibatkan
beberapa langkah penting diantaranya:

1. Memeriksa Proses Manajemen Data: Periksa semua proses manajemen


data yang ada di perusahaan Anda, termasuk software CRM, alat pemasaran,
dan lainnya.
2. Melakukan Pelatihan untuk Tim: Jika tim Anda belum paham cara
mengelola dan membuat laporan dari data, berikan pelatihan terhadap tim
tersebut.
3. Mengintegrasikan Data: Data harus diintegrasikan secara internal dan
secara konstan sesuai dengan solusi bisnis yang ditawarkan.
Big data biasanya disimpan dalam wadah khusus yang dirancang untuk menangani
volume data yang sangat besar. Teknologi penyimpanan tergantung pada berbagai
faktor, termasuk jenis data yang akan disimpan, kebutuhan pemrosesan data, dan
persyaratan keamanan. Beberapa teknologi penyimpanan yang umum digunakan
untuk big data antara lain:
1. Hadoop: Hadoop adalah kerangka kerja open-source yang memungkinkan
pemrosesan data terdistribusi pada cluster komputer menggunakan model
pemrograman sederhana.
2. Cloud: Cloud computing memungkinkan penyimpanan data dalam skala besar
dengan memanfaatkan komputasi dan arsitektur yang kuat. Contoh layanan cloud
computing yang populer adalah Amazon Web Services (AWS), Google Cloud
Platform, dan Microsoft Azure.
3. NoSQL: NoSQL adalah jenis database yang dirancang untuk menangani data
dalam jumlah besar, yang seringkali tidak terstruktur dan tersebar di beberapa
server.
Etika dalam Data Science
Etika ini penting untuk memastikan bahwa kita menggunakan data
dengan cara yang bertanggung jawab dan etik. Aspek etika dalam data
science:
1. Privasi: Sebagai data scientist, kita memiliki tanggung jawab besar
untuk menjaga privasi pengguna. Kita harus memastikan bahwa kita
tidak melakukan sesuatu yang dapat merugikan banyak orang dalam
proses pengolahannya.
2. Bias: Kita harus berusaha untuk menghindari bias dalam analisis dan
model kita. Bias dapat mengarah pada keputusan yang diskriminatif
dan merusak kepercayaan publik.
3. Transparansi: Kita harus berusaha untuk transparan dalam pekerjaan
kita. Ini berarti bahwa metode dan proses kita harus dapat ditelusur,
dijelaskan, dan dikomunikasikan dengan jelas.
Etika dalam Data Science
4. Akuntabilitas: Perusahaan bertanggung jawab penuh atas semua
kerugian yang terjadi atas data yang dikumpulkan.
5. Kenetralan: Bebas dari pertentangan kepentingan dalam
pengelolaan publikasi.
6. Keadilan: Memberikan hak kepengarusan kepada yang berhak
sebagai pengarang/penulis.
7. Kejujuran: Bebas dari duplikasi, fabrikasi, falsifikasi, dan plagiarisme
(DF2P) dalam publikasi.
Regulasi Hukum Terkait Data Science
1. Undang-Undang Nomor 27 Tahun 2022 tentang Pelindungan Data
Pribadi di Indonesia: Undang-undang ini mengatur mengenai asas; jenis data
pribadi; hak subjek data pribadi; pemrosesan data pribadi; kewajiban
pengendali data pribadi dan prosesor data pribadi dalam pemrosesan data
pribadi; transfer data pribadi; sanksi administratif; kelembagaan; kerja sama
internasional; partisipasi masyarakat; penyelesaian sengketa dan hukum
acara; larangan dalam penggunaan data pribadi; dan ketentuan pidana
terkait pelindungan data pribadi.
2. Undang-Undang Informasi dan Transaksi Elektronik (UU ITE) di
Indonesia: UU ITE mendefinisikan "Agen Elektronik" sebagai "perangkat dari
suatu sistem elektronik yang dibuat untuk melakukan suatu tindakan
terhadap suatu Informasi Elektronik tertentu secara otomatis yang
diselenggarakan oleh orang." Jika kita menggunakan konstruksi tersebut,
sesungguhnya peraturan yang mengatur mengenai "Agen Elektronik" berlaku
juga kepada Artificial Intelligence (AI), yang merupakan bagian penting dari
data science.
UU NO 27 Tahun 2022 tentang
Penyalahgunaan Data
Beberapa pasal dalam Undang-Undang Nomor 27 Tahun 2022 tentang
Pelindungan Data Pribadi di Indonesia yang terkait dengan penyalahgunaan
data:

1. Pasal 8: Pasal ini memberikan hak kepada subjek data pribadi untuk
mengakhiri pemrosesan, menghapus, dan/atau memusnahkan data pribadi
tentang dirinya sesuai dengan ketentuan peraturan perundang-undangan.
2. Pasal 7: Pasal ini memberikan hak kepada subjek data pribadi untuk
mendapatkan akses dan memperoleh salinan data pribadi tentang dirinya
sesuai dengan ketentuan peraturan perundangan-undangan.
3. Pasal 20: Pasal ini mengatur bahwa setiap orang wajib memiliki dasar
pemrosesan data pribadi.
UU NO 27 Tahun 2022 tentang
Penyalahgunaan Data
4. Pasal 27: Pasal ini mengatur bahwa setiap orang wajib melakukan
pemrosesan data pribadi secara terbatas dan spesifik, sah secara
hukum, dan transparan.
5. Pasal 28: Pasal ini mengatur bahwa setiap orang wajib melakukan
pemrosesan data pribadi sesuai dengan tujuan pemrosesan data
pribadi.
6. Pasal 67-73: Pasal ini mengatur mengenai ketentuan pidana bagi
siapa saja yang dengan sengaja mengumpulkan data pribadi yang
bukan miliknya untuk menguntungkan diri sendiri dan orang lain
UU ITE terkait Penyalahgunaan Data
Berikut adalah beberapa pasal dalam Undang-Undang Informasi dan
Transaksi Elektronik (UU ITE) di Indonesia yang terkait dengan
penyalahgunaan data:

1. Pasal 27 Ayat (3): Pasal ini mengatur tentang penyebaran informasi


dan/atau dokumen elektronik yang melanggar kesusilaan.
2. Pasal 27 Ayat (4): Pasal ini mengatur tentang penghinaan dan/atau
pencemaran nama baik melalui media elektronik.
3. Pasal 28: Pasal ini mengatur tentang penghinaan dan/atau
pencemaran nama baik.
UU ITE terkait Penyalahgunaan Data
4. Pasal 30, Pasal 31, Pasal 32, Pasal 34, dan Pasal 36: Pasal-pasal ini
secara tidak langsung ikut melindungi data pribadi.
5. Pasal 45 Ayat (1): Pasal ini memberikan hukuman pidana penjara
paling lama enam tahun dan denda maksimal Rp 1 miliar atas
pendistribusian informasi elektronik bermuatan asusila.
6. Pasal 45 Ayat (2): Pasal ini memberikan hukuman pidana penjara
paling lama enam tahun dan denda paling banyak Rp 1 miliar atas
penyebaran berita bohong atau hoax kepada masyarakat.
Perjanjian UNESCO tentang Etika
Kecerdasan Buatan (AI)
Perjanjian UNESCO tentang Etika Kecerdasan Buatan (AI) menguraikan
beberapa nilai dan prinsip penting:

1. Perlindungan dan promosi martabat dan kebebasan fundamental


manusia: AI harus dikembangkan dan diimplementasikan dengan cara yang
menghormati martabat manusia dan kebebasan fundamental.
2. Keragaman dan inklusivitas: AI harus mempromosikan keragaman dan
inklusivitas, dan tidak boleh mendiskriminasi atau mengecualikan kelompok
tertentu.
3. Hidup dalam harmoni dan damai: AI harus digunakan untuk
mempromosikan perdamaian dan harmoni antar manusia.
Perjanjian UNESCO tentang Etika
Kecerdasan Buatan (AI)
4. Keamanan dan keselamatan: AI harus aman untuk digunakan dan
tidak boleh membahayakan manusia atau lingkungan.
5. Keberlanjutan: AI harus dikembangkan dan digunakan dengan cara
yang berkelanjutan dan ramah lingkungan.
6. Privasi: AI harus menghormati privasi individu dan tidak boleh
digunakan untuk pengawasan massal atau penilaian sosial.
7. Keadilan dan non-diskriminasi: AI harus digunakan dengan cara
yang adil dan tidak diskriminatif.
Protokol AI
Berikut adalah beberapa elemen yang biasanya ada dalam protokol AI:

1. Pengidentifikasian Konten AI: Protokol AI seringkali mencakup mekanisme untuk


mengidentifikasi konten yang dihasilkan oleh AI. Misalnya, teknik "watermarking"
digital canggih dapat menyematkan pola halus dalam konten yang dihasilkan AI
yang hanya dapat dideteksi oleh komputer.
2. Kerangka Kerja Tata Kelola: Protokol AI biasanya mencakup kerangka kerja tata
kelola yang mendefinisikan bagaimana AI harus dikembangkan dan diterapkan. Ini
dapat mencakup standar teknis, pedoman etis, dan prosedur untuk penanganan
data.
3. Pengaturan Privasi: Protokol AI seringkali mencakup pengaturan privasi untuk
melindungi data pengguna. Ini dapat mencakup persyaratan untuk enkripsi data,
batasan pada pengumpulan dan penggunaan data, dan hak pengguna untuk
mengontrol data mereka.
Protokol AI
4. Pengaturan Keamanan: Protokol AI biasanya mencakup pengaturan
keamanan untuk melindungi sistem AI dan data pengguna dari ancaman
keamanan. Ini dapat mencakup persyaratan untuk keamanan fisik dan siber,
serta prosedur untuk merespons insiden keamanan.
5. Pengaturan Kepatuhan: Protokol AI biasanya mencakup pengaturan
kepatuhan untuk memastikan bahwa pengembangan dan penggunaan AI
sesuai dengan hukum dan regulasi yang berlaku. Ini dapat mencakup
persyaratan untuk audit dan pelaporan, serta sanksi untuk pelanggaran.
6. Pengaturan Transparansi dan Akuntabilitas: Protokol AI seringkali
mencakup pengaturan transparansi dan akuntabilitas untuk memastikan
bahwa penggunaan AI dapat dipahami dan dipertanggungjawabkan. Ini
dapat mencakup persyaratan untuk dokumentasi, penjelasan tentang
keputusan AI, dan mekanisme untuk peninjauan dan banding.
Protokol Perlindungan Manusia Terhadap AI
Aturan dan protokol yang telah dikembangkan untuk melindungi manusia dari potensi
risiko AI. Berikut adalah beberapa contohnya:

1. Etika Kecerdasan Buatan UNESCO: UNESCO telah memproduksi standar global pertama
tentang etika AI - 'Rekomendasi tentang Etika Kecerdasan Buatan' pada November 2021.
Kerangka kerja ini diadopsi oleh semua 193 Negara Anggota. Perlindungan hak asasi
manusia dan martabat adalah dasar dari Rekomendasi ini, berdasarkan pada peningkatan
prinsip-prinsip fundamental seperti transparansi dan keadilan, selalu mengingat pentingnya
pengawasan manusia terhadap sistem AI.

2. Tiga Hukum Robotika: Ini adalah seperangkat aturan yang diperkenalkan oleh penulis
fiksi ilmiah Isaac Asimov, yang dirancang untuk melindungi manusia dari potensi bahaya
robot. Meskipun awalnya ditujukan untuk fiksi, hukum-hukum ini telah mempengaruhi
diskusi tentang etika dan tata kelola AI.
Etika Kecerdasan Buatan (AI) UNESCO
Berikut adalah beberapa poin utama dari Rekomendasi tentang Etika Kecerdasan
Buatan UNESCO:
1. Perlindungan Hak Asasi Manusia dan Martabat: Rekomendasi ini berdasarkan
pada peningkatan prinsip-prinsip fundamental seperti transparansi dan keadilan,
selalu mengingat pentingnya pengawasan manusia terhadap sistem AI.
2. Kerangka Kerja Aksi Kebijakan: Rekomendasi ini mencakup berbagai bidang
kebijakan yang memungkinkan pembuat kebijakan untuk menerjemahkan nilai-nilai
inti dan prinsip-prinsip ke dalam tindakan dengan mengenai tata kelola data,
lingkungan dan ekosistem, gender, pendidikan dan penelitian, dan kesehatan dan
kesejahteraan sosial, di antara banyak bidang lainnya.
3. Proporsionalitas dan Tidak Menyakiti: AI harus dikembangkan dan digunakan
dengan cara yang proporsional dan tidak menyebabkan kerugian.
4. Keamanan dan Keselamatan: AI harus aman untuk digunakan dan tidak boleh
membahayakan manusia atau lingkungan.
5. Keadilan dan Non-diskriminasi: AI harus digunakan dengan cara yang adil
dan tidak diskriminatif.
6. Keberlanjutan: AI harus dikembangkan dan digunakan dengan cara yang
berkelanjutan dan ramah lingkungan.
7. Hak Privasi dan Perlindungan Data: AI harus menghormati privasi individu
dan tidak boleh digunakan untuk pengawasan massal atau penilaian sosial.
8. Pengawasan Manusia dan Penentuan: AI harus selalu berada di bawah
pengawasan manusia dan tidak boleh mengambil alih penentuan dari
manusia.
9. Transparansi dan Penjelasan: AI harus transparan dalam operasinya dan
harus dapat menjelaskan keputusan yang diambilnya.
Sebuah robot tidak boleh melukai manusia Sebuah robot harus mematuhi perintah yang Sebuah robot harus melindungi eksistensinya
atau, melalui tidak bertindak, membiarkan diberikan oleh manusia kecuali jika perintah sendiri selama perlindungan tersebut tidak
manusia mengalami bahaya tersebut bertentangan dengan Hukum bertentangan dengan Hukum Pertama atau Kedua.
Pertama.

Sumber: https://img.freepik.com/vector-premium/tres-leyes-robotica-ilustracion-concepto-sobre-fondo-blanco-reglas-robots-e-inteligencia-
artificial_276366-104.jpg?w=2000
Latihan Soal
1. Bagaimana deep learning digunakan dalam pembelajaran mesin?
a. Digunakan untuk menyesuaikan model dengan data pelatihan.
b. Digunakan untuk menyesuaikan model dengan data pengujian.
c. Digunakan untuk menyesuaikan model dengan data validasi.
d. Digunakan untuk menyesuaikan model dengan data latih dan data uji.
e. Digunakan untuk menyesuaikan model dengan data latih, data uji, dan data validasi.
2. Apa yang dimaksud dengan Volume dalam konteks Big Data?
a. Merujuk pada jumlah data yang sangat kecil
b. Merujuk pada jumlah data yang sangat besar
c. Merujuk pada jumlah data yang sedang
d. Merujuk pada jumlah data yang tidak terdefinisi
e. Merujuk pada jumlah data yang tidak diketahui
Latihan Soal
3. Apa yang diatur dalam Pasal 27 Ayat (3) UU ITE?
a. Penyebaran informasi bohong
b. Pencemaran nama baik
c. Penyebaran informasi yang melanggar kesusilaan
d. Perlindungan data pribadi
e. Hukuman pidana dan denda
4. Berapakah hukuman maksimal yang dapat diberikan kepada seseorang yang menyebarkan informasi
elektronik bermuatan asusila menurut Pasal 45 Ayat (1)?
a. Denda Rp 500 juta
b. Penjara lima tahun
c. Denda Rp 1 miliar dan penjara enam tahun
d. Penjara tiga tahun
e. Denda Rp 2 miliar
Latihan Soal
5. Apa yang diatur dalam Pasal 45 Ayat (2) UU ITE?
a. Penyebaran berita bohong atau hoax kepada masyarakat
b. Penyebaran informasi elektronik bermuatan asusila
c. Perlindungan data pribadi secara tidak langsung
d. Penghinaan dan pencemaran nama baik melalui media elektronik
e. Hukuman pidana penjara paling lama enam tahun

Anda mungkin juga menyukai