Modul Algoritma Data Science
Modul Algoritma Data Science
• Tahun 1962
• John Tukey menulis “The Future of Data Analysis“ yang menggambarkan pergeseran
dalam dunia statistik. Tukey mengacu pada penggabungan statistik dan komputer ketika
komputer pertama kali digunakan untuk memecahkan masalah matematika.
• Tahun 1974
• Peter Naur menerbitkan buku yang berjudul "The Concise Survey of Computer Methods".
Dalam buku tersebut, ada survei tentang metode pemrosesan data kontemporer dalam
berbagai aplikasi. Naur mendefinisikan data science sebagai ilmu yang mengelola data.
Sejarah Data Science
• Tahun 1977
• The International Association for Statistical Computing (IASC) dibentuk dengan
misi menghubungkan teknologi komputer modern, metodologi statistik
tradisional, serta pengetahuan untuk menghasilkan informasi dan pengetahuan
berbasis data.
• Tukey juga menulis “Exploratory Data Analysis” yang membahas pentingnya data
dalam menguji hipotesis. Tukey berpendapat bahwa harus ada kolaborasi antara
eksplorasi dengan analisis data konfirmatori.
• Tahun 1989
• Gregory Piatetsky-Shapiro menyelenggarakan dan memimpin workshop berjudul
"Knowledge Discovery in Databases" (KDD) untuk yang pertama kalinya.
Sejarah Data Science
• Tahun 1994
• Business Week menerbitkan "Database Marketing" yang menggambarkan
bagaimana perusahaan mengumpulkan begitu banyak informasi tentang
konsumen agar dapat diolah untuk membuat prediksi perilaku konsumen. Hasil
dari proses tersebut akan digunakan untuk menyusun pemasaran yang tepat.
Namun, masih banyak perusahaan yang kewalahan dalam mengelola banyaknya
data yang mereka miliki.
• Tahun 1996
• Untuk pertama kalinya, istilah data science dimasukkan dalam judul konferensi
oleh International Federation of Classification Societies (IFCS). Di samping itu,
Usama Fayyad, Gregory Piatetsky-Shapiro, dan Padhraic Smyth menerbitkan
“From Data Mining to Knowledge Discovery in Databases (KDD)” yang
menjabarkan keseluruhan proses untuk menemukan informasi penting dari data.
Sejarah Data Science
• Tahun 1997
• Profesor C. F. Jeff Wu dalam kuliah perdana statistik di Universitas Michigan, menyerukan agar
statistik diganti namanya menjadi data science dan ahli statistik diganti namanya menjadi data
scientist.
• Tahun 1999
• Jacob Zahavi mengatakan perlunya alat baru untuk menangani jumlah data yang sangat besar dan
terus berkembang. Dalam tulisan “Mining Data for Nuggets of Knowledge”, Zahavi menekankan
pada masalah skalabilitas dalam data mining yang menunjukkan tantangan teknis dalam
mengembangkan model untuk menganalisis data dengan lebih baik, mendeteksi hubungan
nonlinier, dan interaksi antarelemen.
• Tahun 2001
• Sejarah data science pada tahun ini adalah terciptanya Software-as-a-Service (SaaS) untuk
pertama kalinya.
Sejarah Data Science
• Tahun 2002
• International Council for Science: Committee on Data for Science and Technology mulai
menerbitkan “Data Science Journal” yang berupa platform bagi data scientist untuk saling
bertukar ide.
• Tahun 2005
• Thomas H. Davenport, Don Cohen, dan Al Jacobson menerbitkan “Competing on Analytics,” yang
mengungkapkan bahwa beberapa perusahaan mulai menggunakan analisis statistik dan
kuantitatif serta pemodelan prediktif sebagai elemen utama dalam menghadapi persaingan.
Penelitian ini kemudian diterbitkan di Harvard Business Review dan diperluas (bersama Jeanne G.
Harris) ke dalam buku "Competing on Analytics: The New Science of Winning".
• Tahun 2006
• Hadoop 0.1.0, open source database yang bersifat nonrelasional dirilis dan menjadi bagian dalam
rangkaian sejarah data science.
Sejarah Data Science
• Tahun 2008
• "Data scientist" menjadi kata kunci dan akhirnya menjadi bagian dari bahasa. DJ
Patil dan Jeff Hammerbacher dari LinkedIn dan Facebook diberi pujian karena
memulai penggunaannya sebagai kata kunci.
• Tahun 2009
• Istilah NoSQL diperkenalkan kembali oleh Johan Oskarsson ketika ia mengadakan
diskusi tentang open source database nonrelasional.
• Tahun 2010
• Drew Conway membuat “The Data Science Venn Diagram” yang mencakup
keterampilan meretas, pengetahuan matematika dan statistik, dan keahlian
substantif.
Sejarah Data Science
• Tahun 2011
• Daftar pekerjaan untuk data scientist meningkat sebesar 15.000 persen.
Ada juga peningkatan seminar dan konferensi yang dikhususkan untuk data
science dan big data. Di sisi lain, James Dixon, CTO Pentaho,
mempromosikan konsep data lakes yang mengacu pada penerimaan
informasi menggunakan database nonrelasional (NoSQL).
• Tahun 2015
• Teknik deep learning digunakan untuk membuat Google Voice. Di dalam
Google, total proyek perangkat lunak yang menggunakan AI meningkat
menjadi lebih dari 2.700 proyek sepanjang tahun.
Aplikasi Data Science dalam Industri
Analisis Foto Medis
Sektor kesehatan mendapatkan manfaat yang besar dari aplikasi Data Science
dalam pencitraan medis. Big Data Analytics in Healthcare. Menurut penelitian
tersebut, teknik pencitraan yang populer termasuk magnetic resonance imaging
(MRI), sinar-X, computed tomography, mamografi, dan sebagainya.
Berbagai metode digunakan untuk mengatasi perbedaan dalam modalitas, resolusi,
dan dimensi gambar-gambar ini, untuk meningkatkan kualitas gambar, mengekstrak
data dari gambar dengan lebih efisien, dan memberikan interpretasi yang paling
akurat. Teknik pemrosesan gambar yang paling populer berfokus pada
peningkatan, segmentasi, dan denoising yang memungkinkan analisis mendalam
tentang anatomi organ, dan deteksi berbagai kondisi penyakit.
Aplikasi yang paling menjanjikan bertujuan untuk mendeteksi tumor, stenosis
arteri, penggambaran organ, dll. Metode dan kerangka kerja yang berbeda
berkontribusi pada pencitraan medis dalam berbagai aspek. Pengindeksan citra
medis berbasis konten, dan analisis wavelet untuk klasifikasi tekstur padat.
Aplikasi Data Science dalam Industri
Deteksi penipuan di sektor keuangan. Sebagian besar bank dan
perusahaan keuangan saat ini menggunakan data science untuk
mengklasifikasikan, mengkategorikan, dan mengelompokkan data yang
dapat mengindikasikan pola penipuan. Hal ini diperlukan untuk
menghindari proses kriminalisasi yang sedang berlangsung dalam
sistem perusahaan. Sistem pakar perusahaan keuangan juga dapat
mengodekan data yang dapat mendeteksi penipuan dalam bentuk yang
tidak terduga.
Aplikasi Data Science dalam Industri
penetapan harga yang dinamis. Penetapan harga ini dibentuk oleh
bisnis e-commerce untuk mengelompokkan pelanggan atau konsumen
yang sesuai. Penetapan harga yang dinamis juga diperlukan agar setiap
kelompok pelanggan dapat menawarkan produk dengan harga yang
sesuai dengan kebutuhannya. Perhitungan harga dinamis perusahaan
biasanya mempertimbangkan berbagai kategori data, termasuk: lead
time, penilaian aset, dan fasilitas yang disediakan oleh produk.
Aplikasi Data Science dalam Industri
digunakan untuk merekrut bintang muda potensial. Mereka
menggunakan statistik dalam game yang sering diabaikan oleh tim lain
untuk memprediksi pemain potensial dan membangun tim yang kuat
dengan biaya rendah.
Data Mining
Data mining merupakan bagian penting dari analisis data dan menjadi bagian
dari disiplin ilmu data science. Dalam teknik yang lebih lanjut, data mining
termasuk proses penemuan pengetahuan dalam basis data atau yang
disebut juga Knowledge Discovery in Database (KDD). Suatu metodologi ilmu
data untuk mengumpulkan, memproses, dan menganalisis data.
1. Business Understanding: Tahap ini melibatkan pemahaman tujuan dan persyaratan proyek data mining dari
perspektif bisnis, dan kemudian mengubah tujuan ini menjadi definisi masalah data mining.
2. Data Understanding:Tahap ini melibatkan pembersihan data, transformasi data, dan seleksi fitur.
3.Data Preparation: Pada tahap ini, penggalian dan pemeriksaan data dilakukan untuk memahami pola dan tren
dalam data.
4. Modeling:. Tahap ini melibatkan pemilihan teknik pemodelan yang sesuai, desain tes, dan pembuatan model atau
model menggunakan teknik yang dipilih
5. Evaluation: Tahap ini melibatkan penilaian model atau model dalam konteks tujuan bisnis.
6. Deployment: Tahap ini melibatkan implementasi model ke dalam sistem operasional, pengaturan rencana
pemeliharaan, dan pengaturan pemantauan model.
Latihan Soal
1. Apa itu Data Science?
a. Ilmu yang mempelajari data terutama yang sifatnya kuantitatif
b. Proses penggalian data
c. Proses untuk memproduksi pengetahuan data (data insight)
d. Semua jawaban benar
e. Tidak ada jawaban yang benar
2. Apa itu Data Insight?
a. Sebuah simpulan yang dapat memberikan rekomendasi atau prediksi untuk kebutuhan tertentu
b. Proses penggalian data
c. Ilmu yang mempelajari data terutama yang sifatnya kuantitatif
d. Semua jawaban benar
e. Tidak ada jawaban yang benar
Latihan Soal
3. Apa peran seorang Data Scientist?
a. Melakukan pengolahan data sehingga menghasilkan pengetahuan
b. Melakukan mining data dengan mengekstraknya hingga menemukan data yang akurat
c. Mengidentifikasi permasalahan, mengumpulkan data dari berbagai sumber yang berbeda, mengatur
informasi dan menerjemahkan hasil menjadi solusi
d. Semua jawaban benar
e. Tidak ada jawaban yang benar
4. Berapa tahap yang ada dalam proses data science untuk menghasilkan produk data yang benar?
a. Satu
b. Dua
c. Tiga
d. Empat
e. Lima
Latihan Soal
5. Apa yang dimaksud dengan transformasi digital dalam konteks data science?
a. Proses penggalian data
b. Proses untuk memproduksi pengetahuan data (data insight)
c. Pergerakan yang mengisyaratkan betapa bernilainya data bagi sebuah langkah strategis bisnis
d. Semua jawaban benar
e. Tidak ada jawaban yang benar
ALGORITMA DATA SCIENCE
Pertemuan 2 – Data Science, Statistika dan Aljabar Linier
Statistika dan Data Science
Data science merupakan gabungan dari berbagai bidang ilmu, termasuk
matematika, statistika, ilmu komputer, ilmu manajemen, dan ilmu
komunikasi. Statistika dan data science saling terkait erat.
Statistika adalah ilmu yang mempelajari data dan peluang, dan merupakan
penunjang utama dalam data science. Statistika membantu dalam
mengumpulkan, menganalisis, dan mempresentasikan data.
Sementara itu, data science adalah ilmu yang mempelajari data secara lebih
mendalam, termasuk mengolah, menganalisis, mendistribusikan data, dan
mengubah data menjadi informasi.
Statistika dan Data Science
Dalam data science, statistika digunakan sebagai inti dari algoritma
machine learning yang canggih, menangkap dan menerjemahkan pola
data menjadi bukti yang dapat ditindaklanjuti.
3. Distribusi Probabilitas:
- Digunakan untuk menghitung probabilitas peluang, atau teknik
pengurangan dimensi, over and under sampling, hingga teknik bayesian
statistik.
Semua rumus ini memiliki peran penting dalam analisis data dan membantu
dalam pengambilan keputusan berdasarkan data tersebut. Meskipun
sederhana, mereka merupakan fondasi penting dalam dunia data science
dan statistika.
Distribusi Probabilitas
Konsep ini berkaitan dengan kemungkinan hasil tertentu dalam suatu
eksperimen atau survey. Konsep bayesian merupakan konsep yang
menjelaskan penggunaan probabilitas untuk memodelkan proses
pengambilan sampel dan mengontrol situasi tidak pasti sebelum proses
pengumpulan data dilakukan.
Dalam konsep bayesian, tingkat ketidakpastian sebelum
mengumpulkan data disebut dengan probabilitas prior. Probabilitas ini
akan diperbarui menjadi probabilitas posterior setelah data berhasil
dikumpulkan.
Distribusi Probabilitas
Konsep bayesian merupakan konsep utama dalam model machine
learning sehingga seorang calon data scientist harus benar-benar
memahami konsep ini.
Keterangan:
x adalah peubah acak kontinu dan −∞⩽x⩽∞
Distribusi normal memiliki dua parameter yaitu mean μ dan varian σ2 dimana
−∞⩽μ⩽∞ dan σ2>0. Dengan demikian fungsi f(x;μ,σ2) dapat dibaca bahwa
peubah acak x mengikuti distribusi normal dengan rata-rata μ dan varian σ2,
dan dapat ditulis menjadi X∼N(μ,σ2).
Penerapan Distribusi Probabilitas Normal
Industri: PT X mengklaim berat buah mangga “B” adalah 350 gram dengan
standar deviasi 50 gram. Jika berat mangga mengikuti distribusi normal, kita
bisa menghitung probabilitas bahwa berat buah mangga mencapai kurang
dari 250 gram, sehingga akan diprotes oleh konsumen.
Pendidikan: Distribusi normal sering digunakan untuk menilai skor tes
seperti IQ2. Misalnya, jika skor IQ mengikuti distribusi normal dengan rata-
rata 100 dan standar deviasi 15, kita bisa menghitung probabilitas seseorang
memiliki IQ di atas 130 (sering dianggap sebagai ambang batas untuk
‘kecerdasan yang sangat tinggi’).
Kesehatan: Dalam bidang kesehatan, distribusi normal sering digunakan
untuk memodelkan variabel seperti tekanan darah atau tinggi badan dalam
populasi.
Penerapan Distribusi Probabilitas Diskrit
Ujian: Misalnya, seorang siswa menjawab 10 pertanyaan pilihan ganda dan
setiap pertanyaan memiliki empat pilihan jawaban. Jika siswa menebak
semua jawaban, probabilitas mendapatkan jawaban yang benar bisa dihitung
menggunakan distribusi binomial2.
Kualitas Kontrol: Dalam industri manufaktur, distribusi binomial bisa
digunakan untuk menghitung probabilitas cacat produk. Misalnya, jika
probabilitas sebuah produk cacat adalah 0.05, maka kita bisa menghitung
probabilitas mendapatkan 0, 1, 2, …, n produk cacat dalam sampel n
produk2.
Ekonomi: Misalnya, distribusi pendapatan perekonomian negara antara
negara miskin dan kaya.
Pendidikan: Misalnya, penilaian Intelligent Quotient Level pada anak.
Bisnis: Misalnya, berapa peluang meraih untung dari investasi di reksa dana.
Fungsi Analisis Distribusi
1. Mengidentifikasi Karakteristik Data: Distribusi data menjelaskan
bagaimana nilai-nilai atau data dalam satu set tersebar di sepanjang rentang
nilai¹. Dengan memahami distribusi data, kita dapat mengetahui ciri-ciri unik
data kita dan membantu kita mengambil kesimpulan lebih jelas tentang
suatu populasi atau fenomena.
DataFrame sangat berguna dalam analisis data dan ilmu data karena
memudahkan dalam mengelola dan menganalisis data dalam format tabular.
Dengan DataFrame, Anda dapat memfilter data, melakukan operasi
aritmatika, melakukan agregasi data, dan banyak lainnya. Selain itu,
DataFrame juga terintegrasi dengan baik dengan library Python lainnya,
seperti Pandas, yang memungkinkan manipulasi, pengorganisasian, dan
pembersihan data menjadi lebih mudah.
Matriks dan Data Frame
Matriks dan DataFrame adalah dua struktur data yang sering digunakan dalam
analisis data dan data science. Secara umum, matriks dan DataFrame adalah dua
struktur data yang saling melengkapi dan keduanya penting dalam berbagai aplikasi
analisis data dan data science. Berikut adalah hubungan antara keduanya:
2. Struktur: Matriks adalah array dua dimensi di mana setiap elemen memiliki tipe
data yang sama. DataFrame, di sisi lain, adalah struktur data tabular yang terdiri
dari baris dan kolom, di mana setiap kolom dapat memiliki tipe data yang berbeda.
Matriks dan Data Frame
3. Manipulasi Data: DataFrame, khususnya dalam konteks library
Pandas di Python, memberikan lebih banyak fleksibilitas dan fungsi
untuk manipulasi data dibandingkan matriks. Misalnya, dengan
DataFrame, Anda dapat memfilter data, melakukan operasi aritmatika,
dan melakukan agregasi data.
1. Mengubah Tipe Data: Anda dapat mengubah tipe data pada dataframe
dengan menggunakan fungsi `astype()`.
a. Sintaks yang Bersih dan Mudah Dibaca: Membuatnya ideal untuk pemula.
b. Library yang Luas: Libraries seperti NumPy untuk manipulasi array, Pandas
untuk manipulasi data frame, Matplotlib dan Seaborn untuk visualisasi data,
Scikit-learn untuk machine learning, dan TensorFlow dan PyTorch untuk
deep learning.
c. Komunitas Besar: Memberikan dukungan yang luas dan beragam sumber
belajar.
d. Fleksibilitas: Bisa digunakan untuk berbagai tugas dari analisis data hingga
pengembangan web (menggunakan frameworks seperti Django atau Flask)
dan scripting.
Tools yang digunakan
Jika terjadi kendala check status atau beberapa perintah tidak berfungsi dengan baik,
lakukan perubahan atau penambahan pada Environment Variables. Pada:
Start Menu Edit the system Environment Variables Environment Variables User
Variables Path edit isi bagian lokasi folder Script python.
• Contoh: C:\Users\KAPRODI-SI\AppData\Local\Programs\Python\Python310\Scripts
Install Library Python
1. Untuk melakukan install library python dapat menggunakan perintah: pip install
<namalibrary>, contoh langkah install library pada tools Visual Studio Code:
2. Buka Lembar Kerja baru pada Visual Studio Code
3. Pilih View Terminal, kemudian masukkan perintah: pip install <namalibrary>
4. Untuk mengetahui perintah apa saja yang ada pada pip bisa memasukkan perintah
“pip” pada terminal;
5. Install library numpy: Pip install numpy
6. Lakukan langkah yang sama pada instal 3 library lainnya yaitu: Pandas, Matplotlib,
Seaborn
Sumber Data
Data Primer dalam Data Science
Dalam data science, data primer adalah data yang dikumpulkan secara
langsung oleh peneliti atau analis untuk tujuan spesifik proyek atau analisis
mereka. Pengumpulan data primer biasanya dilakukan ketika data yang ada (data
sekunder) tidak memadai, tidak relevan, atau tidak tersedia untuk kebutuhan
penelitian khusus tersebut. Data primer sangat berharga karena dapat disesuaikan
dengan kebutuhan khusus suatu proyek dan cenderung lebih akurat dan relevan.
Data primer dapat dikumpulkan melalui berbagai metode seperti : Survei dan
Kuesioner, Wawancara, Observasi
Data Sekunder dalam Data Science
Dalam konteks data science, "data sekunder" merupakan data yang sudah
dikumpulkan dan diproses oleh pihak lain dan tidak secara khusus dikumpulkan
untuk tujuan penelitian atau analisis saat ini. Penggunaan data sekunder sering
menjadi pilihan yang efisien dalam hal waktu dan biaya, terutama dalam proyek-
proyek data science yang memerlukan akses ke dataset besar atau longitudinal.
Keuntungan :
a. Hemat Waktu dan Biaya: Mengumpulkan data primer bisa sangat mahal dan
memakan waktu; data sekunder menyediakan akses cepat ke data.
b. Akses ke Dataset yang Luas: Memungkinkan analisis terhadap data yang
mungkin terlalu besar atau kompleks untuk dikumpulkan sendiri.
c. Studi Longitudinal: Memungkinkan analisis tren jangka panjang
menggunakan data yang telah dikumpulkan selama bertahun-tahun.
Data Sekunder dalam Data Science (Lanjutan)
Keterbatasan :
a. Relevansi dan Ketepatan: Mungkin tidak sepenuhnya sesuai dengan
kebutuhan spesifik atau pertanyaan penelitian.
b. Kualitas dan Konsistensi: Variabilitas dalam cara data dikumpulkan dan
diproses oleh sumber aslinya bisa mempengaruhi kualitas.
c. Keterbatasan Akses: Beberapa data mungkin terbatas atau memiliki
pembatasan dalam hal penggunaannya.
Salah satu cara untuk mendapatkan data sekunder dalam data science yaitu
dengan cara mencari dataset yang bersifat public seperti pada:
1. Kaggle: https://www.kaggle.com/
2. UCI Machine Learning Repository: https://archive.ics.uci.edu/
3. Satu Data Indonesia https://katalog.data.go.id/
Mengumpulkan Data – Dataset Cars4u
Salah satu data yang akan digunakan pada Latihan pembelajaran data science ini
yaitu dataset mobil (Data Sekunder), Dalam dataset ini akan mencoba
menganalisis harga mobil bekas , data dapat diunduh pada:
1. Link Dataset: https://www.kaggle.com/datasets/sukhmanibedi/cars4u
2. Nama Datase: Cars4u
3. Jumlah attribute: 14
4. Format: csv
Mengubah Text Editor Visual Studio Code menjadi
Jupyter Notebook (Optional)
Buka aplikasi VS Code
pilih File open folder (pilih folder lokasi penyimpanan dataset)
Tambahkan extension Jupyter notebook install
S
Data Preparation – Check Duplikasi Data
Check Duplikasi Data (nunique)
nunique() berdasarkan beberapa nilai unik di setiap kolom dan deskripsi data,
kita dapat mengidentifikasi kolom kontinu dan kategorikal dalam data. Data
duplikat dapat ditangani atau dihapus berdasarkan analisis lebih lanjut
Contoh: data.nunique()
Data Preparation – Perhitungan Nilai
Menghitung Nilai yang Hilang (isnull)
isnull() secara luas telah dilakukan di semua langkah pra-pemrosesan untuk
mengidentifikasi nilai null dalam data.
1. Isnull() digunakan untuk mengetahui baris/ record yang tidak memiliki
nilai
2. data.isnull().sum() digunakan untuk mendapatkan jumlah record yang
hilang di setiap kolom
Data Preparation – Pengurangan Data
Beberapa kolom atau variabel dapat dihilangkan jika tidak menambah nilai
analisis. Dalam kumpulan data, kolom S.No hanya memiliki nilai ID, dengan
asumsi nilai tersebut tidak memiliki kekuatan prediktif untuk memprediksi
variabel dependen.
Data Preparation – Menambahkan Kolom Data Baru
Akan sulit untuk mengetahui umur mobil jika dalam format tahun karena Umur
mobil merupakan faktor yang mempengaruhi Harga Mobil. Maka perlu
Menambahkan kolom baru “Car_Age” untuk mengetahui umur mobil.
Data Preparation – Split Data
Karena nama mobil tidak akan menjadi prediktor harga yang bagus dalam data
saat ini. Namun kita dapat memproses kolom ini untuk mengekstrak informasi
penting menggunakan nama merek dan Model. Mari kita pisahkan nama dan
perkenalkan variabel baru “Merek” dan “Model”
Data Preparation – Pembersihan Data
Beberapa nama variabel tidak relevan dan tidak mudah dipahami.
Beberapa data mungkin mengalami kesalahan entri data, dan beberapa variabel
mungkin memerlukan konversi tipe data. Kita perlu memperbaiki masalah ini pada
data .
Data Preparation – Pembersihan Data (Lanjutan)
Pada contoh, Nama merek 'Isuzu' 'ISUZU' dan 'Mini' dan 'Land' terlihat salah. Ini
perlu menampilkan data Brand tersebut menggunakan rumus berikut:
Data Preparation – Pembersihan Data (Lanjutan)
ada contoh, Nama merek 'Isuzu' 'ISUZU' dan 'Mini' dan 'Land' terlihat salah. Ini
perlu diperbaiki menggunakan coding berikut ini:
Pada pertemuan ini telah melakukan analisis data mendasar, Menampilkan, dan
pembersihan data. Selanjutnya akan melanjutkan pada proses EDA pada
pertemuan selanjutnya.
Tugas
Data Preparation
a. Jelaskan tahapan apa saja yang digunakan pada tahap Data
Preparation
b. Jelaskan hasil setiap tahapan yang digunakan
Note: Hasil Tugas dapat dilanjutkan dan merupakan bagian dari Tugas Besar
Matakuliah Algoritma Dat Science
Pertemuan 6
ALGORITMA DATA SCIENCE
Analisis Data Eksplorasi (ADE)
AA1
Tahapan ini bertujuan untuk menyeleksi Teknik pemrosesan dan analisis data
yang sesuai serta memanfaatkan kemampuan manusia untuk memahami pola
dari suatu data, karena tidak semua pola dikenali tools analisis data.
Method .describe() pada hasil diatas hanya menampilkan data dengan type
numeric.
Untuk menampilkan ringkasan statistic dengan bentuk diagonal lainnya
dengan menambahkan transpose() atau .T diakhir method .describe() Menjadi
ADE – Ringkasan Statistik (Praktik) - Lanjutan
Note: Hasil Tugas dapat dilanjutkan dan merupakan bagian dari Tugas Besar
Matakuliah Algoritma Data Science
ALGORITMA DATA SCIENCE
Pertemuan 7 – Deep Learning, Big Data, Etika dan Hukum AI (Data Science)
Deep Learning
Deep learning adalah bagian dari kecerdasan buatan (AI) dan machine
learning menggunakan algoritma yang dapat meniru proses kerja otak
manusia. Teknologi ini sangat efektif untuk mengolah data mentah dan
menciptakan pola untuk keperluan pengambilan keputusan. Deep
learning juga dikenal sebagai deep neural learning atau deep network
learning.
Algortima untuk meniru cara kerja otak manusia adalah algoritma
jaringan syaraf tiruan atau artificial neural network dan turunannya.
Deep learning menyusun algoritma berlapis-lapis untuk menciptakan
“jaringan saraf tiruan”, sebuah struktur yang menyerupai otak manusia,
yang dapat mempelajari dan membuat keputusan “cerdas” sendiri.
Deep learning juga digunakan dalam teknologi yang muncul seperti
mobil otonom, realitas virtual, dan masih banyak lagi. Model deep
learning merupakan file komputer yang telah dilatih oleh para ilmuwan
data untuk melakukan tugas menggunakan algoritme atau serangkaian
langkah yang telah ditentukan.
Deep learning biasanya dilakukan pada data yang lebih banyak, dan
hasilnya tidak cukup bagus jika datanya sedikit.
Deep learning mampu mengenali pola dan informasi tanpa
pengawasan dari data yang tidak terstruktur atau tidak berlabel.
Teknologi ini digunakan dalam berbagai aplikasi, seperti pengenalan
suara, deteksi objek, terjemahan bahasa, dan lainnya.
Kenapa Deep Learning
Deep learning akan membantu Anda memahami teknologi modern dan
bagaimana menerapkannya untuk memecahkan masalah nyata.
1. Penerapan Luas: Deep learning telah diterapkan dalam berbagai
produk berteknologi tinggi seperti self-driving car, asisten digital,
Google Translate, dan voice-activated device.
2. Pemrosesan Data Tidak Terstruktur: Deep learning dapat
memproses data tidak terstruktur seperti teks dan gambar.
3. Otomatisasi Ekstraksi Fitur: Deep learning dapat mengotomatisasi
proses ekstraksi fitur tanpa perlu melakukan proses pelabelan secara
manual.
4. Hasil Berkualitas Tinggi: Deep learning dapat memberikan hasil akhir
yang berkualitas.
5. Pengurangan Biaya Operasional: Deep learning dapat mengurangi
biaya operasional.
6. Manipulasi Data yang Efektif: Deep learning dapat melakukan
manipulasi data dengan lebih efektif.
7. Meningkatkan Kualitas Aplikasi: Deep learning dapat menganalisis
pola pemakaian pengguna dalam aplikasi, seperti memberikan
rekomendasi film favorit pengguna.
Contoh pemanfaatan deep learning
1. Netflix dan YouTube: Deep learning digunakan sebagai alat untuk memberikan
rekomendasi video berdasarkan pola pemakaian pengguna.
2. Mobil Tanpa Pengemudi: Deep learning digunakan dalam teknologi mobil tanpa
pengemudi seperti Tesla. Teknologi ini memungkinkan kendaraan untuk mengenali
tanda berhenti dan membedakan pejalan kaki dari tiang lampu.
3. Asisten Digital: Deep learning digunakan dalam asisten digital seperti Cortana,
Alexa, dan Siri.
4. Penerjemah: Deep learning digunakan dalam sistem penerjemah seperti Google
Translate dan SayHi.
5. Pengenalan Wajah: Deep learning digunakan dalam teknologi pengenalan wajah
seperti yang digunakan oleh Facebook dan iOS.
6. Chatbots dan Layanan Pelanggan Otomatis: Deep learning digunakan dalam
chatbots dan layanan pelanggan otomatis seperti yang digunakan oleh Sephora,
Fandango, dan AccuWeather.
Big Data
Big data adalah kumpulan data yang sangat besar, kompleks dan terus
bertambah setiap waktu. Data ini dihasilkan dari aktivitas internet yang
rutin dilakukan, baik untuk tujuan pribadi maupun bisnis. Big data
mencakup data yang dihasilkan dari berbagai sumber dan dalam
berbagai format, termasuk teks, audio, dan video.
1. Pasal 8: Pasal ini memberikan hak kepada subjek data pribadi untuk
mengakhiri pemrosesan, menghapus, dan/atau memusnahkan data pribadi
tentang dirinya sesuai dengan ketentuan peraturan perundang-undangan.
2. Pasal 7: Pasal ini memberikan hak kepada subjek data pribadi untuk
mendapatkan akses dan memperoleh salinan data pribadi tentang dirinya
sesuai dengan ketentuan peraturan perundangan-undangan.
3. Pasal 20: Pasal ini mengatur bahwa setiap orang wajib memiliki dasar
pemrosesan data pribadi.
UU NO 27 Tahun 2022 tentang
Penyalahgunaan Data
4. Pasal 27: Pasal ini mengatur bahwa setiap orang wajib melakukan
pemrosesan data pribadi secara terbatas dan spesifik, sah secara
hukum, dan transparan.
5. Pasal 28: Pasal ini mengatur bahwa setiap orang wajib melakukan
pemrosesan data pribadi sesuai dengan tujuan pemrosesan data
pribadi.
6. Pasal 67-73: Pasal ini mengatur mengenai ketentuan pidana bagi
siapa saja yang dengan sengaja mengumpulkan data pribadi yang
bukan miliknya untuk menguntungkan diri sendiri dan orang lain
UU ITE terkait Penyalahgunaan Data
Berikut adalah beberapa pasal dalam Undang-Undang Informasi dan
Transaksi Elektronik (UU ITE) di Indonesia yang terkait dengan
penyalahgunaan data:
1. Etika Kecerdasan Buatan UNESCO: UNESCO telah memproduksi standar global pertama
tentang etika AI - 'Rekomendasi tentang Etika Kecerdasan Buatan' pada November 2021.
Kerangka kerja ini diadopsi oleh semua 193 Negara Anggota. Perlindungan hak asasi
manusia dan martabat adalah dasar dari Rekomendasi ini, berdasarkan pada peningkatan
prinsip-prinsip fundamental seperti transparansi dan keadilan, selalu mengingat pentingnya
pengawasan manusia terhadap sistem AI.
2. Tiga Hukum Robotika: Ini adalah seperangkat aturan yang diperkenalkan oleh penulis
fiksi ilmiah Isaac Asimov, yang dirancang untuk melindungi manusia dari potensi bahaya
robot. Meskipun awalnya ditujukan untuk fiksi, hukum-hukum ini telah mempengaruhi
diskusi tentang etika dan tata kelola AI.
Etika Kecerdasan Buatan (AI) UNESCO
Berikut adalah beberapa poin utama dari Rekomendasi tentang Etika Kecerdasan
Buatan UNESCO:
1. Perlindungan Hak Asasi Manusia dan Martabat: Rekomendasi ini berdasarkan
pada peningkatan prinsip-prinsip fundamental seperti transparansi dan keadilan,
selalu mengingat pentingnya pengawasan manusia terhadap sistem AI.
2. Kerangka Kerja Aksi Kebijakan: Rekomendasi ini mencakup berbagai bidang
kebijakan yang memungkinkan pembuat kebijakan untuk menerjemahkan nilai-nilai
inti dan prinsip-prinsip ke dalam tindakan dengan mengenai tata kelola data,
lingkungan dan ekosistem, gender, pendidikan dan penelitian, dan kesehatan dan
kesejahteraan sosial, di antara banyak bidang lainnya.
3. Proporsionalitas dan Tidak Menyakiti: AI harus dikembangkan dan digunakan
dengan cara yang proporsional dan tidak menyebabkan kerugian.
4. Keamanan dan Keselamatan: AI harus aman untuk digunakan dan tidak boleh
membahayakan manusia atau lingkungan.
5. Keadilan dan Non-diskriminasi: AI harus digunakan dengan cara yang adil
dan tidak diskriminatif.
6. Keberlanjutan: AI harus dikembangkan dan digunakan dengan cara yang
berkelanjutan dan ramah lingkungan.
7. Hak Privasi dan Perlindungan Data: AI harus menghormati privasi individu
dan tidak boleh digunakan untuk pengawasan massal atau penilaian sosial.
8. Pengawasan Manusia dan Penentuan: AI harus selalu berada di bawah
pengawasan manusia dan tidak boleh mengambil alih penentuan dari
manusia.
9. Transparansi dan Penjelasan: AI harus transparan dalam operasinya dan
harus dapat menjelaskan keputusan yang diambilnya.
Sebuah robot tidak boleh melukai manusia Sebuah robot harus mematuhi perintah yang Sebuah robot harus melindungi eksistensinya
atau, melalui tidak bertindak, membiarkan diberikan oleh manusia kecuali jika perintah sendiri selama perlindungan tersebut tidak
manusia mengalami bahaya tersebut bertentangan dengan Hukum bertentangan dengan Hukum Pertama atau Kedua.
Pertama.
Sumber: https://img.freepik.com/vector-premium/tres-leyes-robotica-ilustracion-concepto-sobre-fondo-blanco-reglas-robots-e-inteligencia-
artificial_276366-104.jpg?w=2000
Latihan Soal
1. Bagaimana deep learning digunakan dalam pembelajaran mesin?
a. Digunakan untuk menyesuaikan model dengan data pelatihan.
b. Digunakan untuk menyesuaikan model dengan data pengujian.
c. Digunakan untuk menyesuaikan model dengan data validasi.
d. Digunakan untuk menyesuaikan model dengan data latih dan data uji.
e. Digunakan untuk menyesuaikan model dengan data latih, data uji, dan data validasi.
2. Apa yang dimaksud dengan Volume dalam konteks Big Data?
a. Merujuk pada jumlah data yang sangat kecil
b. Merujuk pada jumlah data yang sangat besar
c. Merujuk pada jumlah data yang sedang
d. Merujuk pada jumlah data yang tidak terdefinisi
e. Merujuk pada jumlah data yang tidak diketahui
Latihan Soal
3. Apa yang diatur dalam Pasal 27 Ayat (3) UU ITE?
a. Penyebaran informasi bohong
b. Pencemaran nama baik
c. Penyebaran informasi yang melanggar kesusilaan
d. Perlindungan data pribadi
e. Hukuman pidana dan denda
4. Berapakah hukuman maksimal yang dapat diberikan kepada seseorang yang menyebarkan informasi
elektronik bermuatan asusila menurut Pasal 45 Ayat (1)?
a. Denda Rp 500 juta
b. Penjara lima tahun
c. Denda Rp 1 miliar dan penjara enam tahun
d. Penjara tiga tahun
e. Denda Rp 2 miliar
Latihan Soal
5. Apa yang diatur dalam Pasal 45 Ayat (2) UU ITE?
a. Penyebaran berita bohong atau hoax kepada masyarakat
b. Penyebaran informasi elektronik bermuatan asusila
c. Perlindungan data pribadi secara tidak langsung
d. Penghinaan dan pencemaran nama baik melalui media elektronik
e. Hukuman pidana penjara paling lama enam tahun