Data Collecting

Diunggah oleh

Akaruku Media

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

11 tayangan3 halaman

Data Collecting

Diunggah oleh

Akaruku Media

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 3

Data Collecting

Pada materi sebelumnya Anda telah belajar tentang pengenalan machine learning
(ML) dan jenis-jenis library machine learning. Apakah Anda bingung harus
melangkah dari manakah untuk memulai proyek ML?

OK Jangan khawatir. Kita akan belajar sedikit demi sedikit ya. Tahap pertama dari
proses pengerjaan proyek ML adalah data collecting, yaitu proses pengumpulan
data.

“Data is the new oil. It’s valuable, but if unrefined it cannot really be used. It has to
be changed into gas, plastic, chemicals, etc to create a valuable entity that drives
profitable activity; so must data be broken down, analyzed for it to have value.”

-Clive Humby, 2006-

Kutipan di atas adalah kalimat terkenal tentang data yang pertama kali disampaikan
oleh Clive Humby, seorang matematikawan asal Inggris pada tahun 2006. Kutipan
tersebut menjadi sangat populer setelah The Economist mempublikasikan laporan
tahun 2017 yang berjudul The World’s most valuable resource is no longer oil, but
data.

Perangkat cerdas dan internet telah membuat data menjadi berlimpah. Banjir arus
data yang terjadi di era digital mengubah sifat persaingan. Perusahaan teknologi
raksasa berlomba-lomba mengumpulkan banyak data untuk meningkatkan
produknya, menarik lebih banyak pengguna, menghasilkan lebih banyak data, dan
seterusnya. Mereka menjangkau seluruh sektor ekonomi: Google bisa melihat apa
yang ditelusuri dan dicari oleh orang-orang, Facebook bisa melihat apa yang mereka
bagikan, dan Amazon mengetahui apa yang mereka beli. Mereka seolah
memiliki “God’s eyes view” tentang aktivitas di pasar mereka sendiri dan sekitarnya.
Luar biasa ya? Sekarang hampir semua perusahaan mengumpulkan data untuk
sumber daya mereka.

Lantas, bagaimana cara mengumpulkan data? Ada tiga cara yang bisa kita lakukan
untuk mengumpulkan data, yaitu.

 Mengekstrasi data (misal dari internet, riset, survei, dll).

 Mengumpulkan dan membuat dataset Anda sendiri dari nol.
 Menggunakan dataset yang telah ada.
Untuk saat ini, kita akan menggunakan dataset yang sudah ada dari platform
penyedia data. Di masa mendatang tentu Anda dapat mencoba mengekstrak atau
mengumpulkan dataset Anda sendiri ya.

Menemukan dataset yang tepat adalah salah satu langkah penting dalam proyek
machine learning. Saat ini, tersedia banyak sumber data di internet yang dapat kita
manfaatkan. Beberapa di antaranya yang perlu Anda ketahui adalah sebagai berikut.

 UC Irvine Machine Learning Repository

UCI ML Repository adalah kumpulan database, teori, dan generator data
yang digunakan oleh komunitas ML untuk analisis algoritma machine
learning. Arsip tersebut awalnya dibuat sebagai arsip ftp pada tahun 1987
oleh David Aha, seorang mahasiswa pascasarjana UC Irvine. Sejak saat itu
database UCI ML Repository ini digunakan secara luas oleh mahasiswa, staf
pengajar, dan peneliti di seluruh dunia sebagai salah satu sumber utama
dataset machine learning.

 Kaggle Dataset
Kaggle adalah komunitas belajar ilmu data paling populer di dunia. Kaggle
memiliki peralatan dan sumber daya yang kuat untuk membantu kita belajar
data science dan machine learning. Saat ini Kaggle memiliki 50.000 lebih
publik dataset, baik dataset bersifat dummy ataupun riil yang dapat Anda
unduh secara bebas.

 Google Dataset Search Engine

Pada akhir tahun 2018 Google meluncurkan Dataset Search, sebuah mesin
pencari dataset. Tools ini bertujuan untuk menyatukan ribuan repositori
dataset yang berbeda agar dataset tersebut lebih mudah ditemukan oleh
pengguna.

 Tensorflow Dataset
Seperti yang telah dijelaskan pada sub-modul
sebelumnya, TensorFlow adalah framework open source untuk machine
learning yang dikembangkan dan digunakan oleh Google. Selain
menyediakan learning resources, tensorflow juga menyediakan data
resources yang cukup lengkap di library-nya mulai dari audio data, images,
text, video, dan lainnya.

 US Government Data
Bagi Anda yang tertarik untuk mempelajari fenomena yang terjadi di Amerika
Serikat, pemerintah Amerika meluncurkan data online resources yang mudah
diakses oleh publik. Isinya antara lain data badai, data angka kelulusan dan
dropout, data hewan-hewan yang terancam punah, statistik kriminal, dan
berbagai data menarik lainnya.

 Satu Data Indonesia

Pemerintah Indonesia, melalui portal resmi Satu Data Indonesia menjalankan
kebijakan tata kelola data pemerintah yang bertujuan untuk menciptakan data
berkualitas, mudah diakses, dapat dibagi, dan digunakan oleh Instansi Pusat
serta Daerah. Data dalam portal ini dapat diakses secara terbuka dan
dikategorikan sebagai data publik, sehingga tidak memuat rahasia negara,
rahasia pribadi, atau hal lain sejenisnya sebagaimana diatur dalam Undang-
undang nomor 14 Tahun 2008 tentang Keterbukaan Informasi Publik.

 Open Data Pemerintah Jawa Barat

Open data Jawa Barat adalah portal resmi data terbuka milik Pemerintah
Provinsi Jawa Barat yang berisikan data-data dari Perangkat Daerah di
lingkungan Pemerintah Provinsi Jawa Barat. Open Data Jawa Barat ada
untuk dapat memenuhi kebutuhan data publik bagi masyarakat. Data
disajikan dengan akurat, akuntabel, valid, mudah diakses dan berkelanjutan.

Anda mungkin juga menyukai

Pemrograman Untuk Machine Learning
Belum ada peringkat
Pemrograman Untuk Machine Learning
5 halaman
Data Mining
Belum ada peringkat
Data Mining
106 halaman
PPT Mengumpulkan Data
Belum ada peringkat
PPT Mengumpulkan Data
38 halaman
ML 01 Introduction
100% (1)
ML 01 Introduction
70 halaman
Data Science For Social Research - 31-9-2022 (UNDIP)
Belum ada peringkat
Data Science For Social Research - 31-9-2022 (UNDIP)
27 halaman
Files 20191130065759
Belum ada peringkat
Files 20191130065759
153 halaman
Pengenalan Machine Learning
50% (2)
Pengenalan Machine Learning
51 halaman
Machine Learning Workflow
Belum ada peringkat
Machine Learning Workflow
132 halaman
03 Data Understanding
100% (1)
03 Data Understanding
31 halaman
FRAMEWORK BIG DATA Pertemuan 3 Dan 4 Salinan
Belum ada peringkat
FRAMEWORK BIG DATA Pertemuan 3 Dan 4 Salinan
38 halaman
M6-KB4. Materi Ajar Framework Big Data
Belum ada peringkat
M6-KB4. Materi Ajar Framework Big Data
44 halaman
Pertemuan 3 (Ok) (ML Lifecycle)
Belum ada peringkat
Pertemuan 3 (Ok) (ML Lifecycle)
43 halaman
Tool ML 3#2024
Belum ada peringkat
Tool ML 3#2024
48 halaman
Pertemuan 4 - IDE Dan Sumber Data Pada Data Science
100% (1)
Pertemuan 4 - IDE Dan Sumber Data Pada Data Science
16 halaman
Gabung Pembelajaran Mesin
Belum ada peringkat
Gabung Pembelajaran Mesin
249 halaman
Bab 1 - Pengenalan Machine Learning & Tools
Belum ada peringkat
Bab 1 - Pengenalan Machine Learning & Tools
6 halaman
TK 3 Big Data Sisa No 1
Belum ada peringkat
TK 3 Big Data Sisa No 1
14 halaman
2A 2010631250003 AlpinApriliansyahMohsaa
Belum ada peringkat
2A 2010631250003 AlpinApriliansyahMohsaa
21 halaman
100 Link Notebook Data Science Pilihan Datasans Untuk Portofolio Dan Ide Skripsi Lengkap Dengan Dataset & Code
Belum ada peringkat
100 Link Notebook Data Science Pilihan Datasans Untuk Portofolio Dan Ide Skripsi Lengkap Dengan Dataset & Code
30 halaman
Pertemuan 10
Belum ada peringkat
Pertemuan 10
61 halaman
Data Understanding Aak Ui 2021-07-23 v2
Belum ada peringkat
Data Understanding Aak Ui 2021-07-23 v2
64 halaman
5-Machine Learning Lifecycle
Belum ada peringkat
5-Machine Learning Lifecycle
55 halaman
Artificial Intelegent-Pertemuan6
Belum ada peringkat
Artificial Intelegent-Pertemuan6
61 halaman
Perencanaan Pembelajaran: Tujuan
Belum ada peringkat
Perencanaan Pembelajaran: Tujuan
46 halaman
Pertemuan2 Kedua Data Mining Data
Belum ada peringkat
Pertemuan2 Kedua Data Mining Data
36 halaman
Tk3 Big Data
Belum ada peringkat
Tk3 Big Data
9 halaman
Persiapan Belajar Data Science
Belum ada peringkat
Persiapan Belajar Data Science
29 halaman
Fundamental Data Analyst: Minggu Ke 1
Belum ada peringkat
Fundamental Data Analyst: Minggu Ke 1
28 halaman
BAB II Lagi PDF
Belum ada peringkat
BAB II Lagi PDF
26 halaman
Data Sains Pada Data Tidak Terstruktur
Belum ada peringkat
Data Sains Pada Data Tidak Terstruktur
19 halaman
Infrastruktur Data Di Industri
Belum ada peringkat
Infrastruktur Data Di Industri
25 halaman
G1F021046 - Andro Yesaya Toar - Laporan 2 Data Mining
Belum ada peringkat
G1F021046 - Andro Yesaya Toar - Laporan 2 Data Mining
24 halaman
DM Pertemuan 2 DAN 3
Belum ada peringkat
DM Pertemuan 2 DAN 3
21 halaman
Materi Modul Data Collecting Loading Cleaning EDA Splitting
Belum ada peringkat
Materi Modul Data Collecting Loading Cleaning EDA Splitting
23 halaman
LKS SMK Tingkat Provinsi Jawa Tengah
Belum ada peringkat
LKS SMK Tingkat Provinsi Jawa Tengah
24 halaman
Note Book Webinar I 20022024
Belum ada peringkat
Note Book Webinar I 20022024
22 halaman
1 Modul MDS
Belum ada peringkat
1 Modul MDS
17 halaman
Fungsi SUM, AVERAGE, Dan COUNT Dalam Spreadsheet
Belum ada peringkat
Fungsi SUM, AVERAGE, Dan COUNT Dalam Spreadsheet
16 halaman
Minggu Ke 4 Algoritma Data Science: Integrated Development Environment (IDE) Dan Sumber Data Pada Data Science
Belum ada peringkat
Minggu Ke 4 Algoritma Data Science: Integrated Development Environment (IDE) Dan Sumber Data Pada Data Science
16 halaman
Pertemuan-03-Membangun Skenario Pemodelan
Belum ada peringkat
Pertemuan-03-Membangun Skenario Pemodelan
19 halaman
Modul 12
Belum ada peringkat
Modul 12
2 halaman
Apa Itu Pivot Table
Belum ada peringkat
Apa Itu Pivot Table
11 halaman
5 Implementasi Machine Learning Menggunakan Bahasa Python
Belum ada peringkat
5 Implementasi Machine Learning Menggunakan Bahasa Python
22 halaman
G1F021020 - Alvin Indrawan - Laporan Tugas 2 CEI
Belum ada peringkat
G1F021020 - Alvin Indrawan - Laporan Tugas 2 CEI
13 halaman
Pertemuan 1
Belum ada peringkat
Pertemuan 1
12 halaman
Article Review 8 Fundamental of Machine Learning
Belum ada peringkat
Article Review 8 Fundamental of Machine Learning
13 halaman
Data Mining
Belum ada peringkat
Data Mining
15 halaman
M01 Pendahuluan
Belum ada peringkat
M01 Pendahuluan
8 halaman
Transkrip Visualisasi Data Menggunakan Diagram
Belum ada peringkat
Transkrip Visualisasi Data Menggunakan Diagram
5 halaman
Tips Pivot Table
Belum ada peringkat
Tips Pivot Table
5 halaman
Artificial Neural Network
Belum ada peringkat
Artificial Neural Network
8 halaman
Convolutional Neural Network
Belum ada peringkat
Convolutional Neural Network
7 halaman
Data Preparation Dengan Normalization Dan Standardization
Belum ada peringkat
Data Preparation Dengan Normalization Dan Standardization
4 halaman
Data Engineer
Belum ada peringkat
Data Engineer
3 halaman
Pengenalan Machine Learning
Belum ada peringkat
Pengenalan Machine Learning
6 halaman
Visualisasi Data Dalam Bisnis
Belum ada peringkat
Visualisasi Data Dalam Bisnis
4 halaman
Laporan Progress 2 MBKM USK - M Daffa Adrian Sitorus
Belum ada peringkat
Laporan Progress 2 MBKM USK - M Daffa Adrian Sitorus
7 halaman
Python Pada IDE Dan Notebook
Belum ada peringkat
Python Pada IDE Dan Notebook
3 halaman
Instalasi Python Pada Operating System
Belum ada peringkat
Instalasi Python Pada Operating System
3 halaman
Elemen Pivot Table
Belum ada peringkat
Elemen Pivot Table
3 halaman
Data Gathering
Belum ada peringkat
Data Gathering
4 halaman
Library Populer Pada Python Untuk ML Dan Data Science
Belum ada peringkat
Library Populer Pada Python Untuk ML Dan Data Science
4 halaman
Langkah Menjadi Data Scientist
Belum ada peringkat
Langkah Menjadi Data Scientist
2 halaman
Rangkuman Sub Modul Pendahuluan
Belum ada peringkat
Rangkuman Sub Modul Pendahuluan
3 halaman
Deployment Dan Feedback
Belum ada peringkat
Deployment Dan Feedback
3 halaman
Glosarium
Belum ada peringkat
Glosarium
3 halaman
Modul4 2
Belum ada peringkat
Modul4 2
5 halaman
Transkrip Pengantar Kelas
Belum ada peringkat
Transkrip Pengantar Kelas
2 halaman
Tools Dalam Visualisasi Data
Belum ada peringkat
Tools Dalam Visualisasi Data
2 halaman
TensorFlow
Belum ada peringkat
TensorFlow
4 halaman
Elemen Insert
Belum ada peringkat
Elemen Insert
4 halaman
Artificial Intelligence Atau AI Menjadi Salah Satu Teknologi Yang Sedang Banyak Dibicarakan
Belum ada peringkat
Artificial Intelligence Atau AI Menjadi Salah Satu Teknologi Yang Sedang Banyak Dibicarakan
5 halaman
Assignment 2 - B
Belum ada peringkat
Assignment 2 - B
2 halaman
Pengenalan Python
Belum ada peringkat
Pengenalan Python
2 halaman
Assignment 1
Belum ada peringkat
Assignment 1
2 halaman
Mengapa Python
Belum ada peringkat
Mengapa Python
1 halaman
Kecerdasan Buatan: Revolusi Industri Keempat
Dari Everand
Kecerdasan Buatan: Revolusi Industri Keempat
Peter Skalfist
4.5/5 (5)
Machine Learning
Dari Everand
Machine Learning
Ibnu Daqiqil Id
2.5/5 (7)
Arkologi: Bagaimana kota-kota kita akan berkembang menjadi berfungsi sebagai sistem kehidupan?
Dari Everand
Arkologi: Bagaimana kota-kota kita akan berkembang menjadi berfungsi sebagai sistem kehidupan?
Fouad Sabry
1.5/5 (2)
Faktor Jaringan: Bagaimana mengembangkan potensi jaringan untuk mencapai tujuan Anda dan meningkatkan peluang Anda dalam kehidupan dan bisnis
Dari Everand
Faktor Jaringan: Bagaimana mengembangkan potensi jaringan untuk mencapai tujuan Anda dan meningkatkan peluang Anda dalam kehidupan dan bisnis
Stefano Calicchio
4.5/5 (2)
Strategi Meningkatkan Kinerja Guru
Dari Everand
Strategi Meningkatkan Kinerja Guru
Andi Sulistiadi
5/5 (1)
Pembelajaran Mesin Dalam Penerapan: Landasan Bagi Orang Awam, Panduan Langkah Demi Langkah Bagi Pemula (Buku Pembelajaran Mesin Pemula)
Dari Everand
Pembelajaran Mesin Dalam Penerapan: Landasan Bagi Orang Awam, Panduan Langkah Demi Langkah Bagi Pemula (Buku Pembelajaran Mesin Pemula)
Alan T. Norman
Belum ada peringkat