Data Collecting
Data Collecting
Pada materi sebelumnya Anda telah belajar tentang pengenalan machine learning
(ML) dan jenis-jenis library machine learning. Apakah Anda bingung harus
melangkah dari manakah untuk memulai proyek ML?
OK Jangan khawatir. Kita akan belajar sedikit demi sedikit ya. Tahap pertama dari
proses pengerjaan proyek ML adalah data collecting, yaitu proses pengumpulan
data.
“Data is the new oil. It’s valuable, but if unrefined it cannot really be used. It has to
be changed into gas, plastic, chemicals, etc to create a valuable entity that drives
profitable activity; so must data be broken down, analyzed for it to have value.”
Kutipan di atas adalah kalimat terkenal tentang data yang pertama kali disampaikan
oleh Clive Humby, seorang matematikawan asal Inggris pada tahun 2006. Kutipan
tersebut menjadi sangat populer setelah The Economist mempublikasikan laporan
tahun 2017 yang berjudul The World’s most valuable resource is no longer oil, but
data.
Perangkat cerdas dan internet telah membuat data menjadi berlimpah. Banjir arus
data yang terjadi di era digital mengubah sifat persaingan. Perusahaan teknologi
raksasa berlomba-lomba mengumpulkan banyak data untuk meningkatkan
produknya, menarik lebih banyak pengguna, menghasilkan lebih banyak data, dan
seterusnya. Mereka menjangkau seluruh sektor ekonomi: Google bisa melihat apa
yang ditelusuri dan dicari oleh orang-orang, Facebook bisa melihat apa yang mereka
bagikan, dan Amazon mengetahui apa yang mereka beli. Mereka seolah
memiliki “God’s eyes view” tentang aktivitas di pasar mereka sendiri dan sekitarnya.
Luar biasa ya? Sekarang hampir semua perusahaan mengumpulkan data untuk
sumber daya mereka.
Lantas, bagaimana cara mengumpulkan data? Ada tiga cara yang bisa kita lakukan
untuk mengumpulkan data, yaitu.
Menemukan dataset yang tepat adalah salah satu langkah penting dalam proyek
machine learning. Saat ini, tersedia banyak sumber data di internet yang dapat kita
manfaatkan. Beberapa di antaranya yang perlu Anda ketahui adalah sebagai berikut.
Kaggle Dataset
Kaggle adalah komunitas belajar ilmu data paling populer di dunia. Kaggle
memiliki peralatan dan sumber daya yang kuat untuk membantu kita belajar
data science dan machine learning. Saat ini Kaggle memiliki 50.000 lebih
publik dataset, baik dataset bersifat dummy ataupun riil yang dapat Anda
unduh secara bebas.
Tensorflow Dataset
Seperti yang telah dijelaskan pada sub-modul
sebelumnya, TensorFlow adalah framework open source untuk machine
learning yang dikembangkan dan digunakan oleh Google. Selain
menyediakan learning resources, tensorflow juga menyediakan data
resources yang cukup lengkap di library-nya mulai dari audio data, images,
text, video, dan lainnya.
US Government Data
Bagi Anda yang tertarik untuk mempelajari fenomena yang terjadi di Amerika
Serikat, pemerintah Amerika meluncurkan data online resources yang mudah
diakses oleh publik. Isinya antara lain data badai, data angka kelulusan dan
dropout, data hewan-hewan yang terancam punah, statistik kriminal, dan
berbagai data menarik lainnya.