Resume Data Science
Resume Data Science
KAPITA SELEKTA
OLEH :
LAILA RAMADHANI ZAKARIA
42516016
4B - D4
Pada tahun 2006, muncul Web 2.0. dimana website dapat menjadi media untu berbagi
pengalaman diantara jutaan orang. Orang dapat melakukan upload, berbagi, berkomentar,
menyukai atau post data. Pada kemunculan Web 2.0 terjadi peningkatan yang signifikan
dalam penyimpanan data dan informasi.
Banyaknya data dan informasi yang didapatkan hingga saat ini, sehingga dibuatkan
teknologi penyimpanan data untuk big data. Dan dari data tersebut akan diproses dengan data
science.
Data science adalah suatu disiplin ilmu yang khusus mempelajari data, khususnya data
kuantitatif (data numerik), baik yang terstruktur maupun tidak terstruktur. Berbagai subjek
yang dibahas dalam data science meliputi semua proses data, mulai dari pengumpulan data,
analisis data, pengolahan data, manajemen data, kearsipan, pengelompokan data, penyajian
data, distribusi data, hingga cara mengubah data menjadi kesatuan informasi yang dapat
dipahami semua orang.
Data science merupakan kombinasi dari ilmu sains dan ilmu sosial. Ilmu-ilmu yang
menjadi penunjang utama dalam data science terdiri dari matematika, statistika, ilmu
komputer, sistem informasi, manajemen, ilmu informasi, termasuk juga ilmu komunikasi dan
kepustakaan. Bahkan ilmu ekonomi, terutama ilmu bisnis, juga berperan penting dalam data
science.
Data science adalah perpaduan dari berbagai alat, algoritma dan prinsip machine learning
dengan tujuan untuk menemukan pola tersembunyi dari data mentah. Data science
merupakan masa dengan dari Artificial Intelligence. Data science adalah tentang
menggunakan data dan memberikan dampak sebanyak mungkin bagi perusahaan.
Proses data science yang dilakukan yaitu exploring data dan analysis data. Tujuan dari
exploratory data analysis adalah menggambarkan sebuah dataset dengan cepat,
membersihkan data, memvisualisasikan distribusi data, dan menghitung dan
memvisualisasikan korelasi.
Sub-task dari exploratory data analysis yaitu import data set, explore data,
membersihkan dan menyiapkan data untuk analisis, memanipulasi data, merangkum data, dan
memvisualisasikan data.
Langkah pertama untuk explore data menggunakan Python adalah melakukan import
library yang tepat. Menggunakan Pandas library untuk mengolah data file menjadi data
terstruktur atau objek cointainer, yang dikenal sebagai Pandas data frame. Pandas I/O API
adalah sebuah set fungsi membaca dan menulis yang mengembalikan objek Pandas.
Eksplorasi data sederhana yaitu mendapatkan tampilan data yang lebih baik,
metampilkan deskripsi data, membandingkan beberapa dataset, dan menemukan dimensi data
yang tidak konsisten. Berikut merupakan fungsi pandas yang digunakan untuk explorasi data:
Untuk mendapatkan gambaran data, dapat menggunakan fungsi pandas head() atau
tail().
Untuk mendapatkan info data dapat menggunakan fungsi pandas info().
Mendapatkan semua value yang unik menggunakan frame item dan fungsi unique().
Menampilkan value yang unik dengan mengurutkannya di data transaksi.
Untuk mendapatkan total dari setiap item unik menggunakan fungsi pandas
value_counts().
Untuk melakuakn drop/menghilangkan item pada data frame menggunakan fungsi
drop()
Untuk melakukan split data string menggunakan fungsi pandas split()
Untuk melihat jumlah total setiap item unik menggunakan fungsi value_counts().
Untuk memvisualisasi data menggunakan chart, dapat menggunakan Seaborn atau
Matplotlib.
Bukti kehadiran seminar
1. Intro to Data Science, 29 April
Untuk bukti kehadiran tidak sempat di screenshoot.
2. Data analysis using Python, 30 April