0% menganggap dokumen ini bermanfaat (0 suara)
238 tayangan6 halaman

Resume Data Science

Dokumen tersebut merupakan ringkasan seminar data science yang membahas tentang: 1. Pengertian data science dan pentingnya data science saat ini 2. Proses lifecycle data science yang meliputi pengumpulan, pengolahan, analisis, dan visualisasi data 3. Contoh analisis data menggunakan Python dengan melakukan eksplorasi data untuk memperoleh gambaran awal data dan fungsi-fungsi pandas untuk mengolah data

Diunggah oleh

Medina
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
238 tayangan6 halaman

Resume Data Science

Dokumen tersebut merupakan ringkasan seminar data science yang membahas tentang: 1. Pengertian data science dan pentingnya data science saat ini 2. Proses lifecycle data science yang meliputi pengumpulan, pengolahan, analisis, dan visualisasi data 3. Contoh analisis data menggunakan Python dengan melakukan eksplorasi data untuk memperoleh gambaran awal data dan fungsi-fungsi pandas untuk mengolah data

Diunggah oleh

Medina
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 6

RESUME SEMINAR DATA SCIENCE

KAPITA SELEKTA

OLEH :
LAILA RAMADHANI ZAKARIA
42516016
4B - D4

PROGRAM STUDI D4 TEKNIK KOMPUTER DAN JARINGAN


JURUSAN ELEKTRO
POLITEKNIK NEGERI UJUNG PANDANG
2020
Intro to Data Science
Pada tahun 2001 William S. Cleveland menerbitkan "Data Science: An Action Plan
for Expanding the Technical Areas of the Field of Statistics." Ini adalah rencana “to enlarge
the major areas of technical work of the field of statistics. Because the plan is ambitious and
implies substantial change, the altered field will be called ‘data science’”. Manfaat bagi analis
data terbatas, karena pengetahuan di antara para ilmuwan komputer tentang bagaimana
memikirkan dan mendekati analisis data juga terbatas, seperti terbatasnya pengetahuan
lingkungan komputasi oleh ahli statistik. Penggabungan dasar pengetahuan akan
menghasilkan kekuatan yang kuat untuk inovasi. menyarankan bahwa ahli statistik harus
mencari komputasi untuk pengetahuan hari ini seperti halnya data science mencari
matematika di masa lalu.

Pada tahun 2006, muncul Web 2.0. dimana website dapat menjadi media untu berbagi
pengalaman diantara jutaan orang. Orang dapat melakukan upload, berbagi, berkomentar,
menyukai atau post data. Pada kemunculan Web 2.0 terjadi peningkatan yang signifikan
dalam penyimpanan data dan informasi.

Banyaknya data dan informasi yang didapatkan hingga saat ini, sehingga dibuatkan
teknologi penyimpanan data untuk big data. Dan dari data tersebut akan diproses dengan data
science.

Mengapa kita membutuhkan data science

 Dunia memasuki era Big Data


 Variasi data berubah, sekarang telah memiliki unstruktur data.
 Munculnya Big Data pada 2010, banyak teknologi yang mencoba untuk dapat
mengukung kebutuhan bisnis yang mempunyai masalah dalam pengolahan besar atau
massif dan unstruktur data.

Data science adalah suatu disiplin ilmu yang khusus mempelajari data, khususnya data
kuantitatif (data numerik), baik yang terstruktur maupun tidak terstruktur. Berbagai subjek
yang dibahas dalam data science meliputi semua proses data, mulai dari pengumpulan data,
analisis data, pengolahan data, manajemen data, kearsipan, pengelompokan data, penyajian
data, distribusi data, hingga cara mengubah data menjadi kesatuan informasi yang dapat
dipahami semua orang.
Data science merupakan kombinasi dari ilmu sains dan ilmu sosial. Ilmu-ilmu yang
menjadi penunjang utama dalam data science terdiri dari matematika, statistika, ilmu
komputer, sistem informasi, manajemen, ilmu informasi, termasuk juga ilmu komunikasi dan
kepustakaan. Bahkan ilmu ekonomi, terutama ilmu bisnis, juga berperan penting dalam data
science.

Data science adalah perpaduan dari berbagai alat, algoritma dan prinsip machine learning
dengan tujuan untuk menemukan pola tersembunyi dari data mentah. Data science
merupakan masa dengan dari Artificial Intelligence. Data science adalah tentang
menggunakan data dan memberikan dampak sebanyak mungkin bagi perusahaan.

Data Science Lifecycle:

1. Business understading, menanyakan pertanyaan yang relavan dan menentukan objek


untuk masalah yang perlu ditangani.
2. Data mining, mengumpulkan dan memilah data yang diperlukan untuk projek.
3. Data cleaning, memperbaiki ketidakkonsistenan dalam data dan menangani value
yang hilang.
4. Data exploration, membentuk hipotesis tentang masalah yang ditentukan dengan
menganalisis data secara visual.
5. Feature engineering, memilih fitur penting dan membuat bermakna menggunakan
data mentah yang dimiliki.
6. Predictive modeling, melatih model machine learning, mengevaluasi kinerjanya, dan
menggunakannya untuk membuat prediksi.
7. Data visualization, mengkomunikasikan temuan dengan stakeholder utama
menggunakan plot dan visualisasi interaktif.
Data Analysis using Python
Pada seminar ini, akan menjelaskan tentang data analysis menggunakan phyton.
Sebelum memulai analisis data, pemateri menyarankan untuk menggunakan aplikasi
anaconda dan jupyter notebook saat ingin menggunakan phyton. Pemateri menjelaskan cara
instalasi dan pengaturan anaconda dan jupyter notebook hingga dapat digunakan.

Proses data science yang dilakukan yaitu exploring data dan analysis data. Tujuan dari
exploratory data analysis adalah menggambarkan sebuah dataset dengan cepat,
membersihkan data, memvisualisasikan distribusi data, dan menghitung dan
memvisualisasikan korelasi.

Sub-task dari exploratory data analysis yaitu import data set, explore data,
membersihkan dan menyiapkan data untuk analisis, memanipulasi data, merangkum data, dan
memvisualisasikan data.

Langkah pertama untuk explore data menggunakan Python adalah melakukan import
library yang tepat. Menggunakan Pandas library untuk mengolah data file menjadi data
terstruktur atau objek cointainer, yang dikenal sebagai Pandas data frame. Pandas I/O API
adalah sebuah set fungsi membaca dan menulis yang mengembalikan objek Pandas.

Eksplorasi data sederhana yaitu mendapatkan tampilan data yang lebih baik,
metampilkan deskripsi data, membandingkan beberapa dataset, dan menemukan dimensi data
yang tidak konsisten. Berikut merupakan fungsi pandas yang digunakan untuk explorasi data:

 Untuk mendapatkan gambaran data, dapat menggunakan fungsi pandas head() atau
tail().
 Untuk mendapatkan info data dapat menggunakan fungsi pandas info().
 Mendapatkan semua value yang unik menggunakan frame item dan fungsi unique().
 Menampilkan value yang unik dengan mengurutkannya di data transaksi.
 Untuk mendapatkan total dari setiap item unik menggunakan fungsi pandas
value_counts().
 Untuk melakuakn drop/menghilangkan item pada data frame menggunakan fungsi
drop()
 Untuk melakukan split data string menggunakan fungsi pandas split()
 Untuk melihat jumlah total setiap item unik menggunakan fungsi value_counts().
 Untuk memvisualisasi data menggunakan chart, dapat menggunakan Seaborn atau
Matplotlib.
Bukti kehadiran seminar
1. Intro to Data Science, 29 April
Untuk bukti kehadiran tidak sempat di screenshoot.
2. Data analysis using Python, 30 April

Anda mungkin juga menyukai