0% menganggap dokumen ini bermanfaat (0 suara)
33 tayangan8 halaman

Data Sience

Modul ini memperkenalkan tiga tipe data fundamental dalam R yaitu vector, list, dan data frame. Vector hanya dapat berisi satu jenis data, list dapat berisi campuran data, sedangkan data frame terdiri dari satu atau lebih vector atau list. Tipe data ini memungkinkan pengolahan dan visualisasi data.

Diunggah oleh

Agung Prayogo
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
33 tayangan8 halaman

Data Sience

Modul ini memperkenalkan tiga tipe data fundamental dalam R yaitu vector, list, dan data frame. Vector hanya dapat berisi satu jenis data, list dapat berisi campuran data, sedangkan data frame terdiri dari satu atau lebih vector atau list. Tipe data ini memungkinkan pengolahan dan visualisasi data.

Diunggah oleh

Agung Prayogo
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 8

Jadi, apa itu R?

R merupakan nama sebuah bahasa pemrograman sekaligus software untuk pengolahan data dan
grafik. R sangat popular saat ini karena memiliki jumlah fitur yang sangat besar yaitu mencapai
puluhan ribu fitur.

Bahasa pemrograman R dan pustaka (library) dapat digunakan untuk membaca file teks,
membaca database, menghasilkan berbagai grafik, menghasilkan dashboard yang menarik,
hingga ke penggunaan machine learning.

Selain itu, R bersifat gratis dan open source. Artinya, dengan R kita tidak perlu biaya lisensi
macam-macam untuk menggunakannya secara bebas dan luas.

Data Scientist dan R

Meluasnya penggunaan aplikasi yang terpasang di smartphone dan pemakaian sistem digital di
seluruh perusahaan menghasilkan data dalam volume yang besar. Namun, data-data bervolume
besar ini belum tentu menjadi informasi yang dibutuhkan oleh organisasi dan bisnis jika tidak
diolah dengan baik. 

Untuk menjawab permasalahan tersebut muncullah sebuah disiplin ilmu yang mempelajari
bagaimana mengolah data menjadi informasi yang berguna yang dikenal dengan nama data
science.

Seseorang yang bekerja dengan dibekali ilmu data science dinamakan data scientist yang
pada saat ini merupakan salah satu profesi paling hot menurut LinkedIn.

Untuk membantu dalam pekerjaannya, data scientist perlu dibekali dengan aplikasi/kakas yang
bagus. Bahasa pemrograman R dengan segala kekayaan di library (pustaka) yang dimilikinya
merupakan jawaban bagi pekerjaan data scientist.
Mengapa Data Scientist menggunakan R?

Apa yang sebenarnya membuat para data scientist tertarik belajar dan menggunakan R?

Ada empat alasan utama, yaitu:

 Lebih Mudah Dipelajari (Easier): R relatif lebih mudah dipelajari dibandingkan dengan bahasa
lain, seperti Java, C#, Javascript, dan lain-lain.

 Lebih Cepat (Faster): Banyak fungsi R memberikan hasil jauh lebih cepat dibandingkan dengan
aplikasi lain.
Contoh: R dapat menghasilkan berbagai visualisasi yang menarik dalam waktu singkat, sehingga
data scientist dapat jauh lebih produktif dalam memahami data dan menghasilkan informasi.

 Lebih kaya fitur (Richer): Dengan puluhan ribu fitur yang terus berkembang, hampir semua
permasalahan data dapat dijawab oleh R. Sebagai contoh, untuk mengatasi permasalahan
optimasi stok di e-commerce, R memiliki fungsi menghasilkan rekomendasi product packaging.

 Telah terbukti (Proven): R sudah digunakan oleh banyak data scientist perusahaan besar seperti
Anz, Uber, dan Facebook dan memberikan solusi riil. Tidak heran jika akhirnya dari kisah sukses
ini, banyak lowongan data scientist mencamtumkan R sebagai syarat keterampilan yang harus
dimiliki.
Pendahuluan

Dengan berbekal teori dan praktik yang telah dilakukan. Saatnya kamu bersiap untuk mengenal
tipe data dan operasi data yang digunakan pada kasus nyata, misalnya menampilkan ke dalam
berbagai macam komposisi grafik yang menarik.

Untuk mencapai hal itu, kamu perlu mengenal tiga tipe data yang paling sering digunakan di R,
yaitu

 vector,
 list, dan
 data frame.

Kamu akan mempelajari konsep dan praktik secara detail untuk mengenali ketiga tipe data ini
dengan lebih baik.

Khusus untuk data frame akan dicontohkan dengan menggunakan fungsi pembacaan file teks.
Dengan demikian, kamu akan mendapatkan pengalaman yang lebih nyata terkait penggunaan
tipe data ini pada praktik sehari-hari.

Vector
Vector merupakan tipe data sederhana di R yang menyimpan deretan nilai (lebih dari satu nilai)
dengan tipe data sama untuk setiap elemennya. Maksudnya, jika tipe datanya berupa teks maka
seluruh elemennya harus bertipe teks. Demikian juga jika tipenya angka maka seluruh
elemennya berisi angka semua.

Vector didefinisikan dengan nama function yang memilki satu huruf saja: c, yang telah kamu
pelajari dan praktikkan sebelumnya. Sebagai contoh untuk membuat vector yang isinya angka
dengan nilai 2, 5, dan 7, maka perintahnya adalah c(2, 5, 7).

 
Ketikkanlah perintah tersebut di bagian bawah komentar "Ini adalah contoh vector untuk angka
numerik dengan 3 data c(4, 5, 6)" sehingga tampilan code editor tampak sebagai berikut.

Jalankan perintah tersebut dengan menekan sehingga kamu akan mendapatkan hasil
pada Console seperti gambar berikut

Ini artinya kamu telah membuat dan menampilkan sebuah vector yang berisi tiga 3 angka: 4, 5
dan 6. Terlihat tiga angka tersebut semua ditampilkan dalam satu baris.

Sekarang kita akan simpan vector ini ke dalam variable angka dan ditampilkan dengan
menggunakan fungsi print pada bagian bawah comment "# Variable bernama angka dengan
input berupa vector".

Jalankan kode tersebut, dan jika berjalan dengan lancar maka akan tampil hasil berikut ini
Terlihat bahwa pada baris terakhir, variable angka yang kita tampilkan sama seperti tampilan
awal yang menunjukkan angka-angka ini disimpan dalam bentuk vector.

 
Kesimpulan
Kamu telah mempelajari mengenai tiga tipe data fundamental yang sangat penting di R di bab
ini, yaitu vector, list dan data frame. Ketiga tipe data ini dapat diisi dengan lebih dari satu nilai.

Ringkasan dari tipe-tipe data tersebut adalah sebagai berikut.

 Vector hanya dapat diisi dengan salah satu tipe data saja di seluruh elemennya, misalnya
angka saja ataupun teks saja. Pembuatan vector menggunakan fungsi c, dan bisa diakses
dengan accessor dengan angka indeks yang diapit kurung siku. Namun, jika berupa
named vector, maka indeksnya adalah berupa teks.
 List adalah tipe data yang bisa diisi dengan lebih dari satu tipe data di seluruh elemennya,
dengan campuran teks dan angka. Pembuatan list adalah menggunakan fungsi list, dan
elemen pada list dapat diakses dengan accessor yang diapit kurung siku seperti pada
vector.
 Data Frame adalah tipe data yang terdiri dari satu atau beberapa vector ataupun list.
Untuk membuat data frame kita menggunakan fungsi data.frame. Data frame ini dapat
diakses dengan menggunakan accessor $ diikuti nama kolom, dan juga angka indeks.

Dengan memahami penggunaan vector, list dan data frame kita siap mempelajari penggunaan
banyak fungsi lanjutan di R, seperti menghasilkan grafik dan penggunaan algoritma machine
learning.

Demo terakhir pada bab ini adalah melakukan filtering data sebelum ditampilkan dalam bentuk
grafik. 

Pengerjaan filtering di data frame dapat dilakukan dengan menambahkan operator %in% dengan
input berupa vector. Kode yang digunakan untuk melakukan filtering ini sudah terdapat pada
Code Editor.

Jalankan seluruh code tersebut dengan menekan maka hasilnya akan terlihat sebagai
berikut:
Grafiknya sama dengan subbab "Tren Jumlah Mahasiswa dari Tahun ke Tahun" tapi sudah
dengan filter dua fakultas, yaitu "ICT" dan "Ilmu Komunikasi".

Hal ini dapat terjadi karena ada filtering yang dinyatakan oleh perintah berikut.

summarybyfakultas[summarybyfakultas$fakultas %in%c("ICT", "Ilmu Komunikasi"),]

di sini summarybyfakultas$fakultas %in%c("ICT", "Ilmu Komunikasi") artinya


melakukan filter data yang ada di kolom fakultas dari data frame summarybyfakultas.

Sedangkan perintah lengkap summarybyfakultas[summarybyfakultas$fakultas %in


%c("ICT", "Ilmu Komunikasi"),] artinya mengambil data yang sudah terfilter untuk seluruh
kolom.

Dengan demikian, sampai sejauh ini kamu telah diberikan gambaran mengenai kemampuan R
untuk menghasilkan grafik dengan pengolahan data dari Excel. Tentunya, pengetahuan dan
praktik ini dapat berpotensi tinggi untuk membantu kegiatan kamu sehari-hari.

Melalui bab pengenalan ini kita belum membahas secara mendalam bagaimana grafik ini dapat
dihasilkan dengan variasi yang lebih banyak, begitu juga dengan pengolahan data seperti filter.
Akan tetapi, kamu dapat belajar di modul "Data Preparation with R" dan "Data Visualization
with R" terkait apa yang belum disajikan di dalam bab ini. :)

Penutup
Dengan berakhirnya demo grafik terakhir, berakhir juga modul "R Fundamental for Data
Science". Sepanjang modul ini kamu sudah mempelajari keterampilan R sebagai berikut:

 Mengerti apa dan kenapa R digunakan oleh para data scientist.


 Menguasai dasar bahasa R seperti penggunaan teks, angka, rumus, dan bagaimana
melihat error.
 Menguasai penggunaan tipe data fundamental R, yaitu list, vector dan data frame.
 Mengerti penggunaan package tambahan untuk membaca file Excel.
 Mengenali bagaimana grafik dihasilkan di R dengan menggunakan package bernama
ggplot2.

Perjalanan awal ini telah membekali kamu untuk menguasai fitur R lainnya seperti advanced
data visualization (dashboard dan map), machine learning, dan otomatisasi big data.

Anda mungkin juga menyukai