0% menganggap dokumen ini bermanfaat (0 suara)
57 tayangan57 halaman

Temukembali

Dokumen tersebut membahas tentang berbagai topik terkait information retrieval mulai dari definisi, contoh penerapan, hingga teknologi yang digunakan seperti inverted index, boolean modeling, evaluation, hits, dan page rank."

Diunggah oleh

chometz muhammad
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
57 tayangan57 halaman

Temukembali

Dokumen tersebut membahas tentang berbagai topik terkait information retrieval mulai dari definisi, contoh penerapan, hingga teknologi yang digunakan seperti inverted index, boolean modeling, evaluation, hits, dan page rank."

Diunggah oleh

chometz muhammad
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 57

Daftar isi

1. Data Science ........................................................................ 2


2. Information Retrieval .......................................................... 5
3. Inverted Index ..................................................................... 8
4. Boolean Modeling ............................................................. 11
5. IR Evaluation ..................................................................... 14
6. Hits .................................................................................... 17
7. Page Rank .......................................................................... 22
8. Text Preprocessing ............................................................ 25
9. Scraping Data Web ............................................................ 34
10. Scraping data twitter dan cloud ...................................... 37
11. Sentimen Analysis ........................................................... 51
Daftar Pustaka....................................................................... 55

1
1. Data Science
Kebanyakan orang pasti bertanya-tanya tentang apa itu Data
science, memang banyak yang menjelaskan dengan berbagai
yang intinya sama. Jadi, Data Science adalah penggalian atau
juga bisa disebut dengan mengekstrak suatu data agar bisa
difilter dan ditemukan data yang benar adanya agar bisa
menghasilkan produk data yang sebenarnya. Banyak orang
yang belum mengetahui, bahwa Data Science adalah suatu
hal yang bisa dipekerjakan dan jika data ini bekerja di dunia
tersebut dapat menghasilkan uang yang cukup. Tetapi, agar
data ini bisa bekerja, harus mempunyai keahlian khusus di
bidang pemrogaman data dan juga ilmu eksak, seperti
matematika dan statistic agar bisa menyaring data dengan
cara yang cepat. Untuk orang yang bekerja mengolah suatu
data kerap disebut dengan Data Analyst. Agar bisa
menganalisi data dengan baik dan benar melalui cara
pemrosesan sinyal, model probabilitas, program komputer
dan hal yang berkaitan dengan ilmu Sains. Pekerjaan ini
memang jarang di kenal oleh masyarakat luas karena sejauh
ini masih belum ada ilmu khusus yang tersedia bagi orang
ingin mempelajari melalui pendidikan formal, bahkan
beberapa universitas ternama pun belum memiliki jurusan
khusus untuk mencetak sosok hebat pengolah data. Data
Science ini adalah pekerjaan yang tidak hanya mengandalkan
ilmu Sains saja, tetapi ada beberapa ilmu yang lain lagi yang
harus dimiliki seorang pekerja di bidang ini.

2
Yang pertama adalah orang ini harus memiliki keahlian
mengumpulkan data dengan sistem matematik dan statistik.
Mengumpulkan data dari berbagai macam sumber tidaklah
mudah jika tidak dibekali dengan ilmu tersebut. Maka dari
itu, keahlian untuk memfilter data harus menguasai atau
paling tidak paham dengan ilmu matematik dan statistik.
Yang kedua adalah seorang yang melakukan pekerjaan
tersebut harus memiliki keahlian programming, scripting, dan
domain-specific expertise agar bisa memasukkan datadata
yang diperoleh ke dalam komputer. Jika, orang ini tidak
memiliki kemampuan untuk programming, bisa dipastikan
pekerjaan tersebut akan berakhir buruk atau tidak sempurna.
Orang ini juga harus memiliki kemampuan untuk komunikasi
agar bisa menyampaikan data yang ia peroleh dengan
sistematis dan dapat dipahami oleh banyak orang. Setelah
mendapatkan data dan hasil yang dibutuhkan, kamu pun di
tuntut untuk bisa menjelaskan grafik tersebut dengan
singkat, padat, dan jelas. Berbicara tentang Data Science ini
akan berbicara tentang Big Data. Banyak orang yang kurang
paham tentang hal tersebut karena istilah ini baru muncul
beberapa tahun belakangan. Big Data ini sendiri dapat
diartikan dengan suatu cara untuk mengambil, menyimpan,
menganalisis, data-data yang sebelumnya tidak
memungkinkan atau tidak ekonomis untuk diambil, disimpan,
diproses, dan dianalisa. Jadi didalam pekerjaan tersebut,
dimungkinkan ada data yang eror dan tidak bisa diproses
dengan hal-hal yang biasa. Lalu dengan cara tersebut,
nantinya akan diproses dan menjadikan data itu disimpan

3
dan diatur dengan cara yang sistematis. Pekerjaan ini
memang tidak sembarang orang bisa mengerjakannya.

Contoh dari data science

Kini Data science menjadi satu dari sekian istilah paling


populer dalam dunia perindustrian. Data Science pun
menjadi teknologi yang berperan besar didalamnya. Secara
tidak sadar, hampir semua perusahaan menerapkan Data
Science.

1. E-Commerce Saat ini orang-orang lebih banyak


berbelanja secara digital atau biasa kita kenal dengan
marketplace. Dengan mengubah tata letak halaman
dan menyesuaikan produk jualannya secara otomatis
dan real-time. Teknologi ini merupakan salah satu
aplikasi penerapan ilmu Data Science.

2. Fraud Detection Mendeteksi penipuan adalah bagian


terpenting dari segala industri keuangan. Bahkan
kerusakan dan gangguan kecil akan dapat
menyebabkan kerugian finansial. Dengan bantuan
Data Science, perusahaan dapat menyediakan
layanan keuangan yang lebih efektif. Teknologi ini
membantu untuk mengidentifikasi potensi transaksi
penipuan yang dilakukan di setiap aktivitas.

3. Dynamic Pricing Penetapan dynamic pricing sangat


berguna dalam industri travel. Penetapan harga
dinamis ini digunakan oleh perusahaan dengan

4
menggunakan data untuk mensegmentasikan
pelanggan atau konsumen secara akurat. Penawaran
ini didasari pada informasi yang dihasilkan oleh Data
Science dan berbagai faktor lainnya. Salah satu
contoh perusahaan yang menerapkannya adalah
Airbnb. Algoritma ini memperhitungkan berbagai
macam kategori. Seperti lead time, review properti
dan fasilitas yang disediakan.

2. Information Retrieval
Information Retrieval atau sering disebut “temu kembali
infromasi” adalah ilmu yang mempelajari prosedur-prosedur
dan metode-metode untuk menemukan kembali informasi
yang tersimpan dari berbagai sumber yang relevan atau
koleksi sumber informasi yang dicari atau dibutuhkan.
Dengan tindakan index , panggilan , pemanggilan data
kembali . Dalam pencarian data, beberapa jenis data dapat
ditemukan diantaranya texts, table, gambar , video, audio.

Definisi Information Retrieval Secara Konsep sederhana IR


merupakan proses mencari, dan kemudain mendapatkan apa
yang dicari. Jika kita titik beratkan kepada prosesnya maka
didalamnya akan terungkap bagaimana perjalanan informasi
yang diminta, menjadi infrormasi yang diberikan. Menurut
Kowalaski Informasi Retrieval adalah konsep sederhana
dalam pencarian yang dilakukan oleh seseorang. seperti
contoh ketika user akan mencari informasi yang dia
butuhkan, maka sistem menerjemahakan kepada bentuk

5
statment yang kemudian di eksekusi oleh sistem pencari.
William Hersh Menyatakan Information Retrieval adalah
“bidang di persimpangan ilmu informasi dan ilmu komputer.
Berkutat dengan pengindeksan dan pengambilan informasi
dari sumber informasi heterogen dan sebagian besar-
tekstual. Istilah ini diciptakan oleh Mooers pada tahun 1951,
yang menganjurkan bahwa diterapkan ke “aspek intelektual”
deskripsi informasi dan sistem untuk pencarian “.

Kutipan Dari Wikipedia

Kutipan dari wikipedia

Wikipedia menjelaskan Information Retrieval adalah seni dan


ilmu mencari informasi dalam dokumen, mencari dokumen
itu sendiri, mencari metadata yang menjelaskan dokumen,
atau mencari dalam database, apakah relasional database itu
berdiri sendiri atau database hypertext jaringan seperti
Internet atau intranet, untuk teks , suara, gambar, video atau
data. Dari ketiga rujukan definisi diatas, sudah jelas
dimaksudkan bahwa information retrevial adalah bidang
keilmuan dalam Teknologi informasi yang menjelaskan
tentang «Pencarian dan Pengambilan Kembali Informasi».
Keilmuan ini mengungkapkan bagaimana metode metode
pencarian informasi yang dilakukan oleh end user dari
gudang gudang penyimpanan yang bersekala besar, contoh
sederhananya adalah media penyimpanan kita sendiri.
Peranan information retrieval Information retrieval (IR)
memiliki kegunaan yang banyak untuk user. Kita dapat
melihat fungsinya di mesin pencari untuk mencari informasi,

6
atau di perpustakaan, di apotik dan lain sebagainya. Itu
semua adalah karena jasa IR. Information retrieval
mempunya peran untuk:

1. menganalisis isi sumber informasi dan pertanayaan


pengguna.
2. mempertemukan pertanyaan pengguna dengan
sumber informasi untuk mendapatkan dokumen
yang relevan.

Contoh Information Retrieval

Searching Text melalui Web Search Engine Keyword


dimasukkan oleh user untuk pencarian informasi yang
diinginkan pada Search Engine, yang mana informasi yang
didapatkan mengandung relevansi/keterkaitan dengan yang
diharapkan.

Information retrieval di Perpustakaan

Perpustakaan adalah salah satu institusi pertama yang


mengadopsi sistem IR untuk mendapatkan informasi. Pada
umumnya, sistem yang digunakan di perpustakaan pada
awalnya dikembangkan oleh institusi akademis dan
kemudian oleh produsen komersil. Pada generasi pertama,
sistem pada dasarnya terdiri dari suatu otomatisasi dari
teknologi sebelumnya dan memungkinkan pencarian
berdasar judul dan nama pengarang. Pada generasi kedua ,
kemampuan pencarian ditambahkan dengan pencarian
berdasarkan pokok utama, dengan kata kunci, dan tambahan
lagi fasilitas kueri kompleks.

7
CBIR Technology

Retrieval berdasarkan kategori konten dan warna. Dimana


user mendeskripsikan image apa yang akan dicari dengan
cara memilih kategori misalnya jenis image, Negara, tahun
pembuatan dsb.

3. Inverted Index
Inverted index adalah struktur data indeks yang menyimpan
pemetaan dari konten, seperti kata atau angka, ke lokasinya
dalam dokumen atau sekumpulan dokumen. Dengan kata
sederhana, ini adalah hashmap seperti struktur data yang
mengarahkan Anda dari sebuah kata ke dokumen atau
halaman web.

Ada dua jenisInverted index. record-level inverted index


berisi daftar referensi ke dokumen untuk setiap kata. word-
level inverted index tambahan berisi posisi dari setiap kata
dalam dokumen. Bentuk terakhir menawarkan lebih banyak
fungsionalitas, tetapi membutuhkan lebih banyak daya
pemrosesan dan ruang untuk dibuat.

Misalkan kita ingin mencari teks "halo semuanya", "artikel


ini didasarkan pada indeks terbalik", "yang merupakan
struktur data seperti peta hash". Jika kita mengindeks
berdasarkan (teks, kata dalam teks), indeks dengan lokasi
dalam teks adalah:

halo (1, 1)
semua orang (1, 2)

8
ini (2, 1)
artikel (2, 2)
adalah (2, 3); (3, 2)
berbasis (2, 4)
pada (2, 5)
terbalik (2, 6)
indeks (2, 7)
yang (3, 1)
hashmap (3, 3)
suka (3, 4)
data (3, 5)
struktur (3, 6)

Kata "halo" ada di dokumen 1 ("halo semua orang") dimulai


dari kata 1, sehingga memiliki entri (1, 1) dan kata "adalah"
di dokumen 2 dan 3 di posisi 'ke-3' dan 'ke-2' (di sini
posisinya berdasarkan kata).
Indeks mungkin memiliki bobot, frekuensi, atau indikator
lainnya.
Langkah - Langkah untuk membuat inverted index

• Fetch the Document


Remove of Stop Words: Stop words adalah kata
yang paling sering muncul dan tidak berguna dalam
dokumen seperti "I", "the", "we", "is", "an".

9
• Stemming of Root Word
Setiap kali saya ingin mencari "cat", saya ingin
melihat dokumen yang memiliki informasi
tentangnya. Tapi kata yang ada dalam dokumen
disebut “kucing” atau “kati” bukan “kucing”. Untuk
menghubungkan kedua kata tersebut, saya akan
memotong beberapa bagian dari setiap kata yang
saya baca sehingga saya bisa mendapatkan “akar
kata”. Ada alat standar untuk melakukan ini seperti
"Porter's Stemmer".

• Rekam ID Dokumen
Jika kata sudah ada tambahkan referensi dokumen
ke indeks lain buat entri baru. Tambahkan informasi
tambahan seperti frekuensi kata, lokasi kata, dll.
Ulangi untuk semua dokumen dan urutkan kata-
katanya.

Contoh :
Dokumen Kata-kata
semut doc1
demo doc2
doc1 dunia, doc2
Keuntungan dari inverted indeks :
• Indeks terbalik memungkinkan pencarian teks
lengkap yang cepat, dengan biaya pemrosesan yang
meningkat saat dokumen ditambahkan ke database.
• Mudah untuk dikembangkan.

10
• Ini adalah struktur data paling populer yang
digunakan dalam sistem pengambilan dokumen,
digunakan dalam skala besar misalnya di mesin
pencari.

Kelemahan dari inverted indeks :


• Overhead penyimpanan yang besar dan biaya
perawatan yang tinggi saat memperbarui,
menghapus, dan memasukkan.

4. Boolean Modeling
Model Boolean adalah adalah salah satu contoh Information
Retrieval yang merupakan model proses pencarian informasi
dari query yang menggunakan ekspresi boolean. Dengan
ekspresi boolean dengan menggunakan operator logika AND,
OR dan NOT. Sedangkan dalam menentukan hasil
perhitungannya hanya berupa nilai binary (1 atau 0). Dengan
hal itu, Boolean Retrieval Model (BRM) yang ada hanya
dokumen relevan atau tidak sama sekali. Sehingga
keunggulan dari Boolean Retrieval Model (BRM) tidak
menghasilkan dokumen yang mirip.

Dalam pengerjaan operator boolean (AND, NOT, OR) ada


urutan pengerjaannya (Operator precedence). Dalam
implementasinya akan memprioritaskan yang berada dalam
kurung (). Didalam struktur data, Boolean merupakan sebuah

11
tipe data yang bernilai “True” atau “False” (benar atau salah).
Sehingga didalam IR, logika boolean berarti bahwa data yang
di crawler sesuai atau tidak antara variable – variablenya.

Query adalah kombinasi dari indeks Boolean.

X AND Y : merupakan doc yang berisi X dan Y

X OR Y : merupakan dokumen yang berisi X atau Y

Y NOT X : mewakili dokumen yang tidak mengandung X

1. Sebagai contoh terdapat 5 dokumen berikut ini:


udb_1.txt yang berisi text:
Tutorial pemrograman web dan basis data

udb_2.txt yang berisi text:


Mata Kuliah basis data mysql

udb_3.txt yang berisi text:


Mysql adalah basis data

udb_4.txt yang berisi text:


Kuliah sistem temu kembali informasi

udb_5.txt yang berisi text


Mata Kuliah di Teknik informatika

12
2. Membuat Indeks Model Boolean
Pertama-tama kita membuat matriks istilah yang
mewakili daftar semua istilah yang berbeda dan
keberadaan mereka pada setiap dokumen/file. Jika
dokumen berisi kata kunci maka bernilai 1 jika tidak
bernilai 0. Berikut ini matriknya:

Istilah udb_1.t udb_2.t udb_3.t udb_4.t udb_5.t


xt xt xt xt xt
tutorial 1 0 0 0 0
pemrogram 1 0 0 0 0
an
web 1 0 0 0 0
dan 1 0 0 0 0
basis 1 1 1 0 0
data 1 1 1 0 0
mata 0 1 0 0 1
kuliah 0 1 0 1 1
mysql 0 1 1 0 0
adalah 0 0 1 0 0
sistem 0 0 0 1 0
temu 0 0 0 1 0
kembali 0 0 0 1 0
informasi 0 0 0 1 0

13
di 0 0 0 0 1
teknik 0 0 0 0 1
informatika 0 0 0 0 1

3. Proses Query Boolean

4. Penarikan Kesimpulan
Berdasarkan hasil query di atas maka dokumen yang
paling relevan adalah file udb_5.txt

5. IR Evaluation
IR (information retrieval) evaluation dimulai setiap kali
pengguna mengirimkan kueri (istilah pencarian) ke database .
Jika pengguna dapat menentukan relevansi setiap dokumen
dalam database (relevan atau tidak relevan), maka untuk
setiap kueri, kumpulan dokumen lengkap secara alami dibagi

14
menjadi empat subset yang berbeda (saling eksklusif):
dokumen relevan yang diambil, bukan dokumen relevan yang
diambil, dokumen relevan yang tidak diambil, dan bukan
dokumen relevan yang tidak diambil. Keempat himpunan
bagian (dokumen) ini masing-masing dilambangkan dengan
huruf a, b, c, d dan disebut variabel Swets, dinamai menurut
penemunya. [1]
Selain definisi Swets, empat metrik relevansi juga telah
ditentukan: Presisi mengacu pada bagian dari dokumen
relevan yang diambil (a / (a + b)), dan Recall mengacu pada
bagian dari dokumen yang diambil yang relevan (a / (a +
c)). Ini adalah metrik relevansi yang paling umum digunakan
dan terkenal yang ditemukan dalam literatur evaluasi IR. Dua
metrik yang kurang umum digunakan termasuk Fallout, yaitu
bagian dari dokumen tidak relevan yang diambil (b / (b + d)),
dan Miss, yang mengacu pada bagian dokumen relevan yang
tidak diambil (c / ( c + d)) selama pencarian tertentu.

Teknik evaluasi IR universal


Evaluasi IR universal membahas kemungkinan matematika
dan hubungan di antara empat metrik relevansi Presisi,
Perolehan, Kejatuhan, dan Kehilangan, masing-masing
dilambangkan dengan P, R, F, dan M. Salah satu aspek
masalah melibatkan menemukan penurunan matematis dari
satu set lengkap poin evaluasi IR universal. [2]Set lengkap 16
poin, masing-masing berbentuk empat kali lipat (P, R, F, M),
menjelaskan semua kemungkinan hasil IR universal.
Misalnya, banyak dari kita memiliki pengalaman membuat
kueri database dan tidak mengambil dokumen sama sekali.

15
Dalam hal ini, Presisi akan mengambil bentuk 0/0 yang belum
ditentukan, Recall dan Fallout keduanya akan menjadi nol,
dan Miss akan bernilai lebih dari nol dan kurang dari satu
(dengan asumsi campuran dokumen yang relevan dan tidak
relevan adalah dalam database, tidak ada yang diambil). Titik
evaluasi IR universal ini akan dilambangkan dengan (0/0, 0, 0,
M), yang hanya mewakili satu dari 16 kemungkinan hasil IR
universal.
Matematika evaluasi IR universal adalah subjek yang cukup
baru karena metrik relevansi P, R, F, M tidak dianalisis secara
kolektif hingga saat ini (dalam dekade terakhir). Banyak
landasan teoritis telah dirumuskan, tetapi wawasan baru di
bidang ini menunggu penemuan. Untuk analisis matematis
mendetail, kueri dalam database ScienceDirect untuk
"evaluasi IR universal" mengambil beberapa makalah yang
ditinjau oleh sejawat yang relevan.

Metode – Metode IR (information retrieval) evaluation


Information Retrieval evaluation memiliki beberapa metode
dalam mengambil data dan informasi antara lain :
1. inverted index,
2. Boolean retrieval,
3. tokenization,
4. stemming and lemmatization,
5. dictionaries,
6. wildcard queries,
7. dan vector space model.

16
6. Hits
Hyperlink Induced Topic Search (HITS) adalah Algoritma
Analisis Tautan yang menilai halaman web, yang
dikembangkan oleh Jon Kleinberg. Algoritme ini digunakan
untuk struktur tautan web untuk menemukan dan memberi
peringkat laman web yang relevan untuk penelusuran
tertentu.
HITS menggunakan hub dan otoritas untuk menentukan
hubungan rekursif antara halaman web. Sebelum
memahami Algoritma HITS, pertama-tama kita perlu
mengetahui tentang Hub dan Otoritas.
• Diberikan kueri ke Mesin Telusur, kumpulan
halaman web yang sangat relevan
disebut Akar . Mereka adalah Otoritas potensial .
• Halaman yang tidak terlalu relevan tetapi mengarah
ke halaman di Root disebut Hub . Jadi, Otoritas
adalah halaman yang ditautkan oleh banyak hub
sedangkan Hub adalah halaman yang tertaut ke
banyak otoritas.
Algoritma :
 Misalkan jumlah iterasi menjadi k .
 Setiap node diberi skor Hub = 1 dan skor Otoritas =
1.
 Ulangi k kali:
• Pembaruan hub: Skor Hub setiap node = (Skor
otoritas dari setiap node yang ditunjuknya).

17
• Pembaruan otoritas: Skor Otoritas setiap node =
(Skor hub dari setiap node yang menunjuk ke sana).
• Normalisasi skor dengan membagi setiap skor Hub
dengan akar kuadrat dari jumlah kuadrat semua
skor Hub, dan membagi setiap skor Otoritas dengan
akar kuadrat dari jumlah kuadrat semua skor
Otoritas. (pilihan)
Mari kita perhatikan Grafik berikut:

Saat menjalankan Algoritma HITS dengan K = 3 (tanpa


Normalisasi),

Mulanya,

Skor Hub: Skor Otoritas:

A -> 1 A -> 1

B -> 1 B -> 1

18
C -> 1 C -> 1

D -> 1 D -> 1

E -> 1 E -> 1

F -> 1 F -> 1

G -> 1 G -> 1

H -> 1 H -> 1

Setelah iterasi pertama,

Skor Hub: Skor Otoritas:

A -> 1 A -> 3

B -> 2 B -> 2

C -> 1 C -> 4

D -> 2 D -> 2

E -> 4 E -> 1

F -> 1 F -> 1

G -> 2 G -> 0

H -> 1 H -> 1

Setelah iterasi ke-2,

Skor Hub: Skor Otoritas:

19
A -> 2 A -> 4

B -> 5 B -> 6

C -> 3 C -> 7

D -> 6 D -> 5

E -> 9 E -> 2

F -> 1 F -> 4

G -> 7 G -> 0

H -> 3 H -> 1

Setelah iterasi ke-3,

Skor Hub: Skor Otoritas:

A -> 5 A -> 13

B -> 9 B -> 15

C -> 4 C -> 27

D -> 13 D -> 11

E -> 22 E -> 5

F -> 1 F -> 9

G -> 11 G -> 0

H -> 4 H -> 3

20
Paket Python Networkx memiliki fungsi built-in untuk
menjalankan Algoritma HITS. Ini akan divisualisasikan
dengan mengacu pada Grafik di atas.

Keluaran:

Skor Hub:

{'A': 0,04642540386472174, 'D': 0.133660375232863,

'B': 0.15763599440595596, 'C': 0,037389132480584515,

'E': 0.2588144594158868, 'F': 0.15763599440595596,

'H': 0,037389132480584515, 'G': 0,17104950771344754}

Skor Otoritas:

{'A': 0.10864044085687284,'D': 0.13489685393050574,

'B': 0.11437974045401585, 'C': 0.3883728005172019,

'E': 0.06966521189369385, 'F': 0.11437974045401585,

'H': 0,06966521189369385, 'G': 0,0}

21
7. Page Rank
PageRank adalah sebuah algoritme yang telah dipatenkan
yang berfungsi menentukan situs web mana yang lebih
penting/populer. PageRank merupakan salah satu fitur
utama mesin pencari Google dan diciptakan oleh
pendirinya, Larry Page dan Sergey Brin yang merupakan
mahasiswa Ph.D. Universitas Stanford.

Cara kerja

Sebuah situs akan semakin populer jika semakin banyak situs


lain yang meletakkan tautan yang mengarah ke situsnya,
dengan asumsi isi/content situs tersebut lebih berguna dari
isi/content situs lain. Peringkat halaman dihitung dengan
skala 1-10.
Contoh:
Sebuah situs yang mempunyai peringkat halaman 9 akan di
urutkan lebih dahulu dalam daftar pencarian Google
daripada situs yang mempunyai peringkat halaman 8 dan
kemudian seterusnya yang lebih kecil.

Konsep

Banyak cara digunakan search engine dalam menentukan


kualitas/rangking sebuah halaman web, mulai dari
penggunaan META Tags, isi dokumen, penekanan
pada content dan masih banyak teknik lain atau gabungan
teknik yang mungkin digunakan. Link popularity, sebuah

22
teknologi yang dikembangkan untuk memperbaiki
kekurangan dari teknologi lain (Meta Keywords, Meta
Description) yang bisa dicurangi dengan halaman yang
khusus di desain untuk search engine atau biasa
disebut doorway pages. Dengan algoritme ‘PageRank’ ini,
dalam setiap halaman akan diperhitungkan inbound link (link
masuk) dan outbound link (link keuar) dari setiap halaman
web.
PageRank, memiliki konsep dasar yang sama dengan link
popularity, tetapi tidak hanya memperhitungkan
“jumlah” inbound dan outbound link. Pendekatan yang
digunakan adalah sebuah halaman akan diangap penting jika
halaman lain memiliki link ke halaman tersebut. Sebuah
halaman juga akan menjadi semakin penting jika halaman
lain yang memiliki rangking (pagerank) tinggi mengacu ke
halaman tersebut.
Dengan pendekatan yang digunakan PageRank, proses terjadi
secara rekursif dimana sebuah rangking akan ditentukan oleh
rangking dari halaman web yang rangkingnya ditentukan oleh
rangking halaman web lain yang memiliki link ke halaman
tersebut. Proses ini berarti suatu proses yang berulang
(rekursif). Di dunia maya, ada jutaan bahkan milyaran
halaman web. Oleh karena itu sebuah rangking halaman web
ditentukan dari struktur link dari keseluruhan halaman web
yang ada di dunia maya. Sebuah proses yang sangat besar
dan komplek.

23
Algoritma

Dari pendekatan yang sudah dijelaskan pada artikel


konsep pagerank, Lawrence Page and Sergey Brin membuat
algoritme pagerank seperti di bawah:
Algoritme awal
PR(A) = (1-d) + d ( ( PR(T1) / C(T1) ) + … + ( PR(Tn) / C(TN) ) )
Salah satu algoritme lain yang dipublikasikan
PR(A) = (1-d) / N + d ( ( PR(T1) / C(T1) ) + … + ( PR(Tn) / C(TN)
))

• PR(A) adalah Pagerank halaman A


• PR(T1) adalah Pagerank halaman T1 yang mengacu
ke halaman A
• C(T1) adalah jumlah link keluar (outbound link) pada
halaman T1
• d adalah damping factor yang bisa diberi antara 0
dan 1.
• N adalah jumlah keseluruhan halaman web (yang
terindeks oleh Google)
Dari algoritme di atas dapat dilihat bahwa pagerank
ditentukan untuk setiap halaman anda bukan
keseluruhan situs web. Pagerank sebuah halaman

24
ditentukan dari pagerank halaman yang mengacu
kepadanya yang juga menjalani proses penentuan
pagerank dengan cara yang sama, jadi proses ini
akan berulang sampai ditemukan hasil yang tepat.
Akan tetapi pagerank halaman A tidak langsung
diberikan kepada halaman yang dituju, akan tetapi
sebelumnya dibagi dengan jumlah link yang ada
pada halaman T1 (outbound link), dan pagerank itu
akan dibagi rata kepada setiap link yang ada pada
halaman tersebut. Demikian juga dengan setiap
halaman lain “Tn” yang mengacu ke halaman “A”.
Setelah semua pagerank yang didapat dari halaman-
halaman lain yang mengacu ke halaman “A”
dijumlahkan, nilai itu kemudian dikalikan dengan
damping factor yang bernilai antara 0 sampai 1. Hal
ini dilakukan agar tidak keseluruhan nilai pagerank
halaman T didistribusikan ke halaman A.

8. Text Preprocessing
Definisi pemrosesan teks (text preprocessing) adalah suatu
proses pengubahan bentuk data yang belum terstruktur
menjadi data yang terstruktur sesuai dengan kebutuhan,
untuk proses mining yang lebih lanjut (sentiment analysis,
peringkasan, clustering, dokumen, etc.). Preprocessing
sendiri adalah merubah teks menjadi term index, tujuannya

25
adalah menghasilkan sebuah set term index yang bisa
mewakili dokumen.

Adapun langkah untuk text preprocessing :

1. Parsing

Parsing dokumen berurusan dengan pengenalan dan


“pemecahan” struktur dokemen menjadi
komponenkomponen yang terpisah. Pada langkah
preprocessing ini, kita menentukan mana yang dijadikan satu
unit dokumen.-contohnya, buku dengan 100 halaman bisa
dipisah menjadi 100 dokumen masing-masing halaman
menjadi 1 dokumen. Satu tweet bisa dijadikan sebagai 1
dokumen. Begitu juga dengan sebuah komentar pada forum
atau review produk.

2. lexical analysis

Biasa dikenal dengan tokenization/tokenisasi adalah proses


pemotongan string input berdasarkan tiap kata
penyusunnya. Pada prinsip proses ini adalah memisahkan
setiap kata yang menyusun suatu dokumen.

Pada proses ini dilakukan penghilangan angka, tanda baca,


dan karakter selain huruf alphabet, karena karakter-karakter
tersebut dianggap sebagai pemisah kata (delimeter) dan
tidak memiliki pengaruh terhadap pemrosesan teks.

Pada tahapan ini juga dilakukan proses cafe folding, dimana


semua huruf diubah menjadi huruf kecil.

26
Cleaning adalah proses untuk membersihkan dokumen dari
komponen-komponen yang tidak memiliki hubungan dengan
informasi yang ada pada dokumen, seperti tag html, link, dan
script, dsb.

Contoh kalimat :

yandi pergi ke sawah untuk mengantarkan makanan. Disana


dia bertemu pak bunyamin yang sedang menanam padi.

Tokens :
“yandi”,”pergi”,”ke”,”sawah”,”untuk”,”mengantarkan”,”mak
anan”,”di”,”sana”,”dia”,”bertemu”,”pak”,”bunyamin”,”yang”
,”sedang”,”menanam”,”padi”.

3. Stopword Removal

Biasa disebut dengan filtering. Filtering adalah tahap


pemilihan kata-kata penting dari hasil token, yaitu kata-kata
apa saja yang akan digunakan untuk mewakili dokumen.

Metode ini menggunakan algoritma stopword. Stoplist atau


stopword adalah kata-kata yang tidak deskriptif (tidak
penting) yang dapat dibuang dengan pendekatan bag-of
words.

Contoh : stopwords adalah ada, adalah adanya, adapun,


agak-agaknya, agar, dll.

Ada juga algoritma wordlist, wordlist adalah kata-kata yang


deskriptif (penting) yang harus disimpan dan tidak dibuang
dengan pendekatan bag-of-words.

27
Kita memiliki database kumpulan kata-kata yang deskriptif,
kemudian kalau hasil tokenisasi itu ada yang merupakan kata
penting dalam database tersebut, maka hasil tokenisasi itu
disimpan.

Contoh stopword :

Tokens :
“yandi”,”pergi”,”ke”,”sawah”,”untuk”,”mengantarkan”,”mak
anan”,”di”,”sana”,”dia”,”bertemu”,”pak”,”bunyamin”,”yang”
,”sedang”,”menanam”,”padi”.

Stopword removal :
“yandi”,”pergi”,”sawah”,”mengantarkan”,”makanan”,”berte
mu”,”bunyamin”,”menanam”,”padi”.

4. Stemming

Stemming adalah proses pengubahan bentuk kata menjadi


dasar atau tahap mencari root kata dari setiap kata hasil
filtering.

Dengan melakukannya proses stemming pada kata


berimbuhan akan berubah menjadi kata dasar, dengan
demikian dapat lebih mengoptimalkan proses teks mining.

Algoritma stemming, implementasi proses stemming sangat


beragam tergantung dengan bahasa dari dokumen.

Beberapa metode untuk stemming :

• Porter stemmer (English & Indonesia)


• Stemming Arifin-Setiono (Indonesia)

28
• Stemming Nazief-Adriani (Indonesia)
• Khoja (Arabic)

Contoh Stemming Bahasa :

Tokens :
“yandi”,”pergi”,”ke”,”sawah”,”untuk”,”mengantarkan”,”mak
anan”,”di”,”sana”,”dia”,”bertemu”,”pak”,”bunyamin”,”yang”
,”sedang”,”menanam”,”padi”.

Stopword removal :
“yandi”,”pergi”,”sawah”,”mengantarkan”,”makanan”,”berte
mu”,”bunyamin”,”menanam”,”padi”

Stemming :
“yandi”,”pergi”,”sawah”,”antar”,”makan”,”temu”,”bunyami
n”,”tanam”,”padi”.

Cara coding :

 Buka Google collabotary.


 Import library yang akan kita gunakan terlebih
dahulu

29
 Tentukan lokasi file hasil scraping data
sebelumnya

 Nantinya saat menjalankan perintah tersebut kita


harus memasukkan kode seperti API dari google
drive tempat menyimpan data hasil scraping.
 Mengarahkan dan membaca lokasi file pada google
drive

 Proses membaca file hasil scraping

 Proses pengambilan data tweets yang berada pada


kolom “Label”

30
 Lalu kita lanjut ketahap pembersihan tweet dengan
regex (Regular Expression) agar menjadi lebih rapi.

 Tokenize tweet dengan nltk

31
 Stopword Indonesia

 tahap penghapusan tanda baca

32
 Mapping dengan word cloud dan matplotlib

33
 Hasil akhir

9. Scraping Data Web


Web scraping adalah proses ekstrasi data dari sebuah
website. Salah satu contohnya adalah meng-copy daftar
contact dari sebuah direktori web. Bisa saja melakukan ini
secara manual dengan meng-copy paste data ke excel. Jika
datanya terlalu banyak, membutuhkan automation yang bisa
membantu proses web scraping lebih cepat dan mudah.

Web scraping dilakukan dengan menggunakan web scraper,


bot, web spider, atau web crawler. Web scraper sendiri
adalah program yang masuk ke halaman website, download
kontennya, mengekstrak data dari konten, dan menyimpan
data ke satu file atau database.

34
Ada banyak alas an mengapa web scraping semakin
diperlukan di zaman sekarang. Dengan semakin
berkembangnya Big Data, jumlah data yang tersedia sudah
tidak terhitung lagi. Web Scraping bisa membantu untuk
mengumpulkan data dengan lebih cepat. Selain itu, kalau
memang ada data yang dikumpulkan berjumlah besar, juga
bisa melakukan automation dan tidak perlu repot lagi karena
yang penting bisa membiarkan server berjalan. Dengan
efisiensi web scraping, ini juga membantu proses analisa data
karena membantu mengumpulkan semua data tanpa
ketinggalan, kalian akan mendapat data lengkap dari proses
ini.

Salah satu hal yang sering dikumpulkan oleh bisnis dengan


teknik ini adalah menganalisa data competitor. Tidak peduli
jenis bisnis kalian, kemungkinan besar kalian akan perlu
melihat bagaimana competitor kalian bekerja. Kalau bisnis
kalian sudah berjalan, mungkin kalian juga ingin melakukan
brand monitoring. Kalian juga bisa mengumpulkan berbagai
review dan komentar dari public tentang brand, produk,
layanan, dan kompetitor kalian melalui web scraping.

Sebenarnya, ada satu komponen internet yang melakukan


scraping setiap harinya yaitu search engine atau mesin
pencari. Untuk keperluan SEO, Google melakukan web
scraping setiap harinya untuk memeriksa setiap website yang
ada di dunia agar mereka bisa menentukan ranking sebuah
website di halaman hasil pencarian. Tidak hanya Google,
tools monitoring SEO seperti Moz, SEMRush, dan Ahrefs juga

35
melakukan web scraping untuk memberi informasi ke user
mereka tentang strategi SEO website mereka.

Teknik-teknik web Scraping

 Parsing HTML Adalah salah satu teknik yang paling


banyak digunakan dalam web parsing. Biasanya
parsing HTML dilakukan melalui JavaScript dan
menarget halaman HTML linear dan nested. Script
ini kemudian digunakan untuk mengekstraksi text,
links, dan data.

 Parsing DOM
Konten, style, dan struktur file XML didefinisikan
dalam DOM, kependekan dari Document Object
Model. Scrapers yang ingin mengetahui cara kerja
internal halaman web dan mengekstrak skrip yang
berjalan di dalamnya biasa memilih untuk
melakukan web scraping melalui parsing DOM. Node
spesifik dikumpulkan menggunakan parser DOM dan
alat-alat seperti XPath membantu proses scraping
sebuah halaman web.

 XPath XML
Path Language atau lebih dikenal dengan istilah
XPath adalah bahasa query yang bekerja di dokumen
XML. Karena dokumen XML biasa disusun dengan
struktur pohon, XPath bisa digunakan untuk

36
menavigasi struktur dokumen tersebut dengan
memilih nodes berdasarkan berbagai parameter.
XPath juga bisa digunakan bersamaan dengan DOM
parsing dalam mengekstrasi seluruh halaman
website dan menampilkannya di website lain.

 Google Docs
Google Sheets bisa digunakan sebagai alat scraping.
Di Google Sheets sendiri bisa memanfaatkan fungsi
IMPORTXML untuk melakukan scraping data dari
website. Selain itu bisa menggunakan command ini
untuk melihat apakah website kalian aman dari
scraping.

10. Scraping data twitter dan


cloud
Pertama-tama kita harus download aplikasi yang bernama
“GEPHI”, jika belom silahkan mendownload terlebih dahulu.
Setelah selesai install tools GEPHI yang telah anda download

37
setelah klik run as administrator klik yes untuk memberikan
izin install tools Gephi

Klik next

38
Pilih I accept the agreement, lalu next>

39
Pilih folder dimana yang anda ingin menyimpan instalasinya
defaut akan mengarahkan ke Folder C:\Program Files\ saya
sarankan meletakkan sesuai default, lalu Next >

40
Ini digunakan untuk penamaan Folder, Klik Next >

41
Klik Install, Tunggu beberapa saat

42
43
Buka tools Gephi anda

Jika keluar pop up error ini jangan khawatir bukan perangkat


anda yang rusak, solusi untuk mengatasi masalah ini adalah
menginstall java.

Pilih sesuai dengan perangkat anda, lalu centang untuk


menyetujui lalu download. Lalu install seperti biasa.

44
selanjutnya lakukan setting file, seperti gambar di bawah ini.
edit File pada gephi C:\Program Files\Gephi-0.9.2\etc pilih
gephi.conf

Setting seperti lalu save

Jika sudah membuka gephi dan buat project baru.

45
Selanjutnya install plugins TwitterStreamingImporter dengan
cara klik menu tools->Plugin lalu pilih available plugin, jika
ketemu lalu install dan jika sudah bisa kita cek pada installed.

46
cek plugins telah di install.

Setelah itu kita masukkan API dan token yang kita dapat dari
twitter, masukkan API tersebut dengan cara set credential.
Masukkan API Key, API Secret Key, Acces Token, dan Acces
Token Secret.

47
Karena yang sedang ramai #OneDirectionReunion saya
memilihnya untuk percobaan scraping.

48
49
lalu klik connect
tunggu nodes muncul pada bagian kanan sesuai dengan yang
kalian butuhkan, proses ini lumayan lama tergantung traffic
topik yang and cari.

Lalu setelah memperoleh data dari twitter kita beralih ke


google colab untuk melakukan mapping data tersebut
dengan menggunakan bahasa pemrograman python.

50
11. Sentimen Analysis
Sentiment analysis adalah proses penggunaan text analystic
untuk mendapatkan berbagai sumber data dari internet dan
berbagai platform media sosial. Tujuannya adalah untuk
memperoleh opini dari pengguna yang terdapat pada
platform tersebut. Sentiment analysis berperan sebagai alat
yang dapat menghubungkan seluruh data tersebut.

Cara kerja sentiment analysis dalam mengambil data dapat


dibagi menjadi 3 langkah, yakni klasifikasi, evaluasi, dan
visualisasi hasil.

Klasifikasi

Pertama, mesin perlu mengklasifikasikan data yang dinilai


sebagai opini dari sebuah teks. Ada tiga klasifikasi dalam
metode analisis sentimen yang dapat dilakukan, yakni :

• Machine learning: fitur-fitur di dalamnya dapat


mengenali sentiment (sudut pandang seseorang)
dalam sebuah teks. Metode machine learning kini
semakin bertambah populer karena dapat dinilai
representative.
• Lexicon-based: menggunakan berbagai kata yang
dinilai dengan skor polaritas untuk mengetahui.
Tanggapan masyarakat/pengguna/konsumen
mengenai suatu topic. Keunggulannya adalah tidak
memerlukan data pelatihan, tapi kelemahannya

51
adalah banyak kata yang belum termuat dalam
leksikon.
• Campuran: menggabungkan metode machine
learning dan leksikon. Kendati jarang digunakan,
metode ini biasanya memberikan hasil yang lebih
menjanjikan.

Evaluasi

Setelah data terklasifikasi, metode analisis sentimen


berikutnya adalah menggunakan metrik evaluasi seperti
Precision, Recall, F-score, dan Accuracy. Proses ini juga
melibatkan pengukuran rata-rata seperti makro, mikro, dan
skor F1 tertimbang untuk menangani data yang masuk ke
dalam dua klasifikasi atau lebih.

Visuali Data

Langkah selanjutnya dalam metode analisis sentimen adalah


visualisasi data. Visualisasi data dilakukan menggunakan
bagan sesuai kebutuhan perusahaan atau siapa saja yang
memanfaatkan data-data ini. Sebagian besar orang biasanya
menggunakan teknik yang sudah dikenal, seperti grafik,
histogram, atau matriks.

Tools sentiment analysis

Ada beberapa tools yang dapat kamu gunakan saat


menjalankan sentiment analysis terhadap brand.

• Awario

52
Awario adalah tools analisi dan monitoring media
sosial. Tools ini mencakup semua jaringan media
sosial, berita, blog, forum dan situs. Terdapat fitur
sentiment analysis di dalamnya yang dapat
menunjukkan bagaimana sentiment terhadap brand
dari waktu ke waktu.

• Brandwatch
Brandwatch adalah tools analitik dan monitoring
media sosial lainnya yang dapat digunakan untuk
sentiment analysis. Tools ini menganalisa sentimen
terhadap brand untuk menunjukkan tren yang ada.
Selain itu tools ini ijuga memiliki fitur “image insight”
yang dapat mengidentikasi gambar logo brand kamu
dengan cara yang sama dengan topic yang dapat
dikaitkan dengan nama brand kamu.

• Lexalytics
Menawarkan tools analisis teks yang berfokus untuk
menjelaskan mengapa pelanggan merespon bisnis
untuk dengan cara tertentu. Tools ini dapat
menjalankan sentiment analysis untuk menentukan
maksud dibalik pesan pelanggan.

• Social mentions
Tools analisa media sosial yang dapat digunakan
secara gratis. Social mentions dapat digunakan untuk
menarik data tentang kata kunci kamu dari setiap

53
situs media sosial dan mengompilasikannya ke dalam
ringkasan yang komprehensif.
Dari ringkasan ini kamu dapat mengetahui rasio
orang yang berbicara positf tentang kata kunci kamu
maupun sebaliknya.

Sentiment analysis adalah metode untuk memperoleh data


dari berbagai platform yang tersedia di internet. Data-data
dan opini tersebut berperan penting sebagai umpan balik
produk, layanan, dan topik lainnya.

54
Daftar Pustaka
(https://pintaria.com/blog/apa-itu-data-science-yuk-
kenalandengan-data-analyst-dan-big-data)

(https://www.dqlab.id/3-contoh-penerapan-data-
sciencepada-industri)

(https://ligiaprapta17.wordpress.com/2015/03/03/pengertia
n-information-retrieval-ir-peranan-ir-dan-contoh-contoh-ir/)

(https://www.geeksforgeeks.org/inverted-index/)

(https://www.sopingi.com/cara-penyelesaian-dengan-teknik-
boolean-retrieval-model)

(https://en.m.wikipedia.org/wiki/Universal_IR_Evaluation)

(https://www.geeksforgeeks.org/hyperlink-induced-topic-
search-hits-algorithm-using-networxx-module-python/)

(https://id.wikipedia.org/wiki/PageRank#:~:text=PageRank%
20adalah%20sebuah%20algoritme%20yang,Ph.D.%20Univers
itas%20Stanford.)

(https://slideplayer.info/slide/12484481/)

(https://medium.com/@wasiskrisdiantoro14/scraping-data-
twitter-metode-streaming-7daaf7f6ae16)

(https://www.dewaweb.com/blog/web-scraping-panduan-
dan-teknik-tekniknya/)

55
(https://medium.com/@wasiskrisdiantoro14/scraping-data-
twitter-metode-streaming-7daaf7f6ae16)

(https://medium.com/@wasiskrisdiantoro14/scraping-data-
twitter-metode-streaming-7daaf7f6ae16)

(https://www.ekrut.com/media/sentiment-analysis-adalah)

56

Anda mungkin juga menyukai