Temukembali
Temukembali
1
1. Data Science
Kebanyakan orang pasti bertanya-tanya tentang apa itu Data
science, memang banyak yang menjelaskan dengan berbagai
yang intinya sama. Jadi, Data Science adalah penggalian atau
juga bisa disebut dengan mengekstrak suatu data agar bisa
difilter dan ditemukan data yang benar adanya agar bisa
menghasilkan produk data yang sebenarnya. Banyak orang
yang belum mengetahui, bahwa Data Science adalah suatu
hal yang bisa dipekerjakan dan jika data ini bekerja di dunia
tersebut dapat menghasilkan uang yang cukup. Tetapi, agar
data ini bisa bekerja, harus mempunyai keahlian khusus di
bidang pemrogaman data dan juga ilmu eksak, seperti
matematika dan statistic agar bisa menyaring data dengan
cara yang cepat. Untuk orang yang bekerja mengolah suatu
data kerap disebut dengan Data Analyst. Agar bisa
menganalisi data dengan baik dan benar melalui cara
pemrosesan sinyal, model probabilitas, program komputer
dan hal yang berkaitan dengan ilmu Sains. Pekerjaan ini
memang jarang di kenal oleh masyarakat luas karena sejauh
ini masih belum ada ilmu khusus yang tersedia bagi orang
ingin mempelajari melalui pendidikan formal, bahkan
beberapa universitas ternama pun belum memiliki jurusan
khusus untuk mencetak sosok hebat pengolah data. Data
Science ini adalah pekerjaan yang tidak hanya mengandalkan
ilmu Sains saja, tetapi ada beberapa ilmu yang lain lagi yang
harus dimiliki seorang pekerja di bidang ini.
2
Yang pertama adalah orang ini harus memiliki keahlian
mengumpulkan data dengan sistem matematik dan statistik.
Mengumpulkan data dari berbagai macam sumber tidaklah
mudah jika tidak dibekali dengan ilmu tersebut. Maka dari
itu, keahlian untuk memfilter data harus menguasai atau
paling tidak paham dengan ilmu matematik dan statistik.
Yang kedua adalah seorang yang melakukan pekerjaan
tersebut harus memiliki keahlian programming, scripting, dan
domain-specific expertise agar bisa memasukkan datadata
yang diperoleh ke dalam komputer. Jika, orang ini tidak
memiliki kemampuan untuk programming, bisa dipastikan
pekerjaan tersebut akan berakhir buruk atau tidak sempurna.
Orang ini juga harus memiliki kemampuan untuk komunikasi
agar bisa menyampaikan data yang ia peroleh dengan
sistematis dan dapat dipahami oleh banyak orang. Setelah
mendapatkan data dan hasil yang dibutuhkan, kamu pun di
tuntut untuk bisa menjelaskan grafik tersebut dengan
singkat, padat, dan jelas. Berbicara tentang Data Science ini
akan berbicara tentang Big Data. Banyak orang yang kurang
paham tentang hal tersebut karena istilah ini baru muncul
beberapa tahun belakangan. Big Data ini sendiri dapat
diartikan dengan suatu cara untuk mengambil, menyimpan,
menganalisis, data-data yang sebelumnya tidak
memungkinkan atau tidak ekonomis untuk diambil, disimpan,
diproses, dan dianalisa. Jadi didalam pekerjaan tersebut,
dimungkinkan ada data yang eror dan tidak bisa diproses
dengan hal-hal yang biasa. Lalu dengan cara tersebut,
nantinya akan diproses dan menjadikan data itu disimpan
3
dan diatur dengan cara yang sistematis. Pekerjaan ini
memang tidak sembarang orang bisa mengerjakannya.
4
menggunakan data untuk mensegmentasikan
pelanggan atau konsumen secara akurat. Penawaran
ini didasari pada informasi yang dihasilkan oleh Data
Science dan berbagai faktor lainnya. Salah satu
contoh perusahaan yang menerapkannya adalah
Airbnb. Algoritma ini memperhitungkan berbagai
macam kategori. Seperti lead time, review properti
dan fasilitas yang disediakan.
2. Information Retrieval
Information Retrieval atau sering disebut “temu kembali
infromasi” adalah ilmu yang mempelajari prosedur-prosedur
dan metode-metode untuk menemukan kembali informasi
yang tersimpan dari berbagai sumber yang relevan atau
koleksi sumber informasi yang dicari atau dibutuhkan.
Dengan tindakan index , panggilan , pemanggilan data
kembali . Dalam pencarian data, beberapa jenis data dapat
ditemukan diantaranya texts, table, gambar , video, audio.
5
statment yang kemudian di eksekusi oleh sistem pencari.
William Hersh Menyatakan Information Retrieval adalah
“bidang di persimpangan ilmu informasi dan ilmu komputer.
Berkutat dengan pengindeksan dan pengambilan informasi
dari sumber informasi heterogen dan sebagian besar-
tekstual. Istilah ini diciptakan oleh Mooers pada tahun 1951,
yang menganjurkan bahwa diterapkan ke “aspek intelektual”
deskripsi informasi dan sistem untuk pencarian “.
6
atau di perpustakaan, di apotik dan lain sebagainya. Itu
semua adalah karena jasa IR. Information retrieval
mempunya peran untuk:
7
CBIR Technology
3. Inverted Index
Inverted index adalah struktur data indeks yang menyimpan
pemetaan dari konten, seperti kata atau angka, ke lokasinya
dalam dokumen atau sekumpulan dokumen. Dengan kata
sederhana, ini adalah hashmap seperti struktur data yang
mengarahkan Anda dari sebuah kata ke dokumen atau
halaman web.
halo (1, 1)
semua orang (1, 2)
8
ini (2, 1)
artikel (2, 2)
adalah (2, 3); (3, 2)
berbasis (2, 4)
pada (2, 5)
terbalik (2, 6)
indeks (2, 7)
yang (3, 1)
hashmap (3, 3)
suka (3, 4)
data (3, 5)
struktur (3, 6)
9
• Stemming of Root Word
Setiap kali saya ingin mencari "cat", saya ingin
melihat dokumen yang memiliki informasi
tentangnya. Tapi kata yang ada dalam dokumen
disebut “kucing” atau “kati” bukan “kucing”. Untuk
menghubungkan kedua kata tersebut, saya akan
memotong beberapa bagian dari setiap kata yang
saya baca sehingga saya bisa mendapatkan “akar
kata”. Ada alat standar untuk melakukan ini seperti
"Porter's Stemmer".
• Rekam ID Dokumen
Jika kata sudah ada tambahkan referensi dokumen
ke indeks lain buat entri baru. Tambahkan informasi
tambahan seperti frekuensi kata, lokasi kata, dll.
Ulangi untuk semua dokumen dan urutkan kata-
katanya.
Contoh :
Dokumen Kata-kata
semut doc1
demo doc2
doc1 dunia, doc2
Keuntungan dari inverted indeks :
• Indeks terbalik memungkinkan pencarian teks
lengkap yang cepat, dengan biaya pemrosesan yang
meningkat saat dokumen ditambahkan ke database.
• Mudah untuk dikembangkan.
10
• Ini adalah struktur data paling populer yang
digunakan dalam sistem pengambilan dokumen,
digunakan dalam skala besar misalnya di mesin
pencari.
4. Boolean Modeling
Model Boolean adalah adalah salah satu contoh Information
Retrieval yang merupakan model proses pencarian informasi
dari query yang menggunakan ekspresi boolean. Dengan
ekspresi boolean dengan menggunakan operator logika AND,
OR dan NOT. Sedangkan dalam menentukan hasil
perhitungannya hanya berupa nilai binary (1 atau 0). Dengan
hal itu, Boolean Retrieval Model (BRM) yang ada hanya
dokumen relevan atau tidak sama sekali. Sehingga
keunggulan dari Boolean Retrieval Model (BRM) tidak
menghasilkan dokumen yang mirip.
11
tipe data yang bernilai “True” atau “False” (benar atau salah).
Sehingga didalam IR, logika boolean berarti bahwa data yang
di crawler sesuai atau tidak antara variable – variablenya.
12
2. Membuat Indeks Model Boolean
Pertama-tama kita membuat matriks istilah yang
mewakili daftar semua istilah yang berbeda dan
keberadaan mereka pada setiap dokumen/file. Jika
dokumen berisi kata kunci maka bernilai 1 jika tidak
bernilai 0. Berikut ini matriknya:
13
di 0 0 0 0 1
teknik 0 0 0 0 1
informatika 0 0 0 0 1
4. Penarikan Kesimpulan
Berdasarkan hasil query di atas maka dokumen yang
paling relevan adalah file udb_5.txt
5. IR Evaluation
IR (information retrieval) evaluation dimulai setiap kali
pengguna mengirimkan kueri (istilah pencarian) ke database .
Jika pengguna dapat menentukan relevansi setiap dokumen
dalam database (relevan atau tidak relevan), maka untuk
setiap kueri, kumpulan dokumen lengkap secara alami dibagi
14
menjadi empat subset yang berbeda (saling eksklusif):
dokumen relevan yang diambil, bukan dokumen relevan yang
diambil, dokumen relevan yang tidak diambil, dan bukan
dokumen relevan yang tidak diambil. Keempat himpunan
bagian (dokumen) ini masing-masing dilambangkan dengan
huruf a, b, c, d dan disebut variabel Swets, dinamai menurut
penemunya. [1]
Selain definisi Swets, empat metrik relevansi juga telah
ditentukan: Presisi mengacu pada bagian dari dokumen
relevan yang diambil (a / (a + b)), dan Recall mengacu pada
bagian dari dokumen yang diambil yang relevan (a / (a +
c)). Ini adalah metrik relevansi yang paling umum digunakan
dan terkenal yang ditemukan dalam literatur evaluasi IR. Dua
metrik yang kurang umum digunakan termasuk Fallout, yaitu
bagian dari dokumen tidak relevan yang diambil (b / (b + d)),
dan Miss, yang mengacu pada bagian dokumen relevan yang
tidak diambil (c / ( c + d)) selama pencarian tertentu.
15
Dalam hal ini, Presisi akan mengambil bentuk 0/0 yang belum
ditentukan, Recall dan Fallout keduanya akan menjadi nol,
dan Miss akan bernilai lebih dari nol dan kurang dari satu
(dengan asumsi campuran dokumen yang relevan dan tidak
relevan adalah dalam database, tidak ada yang diambil). Titik
evaluasi IR universal ini akan dilambangkan dengan (0/0, 0, 0,
M), yang hanya mewakili satu dari 16 kemungkinan hasil IR
universal.
Matematika evaluasi IR universal adalah subjek yang cukup
baru karena metrik relevansi P, R, F, M tidak dianalisis secara
kolektif hingga saat ini (dalam dekade terakhir). Banyak
landasan teoritis telah dirumuskan, tetapi wawasan baru di
bidang ini menunggu penemuan. Untuk analisis matematis
mendetail, kueri dalam database ScienceDirect untuk
"evaluasi IR universal" mengambil beberapa makalah yang
ditinjau oleh sejawat yang relevan.
16
6. Hits
Hyperlink Induced Topic Search (HITS) adalah Algoritma
Analisis Tautan yang menilai halaman web, yang
dikembangkan oleh Jon Kleinberg. Algoritme ini digunakan
untuk struktur tautan web untuk menemukan dan memberi
peringkat laman web yang relevan untuk penelusuran
tertentu.
HITS menggunakan hub dan otoritas untuk menentukan
hubungan rekursif antara halaman web. Sebelum
memahami Algoritma HITS, pertama-tama kita perlu
mengetahui tentang Hub dan Otoritas.
• Diberikan kueri ke Mesin Telusur, kumpulan
halaman web yang sangat relevan
disebut Akar . Mereka adalah Otoritas potensial .
• Halaman yang tidak terlalu relevan tetapi mengarah
ke halaman di Root disebut Hub . Jadi, Otoritas
adalah halaman yang ditautkan oleh banyak hub
sedangkan Hub adalah halaman yang tertaut ke
banyak otoritas.
Algoritma :
Misalkan jumlah iterasi menjadi k .
Setiap node diberi skor Hub = 1 dan skor Otoritas =
1.
Ulangi k kali:
• Pembaruan hub: Skor Hub setiap node = (Skor
otoritas dari setiap node yang ditunjuknya).
17
• Pembaruan otoritas: Skor Otoritas setiap node =
(Skor hub dari setiap node yang menunjuk ke sana).
• Normalisasi skor dengan membagi setiap skor Hub
dengan akar kuadrat dari jumlah kuadrat semua
skor Hub, dan membagi setiap skor Otoritas dengan
akar kuadrat dari jumlah kuadrat semua skor
Otoritas. (pilihan)
Mari kita perhatikan Grafik berikut:
Mulanya,
A -> 1 A -> 1
B -> 1 B -> 1
18
C -> 1 C -> 1
D -> 1 D -> 1
E -> 1 E -> 1
F -> 1 F -> 1
G -> 1 G -> 1
H -> 1 H -> 1
A -> 1 A -> 3
B -> 2 B -> 2
C -> 1 C -> 4
D -> 2 D -> 2
E -> 4 E -> 1
F -> 1 F -> 1
G -> 2 G -> 0
H -> 1 H -> 1
19
A -> 2 A -> 4
B -> 5 B -> 6
C -> 3 C -> 7
D -> 6 D -> 5
E -> 9 E -> 2
F -> 1 F -> 4
G -> 7 G -> 0
H -> 3 H -> 1
A -> 5 A -> 13
B -> 9 B -> 15
C -> 4 C -> 27
D -> 13 D -> 11
E -> 22 E -> 5
F -> 1 F -> 9
G -> 11 G -> 0
H -> 4 H -> 3
20
Paket Python Networkx memiliki fungsi built-in untuk
menjalankan Algoritma HITS. Ini akan divisualisasikan
dengan mengacu pada Grafik di atas.
Keluaran:
Skor Hub:
Skor Otoritas:
21
7. Page Rank
PageRank adalah sebuah algoritme yang telah dipatenkan
yang berfungsi menentukan situs web mana yang lebih
penting/populer. PageRank merupakan salah satu fitur
utama mesin pencari Google dan diciptakan oleh
pendirinya, Larry Page dan Sergey Brin yang merupakan
mahasiswa Ph.D. Universitas Stanford.
Cara kerja
Konsep
22
teknologi yang dikembangkan untuk memperbaiki
kekurangan dari teknologi lain (Meta Keywords, Meta
Description) yang bisa dicurangi dengan halaman yang
khusus di desain untuk search engine atau biasa
disebut doorway pages. Dengan algoritme ‘PageRank’ ini,
dalam setiap halaman akan diperhitungkan inbound link (link
masuk) dan outbound link (link keuar) dari setiap halaman
web.
PageRank, memiliki konsep dasar yang sama dengan link
popularity, tetapi tidak hanya memperhitungkan
“jumlah” inbound dan outbound link. Pendekatan yang
digunakan adalah sebuah halaman akan diangap penting jika
halaman lain memiliki link ke halaman tersebut. Sebuah
halaman juga akan menjadi semakin penting jika halaman
lain yang memiliki rangking (pagerank) tinggi mengacu ke
halaman tersebut.
Dengan pendekatan yang digunakan PageRank, proses terjadi
secara rekursif dimana sebuah rangking akan ditentukan oleh
rangking dari halaman web yang rangkingnya ditentukan oleh
rangking halaman web lain yang memiliki link ke halaman
tersebut. Proses ini berarti suatu proses yang berulang
(rekursif). Di dunia maya, ada jutaan bahkan milyaran
halaman web. Oleh karena itu sebuah rangking halaman web
ditentukan dari struktur link dari keseluruhan halaman web
yang ada di dunia maya. Sebuah proses yang sangat besar
dan komplek.
23
Algoritma
24
ditentukan dari pagerank halaman yang mengacu
kepadanya yang juga menjalani proses penentuan
pagerank dengan cara yang sama, jadi proses ini
akan berulang sampai ditemukan hasil yang tepat.
Akan tetapi pagerank halaman A tidak langsung
diberikan kepada halaman yang dituju, akan tetapi
sebelumnya dibagi dengan jumlah link yang ada
pada halaman T1 (outbound link), dan pagerank itu
akan dibagi rata kepada setiap link yang ada pada
halaman tersebut. Demikian juga dengan setiap
halaman lain “Tn” yang mengacu ke halaman “A”.
Setelah semua pagerank yang didapat dari halaman-
halaman lain yang mengacu ke halaman “A”
dijumlahkan, nilai itu kemudian dikalikan dengan
damping factor yang bernilai antara 0 sampai 1. Hal
ini dilakukan agar tidak keseluruhan nilai pagerank
halaman T didistribusikan ke halaman A.
8. Text Preprocessing
Definisi pemrosesan teks (text preprocessing) adalah suatu
proses pengubahan bentuk data yang belum terstruktur
menjadi data yang terstruktur sesuai dengan kebutuhan,
untuk proses mining yang lebih lanjut (sentiment analysis,
peringkasan, clustering, dokumen, etc.). Preprocessing
sendiri adalah merubah teks menjadi term index, tujuannya
25
adalah menghasilkan sebuah set term index yang bisa
mewakili dokumen.
1. Parsing
2. lexical analysis
26
Cleaning adalah proses untuk membersihkan dokumen dari
komponen-komponen yang tidak memiliki hubungan dengan
informasi yang ada pada dokumen, seperti tag html, link, dan
script, dsb.
Contoh kalimat :
Tokens :
“yandi”,”pergi”,”ke”,”sawah”,”untuk”,”mengantarkan”,”mak
anan”,”di”,”sana”,”dia”,”bertemu”,”pak”,”bunyamin”,”yang”
,”sedang”,”menanam”,”padi”.
3. Stopword Removal
27
Kita memiliki database kumpulan kata-kata yang deskriptif,
kemudian kalau hasil tokenisasi itu ada yang merupakan kata
penting dalam database tersebut, maka hasil tokenisasi itu
disimpan.
Contoh stopword :
Tokens :
“yandi”,”pergi”,”ke”,”sawah”,”untuk”,”mengantarkan”,”mak
anan”,”di”,”sana”,”dia”,”bertemu”,”pak”,”bunyamin”,”yang”
,”sedang”,”menanam”,”padi”.
Stopword removal :
“yandi”,”pergi”,”sawah”,”mengantarkan”,”makanan”,”berte
mu”,”bunyamin”,”menanam”,”padi”.
4. Stemming
28
• Stemming Nazief-Adriani (Indonesia)
• Khoja (Arabic)
Tokens :
“yandi”,”pergi”,”ke”,”sawah”,”untuk”,”mengantarkan”,”mak
anan”,”di”,”sana”,”dia”,”bertemu”,”pak”,”bunyamin”,”yang”
,”sedang”,”menanam”,”padi”.
Stopword removal :
“yandi”,”pergi”,”sawah”,”mengantarkan”,”makanan”,”berte
mu”,”bunyamin”,”menanam”,”padi”
Stemming :
“yandi”,”pergi”,”sawah”,”antar”,”makan”,”temu”,”bunyami
n”,”tanam”,”padi”.
Cara coding :
29
Tentukan lokasi file hasil scraping data
sebelumnya
30
Lalu kita lanjut ketahap pembersihan tweet dengan
regex (Regular Expression) agar menjadi lebih rapi.
31
Stopword Indonesia
32
Mapping dengan word cloud dan matplotlib
33
Hasil akhir
34
Ada banyak alas an mengapa web scraping semakin
diperlukan di zaman sekarang. Dengan semakin
berkembangnya Big Data, jumlah data yang tersedia sudah
tidak terhitung lagi. Web Scraping bisa membantu untuk
mengumpulkan data dengan lebih cepat. Selain itu, kalau
memang ada data yang dikumpulkan berjumlah besar, juga
bisa melakukan automation dan tidak perlu repot lagi karena
yang penting bisa membiarkan server berjalan. Dengan
efisiensi web scraping, ini juga membantu proses analisa data
karena membantu mengumpulkan semua data tanpa
ketinggalan, kalian akan mendapat data lengkap dari proses
ini.
35
melakukan web scraping untuk memberi informasi ke user
mereka tentang strategi SEO website mereka.
Parsing DOM
Konten, style, dan struktur file XML didefinisikan
dalam DOM, kependekan dari Document Object
Model. Scrapers yang ingin mengetahui cara kerja
internal halaman web dan mengekstrak skrip yang
berjalan di dalamnya biasa memilih untuk
melakukan web scraping melalui parsing DOM. Node
spesifik dikumpulkan menggunakan parser DOM dan
alat-alat seperti XPath membantu proses scraping
sebuah halaman web.
XPath XML
Path Language atau lebih dikenal dengan istilah
XPath adalah bahasa query yang bekerja di dokumen
XML. Karena dokumen XML biasa disusun dengan
struktur pohon, XPath bisa digunakan untuk
36
menavigasi struktur dokumen tersebut dengan
memilih nodes berdasarkan berbagai parameter.
XPath juga bisa digunakan bersamaan dengan DOM
parsing dalam mengekstrasi seluruh halaman
website dan menampilkannya di website lain.
Google Docs
Google Sheets bisa digunakan sebagai alat scraping.
Di Google Sheets sendiri bisa memanfaatkan fungsi
IMPORTXML untuk melakukan scraping data dari
website. Selain itu bisa menggunakan command ini
untuk melihat apakah website kalian aman dari
scraping.
37
setelah klik run as administrator klik yes untuk memberikan
izin install tools Gephi
Klik next
38
Pilih I accept the agreement, lalu next>
39
Pilih folder dimana yang anda ingin menyimpan instalasinya
defaut akan mengarahkan ke Folder C:\Program Files\ saya
sarankan meletakkan sesuai default, lalu Next >
40
Ini digunakan untuk penamaan Folder, Klik Next >
41
Klik Install, Tunggu beberapa saat
42
43
Buka tools Gephi anda
44
selanjutnya lakukan setting file, seperti gambar di bawah ini.
edit File pada gephi C:\Program Files\Gephi-0.9.2\etc pilih
gephi.conf
45
Selanjutnya install plugins TwitterStreamingImporter dengan
cara klik menu tools->Plugin lalu pilih available plugin, jika
ketemu lalu install dan jika sudah bisa kita cek pada installed.
46
cek plugins telah di install.
Setelah itu kita masukkan API dan token yang kita dapat dari
twitter, masukkan API tersebut dengan cara set credential.
Masukkan API Key, API Secret Key, Acces Token, dan Acces
Token Secret.
47
Karena yang sedang ramai #OneDirectionReunion saya
memilihnya untuk percobaan scraping.
48
49
lalu klik connect
tunggu nodes muncul pada bagian kanan sesuai dengan yang
kalian butuhkan, proses ini lumayan lama tergantung traffic
topik yang and cari.
50
11. Sentimen Analysis
Sentiment analysis adalah proses penggunaan text analystic
untuk mendapatkan berbagai sumber data dari internet dan
berbagai platform media sosial. Tujuannya adalah untuk
memperoleh opini dari pengguna yang terdapat pada
platform tersebut. Sentiment analysis berperan sebagai alat
yang dapat menghubungkan seluruh data tersebut.
Klasifikasi
51
adalah banyak kata yang belum termuat dalam
leksikon.
• Campuran: menggabungkan metode machine
learning dan leksikon. Kendati jarang digunakan,
metode ini biasanya memberikan hasil yang lebih
menjanjikan.
Evaluasi
Visuali Data
• Awario
52
Awario adalah tools analisi dan monitoring media
sosial. Tools ini mencakup semua jaringan media
sosial, berita, blog, forum dan situs. Terdapat fitur
sentiment analysis di dalamnya yang dapat
menunjukkan bagaimana sentiment terhadap brand
dari waktu ke waktu.
• Brandwatch
Brandwatch adalah tools analitik dan monitoring
media sosial lainnya yang dapat digunakan untuk
sentiment analysis. Tools ini menganalisa sentimen
terhadap brand untuk menunjukkan tren yang ada.
Selain itu tools ini ijuga memiliki fitur “image insight”
yang dapat mengidentikasi gambar logo brand kamu
dengan cara yang sama dengan topic yang dapat
dikaitkan dengan nama brand kamu.
• Lexalytics
Menawarkan tools analisis teks yang berfokus untuk
menjelaskan mengapa pelanggan merespon bisnis
untuk dengan cara tertentu. Tools ini dapat
menjalankan sentiment analysis untuk menentukan
maksud dibalik pesan pelanggan.
• Social mentions
Tools analisa media sosial yang dapat digunakan
secara gratis. Social mentions dapat digunakan untuk
menarik data tentang kata kunci kamu dari setiap
53
situs media sosial dan mengompilasikannya ke dalam
ringkasan yang komprehensif.
Dari ringkasan ini kamu dapat mengetahui rasio
orang yang berbicara positf tentang kata kunci kamu
maupun sebaliknya.
54
Daftar Pustaka
(https://pintaria.com/blog/apa-itu-data-science-yuk-
kenalandengan-data-analyst-dan-big-data)
(https://www.dqlab.id/3-contoh-penerapan-data-
sciencepada-industri)
(https://ligiaprapta17.wordpress.com/2015/03/03/pengertia
n-information-retrieval-ir-peranan-ir-dan-contoh-contoh-ir/)
(https://www.geeksforgeeks.org/inverted-index/)
(https://www.sopingi.com/cara-penyelesaian-dengan-teknik-
boolean-retrieval-model)
(https://en.m.wikipedia.org/wiki/Universal_IR_Evaluation)
(https://www.geeksforgeeks.org/hyperlink-induced-topic-
search-hits-algorithm-using-networxx-module-python/)
(https://id.wikipedia.org/wiki/PageRank#:~:text=PageRank%
20adalah%20sebuah%20algoritme%20yang,Ph.D.%20Univers
itas%20Stanford.)
(https://slideplayer.info/slide/12484481/)
(https://medium.com/@wasiskrisdiantoro14/scraping-data-
twitter-metode-streaming-7daaf7f6ae16)
(https://www.dewaweb.com/blog/web-scraping-panduan-
dan-teknik-tekniknya/)
55
(https://medium.com/@wasiskrisdiantoro14/scraping-data-
twitter-metode-streaming-7daaf7f6ae16)
(https://medium.com/@wasiskrisdiantoro14/scraping-data-
twitter-metode-streaming-7daaf7f6ae16)
(https://www.ekrut.com/media/sentiment-analysis-adalah)
56