02 - Information Retrieval System Capabilities
02 - Information Retrieval System Capabilities
IR System
Capabilities
OUTLINE
1. Definisi & Tujuan IR System
2. Search Capabilities
3. Browse Capabilities
4. Miscellaneous Capabilities
2
1.
Definisi & Tujuan
IR Systems
Information Retrieval System
▪ Sistem yang mampu menyimpan,
menemukan kembali (retrieve), dan
memelihara (maintenance) informasi.
▪ Informasi dalam sistem dapat berupa text
(termasuk numeric dan date), gambar, audio,
video, dan objek multimedia lainnya.
▪ Sebuah IRS terdiri dari software yang
memudahkan user menemukan informasi
yang diinginkan.
4
Tujuan IRS
▪ Meminimalkan usaha dan biaya yang
digunakan user untuk mencari informasi.
▫ Waktu yang digunakan user untuk mencari
informasi (pembuatan query, eksekusi
query, memilih hasil, membaca item yang
tidak relevan)
▪ Keberhasilan sebuah IRS untuk mencapai
tujuannya sangat subjektif, tergantung
informasi yang dibutuhkan dan kemauan
user untuk menambah usaha dan biaya.
5
Informasi yang Dibutuhkan User
▪ Semua informasi dalam sistem yang
berkaitan dengan kebutuhan user.
▫ Comprehensive Retrieval
▪ Informasi dalam sistem yang cukup untuk
menyelesaikan sebuah masalah user.
▫ Reasonable Retrieval
6
Comprehensive IR VS Reasonable IR
▪ Dalam banyak kasus, comprehensive
retrieval adalah fitur yang negatif, karena
membebani user dengan lebih banyak
informasi daripada yang dibutuhkan.
▪ User menjadi lebih sulit menyaring informasi
yang relevan tetapi tidak berguna dalam
penyelesaian masalah.
7
2.
Search Capabilities
Searching
▪ Pemetaan antara kebutuhan pengguna dan
item dalam database.
▪ Menggunakan query sebagai sarana
komunikasi.
▪ Terdiri dari text natural language dan term
query.
▪ Search term ‘weighting’.
9
Search Capabilities
▪ Boolean Logic
▪ Proximity
▪ Contiguous Word Phrases
▪ Fuzzy Searches
▪ Term Masking
▪ Numeric and Date Ranges
▪ Concept/Thesaurus Expansion
▪ Natural Language Queries
▪ Multimedia Queries
10
Boolean Logic
▪ Find any items containing any two of the
following terms “AA”, “BB”, “CC”
((AA AND BB) or (AA AND CC) or
(BB AND CC))
11
Boolean Logic
12
Proximity
▪ Digunakan untuk membatasi jarak antara
dua term pencarian.
▪ Semakin dekat 2 term ditemukan dalam
teks, kemungkinan mereka mempunyai
relasi semakin besar.
▪ Jika term COMPUTER dan DESAIN
ditemukan hanya berjarak beberapa kata,
item pencarian lebih mungkin
mendiskusikan desain komputer,
dibandingkan kedua term terpisah beberapa
paragraf.
13
Proximity
▪ TERM1 within “m” “units” of TERM2
▪ “m” adalah angka integer, “units” bisa
berupa huruf, kata, kalimat, atau paragraf.
▪ Direction operator menunjukkan direction
(before atau after).
14
Proximity
15
Concept/Thesaurus Expansion
▪ Kemampuan untuk memperluas term
pencarian dengan THesaurus atau Concept
Class.
▪ Thesaurus: ekspansi one-level atau
two-level dari sebuah term ke term lainnya
dengan makna yang sama.
▪ Concept class: sebuah struktur tree yang
memperluas makna kata ke konsep
potensial yang berhubungan dengan term
awal.
16
Thesaurus
17
Concept Class
18
3.
Browse Capabilities
Browsing
▪ Setelah proses pencarian/search selesai,
kemampuan browse memungkinkan
pengguna menentukan item mana yang
sesuai.
▪ Menampilkan summary.
▪ Membantu pengguna fokus ke item yang
memiliki kemungkinan tertinggi untuk
memenuhi kebutuhannya.
20
Browse Capabilities
▪ Ranking
▪ Zoning
▪ Highliting
21
Ranking
▪ Sebuah perkiraan dari sistem pencarian
yang menunjukkan seberapa relevan item
terhadap statement pencarian.
▪ Memungkinkan user mengetahui kapan
harus berhenti mereview items.
▪ Amazon.com memakai akumulasi dari
ranking user terhadap sebuah produk untuk
mengurutkan informasi.
22
Zoning
▪ User ingin melihat informasi seminimum
mungkin untuk memutuskan apakah sebuah
item relevan atau tidak.
▪ Pembagian display menjadi dua zone judul
dan abstrak dari sebuah paper akan lebih
membantu user menentukan relevansi dan
memungkinkan untuk menampilkan lebih
banyak search results dalam satu display.
23
Highlighting
▪ Indikasi kenapa sebuah item dipilih.
▪ Highlight beberapa term untuk
menunjukkan relevansi item.
24
4.
Micellaneous
Capabilities
Kemampuan Lainnya
▪ Vocabulary Browse
▪ Iterative Search dan Search History Log
26
Vocabulary Browse
▪ Kemampuan menampilkan kata-kata dari
database dokumen.
▪ User bisa memasukkan search term
“compul*” dengan efek kata “compulsion”,
“compulsive”, atau “compulsory” juga masuk
dalam search result.
▪ User memasukkan “computet”, search
result masih bisa menampilkan result
“computer”.
▪ Mencegah potensi mis-spelling.
27
Iterative Search dan Search History
Log
▪ Iterative Search: hasil pencarian sebelumnya
bisa digunakan sebagai pembatas daftar
pencarian untuk membuat query baru.
Seperti menambahkan AND di query.
▪ Search history log: kemampuan untuk
menampilkan hasil pencarian sebelumnya.
28
Tugas
1. Jelaskan kembali tentang
▫ Boolean Logic
▫ Proximity
▫ Contiguous Word Phrases
▫ Fuzzy Searches
▫ Term Masking
▫ Numeric and Date Ranges
▫ Concept/Thesaurus Expansion
▫ Natural Language Queries
▫ Multimedia Queries
29
THANKS!
Any questions?
TUGAS2-STKI-Kelompok [no]
Selasa, 20 Februari 2018, 24:00
30