0% found this document useful (0 votes)
45 views4 pages

Tóm Tắt Lý Thuyết Môn Truy Tìm Thông Tin: 1. Map, Dcg

The document discusses several key concepts in information retrieval theory including: 1. Mean average precision (MAP) and discounted cumulative gain (DCG) which are used to evaluate retrieval results. 2. Precision, recall, average precision (AP), and P@k which are common evaluation measures. 3. Vector space model, Boolean model, probabilistic model, language model, and relevance feedback which are various retrieval models.

Uploaded by

Nhat Thanh
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as DOCX, PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
45 views4 pages

Tóm Tắt Lý Thuyết Môn Truy Tìm Thông Tin: 1. Map, Dcg

The document discusses several key concepts in information retrieval theory including: 1. Mean average precision (MAP) and discounted cumulative gain (DCG) which are used to evaluate retrieval results. 2. Precision, recall, average precision (AP), and P@k which are common evaluation measures. 3. Vector space model, Boolean model, probabilistic model, language model, and relevance feedback which are various retrieval models.

Uploaded by

Nhat Thanh
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as DOCX, PDF, TXT or read online on Scribd
You are on page 1/ 4

TÓM TẮT LÝ THUYẾT MÔN TRUY TÌM THÔNG TIN

1. MAP, DCG :
- Độ chính xác trung bình có nghĩa (mean average precision (MAP)) :

1
MAP = ∑𝑛𝑖=1 𝐴𝑃𝑖
𝑛
Trong đó :
n : số tài liệu có liên quan ( đề cho)
- Hàm đánh giá kết quả :
𝑟𝑖
DCG = 𝑟1 + ∑𝑛𝑖=2
𝑙𝑜𝑔2 𝑖
VD :
S1: R R N N N NNNRN RNNNR NNNNR

Tính giá trị DCG ở tài liệu thứ 10.

Với S1: tài liệu liên quan xuất hiện ở vị trí d1, d2 và d9
1 1
DCG(S1) = 1 + +
log2 2 log2 9

Vậy DCG(S1) với 10 tài liệu đầu là: 1, 2, 2, 2, 2, 2, 2, 2, 2.32, 2.32


Giá trị DCG(S1_10) = 2.32
2. AP, P@k, P@i
- AP : độ chính xác trung bình
1
AP = x ∑𝑘=1𝑟𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑
|𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡|
𝑅𝑒𝑙𝑖. 𝑃@𝑖
với :
Relevant : tập các tài liệu liên quan đến truy vấn
Retrieved : tập các tài liệu mà hệ thống tìm được
 Rel(i):

i = 1, khi tài liệu thứ i có liên quan


i=0, khi tài liệu thứ i không có liên quan.

 P@k : độ chính xác ở tài liệu thứ k

| 𝑅𝑒𝑙𝑒𝑣𝑒𝑛𝑡 ∩ 𝑅𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑@𝑘 |
P@k =
|𝑘|
 P@i : độ chính xác khi duyệt tới tài liệu thứ i.

| 𝑅𝑒𝑙𝑒𝑣𝑒𝑛𝑡 ∩ 𝑅𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑@𝑖 |
P@i =
|𝑘|

Ví dụ :
+ Hệ thống 1 :
i P@i Rel(i) AP= P@i *Rel(i)
1 1 1 1
2 1 1 1
3 2/3 0
4 2/4 0
5 2/5 0
6 2/6 0
7 2/7 0
8 2/8 0
9 3/9 1 3/9
10 3/10 0

3
(1+1+9)
AP_1 = = 0.778
3

3. Precision, Recall
- Precision : Độ chính xác

𝑡ậ𝑝 𝑐á𝑐 𝑡à𝑖 𝑙𝑖ệ𝑢 𝑐ó 𝑙𝑖ê𝑛 𝑞𝑢𝑎𝑛


P=
𝑡ổ𝑛𝑔 𝑐á𝑐 𝑡à𝑖 𝑙𝑖ệ𝑢 𝑡𝑟𝑜𝑛𝑔 ℎệ 𝑡ℎố𝑛𝑔
System 1 R R N N N N N N R N R N N N R N N N N R
System 2: R R N R N N R N N N N N N N R N N N R N
Tính độ chính xác của mỗi hệ thống ứng với 10 tài liệu đầu được trả về.
3
+ Hệ thống 1 : P =
10
4
+ Hệ thống 2 : P = 10

- Recall : Độ bao phủ.


𝑡ậ𝑝 𝑐á𝑐 𝑡à𝑖 𝑙𝑖ệ𝑢 𝑐ó 𝑙𝑖ê𝑛 𝑞𝑢𝑎𝑛
R=
𝑠ố 𝑡à𝑖 𝑙𝑖ệ𝑢 𝑐ó 𝑙𝑖ê𝑛 𝑞𝑢𝑎𝑛 đế𝑛 ℎệ 𝑡ℎố𝑛𝑔 ( đề 𝑐ℎ𝑜 )
VD :
+ Hệ thống 1 :
3
 R=
8

4. Evalution measures ( mô hình đánh giá)


Bao gồm các phép toán đánh giá phía trên.
5. BM25
Xem slide 27, trong information retrieval model.
6. Probabilitic model (Mô hình xác suất)
Xem slide Information retrieval model.
7. Language model.
Xem slide Information retrieval model.
8. Relevent Feedback

9. Vector Space Model ( Mô hình không gian vector)


Xem slide information retrieval model trên lms.hcmute.edu.vn
10. Boolen Model.
- Mỗi tài liệu được biểu diễn bởi một tập các từ khóa (keyword/term).
- Mỗi truy vấn là một biểu thức (gồm các toán tử AND, OR, NOT) với các từ
khóa.
- R(q) = {d  D | f(d,q) = 1}, f(d,q)  {0,1}.
với :
Vocabulary V  w1 , w2 ,..., wn 

Document di  di1 , di 2 ,..., wimi 
Colection D   d1 , d 2 ,..., d N 
Query q   q1 , q2 ,..., qm 
Set of relevant documents R (q )  D
D: tập các biểu diễn của tài liệu,
Q: tập các biểu diễn của truy vấn,
F: một framework để mô hình các biểu diễn của tài liệu, truy vấn và quan hệ
giữa chúng.
f(d,q) : xác định mức độ liên quan (relevance) giữa tài liệu với truy vấn.
- Kết quả của truy vấn là tập tài liệu thỏa mãn biểu thức, không có xếp hạng
(ranking).

You might also like