Trigram
Trigram là một trường hợp đặc biệt của N-gram, với n là 3. Trigram thường được sử dụng trong xử lý ngôn ngữ tự nhiên để thực hiện phân tích thống kê văn bản và trong mật mã học để kiểm soát và sử dụng cho các cipher và mã hiệu. Trigram thường được dùng để dò lọc nội dung spam, dò lỗi chính tả trong văn bản.[1][2] Người ta thường phân tích Trigram ở cấp độ từ, cấp độ ký tự, và cấp độ token.
Ví dụ
sửaVới câu "the quick red fox jumps over the lazy brown dog" thì có các trigram ở cấp độ từ như sau:
the quick red quick red fox red fox jumps fox jumps over jumps over the over the lazy the lazy brown lazy brown dog
Với một trigram ở cấp độ từ "the quick red" có các trigram ở cấp độ ký tự như sau (dấu "_" thay thế cho khoảng trắng):
the he_ e_q _qu qui uic ick ck_ k_r _re red
Tham khảo
sửa- ^ Ma, X., Shen, Y., Chen, J., & Xue, G. (2011). Combining naive bayes and tri-gram language model for spam filtering. In Knowledge engineering and management (pp. 509-520). Springer, Berlin, Heidelberg.
- ^ Zamora, E. M., Pollock, J. J., & Zamora, A. (1981). The use of trigram analysis for spelling error detection. Information Processing & Management, 17(6), 305-316.