n-그램

n-그램(n-gram)은 특정 순서로 인접한 n개의 기호 시퀀스이다. 기호는 n개의 인접 문자(구두점 및 공백 포함), 음절 또는 언어 데이터 세트에서 발견되는 드물게 전체 단어일 수 있다. 또는 음성 녹음 데이터 세트에서 추출된 인접 음소 또는 게놈에서 추출된 인접 염기쌍이다. 이는 텍스트 말뭉치 또는 음성 말뭉치에서 수집된다. 라틴어 숫자 접두사가 사용되는 경우 크기 1의 n-그램을 "유니그램"이라고 하고 크기 2를 "바이그램"(또는 덜 일반적으로 "디그램")이라고 한다. 라틴어 대신 영어 추가로 기수를 사용하면 "4그램", "5그램" 등으로 불린다. 마찬가지로 "모노머", "이량체", "삼량체", "사량체", "펜타머"와 같은 그리스 숫자 접두사를 사용한다. 영어 기수인 "one-mer", "two-mer", "3-mer" 등은 k-mer라고 불리는 알려진 크기의 폴리머 또는 올리고머에 대해 계산 생물학에서 사용된다. 항목이 단어인 경우 n-그램을 싱글스(shingles)라고 부를 수도 있다.^[1]

자연어 처리(NLP)의 맥락에서 n-그램을 사용하면 단어 가방 모형이 단어 순서와 같은 정보를 포착할 수 있는데, 이는 전통적인 단어 가방 조건에서는 가능치 않다.

같이 보기

구글 엔그램 뷰어

각주

↑ Broder, Andrei Z.; Glassman, Steven C.; Manasse, Mark S.; Zweig, Geoffrey (1997). “Syntactic clustering of the web”. 《Computer Networks and ISDN Systems》 29 (8): 1157–1166. doi:10.1016/s0169-7552(97)00031-7. S2CID 9022773.

외부 링크

[1] Broder, Andrei Z.; Glassman, Steven C.; Manasse, Mark S.; Zweig, Geoffrey (1997). “Syntactic clustering of the web”. 《Computer Networks and ISDN Systems》 29 (8): 1157–1166. doi:10.1016/s0169-7552(97)00031-7. S2CID 9022773.

[1]