개체명 인식
보이기
개체명 인식(named-entity recognition, NER, 다른 이름: entity identification, entity chunking, entity extraction)은 비정형 텍스트의 개체명 언급을 인명, 단체, 장소, 의학 코드, 시간 표현, 양, 금전적 가치, 퍼센트 등 미리 정의된 분류로 위치시키고 분류시키는 정보 추출의 하위 태스크이다.
NER 시스템의 대부분의 연구는 주해가 없는 텍스트 블록을 취하는 것으로 구조화되었으며 한 예로 다음과 같다:
Jim bought 300 shares of Acme Corp. in 2006.
개체명을 강조하는, 주해 없는 텍스트 블록을 만든다:
[Jim]Person bought 300 shares of [Acme Corp.]Organization in [2006]Time.
이 예에서 한 토큰으로 구성된 인명, 두 토큰으로 구성된 사명과 시간 표현이 감지되고 분류되었다.
영어를 위한 최신 NER 시스템은 인간에 근접한 성능을 낸다. 이를테면 MUC-7에 진입한 최고의 시스템은 F-measure 기준 93.39%을 받았으며 인간 주석자는 97.60%과 96.95%점을 받았다.[1][2]
같이 보기
[편집]각주
[편집]- ↑ Elaine Marsh, Dennis Perzanowski, "MUC-7 Evaluation of IE Technology: Overview of Results", 29 April 1998 PDF
- ↑ MUC-07 Proceedings (Named Entity Tasks)