어휘 마크업 틀
어휘 마크업 틀(Lexical Markup Framework)는 자연언어처리 (NLP) 와 기계가독형 사전 (MRD) 어휘 등의 구성에 필요한 일반 표준 틀을 정의하기 위해서 국제 표준화 기구 ISO/TC37에서 진행 중인 작업이다. 과제의 범위는 다중언어 소통과 문화적 다양성에 관련하여 언어자원에 관련된 원칙과 방법의 표준화이다.
어휘 마크업 틀(LMF)의 목적
편집어휘 마크업 틀의 목표는 어휘 자원을 생성하고 사용하기 위한 일반적 모형을 제공하고, 이런 자원들간의 데이터 교환을 관리하고, 많은 양의 개인적 전자 자원을 방대한 국제 전자 자원으로 통합 가능하도록 하는 것이다.
어휘 마크업 틀(LMF)에서 개인적 예제의 형태는 단일언어, 이중 언어, 다중 언어의 어휘 자원을 포함할 수 있다. 같은 명세사항은 작거나 큰 어휘사전, 간단하거나 복잡한 어휘사전, 문어나 구어의 어휘 표현 모두에 사용가능하다. 기술의 범위는 형태, 구문론, 계산 의미론, 기계보조 번역 등이다. 어휘 마크업 틀에 포함 가능한 언어는 유러피안 언어에 국한하지 않고 모든 자연 언어를 포괄한다. 목표로 하는 자연언어처리 응용 프로그램은 제한적이지 않다. 어휘 마크업 틀(LMF)은 워드넷, EDR, PAROLE 등 대부분의 어휘 사전을 표현할 수 있다.
어휘 마크업 틀(LMF)의 역사
편집과거부터 어휘 표준화는 GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE, ISLE 등과 같은 과제를 통하여 연구/개발되었다. 그 결과로, ISO/TC37 국가 대의원들은 자연언어처리와 어휘 표현을 표준화하기로 결정했다. 어휘 마크업 틀(LMF) 작업은 미국 대표에 의해서 공포된 새 작업항목 제안을 통하여 2003년 여름에 시작하였다. 2003년 가을에 프랑스 대표는 자연언어 어휘에 대한 데이터 모형에 관한 기술 제안을 냈다. 2004년 초에 ISO/TC37 위원회는 Nicoletta Calzolari(이탈리아)를 작업반장으로 하고 Gil Francopoulo (프랑스) 와 Monte George (미국)를 편집자로 하는 일반 ISO 과제를 만들기로 결정했다. 이후 오늘에 이르기까지, 13판까지 쓰여졌고, (국가 전문가에게) 발송되었고, 비평을 받고, 다양한 ISO 기술 회의에서 논의되고 있다.
현재 상태
편집ISO 번호는 24613이다. 어휘 마크업 틀(LMF) 세부규정은 현재(2008년 3월) 국제 표준 최종안(Final Draft for International Standard)이다. 최종 발행을 2008년 9월까지 하려는 일정을 가지고 있다.
ISO/TC37 표준 중에 하나인 어휘 마크업 틀(LMF)
편집ISO/TC37 표준은 현재 고수준의 세부규정으로 다듬어지고 있고 단어 분할 (ISO 24614), 주석(ISO 24611 aka MAF, ISO 24612 aka LAF, ISO 24615 aka SynAF, and ISO 24617-1 aka SemAF/Time), 특성 구조 (ISO 24610), 멀티미디어 가변공간 (ISO 24616 aka MLIF), 어휘 사전 (ISO 24613) 등을 다루고 있다. 이러한 표준들은 상수, 다시 말해 데이터 분류(ISO 12620 개정), 언어 코드 (ISO 639), 원고 코드 (ISO 15924), 국가 코드 (ISO 3166), 유니코드 (ISO 10646) 등에 관련된 기초급의 규정화에 바탕을 두고 있다.
2 수준의 조직이 아래의 일반적이고 간단한 규칙을 가진 밀접한 표준군을 구성한다.
- 고수준의 규정화는 표준화된 상수를 가지고 꾸며지는 구조적 요소를 제공한다.
- 기초수준의 규정화는 메타데이터로 표준환된 상수를 제공한다.
어휘 마크업 틀(LMF)에 사용된 핵심 표준
편집/여성/ 이나 /타동사/ 같은 언어적 상수는 어휘 마크업 틀(LMF)에는 정의되지 않았다. 하지만, ISO/IEC 11179-3:2003[1]에 따라 ISO/TC37을 통하여 국제 자원으로써 유지되는 데이터 분류 등록(Data Category Registry)에는 기록되어 있다. 그리고, 이러한 상수들은 고수준의 구조적 요소를 수식하는데 사용되곤 한다.
어휘 마크업 틀(LMF) 규정은 객체 관리 그룹(OMG)에 따라 정의된 통합 모형 언어(UML)의 모형화 원칙을 따른다. 구조는 UML 클래스 다이아그램에 의하여 규정된다. 그 예들은 UML 인스탄스(또는 객체) 다이아그램을 통하여 표현된다.
LMF 문서의 부록에서 주어진 XML DTD를 추가해 보자.
모형 구조
편집어휘 마크업 틀(LMF)는 다음과 같은 요소로 구성된다:
- 어휘 항목에서 정보의 기본 체계를 기술하는 구조 골격으로서 핵심 패키지
- 세부 어휘 자원에 요구되는 추가적인 요소를 연결하는 핵심 요소의 재사용을 기술하는 틀안에서 표현되는 핵심 패키지의 확장
형태론, MRD, NLP 구문론, NLP 의미론, NLP 다중언어 표기법, NLP 형태적 양식, 다중단어 표현 양식, 제한 표현 양식에서 확장이 구체적으로 이루어졌다.
간단한 예제
편집아래의 예제를 보면, 어휘 항목은 표제어 clergyman와 2개의 굴절형 clergyman, clergymen로 이루어졌다. 언어 부호화는 전체 어휘 자원으로 이루어진다. 언어값은 아래 UML 예제 다이아그램에서 보는 바와 같이 전체 어휘로 이루어진다.
어휘 자원, 전체 정보, 어휘, 어휘 항목, 표제어, 단어 형태 요소들은 어휘의 구조를 정의한다. 이런한 것들은 어휘 마크업 틀(LMF) 문서에서 규정화됐다. 이와 반대로, 언어부호화, 언어, 형태소, 일반명사, 인쇄형, 문법 번호, 단수, 복수 등은 데이터 분류 등록(DCR)에서 가져온 데이터 분류이다. 이러한 표시들은 구조를 정돈한다. ISO 639-3, clergyman, clergymen 값들은 순수 문자열이다. eng값은 ISO 639-3에서 정의된 언어 목록에서 가져온다.
dtdVersion 과 feat같은 추가적인 정보를 가지고, 같은 데이터가 다음과 같은 XML 부분으로 표현될 수 있다:
<LexicalResource dtdVersion="15">
<GlobalInformation>
<feat att="languageCoding" val="ISO 639-3"/>
</GlobalInformation>
<Lexicon>
<feat att="language" val="eng"/>
<LexicalEntry>
<feat att="partOfSpeech" val="commonNoun"/>
<Lemma>
<feat att="writtenForm" val="clergyman"/>
</Lemma>
<WordForm>
<feat att="writtenForm" val="clergyman"/>
<feat att="grammaticalNumber" val="singular"/>
</WordForm>
<WordForm>
<feat att="writtenForm" val="clergymen"/>
<feat att="grammaticalNumber" val="plural"/>
</WordForm>
</LexicalEntry>
</Lexicon>
</LexicalResource>
이 예제는 매우 간단한 예제이다. 어휘 마크업 틀(LMF)는 좀 더 복잡한 언어학적 기술을 표현할 수 있다. 다만 이러한 경우에 XML 태깅도 더 복잡해진다.
같이 보기
편집외부 링크
편집관련 웹사이트
편집어휘 마크업 틀(LMF)에 관한 논의 내용
편집- Gesellschaft für linguistische Datenverarbeitung GLDV-2007/Tubingen: 자연언어처리 어휘에서 의미 정보를 위한 어휘 마크업 틀 ISO 표준 [2]
- 언어자원과 평가 LREC-2006/Genoa: 어휘 마크업 틀(LMF) [3]