본문으로 이동

자연어 생성

위키백과, 우리 모두의 백과사전.

자연어 생성(NLG, Natural language generation)은 자연어 출력을 생성하는 소프트웨어 프로세스이다. NLG 방법에 대해 널리 인용되는 조사에서는 NLG를 "정보의 기본 비언어적 표현으로부터 영어나 다른 인간 언어로 이해할 수 있는 텍스트를 생성할 수 있는 컴퓨터 시스템 구축과 관련된 인공 지능 및 계산 언어학의 하위 분야"라고 설명한다.[1]

NLG 프로세스의 출력이 텍스트라는 점은 널리 동의되지만, NLG 시스템의 입력이 비언어적이어야 하는지에 대해서는 약간의 의견 차이가 있다.[2] NLG 방법의 일반적인 적용에는 이미지 캡션[3], 챗봇을 포함한 날씨 및 환자 보고서과 같은 다양한 보고서 작성이 포함된다.

자동화된 NLG는 인간이 아이디어를 글이나 말로 바꿀 때 사용하는 프로세스와 비교할 수 있다. 심리언어학자들은 이 과정을 수학적 용어로 설명하거나 심리학 연구를 위해 컴퓨터로 모델링할 수 있는 언어 생산이라는 용어를 선호한다. NLG 시스템은 중간 표현에서 생성된 사람이 읽을 수 있는 코드를 생성하는 디컴파일러 또는 트랜스파일러와 같은 인공 컴퓨터 언어 번역기와도 비교할 수 있다. 인간의 언어는 프로그래밍 언어보다 훨씬 더 복잡하고 표현의 다양성이 훨씬 더 모호하기 때문에 NLG를 더욱 어렵게 만든다.

NLG는 자연어 이해(NLU)를 보완하는 것으로 볼 수 있다. 자연어 이해에서는 시스템이 입력 문장을 명확하게 하여 기계 표현 언어를 생성해야 하지만, NLG에서는 시스템이 입력 문장을 어떻게 입력할지 결정해야 한다. 단어로 표현. NLU와 NLG 시스템을 구축할 때 실제로 고려해야 할 사항은 대칭이 아니다. NLU는 모호하거나 잘못된 사용자 입력을 처리해야 하는 반면, 시스템이 NLG를 통해 표현하려는 아이디어는 일반적으로 정확하게 알려져 있다. NLG는 많은 잠재적 표현 중에서 구체적이고 일관성 있는 텍스트 표현을 선택해야 하는 반면, NLU는 일반적으로 표현된 아이디어에 대해 정규화된 단일 표현을 생성하려고 시도한다.

NLG는 1960년대 중반 ELIZA가 개발된 이후부터 존재해왔지만 이 방법은 1990년대에 처음으로 상업적으로 사용되었다.[4] NLG 기술은 양식 편지를 생성하는 메일 머지와 같은 간단한 템플릿 기반 시스템부터 인간 문법을 복잡하게 이해하는 시스템까지 다양하다. NLG는 일반적으로 사람이 작성한 대규모 텍스트 모음에서 기계 학습을 사용하여 통계 모델을 교육하여 수행할 수도 있다.[5]

응용

[편집]

이미지 캡셔닝

[편집]

지난 수년 동안 시각과 언어 사이의 인터페이스를 조사하려는 광범위한 노력의 일환으로 이미지에 대한 캡션을 자동으로 생성하는 데 대한 관심이 높아졌다. 데이터-텍스트 생성의 경우 이미지 캡션(또는 자동 이미지 설명) 알고리즘에는 이미지 촬영, 시각적 콘텐츠 분석, 이미지의 가장 눈에 띄는 측면을 말로 표현하는 텍스트 설명(일반적으로 문장) 생성이 포함된다.

이미지 캡션 시스템에는 두 가지 하위 작업이 포함된다. 이미지 분석에서는 이러한 출력을 언어 구조에 매핑하기 전에 이미지의 특징과 속성을 감지하고 레이블을 지정한다. 최근 연구에서는 AlexNet, VGG 또는 Caffe와 같은 사전 훈련된 합성곱 신경망의 기능을 통해 딥 러닝 접근 방식을 활용한다. 여기서 캡션 생성기는 사전 훈련된 네트워크의 활성화 계층을 입력 기능으로 사용한다. 두 번째 작업인 텍스트 생성은 다양한 기술을 사용하여 수행된다. 예를 들어 Midge 시스템에서 입력 이미지는 객체/물체 감지, 동작/자세 감지 및 공간 관계로 구성된 트리플로 표현된다. 이는 이후 <명사, 동사, 전치사> 트리플에 매핑되고 트리 대체 문법을 사용하여 구현된다.

발전에도 불구하고 이미지 캡처 연구에는 여전히 도전과 기회가 남아 있다. 최근 Flickr30K, MS COCO 및 기타 대규모 데이터 세트가 도입되었음에도 불구하고 신경망과 같은 보다 복잡한 모델의 훈련이 가능해졌지만, 이미지 캡션 연구에서는 더 크고 다양한 데이터 세트가 도움이 될 수 있다는 주장이 있었다. 이미지 설명의 적합성을 평가할 때 인간의 판단을 모방할 수 있는 자동 측정을 설계하는 것도 이 분야의 또 다른 요구 사항이다. 다른 공개 과제에는 시각적 질의 응답(VQA)[6]뿐만 아니라 이미지 설명을 위한 다국어 저장소 구축 및 평가가 포함된다.

같이 보기

[편집]

각주

[편집]
  1. Reiter, Ehud; Dale, Robert (March 1997). “Building applied natural language generation systems”. 《Natural Language Engineering》 (영어) 3 (1): 57–87. doi:10.1017/S1351324997001502. ISSN 1469-8110. S2CID 8460470. 
  2. Gatt A, Krahmer E (2018). “Survey of the state of the art in natural language generation: Core tasks, applications and evaluation.”. 《Journal of Artificial Intelligence Research》 61 (61): 65–170. arXiv:1703.09902. doi:10.1613/jair.5477. S2CID 16946362. 
  3. Farhadi A, Hejrati M, Sadeghi MA, Young P, Rashtchian C, Hockenmaier J, Forsyth D (2010년 9월 5일). 《Every picture tells a story: Generating sentences from images》 (PDF). European conference on computer vision. Berlin, Heidelberg: Springer. 15–29쪽. doi:10.1007/978-3-642-15561-1_2. 
  4. Ehud Reiter (2021년 3월 21일). 《History of NLG》 (영어). 2021년 12월 12일에 원본 문서에서 보존된 문서. 
  5. Perera R, Nand P (2017). “Recent Advances in Natural Language Generation: A Survey and Classification of the Empirical Literature”. 《Computing and Informatics》 36 (1): 1–32. doi:10.4149/cai_2017_1_1. hdl:10292/10691. 
  6. Kodali, Venkat; Berleant, Daniel (2022). 〈Recent, Rapid Advancement in Visual Question Answering Architecture: a Review〉. 《Proceedings of the 22nd IEEE International Conference on EIT》. 133–146쪽. arXiv:2203.01322. 

외부 링크

[편집]