GPT (언어 모델)
기계 학습과 데이터 마이닝 |
---|
GPT(Generative pre-trained transformer)는 미국의 인공지능 단체 오픈AI가 2018년 선보인[1] 대형 언어 모델(LLM)의 계열이며[2][3] GPT 모델들은 레이블링되지 않은 대량의 텍스트 데이터셋으로 미리 훈련되고 인간과 같은 문자를 생성할 수 있는 변환기 아키텍처에 기반한 인공 신경망이다.[3][4] 2023년 기준으로, 대부분의 LLM은 이러한 특징을 지니고 있으며[5] 종종 GPT로 통칭한다.[6]
OpenAI는 "GPT-n" 시리즈를 구성하기 위해 순차적으로 번호가 매겨진 매우 영향력 있는 GPT 기반 모델을 출시했다. 이들 각각은 증가된 크기(훈련 가능한 매개변수의 수) 및 훈련으로 인해 이전보다 훨씬 더 많은 능력을 발휘했다. 가장 최근인 GPT-4는 2023년 3월에 출시되었다. 이러한 모델은 지침을 따르도록 미세 조정된 모델을 포함하여 작업별 GPT 시스템의 기반이 되었으며, 이는 ChatGPT 챗봇 서비스를 지원한다.[2]
"GPT"라는 용어는 다른 사람이 개발한 모델의 이름 또는 설명에도 자주 사용된다. 예를 들어 다른 GPT 기초 모델에는 EleutherAI에서 생성한 일련의 GPT-3에서 영감을 받은 모델과 최근 Cerebras에서 생성한 7개의 모델 시리즈가 포함된다.[7] 또한 세일즈포스의 "EinsteinGPT"(CRM용)[8] 및 블룸버그의 "BloombergGPT"(금융용)와 같이 다양한 산업 분야의 회사에서 해당 분야의 작업별 GPT를 개발했다.[9]
역사
[편집]생성형 사전 훈련(Generative pre-training, GP)은 기계 학습 응용 프로그램에서 오랫동안 확립된 개념이었지만[10][11] 변환기 아키텍처는 구글에서 발명한 2017년까지 사용할 수 없었다.[12] 이러한 개발로 인해 2018년에는 BERT,[13] 2019년에는 XLNet과 같은[14] 대규모 언어 모델이 등장했다. 이것들은 사전 훈련된 변환기(PT)였지만 생성하도록 설계되지 않았다("인코더 전용").[15] 또한 그 무렵인 2018년에 OpenAI는 "생성적 사전 훈련에 의한 언어 이해 개선"이라는 제목의 기사를 발표하여 최초의 사전 훈련된 생성 변환기(GPT) 시스템을 도입했다.[16]
변환기 기반 아키텍처 이전에 최고 성능의 신경 NLP(자연어 처리) 모델은 일반적으로 대량의 수동 레이블 지정 데이터에서 지도 학습을 사용했다. 감독 학습에 대한 의존도는 잘 주석이 없는 데이터 세트에 대한 사용을 제한했으며, 또한 매우 큰 언어 모델을 교육하는 데 엄청난 비용과 시간이 소요되었다.[16]
대규모 생성 시스템을 만들기 위해 OpenAI가 채택한 준감독 접근 방식(처음에는 변환기 모델과 관련됨)에는 언어 모델링 목표를 사용하여 초기 매개변수를 설정하는 감독되지 않은 생성 "사전 훈련" 단계와 이러한 매개 변수를 대상 작업에 적용하기 위해 감독된 차별적 "미세 조정" 단계이다.[16]
기초 모델
[편집]모델 | 아키텍처 | 파라미터 수 | 트레이닝 데이터 | 출시일 |
---|---|---|---|---|
오리지널 GPT (GPT-1) | 12레벨, 12방향 변환기 디코더 (인코더 없음). linear-softmax를 따름. | 117,000,000 | BookCorpus:[17] 4.5 GB의 본문 (다양한 장르의 7,000권의 미출판 책에서) | 2018년 6월 11일[1] |
GPT-2 | GPT-1 (수정된 노멀라이제이션 포함) | 1,500,000,000 | 웹 텍스트: 40 GB 본문, 800만 개 문서 (레딧의 좋아요 버튼이 눌린 45,000,000개의 웹 페이지에서) | 2019년 2월 14일 |
GPT-3 | GPT-2 (더 큰 스케일링을 허용하기 위한 수정 포함) | 175,000,000,000 | 570 GB 플레인텍스트, 0.4 trillion개의 토큰. 대부분 CommonCrawl, WebText, 영어 위키백과, 2권의 책 말뭉치 (Books1 및 Books2). | 2020년 6월 11일[18] (2022년 3월 15일에 판의 이름이 GPT-3.5로 명명됨) |
GPT-4 | 텍스트 예측과 RLHF로 훈련됨. 텍스트와 이미지를 입력으로 받음. 추가 정보는 공개되지 않음.[19] | 미공개 | 미공개 | 2023년 3월 14일 |
작업 특화 모델
[편집]기본 GPT 모델을 추가로 조정하여 특정 작업 및 주제 영역을 대상으로 하는 더 많은 대상 시스템을 생성할 수 있다. 이러한 적응 방법에는 추가 미세 조정(기초 모델에 대해 수행된 것 이상)과 특정 형태의 신속한 엔지니어링이 포함될 수 있다.[20]
이에 대한 중요한 예는 지침을 따르도록 모델을 미세 조정하는 것이다. 2022년 1월 OpenAI는 기본 GPT-3 언어 모델에서 감독 교육과 인간 피드백으로부터 강화 학습(RLHF)을 조합하여 지침을 따르도록 미세 조정된 일련의 모델인 "InstructGPT"를 도입했다.[21][22] 기본적인 기본 모델에 비해 더 높은 정확도, 부정적인/독성 감정이 적고 일반적으로 사용자 요구에 더 잘 부합하는 이점이 있다. 따라서 OpenAI는 이를 API 서비스 제공의 기반으로 사용하기 시작했다.[23] 완전히 공개된 버전을 포함하여 다른 지침 조정 모델이 다른 사람들에 의해 출시되었다.[24][25]
또 다른 (관련된) 종류의 작업별 모델은 인간과 유사한 대화에 참여하는 챗봇이다. 2022년 11월 OpenAI는 InstructGPT와 유사한 방식으로 훈련된 명령 조정 언어 모델로 구동되는 온라인 채팅 인터페이스인 ChatGPT를 출시했다.[26] 그들은 RLHF를 사용하여 이 모델을 훈련시켰고 인간 AI 트레이너는 사용자와 AI를 모두 플레이하는 대화를 제공하고 이 새로운 대화 데이터 세트를 InstructGPT 데이터 세트와 혼합하여 챗봇에 적합한 대화 형식을 만들었다. 다른 주요 챗봇에는 현재 OpenAI의 GPT-4를 사용하는 마이크로소프트의 Bing Chat(OpenAI와 마이크로소프트 간의 보다 광범위한 긴밀한 협력의 일환으로)과[27] Google의 경쟁 챗봇 바드(처음에는 LaMDA 계열의 대화 훈련 언어 모델을 기반으로 하며 계획했다가 PalM으로 전환)가 포함된다.[28]
GPT를 사용할 수 있는 또 다른 종류의 작업은 인간 사용자가 제공한 보다 일반적인 목표를 달성할 수 있도록 '자체'에 대한 일련의 프롬프트를 개발하는 것과 같이 자체 지침을 생성하는 메타 작업이다.[29] 이것은 AI 에이전트로 알려져 있으며, 보다 구체적으로는 이전 자체 지침의 결과를 사용하여 후속 프롬프트를 형성하는 데 도움이 되기 때문에 재귀 에이전트라고 한다. 이것의 첫 번째 주요 예는 Auto-GPT(OpenAI의 GPT 모델을 사용함)였으며 이후 다른 것들도 개발되었다.[30]
같이 보기
[편집]각주
[편집]- ↑ 가 나 “Improving language understanding with unsupervised learning”. 《openai.com》 (미국 영어). 2023년 3월 18일에 원본 문서에서 보존된 문서. 2023년 3월 18일에 확인함.
- ↑ 가 나 Haddad, Mohammed. “How does GPT-4 work and how can you start using it in ChatGPT?”. 《www.aljazeera.com》.
- ↑ 가 나 “Generative AI: a game-changer society needs to be ready for”. 《World Economic Forum》.
- ↑ “The A to Z of Artificial Intelligence”. 《Time》. 2023년 4월 13일.
- ↑ Toews, Rob. “The Next Generation Of Large Language Models”. 《Forbes》.
- ↑ https://www.forbes.com/sites/joemckendrick/2023/03/26/most-jobs-soon-to-be-influenced-by-artificial-intelligence-research-out-of-openai-and-university-of-pennsylvania-suggests/?sh=420f9c8f73c7
- ↑ “News” (보도 자료).
- ↑ Morrison, Ryan (2023년 3월 7일). “Salesforce launches EinsteinGPT built with OpenAI technology”. 《Tech Monitor》.
- ↑ “The ChatGPT of Finance is Here, Bloomberg is Combining AI and Fintech”. 《Forbes》.
- ↑ Hinton (et-al), Geoffrey (2012년 10월 15일). “Deep neural networks for acoustic modeling in speech recognition” (PDF). 《IEEE SIGNAL PROCESSING MAGAZINE》. Digital Object Identifier 10.1109/MSP.2012.2205597.
- ↑ “A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core”. Cambridge.org. 2014년 1월 22일. doi:10.1017/atsip.2013.9. 2023년 5월 21일에 확인함.
- ↑ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017년 12월 5일). “Attention Is All You Need”. arXiv:1706.03762 – arXiv.org 경유.
- ↑ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (2019년 5월 24일). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”. arXiv:1810.04805v2 – arXiv.org 경유.
- ↑ Yang (et-al), Zhilin (2019). “XLNet” (PDF). 《Proceedings from NeurIPS 2019》.
- ↑ Naik, Amit Raja (2021년 9월 23일). “Google Introduces New Architecture To Reduce Cost Of Transformers”. 《Analytics India Magazine》.
- ↑ 가 나 다 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (2018년 6월 11일). “Improving Language Understanding by Generative Pre-Training” (PDF). OpenAI. 12쪽. 2021년 1월 26일에 원본 문서 (PDF)에서 보존된 문서. 2021년 1월 23일에 확인함.
- ↑ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). 《Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books》. IEEE International Conference on Computer Vision (ICCV) 2015. 19–27쪽. arXiv:1506.06724. 2023년 2월 5일에 원본 문서에서 보존된 문서. 2023년 2월 7일에 확인함.
- ↑ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (2020년 7월 22일). “Language Models are Few-Shot Learners”. arXiv:2005.14165v4 – arXiv.org 경유.
- ↑ OpenAI (2023). “GPT-4 Technical Report” (PDF). 2023년 3월 14일에 원본 문서 (PDF)에서 보존된 문서. 2023년 3월 16일에 확인함.
- ↑ Bommasani (et-al), Rishi (2022년 7월 12일). “On the Opportunities and Risks of Foundation Models” (PDF). 《arXiv》.
- ↑ “Aligning language models to follow instructions”. 《openai.com》. 2023년 3월 23일에 원본 문서에서 보존된 문서. 2023년 3월 23일에 확인함.
- ↑ Ouyang, Long; Wu, Jeff; Jiang, Xu; 외. (2022년 3월 4일). “Training language models to follow instructions with human feedback”. arXiv:2203.02155.
- ↑ Ramnani, Meeta (2022년 1월 28일). “OpenAI dumps its own GPT-3 for something called InstructGPT, and for right reason”. 《Analytics India Magazine》.
- ↑ “Stanford CRFM”. 《crfm.stanford.edu》.
- ↑ “Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM”. 《Databricks》. 2023년 4월 12일.
- ↑ “Introducing ChatGPT”. 《openai.com》 (미국 영어). 2023년 3월 16일에 원본 문서에서 보존된 문서. 2023년 3월 16일에 확인함.
- ↑ Wiggers, Kyle (2023년 5월 4일). “Microsoft doubles down on AI with new Bing features”.
- ↑ “ChatGPT vs. Bing vs. Google Bard: Which AI Is the Most Helpful?”. 《CNET》.
- ↑ “Auto-GPT, BabyAGI, and AgentGPT: How to use AI agents”. 《Mashable》. 2023년 4월 19일.
- ↑ Marr, Bernard. “Auto-GPT May Be The Strong AI Tool That Surpasses ChatGPT”. 《Forbes》.