티스토리 뷰

반응형

이전포스트에서 자연어(Natural language)가 무엇인지, 자연어 처리(Natural language processing : NPL)과정도 살펴보면서 음성인식, 기계번역, 텍스트요약, 챗봇, 이메일 필터등 다양한 분야에서 사용되고 있다는 걸 확인했습니다.

 

 

이번 포스트에서는 자연어처리에 탁월하다는 트랜스포머(Transformer) 머신러닝 모델에 대해 알아보겠습니다. 트랜스포머의 주요기능들을 알아보고, 나아가 어떤 분야에서 사용될 수 있는지 확인하면 생성형 AI(Generative AI)에 대한 이해가 높아질 거라 생각 됩니다.

 

NPL

 

 

트랜스포머(Transformer) 란?

참고 : Attention is All you Need - NIPS papers

트랜스포머 모델은 2017년 Vaswani, Ashish 의 논문 "Attention is all You Need"에서 처음 소개한 기계 학습 모델로 기계 번역, 텍스트 요약, 질문 답변을 포함한 다양한 자연어 처리(NLP) 작업에 사용되면서, 이전에 자연어 처리 모델에 주류로 사용되던 순환 신경망(Recurrent Neural Network, RNN)보다 우수한 성능을 보였습니다.

 

 

트랜스포머의 특징

어텐션(Attention) 기반의 Encoder-Decoder 알고리즘이다. Encoder는 입력된 raw 정보를 숫자 정보를 변환하는 역할을 하고, Decoder는 인코딩한 숫자를 다른 데이터 형태(텍스트, 이미지, 비디오)로 변환한다. Attention의 작동 원리가 핵심이다. 

  • Encoder-Decoder 아키텍처
  • Encoder와 Decoder 모두 어텐션(Attention) 계층으로 구성
  • 셀프 어텐션(Self Attention)메커니즘을 사용
  • 대규모 데이터 세트에서 학습 가능

 

트랜스포머의 사용범위

트랜스포머는 BERT, GPT와 같은 많은 최첨단 자연어 처리 모델의 개발에 사용되었으며, 이러한 모델은 트랜스포머를 사용하여 텍스트를 생성하고, 언어를 번역하고, 질문에 답변할 수 있습니다. 트랜스포머는 자연어 처리 분야에서 현재까지 가장 성공적인 자연어 처리 모델 중 하나입니다. 

 

트랜스포머는 여전히 연구 개발 중이며, 더 강력하고 효율적인 새로운 트랜스포머 아키텍처가 계속 개발되고 있습니다. 트랜스포머는 자연어 처리 분야의 미래에 큰 영향을 미칠 가능성이 있으며, 인간과 같은 방식으로 텍스트를 이해하고 생성할 수 있는 새로운 모델의 개발로 이어질 수 있습니다.

 

 

트랜스포머 기반 언어 모델

2017년 Google에서 발표한 Transformer모델은 이전 모델보다 월등한 성능을 보여주며 생성형 AI 분야에서 언어 모델이 빠른 속도로 발전할 수 있는 계기가 되었고, 현재 언어 모델들의 대부분이 Transformer모델을 기반으로 확장해 가고 있습니다.

 

1. BERT

BERT(Bidirectional Encoder Representations from Transformers)는 Google이 2017년 Transformer 모델을 기반으로 언어 표현을 사전 학습시키기 위해 고안한 방법론이자, 대량의 텍스트 데이터로 사전 학습된 모델입니다. 양방향 문맥 파악이 가능하고, 특정 작업을 위한 미세조정이 가능한 것이 특징입니다.


2. GPT

GPT(Generative Pre-trained Transformer)는 OpenAI가 발표한 대량의 데이터를 사전 학습한 Transformer 모델입니다. BERT와 마찬가지로, 특정 작업을 잘 수행할 수 있도록 사전 학습된 모델입니다. 


GPT는 일방향으로 나아가면서 학습 및 예측을 하기 때문에 문장을 생성해 나가는 데 강점을 지닙니다. 이전까지의 단어들을 토대로 파악한 문맥에 맞게 단어를 생성하는 과정이 반복적으로 일어납니다. 


3. GPT 시리즈

OpenAI에서 개발한 GPT는 현재 총 5개(GPT-1~GPT-4) 버전이 존재합니다. 기본적으로 같은 구조이지만 버전이 올라갈수록 파라미터(Parameter)의 개수의 증가로 더 정교한 학습이 이루어지며, 길이가 긴 문장을 이해하는 능력이 올라 갑니다.