-
1. GPT란 무엇인가?
GPT는 "Generative Pretrained Transformer"의 약자로, 다음과 같은 의미를 담고 있습니다.
- Generative: 새로운 텍스트를 생성할 수 있는 모델
- Pretrained: 방대한 데이터로 사전 학습된 후, 추가 학습(fine-tuning)이 가능
- Transformer: 모델의 핵심 구조로, Self-Attention 메커니즘을 사용하는 신경망 아키텍처
GPT는 기본적으로 사람처럼 문장을 이해하고 생성할 수 있는 거대한 자동완성 기계라고 볼 수 있습니다.
2. GPT 모델은 어떻게 만들어지는가?
GPT 같은 LLM은 아래와 같은 과정을 통해 만들어집니다.
◾ 데이터 수집
- 인터넷, 책, 위키, 뉴스, 논문, 코드 등 다양한 텍스트 데이터를 수집합니다.
◾ 토크나이징(Tokenization)
- 텍스트를 "토큰"이라는 작은 단위로 나눕니다. (단어, 서브워드 등)
◾ 모델 초기화
- 수십억~수천억 개의 파라미터(가중치)를 무작위로 초기화한 Transformer 모델을 준비합니다.
◾ 사전 학습(Pretraining)
- 주어진 문장에서 다음에 나올 토큰을 예측하는 과제를 반복하여 모델을 학습시킵니다.
◾ 미세 조정(Fine-tuning)
- 특정 목적(예: 대화형 챗봇, 요약, 번역)에 맞게 추가 학습을 진행합니다.
◾ RLHF (Human Feedback 활용 강화학습)
- 사람이 모델의 출력을 평가하고 수정하여 더 유용하고 친절한 응답을 하도록 학습을 보강합니다.
3. LLM의 작동 원리: 다음 단어 예측
LLM의 핵심 아이디어는 "다음에 어떤 단어가 올지를 예측하는 것"입니다. 예를 들어:
입력: "나는 오늘 날씨가"
예측: ["좋다" (40%), "나쁘다" (20%), "맑다" (15%)...]
이처럼 가능한 다음 단어에 대해 확률을 계산하고, 가장 가능성 높은 단어를 선택해 문장을 이어 나갑니다. 이 과정을 반복하면서 하나의 자연스러운 문장이 완성됩니다.
4. Transformer 구조: GPT의 심장
✨ Transformer란?
2017년 Google에서 발표한 논문 "Attention is All You Need"에서 등장한 아키텍처로, RNN과 달리 입력 전체를 동시에 처리할 수 있습니다. 그 핵심은 Self-Attention 기법입니다.
■ Transformer의 주요 컴포넌트
- Tokenizer (토크나이저)
- 텍스트를 토큰으로 분해
- Embedding Layer
- 각 토큰을 고차원 벡터로 변환
- Positional Encoding
- 토큰의 순서 정보를 반영하기 위한 벡터 추가
- Multi-Head Self-Attention
- 각 토큰이 다른 모든 토큰과 관계를 계산하여 문맥을 반영
- Feed-Forward Neural Network (FFN)
- 각 토큰에 대해 비선형 연산을 수행하여 표현력 향상
- Residual Connection + Layer Normalization
- 정보 손실 방지와 학습 안정성을 위한 기법
- Output + Softmax
- 최종 벡터를 통해 다음 토큰 확률 분포 생성
5. Embedding: 단어의 의미를 수치화하다
단어는 ID가 아니라 의미를 가진 벡터로 표현됩니다. 이 벡터는 모델 학습을 통해 점점 더 정교하게 조정됩니다.
- 비슷한 의미의 단어는 비슷한 벡터로 표현됨
- 예: king - man + woman ≈ queen
- GPT-3는 단어당 12,288차원 벡터 사용
이러한 벡터 공간에서는 성별, 수량, 관계 등 다양한 의미 방향이 형성됩니다.
6. 작동 방식의 흐름: 입력부터 출력까지
- 입력 문장은 토큰으로 분해됩니다.
- 각 토큰은 Embedding Layer를 통해 벡터로 변환됩니다.
- 이 벡터들이 Attention과 FFN을 거치며 의미가 재조정됩니다.
- 마지막 벡터는 Unembedding을 거쳐 확률 분포로 변환됩니다.
- Softmax를 통해 다음 토큰을 샘플링합니다.
- 이 과정을 반복하면서 문장이 생성됩니다.
7. 예측과 Sampling: 창의성과 안정성의 균형
모델은 항상 가장 확률 높은 단어만 선택하지 않습니다. Temperature를 조절하면 생성 텍스트의 다양성과 창의성을 조절할 수 있습니다.
Temperature 의미 결과
0.0 확실한 단어만 선택 정형적이고 반복적임 1.0 랜덤성 증가 더 창의적이나 일관성 떨어질 수 있음 2.0 이상 무작위성이 큼 말도 안 되는 텍스트 가능 8. Context Length: 얼마나 긴 문장을 기억할 수 있을까?
Transformer는 한 번에 처리할 수 있는 토큰 수에 제한이 있습니다.
- GPT-3: 최대 2,048 토큰
- GPT-4: 128,000 토큰 이상 지원
이 제한 때문에 긴 대화에서는 초반 문맥을 잊을 수 있습니다.
9. GPT는 어떻게 챗봇이 되는가?
GPT를 챗봇처럼 동작하게 만들기 위해 다음과 같은 설정을 합니다:
- System Prompt로 AI의 성격 정의: "당신은 정중하고 유용한 조수입니다."
- 사용자 입력 추가
- 모델은 그에 맞는 다음 단어를 예측하여 답변을 생성
- 생성된 답변은 다시 입력으로 이어져 대화가 이어짐
10. 정리: GPT의 전체 동작 사이클
- 텍스트 입력 → 토큰화
- 토큰 → 벡터로 변환 (Embedding)
- 벡터 → 여러 Attention 및 FFN 층 통과하며 의미 반영
- 마지막 벡터 → 확률 분포로 변환 (Unembedding + Softmax)
- 확률 기반 샘플링 → 다음 단어 생성
- 반복적으로 문장 자동 생성
마무리
GPT와 같은 Transformer 기반 LLM은
- 수많은 데이터를 기반으로 학습된 확률 예측 기계이며,
- Self-Attention을 활용해 입력 전체 문맥을 이해하고,
- 정교한 수치 연산으로 사람처럼 말할 수 있게 작동합니다.
https://www.youtube.com/watch?v=LPZh9BOjkQs&list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi&index=5