GPT 둘러보기

AI🤖 2025. 4. 23. 15:10

1. GPT란 무엇인가?

GPT는 "Generative Pretrained Transformer"의 약자로, 다음과 같은 의미를 담고 있습니다.

Generative: 새로운 텍스트를 생성할 수 있는 모델
Pretrained: 방대한 데이터로 사전 학습된 후, 추가 학습(fine-tuning)이 가능
Transformer: 모델의 핵심 구조로, Self-Attention 메커니즘을 사용하는 신경망 아키텍처

GPT는 기본적으로 사람처럼 문장을 이해하고 생성할 수 있는 거대한 자동완성 기계라고 볼 수 있습니다.

2. GPT 모델은 어떻게 만들어지는가?

GPT 같은 LLM은 아래와 같은 과정을 통해 만들어집니다.

◾ 데이터 수집

인터넷, 책, 위키, 뉴스, 논문, 코드 등 다양한 텍스트 데이터를 수집합니다.

◾ 토크나이징(Tokenization)

텍스트를 "토큰"이라는 작은 단위로 나눕니다. (단어, 서브워드 등)

◾ 모델 초기화

수십억~수천억 개의 파라미터(가중치)를 무작위로 초기화한 Transformer 모델을 준비합니다.

◾ 사전 학습(Pretraining)

주어진 문장에서 다음에 나올 토큰을 예측하는 과제를 반복하여 모델을 학습시킵니다.

◾ 미세 조정(Fine-tuning)

특정 목적(예: 대화형 챗봇, 요약, 번역)에 맞게 추가 학습을 진행합니다.

◾ RLHF (Human Feedback 활용 강화학습)

사람이 모델의 출력을 평가하고 수정하여 더 유용하고 친절한 응답을 하도록 학습을 보강합니다.

3. LLM의 작동 원리: 다음 단어 예측

LLM의 핵심 아이디어는 "다음에 어떤 단어가 올지를 예측하는 것"입니다. 예를 들어:

입력: "나는 오늘 날씨가"

예측: ["좋다" (40%), "나쁘다" (20%), "맑다" (15%)...]

이처럼 가능한 다음 단어에 대해 확률을 계산하고, 가장 가능성 높은 단어를 선택해 문장을 이어 나갑니다. 이 과정을 반복하면서 하나의 자연스러운 문장이 완성됩니다.

4. Transformer 구조: GPT의 심장

✨ Transformer란?

2017년 Google에서 발표한 논문 "Attention is All You Need"에서 등장한 아키텍처로, RNN과 달리 입력 전체를 동시에 처리할 수 있습니다. 그 핵심은 Self-Attention 기법입니다.

■ Transformer의 주요 컴포넌트

Tokenizer (토크나이저)
- 텍스트를 토큰으로 분해
Embedding Layer
- 각 토큰을 고차원 벡터로 변환
Positional Encoding
- 토큰의 순서 정보를 반영하기 위한 벡터 추가
Multi-Head Self-Attention
- 각 토큰이 다른 모든 토큰과 관계를 계산하여 문맥을 반영
Feed-Forward Neural Network (FFN)
- 각 토큰에 대해 비선형 연산을 수행하여 표현력 향상
Residual Connection + Layer Normalization
- 정보 손실 방지와 학습 안정성을 위한 기법
Output + Softmax
- 최종 벡터를 통해 다음 토큰 확률 분포 생성

5. Embedding: 단어의 의미를 수치화하다

단어는 ID가 아니라 의미를 가진 벡터로 표현됩니다. 이 벡터는 모델 학습을 통해 점점 더 정교하게 조정됩니다.

비슷한 의미의 단어는 비슷한 벡터로 표현됨
예: king - man + woman ≈ queen
GPT-3는 단어당 12,288차원 벡터 사용

이러한 벡터 공간에서는 성별, 수량, 관계 등 다양한 의미 방향이 형성됩니다.

6. 작동 방식의 흐름: 입력부터 출력까지

입력 문장은 토큰으로 분해됩니다.
각 토큰은 Embedding Layer를 통해 벡터로 변환됩니다.
이 벡터들이 Attention과 FFN을 거치며 의미가 재조정됩니다.
마지막 벡터는 Unembedding을 거쳐 확률 분포로 변환됩니다.
Softmax를 통해 다음 토큰을 샘플링합니다.
이 과정을 반복하면서 문장이 생성됩니다.

7. 예측과 Sampling: 창의성과 안정성의 균형

모델은 항상 가장 확률 높은 단어만 선택하지 않습니다. Temperature를 조절하면 생성 텍스트의 다양성과 창의성을 조절할 수 있습니다.

Temperature 의미 결과

0.0	확실한 단어만 선택	정형적이고 반복적임
1.0	랜덤성 증가	더 창의적이나 일관성 떨어질 수 있음
2.0 이상	무작위성이 큼	말도 안 되는 텍스트 가능

8. Context Length: 얼마나 긴 문장을 기억할 수 있을까?

Transformer는 한 번에 처리할 수 있는 토큰 수에 제한이 있습니다.

GPT-3: 최대 2,048 토큰
GPT-4: 128,000 토큰 이상 지원

이 제한 때문에 긴 대화에서는 초반 문맥을 잊을 수 있습니다.

9. GPT는 어떻게 챗봇이 되는가?

GPT를 챗봇처럼 동작하게 만들기 위해 다음과 같은 설정을 합니다:

System Prompt로 AI의 성격 정의: "당신은 정중하고 유용한 조수입니다."
사용자 입력 추가
모델은 그에 맞는 다음 단어를 예측하여 답변을 생성
생성된 답변은 다시 입력으로 이어져 대화가 이어짐

10. 정리: GPT의 전체 동작 사이클

텍스트 입력 → 토큰화
토큰 → 벡터로 변환 (Embedding)
벡터 → 여러 Attention 및 FFN 층 통과하며 의미 반영
마지막 벡터 → 확률 분포로 변환 (Unembedding + Softmax)
확률 기반 샘플링 → 다음 단어 생성
반복적으로 문장 자동 생성

마무리

GPT와 같은 Transformer 기반 LLM은

수많은 데이터를 기반으로 학습된 확률 예측 기계이며,
Self-Attention을 활용해 입력 전체 문맥을 이해하고,
정교한 수치 연산으로 사람처럼 말할 수 있게 작동합니다.

https://www.youtube.com/watch?v=LPZh9BOjkQs&list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi&index=5

저작자표시 (새창열림)

ABOUT ME

생각 공방 생각 공방