ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • GPT 둘러보기
    AI🤖 2025. 4. 23. 15:10

    1. GPT란 무엇인가?

    GPT는 "Generative Pretrained Transformer"의 약자로, 다음과 같은 의미를 담고 있습니다. 

    • Generative: 새로운 텍스트를 생성할 수 있는 모델
    • Pretrained: 방대한 데이터로 사전 학습된 후, 추가 학습(fine-tuning)이 가능
    • Transformer: 모델의 핵심 구조로, Self-Attention 메커니즘을 사용하는 신경망 아키텍처

    GPT는 기본적으로 사람처럼 문장을 이해하고 생성할 수 있는 거대한 자동완성 기계라고 볼 수 있습니다.

    2. GPT 모델은 어떻게 만들어지는가?

    GPT 같은 LLM은 아래와 같은 과정을 통해 만들어집니다.

    ◾ 데이터 수집

    • 인터넷, 책, 위키, 뉴스, 논문, 코드 등 다양한 텍스트 데이터를 수집합니다.

    ◾ 토크나이징(Tokenization)

    • 텍스트를 "토큰"이라는 작은 단위로 나눕니다. (단어, 서브워드 등)

    ◾ 모델 초기화

    • 수십억~수천억 개의 파라미터(가중치)를 무작위로 초기화한 Transformer 모델을 준비합니다.

    ◾ 사전 학습(Pretraining)

    • 주어진 문장에서 다음에 나올 토큰을 예측하는 과제를 반복하여 모델을 학습시킵니다.

    ◾ 미세 조정(Fine-tuning)

    • 특정 목적(예: 대화형 챗봇, 요약, 번역)에 맞게 추가 학습을 진행합니다.

    ◾ RLHF (Human Feedback 활용 강화학습)

    • 사람이 모델의 출력을 평가하고 수정하여 더 유용하고 친절한 응답을 하도록 학습을 보강합니다.

    3. LLM의 작동 원리: 다음 단어 예측

    LLM의 핵심 아이디어는 "다음에 어떤 단어가 올지를 예측하는 것"입니다. 예를 들어:

    입력: "나는 오늘 날씨가"

    예측: ["좋다" (40%), "나쁘다" (20%), "맑다" (15%)...]

    이처럼 가능한 다음 단어에 대해 확률을 계산하고, 가장 가능성 높은 단어를 선택해 문장을 이어 나갑니다. 이 과정을 반복하면서 하나의 자연스러운 문장이 완성됩니다.

    4. Transformer 구조: GPT의 심장

    ✨ Transformer란?

    2017년 Google에서 발표한 논문 "Attention is All You Need"에서 등장한 아키텍처로, RNN과 달리 입력 전체를 동시에 처리할 수 있습니다. 그 핵심은 Self-Attention 기법입니다.

    ■ Transformer의 주요 컴포넌트

    1. Tokenizer (토크나이저)
      • 텍스트를 토큰으로 분해
    2. Embedding Layer
      • 각 토큰을 고차원 벡터로 변환
    3. Positional Encoding
      • 토큰의 순서 정보를 반영하기 위한 벡터 추가
    4. Multi-Head Self-Attention
      • 각 토큰이 다른 모든 토큰과 관계를 계산하여 문맥을 반영
    5. Feed-Forward Neural Network (FFN)
      • 각 토큰에 대해 비선형 연산을 수행하여 표현력 향상
    6. Residual Connection + Layer Normalization
      • 정보 손실 방지와 학습 안정성을 위한 기법
    7. Output + Softmax
      • 최종 벡터를 통해 다음 토큰 확률 분포 생성

    5. Embedding: 단어의 의미를 수치화하다

    단어는 ID가 아니라 의미를 가진 벡터로 표현됩니다. 이 벡터는 모델 학습을 통해 점점 더 정교하게 조정됩니다.

    • 비슷한 의미의 단어는 비슷한 벡터로 표현됨
    • 예: king - man + woman ≈ queen
    • GPT-3는 단어당 12,288차원 벡터 사용

    이러한 벡터 공간에서는 성별, 수량, 관계 등 다양한 의미 방향이 형성됩니다.

    6. 작동 방식의 흐름: 입력부터 출력까지

    1. 입력 문장은 토큰으로 분해됩니다.
    2. 각 토큰은 Embedding Layer를 통해 벡터로 변환됩니다.
    3. 이 벡터들이 Attention과 FFN을 거치며 의미가 재조정됩니다.
    4. 마지막 벡터는 Unembedding을 거쳐 확률 분포로 변환됩니다.
    5. Softmax를 통해 다음 토큰을 샘플링합니다.
    6. 이 과정을 반복하면서 문장이 생성됩니다.

    7. 예측과 Sampling: 창의성과 안정성의 균형

    모델은 항상 가장 확률 높은 단어만 선택하지 않습니다. Temperature를 조절하면 생성 텍스트의 다양성과 창의성을 조절할 수 있습니다.

    Temperature 의미 결과

    0.0 확실한 단어만 선택 정형적이고 반복적임
    1.0 랜덤성 증가 더 창의적이나 일관성 떨어질 수 있음
    2.0 이상 무작위성이 큼 말도 안 되는 텍스트 가능

    8. Context Length: 얼마나 긴 문장을 기억할 수 있을까?

    Transformer는 한 번에 처리할 수 있는 토큰 수에 제한이 있습니다.

    • GPT-3: 최대 2,048 토큰
    • GPT-4: 128,000 토큰 이상 지원

    이 제한 때문에 긴 대화에서는 초반 문맥을 잊을 수 있습니다.

    9. GPT는 어떻게 챗봇이 되는가?

    GPT를 챗봇처럼 동작하게 만들기 위해 다음과 같은 설정을 합니다:

    1. System Prompt로 AI의 성격 정의: "당신은 정중하고 유용한 조수입니다."
    2. 사용자 입력 추가
    3. 모델은 그에 맞는 다음 단어를 예측하여 답변을 생성
    4. 생성된 답변은 다시 입력으로 이어져 대화가 이어짐

    10. 정리: GPT의 전체 동작 사이클

    1. 텍스트 입력 → 토큰화
    2. 토큰 → 벡터로 변환 (Embedding)
    3. 벡터 → 여러 Attention 및 FFN 층 통과하며 의미 반영
    4. 마지막 벡터 → 확률 분포로 변환 (Unembedding + Softmax)
    5. 확률 기반 샘플링 → 다음 단어 생성
    6. 반복적으로 문장 자동 생성

    마무리

    GPT와 같은 Transformer 기반 LLM은

    • 수많은 데이터를 기반으로 학습된 확률 예측 기계이며,
    • Self-Attention을 활용해 입력 전체 문맥을 이해하고,
    • 정교한 수치 연산으로 사람처럼 말할 수 있게 작동합니다.

    https://www.youtube.com/watch?v=LPZh9BOjkQs&list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi&index=5

     

     

    댓글

Designed by Tistory.