본문 바로가기
HRDI_AI/머신러닝_딥러닝 핵심 기술과 실무 중심 생성형 AI 프로젝트

Transformer vs T5(Text-to-Text Transfer Transformer) 어떻게 다른가?

by Toddler_AD 2025. 11. 26.

글에서 계속 “Transformer 기반 T5 모델” 이라고 말했는데,
그러면 질문이 하나 생긴다.

“Transformer랑 T5는 도대체 뭐가 다른 거지?”

1. 한 줄 요약

  • Transformer
    → “자기 주의(self-attention)를 쓰는 신경망 구조(아키텍처) 이름”
  • T5
    → “그 Transformer 구조를 사용해서,
    모든 NLP 태스크를 ‘텍스트 → 텍스트’로 통일하고
    대규모 데이터로 사전학습까지 끝낸 구체적인 모델 패밀리

한마디로,

🔹 Transformer = 건축 ‘설계도’
🔹 T5 = 그 설계대로 지어서 이미 완성해 둔 아파트 브랜드

라고 생각하면 이해가 쉽다.


2. 비유로 이해하기

(1) 건축 비유

  • Transformer
    • “기둥은 이렇게 세우고, 벽은 이렇게 두르고, 창문은 이렇게 배치한다”
      건물을 짓는 공법/설계 규칙 자체
  • T5
    • 그 공법으로 실제로 지은 ‘방 3개, 화장실 2개, 20층 아파트 단지’ 같은
      완성된 아파트 라인업(모델 패밀리)

(2) 레고 비유

  • Transformer
    • 레고 블록의 규격과 결합 방식
    • “블록은 이런 모양이고, 이렇게 끼워서 층층이 쌓을 수 있다”
  • T5
    • 그 레고 블록으로 만들어진
      “번역·요약·질문응답까지 다 되는 완성 세트
    • 이미 “이 설명서대로 끼워 맞추면 이런 기능이 됩니다”까지 정리된 상태

3. 조금 더 기술적으로 비교해 보면

표 형태로 정리하면 다음과 같다.

관점 Transformer T5
정체 신경망 아키텍처 이름 구체적인 모델 패밀리 이름
구조 Self-Attention, Multi-Head, FFN, Residual, LayerNorm 등 Transformer 블록을 그대로 사용 (T5 스타일 레이어 구성)
역할 “이런 블록을 이렇게 쌓자”는 설계 규칙 그 설계로 실제로 쌓고, 대규모 사전학습까지 끝낸 결과물
태스크 형식 따로 고정된 형식 없음 (번역, 분류, LM 등 임의) 모든 태스크를 Text → Text로 통일
학습 전략 원 논문에서는 번역 예제로 설명 대규모 말뭉치 + span corruption(빈칸 채우기) 등 특별한 pretrain objective 사용
우리가 쓸 때 표현 “Transformer 구조를 쓴다” “T5-base/large 모델을 쓴다”

이번 프로젝트의 ke-T5-ko2en은 결국,

Transformer 아키텍처 위에 T5 방식(Text-to-Text, 특수한 사전학습)을 얹은 뒤, 한국어→영어 번역에 맞게 추가로 파인튜닝하는 모델

이라고 정리할 수 있다.