Transformer vs T5(Text-to-Text Transfer Transformer) 어떻게 다른가?

글에서 계속 “Transformer 기반 T5 모델” 이라고 말했는데,
그러면 질문이 하나 생긴다.

“Transformer랑 T5는 도대체 뭐가 다른 거지?”

Transformer
→ “자기 주의(self-attention)를 쓰는 신경망 구조(아키텍처) 이름”
T5
→ “그 Transformer 구조를 사용해서,
모든 NLP 태스크를 ‘텍스트 → 텍스트’로 통일하고
대규모 데이터로 사전학습까지 끝낸 구체적인 모델 패밀리”

한마디로,

🔹 Transformer = 건축 ‘설계도’
🔹 T5 = 그 설계대로 지어서 이미 완성해 둔 아파트 브랜드

라고 생각하면 이해가 쉽다.

Transformer
- “기둥은 이렇게 세우고, 벽은 이렇게 두르고, 창문은 이렇게 배치한다”
  → 건물을 짓는 공법/설계 규칙 자체
T5
- 그 공법으로 실제로 지은 ‘방 3개, 화장실 2개, 20층 아파트 단지’ 같은
  → 완성된 아파트 라인업(모델 패밀리)

Transformer
- 레고 블록의 규격과 결합 방식
- “블록은 이런 모양이고, 이렇게 끼워서 층층이 쌓을 수 있다”
T5
- 그 레고 블록으로 만들어진
  “번역·요약·질문응답까지 다 되는 완성 세트”
- 이미 “이 설명서대로 끼워 맞추면 이런 기능이 됩니다”까지 정리된 상태

표 형태로 정리하면 다음과 같다.

관점	Transformer	T5
정체	신경망 아키텍처 이름	구체적인 모델 패밀리 이름
구조	Self-Attention, Multi-Head, FFN, Residual, LayerNorm 등	위 Transformer 블록을 그대로 사용 (T5 스타일 레이어 구성)
역할	“이런 블록을 이렇게 쌓자”는 설계 규칙	그 설계로 실제로 쌓고, 대규모 사전학습까지 끝낸 결과물
태스크 형식	따로 고정된 형식 없음 (번역, 분류, LM 등 임의)	모든 태스크를 Text → Text로 통일
학습 전략	원 논문에서는 번역 예제로 설명	대규모 말뭉치 + span corruption(빈칸 채우기) 등 특별한 pretrain objective 사용
우리가 쓸 때 표현	“Transformer 구조를 쓴다”	“T5-base/large 모델을 쓴다”

이번 프로젝트의 ke-T5-ko2en은 결국,

“Transformer 아키텍처 위에 T5 방식(Text-to-Text, 특수한 사전학습)을 얹은 뒤, 한국어→영어 번역에 맞게 추가로 파인튜닝하는 모델”

이라고 정리할 수 있다.

AdamW란 무엇인가, 왜 쓰는가, 수식/직관/실전 세팅까지 (0)	2025.11.27
1. Trainer 하이퍼파라미터 정리 (0)	2025.11.27
3. grad_norm이란 무엇인가? 그리고 LR과 어떤 관계인가? (0)	2025.11.27
2. fp32 vs fp16 – 왜 fp32에서 grad_norm이 더 안정적으로 보였을까? (0)	2025.11.27
Midterm Report (0)	2025.11.26

Toddler_AD 님의 블로그