글에서 계속 “Transformer 기반 T5 모델” 이라고 말했는데,
그러면 질문이 하나 생긴다.
“Transformer랑 T5는 도대체 뭐가 다른 거지?”
1. 한 줄 요약
- Transformer
→ “자기 주의(self-attention)를 쓰는 신경망 구조(아키텍처) 이름” - T5
→ “그 Transformer 구조를 사용해서,
모든 NLP 태스크를 ‘텍스트 → 텍스트’로 통일하고
대규모 데이터로 사전학습까지 끝낸 구체적인 모델 패밀리”
한마디로,
🔹 Transformer = 건축 ‘설계도’
🔹 T5 = 그 설계대로 지어서 이미 완성해 둔 아파트 브랜드
라고 생각하면 이해가 쉽다.
2. 비유로 이해하기
(1) 건축 비유
- Transformer
- “기둥은 이렇게 세우고, 벽은 이렇게 두르고, 창문은 이렇게 배치한다”
→ 건물을 짓는 공법/설계 규칙 자체
- “기둥은 이렇게 세우고, 벽은 이렇게 두르고, 창문은 이렇게 배치한다”
- T5
- 그 공법으로 실제로 지은 ‘방 3개, 화장실 2개, 20층 아파트 단지’ 같은
→ 완성된 아파트 라인업(모델 패밀리)
- 그 공법으로 실제로 지은 ‘방 3개, 화장실 2개, 20층 아파트 단지’ 같은
(2) 레고 비유
- Transformer
- 레고 블록의 규격과 결합 방식
- “블록은 이런 모양이고, 이렇게 끼워서 층층이 쌓을 수 있다”
- T5
- 그 레고 블록으로 만들어진
“번역·요약·질문응답까지 다 되는 완성 세트” - 이미 “이 설명서대로 끼워 맞추면 이런 기능이 됩니다”까지 정리된 상태
- 그 레고 블록으로 만들어진
3. 조금 더 기술적으로 비교해 보면
표 형태로 정리하면 다음과 같다.
| 관점 | Transformer | T5 |
| 정체 | 신경망 아키텍처 이름 | 구체적인 모델 패밀리 이름 |
| 구조 | Self-Attention, Multi-Head, FFN, Residual, LayerNorm 등 | 위 Transformer 블록을 그대로 사용 (T5 스타일 레이어 구성) |
| 역할 | “이런 블록을 이렇게 쌓자”는 설계 규칙 | 그 설계로 실제로 쌓고, 대규모 사전학습까지 끝낸 결과물 |
| 태스크 형식 | 따로 고정된 형식 없음 (번역, 분류, LM 등 임의) | 모든 태스크를 Text → Text로 통일 |
| 학습 전략 | 원 논문에서는 번역 예제로 설명 | 대규모 말뭉치 + span corruption(빈칸 채우기) 등 특별한 pretrain objective 사용 |
| 우리가 쓸 때 표현 | “Transformer 구조를 쓴다” | “T5-base/large 모델을 쓴다” |
이번 프로젝트의 ke-T5-ko2en은 결국,
“Transformer 아키텍처 위에 T5 방식(Text-to-Text, 특수한 사전학습)을 얹은 뒤, 한국어→영어 번역에 맞게 추가로 파인튜닝하는 모델”
이라고 정리할 수 있다.

'HRDI_AI > 머신러닝_딥러닝 핵심 기술과 실무 중심 생성형 AI 프로젝트' 카테고리의 다른 글
| AdamW란 무엇인가, 왜 쓰는가, 수식/직관/실전 세팅까지 (0) | 2025.11.27 |
|---|---|
| 1. Trainer 하이퍼파라미터 정리 (0) | 2025.11.27 |
| 3. grad_norm이란 무엇인가? 그리고 LR과 어떤 관계인가? (0) | 2025.11.27 |
| 2. fp32 vs fp16 – 왜 fp32에서 grad_norm이 더 안정적으로 보였을까? (0) | 2025.11.27 |
| Midterm Report (0) | 2025.11.26 |