목록으로 돌아가기
NLP
Transformer
Attention
Deep Learning

Attention Is All You Need: Transformer 아키텍처의 혁신

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
2024년 1월 15일
8분 읽기

원본 논문

NIPS 2017

Google에서 발표한 Transformer 모델이 어떻게 NLP 분야를 완전히 바꿔놓았는지 살펴봅니다.

논문 보기

논문 개요


"Attention Is All You Need"는 2017년 Google에서 발표한 논문으로, 기존의 RNN이나 CNN 없이 오직 attention 메커니즘만을 사용한 Transformer 아키텍처를 제안했습니다. 이 논문은 현재 GPT, BERT 등 대부분의 최신 언어 모델의 기반이 되는 혁신적인 연구입니다.


핵심 아이디어


1. Self-Attention 메커니즘


기존의 RNN은 순차적으로 처리해야 하는 한계가 있었습니다. Transformer는 self-attention을 통해 모든 위치의 정보를 동시에 참조할 수 있게 했습니다.


Self-Attention의 작동 원리:

  • Query, Key, Value 벡터를 생성
  • 각 단어가 다른 모든 단어와의 관련성을 계산
  • 병렬 처리가 가능해져 학습 속도 대폭 향상

  • 2. Multi-Head Attention


    하나의 attention이 아닌 여러 개의 attention head를 사용하여 다양한 관점에서 정보를 처리합니다.


    3. Positional Encoding


    RNN 없이도 단어의 순서 정보를 모델에 제공하기 위해 positional encoding을 도입했습니다.


    실험 결과


    기계 번역 성능

  • WMT 2014 English-to-German: **28.4 BLEU** (당시 최고 성능)
  • WMT 2014 English-to-French: **41.8 BLEU**

  • 학습 효율성

  • 기존 모델 대비 **10배 빠른 학습 속도**
  • 더 적은 파라미터로 더 좋은 성능 달성

  • 개인적인 평가


    장점

    1. **혁신적인 아키텍처**: RNN의 순차 처리 한계를 완전히 극복

    2. **확장성**: 모델 크기를 키우기 쉬운 구조

    3. **해석 가능성**: Attention weight를 통해 모델의 동작 이해 가능


    한계점

    1. **메모리 사용량**: Sequence 길이의 제곱에 비례하는 메모리 사용

    2. **위치 정보**: Positional encoding의 한계로 매우 긴 시퀀스 처리에 어려움


    후속 연구에 미친 영향


    이 논문 이후 NLP 분야는 완전히 바뀌었습니다:


  • **BERT** (2018): Bidirectional Transformer
  • **GPT 시리즈**: Generative Pre-trained Transformer
  • **T5**: Text-to-Text Transfer Transformer
  • **Vision Transformer**: 컴퓨터 비전 분야로 확장

  • 실무 적용 팁


    1. 구현 시 주의사항

  • Attention weight의 gradient vanishing 문제 해결을 위한 residual connection 필수
  • Layer normalization의 위치가 성능에 큰 영향

  • 2. 하이퍼파라미터 튜닝

  • Head 수는 보통 8-16개가 적절
  • Feed-forward 차원은 모델 차원의 4배 정도

  • 결론


    Transformer는 단순히 새로운 모델이 아니라 AI 분야의 패러다임을 바꾼 혁신입니다. Self-attention이라는 간단하면서도 강력한 아이디어로 현재 ChatGPT, Claude 등 모든 대화형 AI의 기반이 되었습니다.


    특히 병렬 처리가 가능한 구조로 인해 대규모 모델 학습이 현실적으로 가능해졌고, 이는 현재의 LLM 시대를 열었다고 볼 수 있습니다.


    관련 논문 리뷰