AI 활용 소프트웨어 개발/AI, 머신러닝, 딥러닝

AlexNet 논문 핵심 내용 요약

ha2yong 2025. 8. 4. 23:18

1. AlexNet 논문 핵심 내용 요약

  • 목표: ILSVRC-2010/2012 대규모 이미지 분류 경진대회에서 뛰어난 성능을 달성하기 위한 **심층 합성곱 신경망(CNN)**을 설계하고 학습함.
  • 구조: 총 8개의 학습 가능한 계층으로 구성됨 (5개의 Convolutional Layer + 3개의 Fully Connected Layer).
  • 입력: 224×224×3 크기의 컬러 이미지.
  • 출력: 1000개 클래스에 대한 Softmax 확률 분포.
  • 성능:
    • ILSVRC-2010: Top-1 오류율 37.5%, Top-5 오류율 17.0%
    • ILSVRC-2012: Top-5 오류율 15.3% (앙상블 기준)
  • 기술요소: ReLU, Dropout, Local Response Normalization(LRN), Data Augmentation, GPU 병렬처리 등을 활용하여 모델 성능을 극대화함.

2. AlexNet의 전체 구조 설명

  • 총 8개 계층에 학습 가능한 파라미터가 존재함.
계층 종류 특징
Conv1 Convolutional 96개 커널, 크기 11×11×3, stride=4
Pool1 Max Pooling LRN 후 수행, 크기 3×3, stride=2
Conv2 Convolutional 256개 커널, 크기 5×5×48 (LRN & Pooling 포함)
Conv3 Convolutional 384개 커널, 크기 3×3×256
Conv4 Convolutional 384개 커널, 크기 3×3×192
Conv5 Convolutional 256개 커널, 크기 3×3×192 → Max Pooling
FC6 Fully Connected 4096개의 뉴런
FC7 Fully Connected 4096개의 뉴런
FC8 Fully Connected 1000개의 클래스 (Softmax 출력)
 
  • 정규화 및 활성화
    • 모든 Conv 및 FC 계층의 출력에 ReLU 적용
    • Conv1, Conv2 계층 뒤에는 Local Response Normalization
    • 마지막 FC 계층 출력은 1000-way Softmax
  • 병렬처리
    • 두 개의 GPU 사용. 특정 계층은 GPU1/GPU2에 분할되어 계산됨.
      (예: Conv2, 4, 5는 각 GPU의 커널 맵끼리만 연결됨)

3. 주요 기술 요소

ReLU (Rectified Linear Unit)

  • 모든 Conv/FC 계층에 ReLU 사용
  • ReLU는 sigmoid보다 학습이 훨씬 빠름 (실험 결과 포함)

Dropout

  • FC6, FC7 계층에 적용
  • 각 뉴런의 출력을 확률 0.5로 제거(drop)
  • 학습 시 네트워크의 공적응(co-adaptation) 방지 → 과적합 감소
  • 테스트 시에는 출력을 0.5배로 스케일

Local Response Normalization (LRN)

  • Conv1, Conv2 계층 뒤에 적용
  • 채널 간 경쟁을 유도 (lateral inhibition 효과)
  • Top-1 error 1.4%, Top-5 error 1.2% 감소 효과 있음

Data Augmentation

  1. 224×224 패치와 좌우 반전 적용 (랜덤 크롭 & flip)
  2. RGB 채널 주성분 분석(PCA)에 기반한 색상 변형
    • 픽셀에 고유 RGB 편차를 추가 → 조명 변화에 강건

GPU 병렬 처리

  • 2개의 NVIDIA GTX 580 GPU 사용
  • 네트워크 절반씩 나눠 병렬로 학습
  • GPU 간 통신은 특정 계층에서만 발생 (예: FC6)

4. 과거 모델과 비교하여 AlexNet이 갖는 차별점 및 영향력

 

비교 요소 기존 모델 AlexNet
모델 구조 수동 특징 추출 + shallow classifier End-to-end deep CNN
학습 방식 feature extraction + SVM 등 Pure supervised learning with SGD
정규화 없음 또는 간단한 정규화 ReLU, LRN, Dropout 사용
하드웨어 CPU 기반 학습 GPU 병렬 학습으로 대규모 모델 가능
데이터 증강 제한적 또는 없음 광범위한 label-preserving augmentation
성능 (ILSVRC-2010) Top-5 error 25~28% 17.0%
영향력 제한적 딥러닝 혁신의 촉매
 

영향력 요약

  • AlexNet은 CNN의 대중화와 현대 딥러닝의 급격한 발전을 이끈 기념비적 모델로 평가됨.
  • 이후 VGG, GoogLeNet, ResNet 등 깊은 구조의 신경망들이 뒤따라 발전함.
  • GPU를 활용한 대규모 이미지 학습 시대의 문을 열었음.