1. AlexNet 논문 핵심 내용 요약
- 목표: ILSVRC-2010/2012 대규모 이미지 분류 경진대회에서 뛰어난 성능을 달성하기 위한 **심층 합성곱 신경망(CNN)**을 설계하고 학습함.
- 구조: 총 8개의 학습 가능한 계층으로 구성됨 (5개의 Convolutional Layer + 3개의 Fully Connected Layer).
- 입력: 224×224×3 크기의 컬러 이미지.
- 출력: 1000개 클래스에 대한 Softmax 확률 분포.
- 성능:
- ILSVRC-2010: Top-1 오류율 37.5%, Top-5 오류율 17.0%
- ILSVRC-2012: Top-5 오류율 15.3% (앙상블 기준)
- 기술요소: ReLU, Dropout, Local Response Normalization(LRN), Data Augmentation, GPU 병렬처리 등을 활용하여 모델 성능을 극대화함.
2. AlexNet의 전체 구조 설명
- 총 8개 계층에 학습 가능한 파라미터가 존재함.
| 계층 | 종류 | 특징 |
| Conv1 | Convolutional | 96개 커널, 크기 11×11×3, stride=4 |
| Pool1 | Max Pooling | LRN 후 수행, 크기 3×3, stride=2 |
| Conv2 | Convolutional | 256개 커널, 크기 5×5×48 (LRN & Pooling 포함) |
| Conv3 | Convolutional | 384개 커널, 크기 3×3×256 |
| Conv4 | Convolutional | 384개 커널, 크기 3×3×192 |
| Conv5 | Convolutional | 256개 커널, 크기 3×3×192 → Max Pooling |
| FC6 | Fully Connected | 4096개의 뉴런 |
| FC7 | Fully Connected | 4096개의 뉴런 |
| FC8 | Fully Connected | 1000개의 클래스 (Softmax 출력) |
- 정규화 및 활성화
- 모든 Conv 및 FC 계층의 출력에 ReLU 적용
- Conv1, Conv2 계층 뒤에는 Local Response Normalization
- 마지막 FC 계층 출력은 1000-way Softmax
- 병렬처리
- 두 개의 GPU 사용. 특정 계층은 GPU1/GPU2에 분할되어 계산됨.
(예: Conv2, 4, 5는 각 GPU의 커널 맵끼리만 연결됨)
- 두 개의 GPU 사용. 특정 계층은 GPU1/GPU2에 분할되어 계산됨.
3. 주요 기술 요소
ReLU (Rectified Linear Unit)
- 모든 Conv/FC 계층에 ReLU 사용
- ReLU는 sigmoid보다 학습이 훨씬 빠름 (실험 결과 포함)
Dropout
- FC6, FC7 계층에 적용
- 각 뉴런의 출력을 확률 0.5로 제거(drop)
- 학습 시 네트워크의 공적응(co-adaptation) 방지 → 과적합 감소
- 테스트 시에는 출력을 0.5배로 스케일
Local Response Normalization (LRN)
- Conv1, Conv2 계층 뒤에 적용
- 채널 간 경쟁을 유도 (lateral inhibition 효과)
- Top-1 error 1.4%, Top-5 error 1.2% 감소 효과 있음
Data Augmentation
- 224×224 패치와 좌우 반전 적용 (랜덤 크롭 & flip)
- RGB 채널 주성분 분석(PCA)에 기반한 색상 변형
- 픽셀에 고유 RGB 편차를 추가 → 조명 변화에 강건
GPU 병렬 처리
- 2개의 NVIDIA GTX 580 GPU 사용
- 네트워크 절반씩 나눠 병렬로 학습
- GPU 간 통신은 특정 계층에서만 발생 (예: FC6)
4. 과거 모델과 비교하여 AlexNet이 갖는 차별점 및 영향력
| 비교 요소 | 기존 모델 | AlexNet |
| 모델 구조 | 수동 특징 추출 + shallow classifier | End-to-end deep CNN |
| 학습 방식 | feature extraction + SVM 등 | Pure supervised learning with SGD |
| 정규화 | 없음 또는 간단한 정규화 | ReLU, LRN, Dropout 사용 |
| 하드웨어 | CPU 기반 학습 | GPU 병렬 학습으로 대규모 모델 가능 |
| 데이터 증강 | 제한적 또는 없음 | 광범위한 label-preserving augmentation |
| 성능 (ILSVRC-2010) | Top-5 error 25~28% | 17.0% |
| 영향력 | 제한적 | 딥러닝 혁신의 촉매 |
영향력 요약
- AlexNet은 CNN의 대중화와 현대 딥러닝의 급격한 발전을 이끈 기념비적 모델로 평가됨.
- 이후 VGG, GoogLeNet, ResNet 등 깊은 구조의 신경망들이 뒤따라 발전함.
- GPU를 활용한 대규모 이미지 학습 시대의 문을 열었음.
'AI 활용 소프트웨어 개발 > AI, 머신러닝, 딥러닝' 카테고리의 다른 글
| Local GPU (Vscode) 환경 설정 및 사용하기 (0) | 2025.08.13 |
|---|---|
| YOLO 하이퍼파라미터 조정하기 (yaml 파일) (3) | 2025.08.11 |
| Resnet(Deep Residual Learning for Image Recognition)논문 요약 및 구현 (2) | 2025.08.05 |
| 딥러닝, 이미지 폴더 전처리하기. (3) | 2025.08.05 |
| pytorch 딥러닝, CNN 학습 흐름 정리 (2) | 2025.07.30 |