AlexNet 논문 핵심 내용 요약

AI 활용 소프트웨어 개발/AI, 머신러닝, 딥러닝

AlexNet 논문 핵심 내용 요약

ha2yong 2025. 8. 4. 23:18

1. AlexNet 논문 핵심 내용 요약

목표: ILSVRC-2010/2012 대규모 이미지 분류 경진대회에서 뛰어난 성능을 달성하기 위한 **심층 합성곱 신경망(CNN)**을 설계하고 학습함.
구조: 총 8개의 학습 가능한 계층으로 구성됨 (5개의 Convolutional Layer + 3개의 Fully Connected Layer).
입력: 224×224×3 크기의 컬러 이미지.
출력: 1000개 클래스에 대한 Softmax 확률 분포.
성능:
- ILSVRC-2010: Top-1 오류율 37.5%, Top-5 오류율 17.0%
- ILSVRC-2012: Top-5 오류율 15.3% (앙상블 기준)
기술요소: ReLU, Dropout, Local Response Normalization(LRN), Data Augmentation, GPU 병렬처리 등을 활용하여 모델 성능을 극대화함.

2. AlexNet의 전체 구조 설명

총 8개 계층에 학습 가능한 파라미터가 존재함.

계층	종류	특징
Conv1	Convolutional	96개 커널, 크기 11×11×3, stride=4
Pool1	Max Pooling	LRN 후 수행, 크기 3×3, stride=2
Conv2	Convolutional	256개 커널, 크기 5×5×48 (LRN & Pooling 포함)
Conv3	Convolutional	384개 커널, 크기 3×3×256
Conv4	Convolutional	384개 커널, 크기 3×3×192
Conv5	Convolutional	256개 커널, 크기 3×3×192 → Max Pooling
FC6	Fully Connected	4096개의 뉴런
FC7	Fully Connected	4096개의 뉴런
FC8	Fully Connected	1000개의 클래스 (Softmax 출력)

정규화 및 활성화
- 모든 Conv 및 FC 계층의 출력에 ReLU 적용
- Conv1, Conv2 계층 뒤에는 Local Response Normalization
- 마지막 FC 계층 출력은 1000-way Softmax
병렬처리
- 두 개의 GPU 사용. 특정 계층은 GPU1/GPU2에 분할되어 계산됨.
  (예: Conv2, 4, 5는 각 GPU의 커널 맵끼리만 연결됨)

3. 주요 기술 요소

ReLU (Rectified Linear Unit)

모든 Conv/FC 계층에 ReLU 사용
ReLU는 sigmoid보다 학습이 훨씬 빠름 (실험 결과 포함)

Dropout

FC6, FC7 계층에 적용
각 뉴런의 출력을 확률 0.5로 제거(drop)
학습 시 네트워크의 공적응(co-adaptation) 방지 → 과적합 감소
테스트 시에는 출력을 0.5배로 스케일

Local Response Normalization (LRN)

Conv1, Conv2 계층 뒤에 적용
채널 간 경쟁을 유도 (lateral inhibition 효과)
Top-1 error 1.4%, Top-5 error 1.2% 감소 효과 있음

Data Augmentation

224×224 패치와 좌우 반전 적용 (랜덤 크롭 & flip)
RGB 채널 주성분 분석(PCA)에 기반한 색상 변형
- 픽셀에 고유 RGB 편차를 추가 → 조명 변화에 강건

GPU 병렬 처리

2개의 NVIDIA GTX 580 GPU 사용
네트워크 절반씩 나눠 병렬로 학습
GPU 간 통신은 특정 계층에서만 발생 (예: FC6)

4. 과거 모델과 비교하여 AlexNet이 갖는 차별점 및 영향력

비교 요소	기존 모델	AlexNet
모델 구조	수동 특징 추출 + shallow classifier	End-to-end deep CNN
학습 방식	feature extraction + SVM 등	Pure supervised learning with SGD
정규화	없음 또는 간단한 정규화	ReLU, LRN, Dropout 사용
하드웨어	CPU 기반 학습	GPU 병렬 학습으로 대규모 모델 가능
데이터 증강	제한적 또는 없음	광범위한 label-preserving augmentation
성능 (ILSVRC-2010)	Top-5 error 25~28%	17.0%
영향력	제한적	딥러닝 혁신의 촉매

영향력 요약

AlexNet은 CNN의 대중화와 현대 딥러닝의 급격한 발전을 이끈 기념비적 모델로 평가됨.
이후 VGG, GoogLeNet, ResNet 등 깊은 구조의 신경망들이 뒤따라 발전함.
GPU를 활용한 대규모 이미지 학습 시대의 문을 열었음.

'AI 활용 소프트웨어 개발 > AI, 머신러닝, 딥러닝' 카테고리의 다른 글

Local GPU (Vscode) 환경 설정 및 사용하기 (0)	2025.08.13
YOLO 하이퍼파라미터 조정하기 (yaml 파일) (3)	2025.08.11
Resnet(Deep Residual Learning for Image Recognition)논문 요약 및 구현 (2)	2025.08.05
딥러닝, 이미지 폴더 전처리하기. (3)	2025.08.05
pytorch 딥러닝, CNN 학습 흐름 정리 (2)	2025.07.30

현재글AlexNet 논문 핵심 내용 요약

ha2yong 님의 블로그

ha2yong 님의 블로그 입니다.

Today :
Yesterday :

티스토리툴바