세미531, Lifestyle

ImageNet Classification with Deep Convolutional Neural Networks

Life/자율주행, AI

by 세미531 2024. 12. 14. 00:07

728x90

ImageNet Classification with Deep Convolutional Neural Networks 논문 리뷰

1. The Dataset

ImageNet: 약 1,500만 개의 고해상도 라벨링 이미지로 구성된 데이터셋, 22,000여 개의 카테고리 포함.
ILSVRC-2010: 약 1.2M 학습 이미지, 50K 검증 이미지, 150K 테스트 이미지로 구성.
입력 데이터 전처리: 모든 이미지를 256×256 고정 해상도로 리사이즈 후, 중앙 256×256 패치 추출. 픽셀별 평균값을 빼서 정규화만 수행.

2. The Architecture

총 8개의 학습 계층(5 convolutional + 3 fully-connected)으로 구성된 대규모 CNN 설계.
네트워크 주요 특징:
1. ReLU 활성화 함수 도입.
2. Two-GPU 병렬 학습 구조 적용.
3. Local Response Normalization(LRN) 및 Overlapping Pooling 사용.

728x90

3.1 ReLU Nonlinearity

기존 tanh, sigmoid 대비 학습 속도 대폭 향상.
CIFAR-10 데이터셋 실험에서 ReLU 사용 시 동일 구조에서 tanh 대비 약 6배 빠르게 학습 진행.
뉴런 활성화 범위 확대로 더 많은 뉴런이 학습에 기여할 수 있게 됨.

3.2 Training on Multiple GPUs

네트워크를 두 개의 GPU로 분할하여 병렬 처리 구현.
특정 계층에서만 GPU 간 데이터 교환을 허용해 통신 비용 최소화.
Top-1 에러율 1.7% 감소, Top-5 에러율 1.2% 감소.

4. Reducing Overfitting

두 가지 주요 방법 사용:
1. Data Augmentation:
  - 랜덤 크롭, 좌우 반전, RGB 채널 강도 변환으로 데이터 증강.
  - 학습 데이터의 다양성을 높여 과적합 방지.
2. Dropout:
  - 완전 연결 계층에서 드롭아웃 적용해 뉴런 간 복잡한 의존성 감소.
  - 테스트 단계에서는 뉴런 출력을 0.5로 스케일링해 평균화 효과 유지.

5. Results

ILSVRC-2010: Top-1 37.5%, Top-5 17.0%로 기존 최고 성능 대비 큰 개선.
ILSVRC-2012: Top-5 15.3%로 2위 대비 약 11% 향상된 성능 기록.
두 NVIDIA GTX 580 GPU 사용, 학습 시간 약 5~6일 소요.

결론

대규모 CNN 학습을 GPU 병렬 처리와 효율적인 기술로 구현해 최고 성능 달성. ReLU, Dropout, Data Augmentation 등은 딥러닝에서 필수적인 기법으로 자리 잡았음. 이 연구는 대규모 데이터와 딥러닝 기술 융합의 가능성을 실증하며 딥러닝 발전에 기여했음.

728x90

'Life > 자율주행, AI' 카테고리의 다른 글

삼성 VR Moohan 리뷰 (0)	2025.01.28
LMDrive: Closed-Loop End-to-End Driving with Large Language Models (0)	2024.12.15
Fuzzing in drone, self driving cars (0)	2024.03.24
경로생성(Frenet) (0)	2022.05.14
페이스북, 메타의 미래 (0)	2022.02.05

관련글 더보기

TISTORY

세미531, Lifestyle © Magazine Lab

페이스북

트위터

인스타그램

유투브

티스토리툴바