개요
본 가이드에서는 DeepSeek V3 모델을 로컬 환경에서 배포하고 실행하는 방법을 자세히 설명합니다. 기본 설정부터 고급 배포 옵션까지 전체 프로세스를 다루며, 가장 적합한 배포 방안을 선택하는 데 도움을 드립니다.
환경 준비
기본 요구사항
- NVIDIA GPU(A100 또는 H100 권장) 또는 AMD GPU
 - 충분한 시스템 메모리(32GB 이상 권장)
 - Linux 운영체제(Ubuntu 20.04 이상 버전 권장)
 - Python 3.8 이상
 
코드 및 모델 준비
- 공식 리포지토리 클론:
 
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
pip install -r requirements.txt- 모델 가중치 다운로드:
 
- HuggingFace에서 공식 모델 가중치 다운로드
 - 지정된 디렉토리에 가중치 파일 배치
 
배포 방안
1. DeepSeek-Infer Demo 배포
가장 기본적인 배포 방식으로, 빠른 테스트와 실험에 적합합니다:
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 \
                 --save-path /path/to/DeepSeek-V3-Demo \
                 --n-experts 256 \
                 --model-parallel 16
torchrun --nnodes 2 --nproc-per-node 8 generate.py \
         --node-rank $RANK \
         --master-addr $ADDR \
         --ckpt-path /path/to/DeepSeek-V3-Demo \
         --config configs/config_671B.json \
         --interactive \
         --temperature 0.7 \
         --max-new-tokens 2002. SGLang 배포(권장)
SGLang v0.4.1은 최적의 성능을 제공합니다:
- MLA 최적화 지원
 - FP8(W8A8) 지원
 - FP8 KV 캐시 지원
 - Torch Compile 지원
 - NVIDIA 및 AMD GPU 지원
 
3. LMDeploy 배포(권장)
LMDeploy는 엔터프라이즈급 배포 솔루션을 제공합니다:
- 오프라인 파이프라인 처리 지원
 - 온라인 서비스 배포 지원
 - PyTorch 워크플로우 통합
 - 최적화된 추론 성능
 
4. TRT-LLM 배포(권장)
TensorRT-LLM 특징:
- BF16 및 INT4/INT8 가중치 지원
 - FP8 지원 예정
 - 최적화된 추론 속도
 
5. vLLM 배포(권장)
vLLM v0.6.6 특징:
- FP8 및 BF16 모드 지원
 - NVIDIA 및 AMD GPU 지원
 - 파이프라인 병렬 처리 기능 제공
 - 다중 머신 분산 배포 지원
 
성능 최적화 제안
- 
메모리 최적화:
- FP8 또는 INT8 양자화로 메모리 사용량 감소
 - KV 캐시 최적화 활성화
 - 배치 크기 적절히 설정
 
 - 
속도 최적화:
- Torch Compile 활성화
 - 파이프라인 병렬 처리 사용
 - 입출력 처리 최적화
 
 - 
안정성 최적화:
- 오류 처리 메커니즘 구현
 - 모니터링 및 로깅 추가
 - 정기적 시스템 리소스 점검
 
 
자주 발생하는 문제 해결
- 
메모리 부족:
- 배치 크기 감소
 - 더 낮은 정밀도 사용
 - 메모리 최적화 옵션 활성화
 
 - 
성능 문제:
- GPU 사용률 확인
 - 모델 구성 최적화
 - 병렬 처리 전략 조정
 
 - 
배포 오류:
- 환경 의존성 확인
 - 모델 가중치 검증
 - 상세 로그 확인
 
 
다음 단계
기본 배포 완료 후 할 수 있는 작업:
- 성능 벤치마크 테스트 수행
 - 구성 매개변수 최적화
 - 기존 시스템에 통합
 - 커스텀 기능 개발
 
이제 DeepSeek V3를 로컬에 배포하는 주요 방법을 익히셨습니다. 귀하의 요구사항에 가장 적합한 배포 방안을 선택하여 AI 애플리케이션을 구축해 보세요!