以下是三种主流的DeepSeek本地部署方案,包括详细的步骤、软硬件要求、组合方案、成本分析以及选择标准:
方案一:基于Ollama的本地部署
1. 适用场景
- 适合个人开发者、中小企业,尤其是对硬件资源要求较低、希望快速部署的用户。
2. 软硬件要求
- 硬件:
- CPU:最低4核处理器(推荐Intel/AMD多核处理器)。
- 内存:最低8GB,推荐16GB或更高。
- 存储:至少12GB可用空间。
- 显卡:可选,最低4GB显存(如GTX 1650),推荐16GB显存(如RTX 4090)。
- 软件:
- 操作系统:Windows、macOS、Linux。
- 驱动:NVIDIA驱动(如CUDA 12.2)。
- Ollama工具。
3. 部署步骤
- 安装Ollama:
- 访问Ollama官网,下载对应操作系统的安装包。
- 在命令行运行以下命令安装:bash复制
curl -fsSL https://ollama.com/install.sh | sh
- 配置环境变量:bash复制
echo 'export OLLAMA_HOST=0.0.0.0' >> ~/.bashrc source ~/.bashrc
- 启动Ollama服务:bash复制
sudo systemctl start ollama
- 拉取DeepSeek模型:bash复制
ollama pull deepseek-r1:14b
- 运行模型:bash复制
ollama run deepseek-r1:14b --gpu
- 验证部署:bash复制
curl http://localhost:11434/api/tags | jq
4. 成本分析
- 硬件成本:最低配置(CPU+8GB内存)约1000元人民币,推荐配置(RTX 4090+32GB内存)约1万元。
- 软件成本:Ollama免费。
5. 选择标准
- 适合对硬件资源要求较低、预算有限的用户。
- 部署简单,适合快速验证和学习。

方案二:基于vLLM的服务化部署
1. 适用场景
- 适合需要高性能、高并发处理能力的企业用户,尤其是需要将DeepSeek集成到其他应用中的场景。
2. 软硬件要求
- 硬件:
- CPU:16核以上(如AMD Ryzen 9或Intel i9)。
- 内存:64GB或更高。
- 存储:至少30GB可用空间。
- 显卡:推荐24GB显存(如A100 40GB或双卡RTX 3090)。
- 软件:
- 操作系统:Linux(推荐Ubuntu)。
- 驱动:CUDA 12.1或更高。
- 深度学习框架:PyTorch。
- vLLM框架。
3. 部署步骤
- 安装依赖:bash复制
sudo apt update && sudo apt install -y nvidia-driver-535 cuda-12.2
- 安装vLLM:bash复制
pip install vllm
- 启动推理服务:bash复制
vllm serve --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \ --tensor-parallel-size 2 \ --max-model-len 32768 \ --gpu-memory-utilization 0.9
- 客户端调用:Python复制
from vllm import LLM, SamplingParams llm = LLM("deepseek-ai/DeepSeek-R1-Distill-Qwen-32B") sampling_params = SamplingParams(temperature=0.8, top_p=0.95) print(llm.generate(["解释BERT模型的注意力机制"], sampling_params))
4. 成本分析
- 硬件成本:推荐配置(双卡RTX 4090+64GB内存)约3万元。
- 软件成本:vLLM开源,无额外费用。
5. 选择标准
- 适合对性能和并发处理能力要求较高的企业用户。
- 支持API调用,便于集成到其他应用。

方案三:量化部署(基于llama.cpp)
1. 适用场景
- 适合资源受限的设备(如嵌入式系统、低配电脑),需要在低功耗、低内存环境下运行DeepSeek。
2. 软硬件要求
- 硬件:
- CPU:最低4核处理器。
- 内存:最低8GB。
- 存储:至少12GB可用空间。
- 显卡:可选,最低4GB显存。
- 软件:
- 操作系统:Windows、macOS、Linux。
- 驱动:CUDA(可选)。
- llama.cpp框架。
3. 部署步骤
- 安装依赖:bash复制
sudo apt update && sudo apt install -y build-essential cmake git
- 克隆llama.cpp项目:bash复制
git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp
- 编译项目:bash复制
make
- 模型转换:bash复制
./quantize ./models/deepseek-r1-14b.gguf ./models/deepseek-r1-14b-Q5_K_M.gguf Q5_K_M
- 启动推理:bash复制
./main -m ./models/deepseek-r1-14b-Q5_K_M.gguf \ -n 1024 \ --repeat_penalty 1.1 \ --color \ -i
4. 成本分析
- 硬件成本:最低配置(CPU+8GB内存)约1000元。
- 软件成本:llama.cpp开源,无额外费用。
5. 选择标准
- 适合资源受限的设备,如树莓派、旧款笔记本。
- 量化部署可显著降低内存和计算资源需求。
组合方案与成本分析
- 小型企业或个人开发者:
- 方案:Ollama部署(RTX 3060+16GB内存)。
- 成本:约5000元。
- 优势:部署简单,适合快速验证。
- 中型企业或高性能需求:
- 方案:vLLM部署(双卡RTX 4090+64GB内存)。
- 成本:约3万元。
- 优势:高性能、支持API调用。
- 资源受限设备:
- 方案:量化部署(CPU+8GB内存)。
- 成本:约1000元。
- 优势:低功耗、低内存。
选择标准
- 硬件资源:根据现有硬件资源选择合适的部署方案。
- 性能需求:高性能需求选择vLLM,低功耗需求选择量化部署。
- 预算限制:Ollama适合预算有限的用户,vLLM适合预算充足的企业。
- 技术门槛:Ollama适合新手,vLLM适合有开发经验的用户。
希望以上信息能帮助你选择适合
免费文章,允许转载!转载时请注明来源:【小钉教科】(xdjk.cn)
支持原创、保护作者权益、激发创作动力。