海光部署
两张卡部署VL模型7b
HIP_VISIBLE_DEVICES=0,1 vllm serve \
models/Qwen/Qwen2.5-VL-7B-Instruct \
--trust-remote-code --max-model-len 16384 \
--max-num-batched-tokens 16384 --enforce-eager \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.9 \
--host 0.0.0.0 --port 8001
Maximum concurrency for 16384 tokens per request: 100.25x
在保持 每个请求最多 16384 个 token 的前提下,你的 GPU 显存最多可以同时并发 约 100 个请求。
两张卡部署Qwen3-8b
HIP_VISIBLE_DEVICES=2,3 vllm serve \
models/Qwen/Qwen3-8B-MLX-bf16 \
--trust-remote-code --max-model-len 16384 \
--max-num-batched-tokens 16384 --enforce-eager \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.7 \
--host 0.0.0.0 --port 8002
Maximum concurrency for 16384 tokens per request: 41.93x
在保持 每个请求最多 16384 个 token 的前提下,你的 GPU 显存最多可以同时并发 约 41个请求。
部署Qwen3-Embedding-0.6b
HIP_VISIBLE_DEVICES=2,3 vllm serve \
models/Qwen/Qwen3-Embedding-0.6B \
--trust-remote-code --max-model-len 16384 \
--max-num-batched-tokens 16384 --enforce-eager \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.2 \
--host 0.0.0.0 --port 8003
其他
K100-AI上应该识别不到环境变量CUDA_VISIBLE_DEVICES,可以用HIP_VISIBLE_DEVICES
Qwen3-8b关闭<think>...</think>标签,参考文献:https://qwen.readthedocs.io/zh-cn/latest/deployment/vllm.html
{
"model": "models/Qwen/Qwen3-8B-MLX-bf16",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "介绍一下自己"
}
]
}
],
"chat_template_kwargs": {
"enable_thinking": false
}
}