海光部署

老卫同学已删除用户

2025-07-08

部署Qwen2.5-VL-7B-Instruct

HIP_VISIBLE_DEVICES=0,1 vllm serve \
  models/Qwen/Qwen2.5-VL-7B-Instruct \
  --trust-remote-code --max-model-len 16384 \
  --max-num-batched-tokens 16384 --enforce-eager \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.9 \
  --host 0.0.0.0 --port 8001

Maximum concurrency for 16384 tokens per request: 100.25x
在保持 每个请求最多 16384 个 token 的前提下，你的 GPU 显存最多可以同时并发 约 100 个请求。

部署Qwen3-8B-MLX-bf16

HIP_VISIBLE_DEVICES=2,3 vllm serve \
  models/Qwen/Qwen3-8B-MLX-bf16 \
  --trust-remote-code --max-model-len 16384 \
  --max-num-batched-tokens 16384 --enforce-eager \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.9 \
  --host 0.0.0.0 --port 8002

Maximum concurrency for 16384 tokens per request: 41.93x
在保持 每个请求最多 16384 个 token 的前提下，你的 GPU 显存最多可以同时并发 约 41个请求。

部署Qwen3-Embedding-0.6B

HIP_VISIBLE_DEVICES=0,1 vllm serve \
  models/Qwen/Qwen3-Embedding-0.6B \
  --trust-remote-code --max-model-len 16384 \
  --max-num-batched-tokens 16384 --enforce-eager \
  --tensor-parallel-size 2 \
  --host 0.0.0.0 --port 8003

部署Qwen3-Reranker-0.6B

HIP_VISIBLE_DEVICES=0,1 vllm serve \
  models/Qwen/Qwen3-Reranker-0.6B \
  --trust-remote-code --max-model-len 16384 \
  --max-num-batched-tokens 16384 --enforce-eager \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.2 \
  --host 0.0.0.0 --port 8004

其他

K100-AI上应该识别不到环境变量CUDA_VISIBLE_DEVICES，可以用HIP_VISIBLE_DEVICES
Qwen3-8b关闭<think>...</think>标签，参考文献：https://qwen.readthedocs.io/zh-cn/latest/deployment/vllm.html

{
  "model": "models/Qwen/Qwen3-8B-MLX-bf16",
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant."
    },
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "介绍一下自己"
        }
      ]
    }
  ],
  "chat_template_kwargs": {
    "enable_thinking": false
  }
}