海光部署

6

两张卡部署VL模型7b

HIP_VISIBLE_DEVICES=0,1 vllm serve \
  models/Qwen/Qwen2.5-VL-7B-Instruct \
  --trust-remote-code --max-model-len 16384 \
  --max-num-batched-tokens 16384 --enforce-eager \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.9 \
  --host 0.0.0.0 --port 8001

Maximum concurrency for 16384 tokens per request: 100.25x
在保持 每个请求最多 16384 个 token 的前提下,你的 GPU 显存最多可以同时并发 约 100 个请求。

两张卡部署Qwen3-8b

HIP_VISIBLE_DEVICES=2,3 vllm serve \
  models/Qwen/Qwen3-8B-MLX-bf16 \
  --trust-remote-code --max-model-len 16384 \
  --max-num-batched-tokens 16384 --enforce-eager \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.7 \
  --host 0.0.0.0 --port 8002

Maximum concurrency for 16384 tokens per request: 41.93x
在保持 每个请求最多 16384 个 token 的前提下,你的 GPU 显存最多可以同时并发 约 41个请求。

部署Qwen3-Embedding-0.6b

HIP_VISIBLE_DEVICES=2,3 vllm serve \
  models/Qwen/Qwen3-Embedding-0.6B \
  --trust-remote-code --max-model-len 16384 \
  --max-num-batched-tokens 16384 --enforce-eager \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.2 \
  --host 0.0.0.0 --port 8003

其他

{
  "model": "models/Qwen/Qwen3-8B-MLX-bf16",
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant."
    },
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "介绍一下自己"
        }
      ]
    }
  ],
  "chat_template_kwargs": {
    "enable_thinking": false
  }
}