update vllm version to 0.13.0 (#753)

billyang-scale · web-flow · commit 429cf011c43e · 2026-02-09T16:17:15.000-08:00
* upgrade vllm to 0.13.0

* remove attenion-backend
diff --git a/model-engine/model_engine_server/inference/vllm/Dockerfile.vllm b/model-engine/model_engine_server/inference/vllm/Dockerfile.vllm
@@ -1,5 +1,5 @@
 # syntax=docker/dockerfile:1
-ARG VLLM_VERSION=0.11.1
+ARG VLLM_VERSION=0.13.0
 ARG VLLM_BASE_REPO=vllm/vllm-openai
 ARG VLLM_BASE_IMAGE=${VLLM_BASE_REPO}:v${VLLM_VERSION}
 FROM ${VLLM_BASE_IMAGE} AS base
diff --git a/model-engine/model_engine_server/inference/vllm/build_and_upload_image.sh b/model-engine/model_engine_server/inference/vllm/build_and_upload_image.sh
@@ -29,7 +29,7 @@ fi
 ACCOUNT=$1
 IMAGE_TAG=$2
 BUILD_TARGET=$3
-VLLM_VERSION=${VLLM_VERSION:-"0.10.2"}
+VLLM_VERSION=${VLLM_VERSION:-"0.13.0"}
 VLLM_BASE_REPO=${VLLM_BASE_REPO:-"vllm/vllm-openai"}
 
 # if build target = vllm use vllm otherwise use vllm_batch
diff --git a/model-engine/model_engine_server/inference/vllm/requirements-dev.txt b/model-engine/model_engine_server/inference/vllm/requirements-dev.txt
@@ -1 +1 @@
-vllm==0.11.0
+vllm==0.13.0
diff --git a/model-engine/model_engine_server/inference/vllm/vllm_server.py b/model-engine/model_engine_server/inference/vllm/vllm_server.py
@@ -82,7 +82,6 @@ def debug(sig, frame):
 
 def parse_args(parser: FlexibleArgumentParser):
     parser = make_arg_parser(parser)
-    parser.add_argument("--attention-backend", type=str, help="The attention backend to use")
     return parser.parse_args()