[Misc] Simplify get_max_tokens (vllm-project#34036)

DarkLight1337 · web-flow · commit 11a4c9d30d20 · 2026-02-07T00:59:49.000-08:00
Signed-off-by: DarkLight1337 &lt;tlleungac@connect.ust.hk&gt;
diff --git a/vllm/entrypoints/openai/chat_completion/serving.py b/vllm/entrypoints/openai/chat_completion/serving.py
@@ -388,7 +388,9 @@ async def create_chat_completion(
 
                 max_tokens = get_max_tokens(
                     self.max_model_len,
-                    request,
+                    request.max_completion_tokens
+                    if request.max_completion_tokens is not None
+                    else request.max_tokens,
                     self._extract_prompt_len(engine_prompt),
                     self.default_sampling_params,
                 )
diff --git a/vllm/entrypoints/openai/completion/serving.py b/vllm/entrypoints/openai/completion/serving.py
@@ -164,7 +164,7 @@ async def create_completion(
 
                 max_tokens = get_max_tokens(
                     self.max_model_len,
-                    request,
+                    request.max_tokens,
                     self._extract_prompt_len(engine_prompt),
                     self.default_sampling_params,
                 )
diff --git a/vllm/entrypoints/openai/engine/serving.py b/vllm/entrypoints/openai/engine/serving.py
@@ -1176,7 +1176,7 @@ async def _generate_with_builtin_tools(
 
                 sampling_params.max_tokens = get_max_tokens(
                     self.max_model_len,
-                    context.request,
+                    context.request.max_output_tokens,
                     self._extract_prompt_len(engine_prompt),
                     self.default_sampling_params,  # type: ignore
                 )
diff --git a/vllm/entrypoints/openai/responses/serving.py b/vllm/entrypoints/openai/responses/serving.py
@@ -441,7 +441,7 @@ async def create_responses(
 
                 default_max_tokens = get_max_tokens(
                     self.max_model_len,
-                    request,
+                    request.max_output_tokens,
                     self._extract_prompt_len(engine_prompt),
                     self.default_sampling_params,
                 )
diff --git a/vllm/entrypoints/utils.py b/vllm/entrypoints/utils.py
@@ -22,23 +22,11 @@
 from vllm.utils.argparse_utils import FlexibleArgumentParser
 
 if TYPE_CHECKING:
-    from vllm.entrypoints.openai.chat_completion.protocol import (
-        ChatCompletionRequest,
-    )
-    from vllm.entrypoints.openai.completion.protocol import (
-        CompletionRequest,
-    )
-    from vllm.entrypoints.openai.engine.protocol import (
-        StreamOptions,
-    )
+    from vllm.entrypoints.openai.engine.protocol import StreamOptions
     from vllm.entrypoints.openai.models.protocol import LoRAModulePath
-    from vllm.entrypoints.openai.responses.protocol import ResponsesRequest
 else:
-    ChatCompletionRequest = object
-    CompletionRequest = object
     StreamOptions = object
     LoRAModulePath = object
-    ResponsesRequest = object
 
 
 logger = init_logger(__name__)
@@ -186,22 +174,10 @@ def cli_env_setup():
 
 def get_max_tokens(
     max_model_len: int,
-    request: "CompletionRequest | ChatCompletionRequest | ResponsesRequest",
+    max_tokens: int | None,
     input_length: int,
     default_sampling_params: dict,
 ) -> int:
-    # NOTE: Avoid isinstance() for better efficiency
-    max_tokens: int | None = None
-    if max_tokens is None:
-        # ChatCompletionRequest
-        max_tokens = getattr(request, "max_completion_tokens", None)
-    if max_tokens is None:
-        # ResponsesRequest
-        max_tokens = getattr(request, "max_output_tokens", None)
-    if max_tokens is None:
-        # CompletionRequest (also a fallback for ChatCompletionRequest)
-        max_tokens = getattr(request, "max_tokens", None)
-
     default_max_tokens = max_model_len - input_length
     max_output_tokens = current_platform.get_max_output_tokens(input_length)
 

Original file line number	Diff line number	Diff line change
`@@ -164,7 +164,7 @@ async def create_completion(`
`164`	`164`
`165`	`165`	`max_tokens = get_max_tokens(`
`166`	`166`	`self.max_model_len,`
`167`		`- request,`
	`167`	`+ request.max_tokens,`
`168`	`168`	`self._extract_prompt_len(engine_prompt),`
`169`	`169`	`self.default_sampling_params,`
`170`	`170`	`)`
Original file line number	Diff line number	Diff line change
`@@ -1176,7 +1176,7 @@ async def _generate_with_builtin_tools(`
`1176`	`1176`
`1177`	`1177`	`sampling_params.max_tokens = get_max_tokens(`
`1178`	`1178`	`self.max_model_len,`
`1179`		`- context.request,`
	`1179`	`+ context.request.max_output_tokens,`
`1180`	`1180`	`self._extract_prompt_len(engine_prompt),`
`1181`	`1181`	`self.default_sampling_params, # type: ignore`
`1182`	`1182`	`)`
Original file line number	Diff line number	Diff line change
`@@ -441,7 +441,7 @@ async def create_responses(`
`441`	`441`
`442`	`442`	`default_max_tokens = get_max_tokens(`
`443`	`443`	`self.max_model_len,`
`444`		`- request,`
	`444`	`+ request.max_output_tokens,`
`445`	`445`	`self._extract_prompt_len(engine_prompt),`
`446`	`446`	`self.default_sampling_params,`
`447`	`447`	`)`