[Core] Asynchronous h2d in merge_multimodal_embeddings via pinned memory. (vllm-project#23686)

huachenheli · ywang96 · zhewenl · commit 1f14355fc194 · 2025-09-03T15:25:45.000-07:00
Signed-off-by: Chenheli Hua &lt;huachenheli@outlook.com&gt;
Co-authored-by: Roger Wang &lt;hey@rogerw.io&gt;
diff --git a/vllm/model_executor/models/utils.py b/vllm/model_executor/models/utils.py
@@ -508,7 +508,9 @@ def merge_multimodal_embeddings(
     """
     if isinstance(placeholder_token_id, list):
         placeholder_token_id = torch.tensor(placeholder_token_id,
-                                            device=input_ids.device)
+                                            pin_memory=True).to(
+                                                device=input_ids.device,
+                                                non_blocking=True)
         return _merge_multimodal_embeddings(
             inputs_embeds,
             torch.isin(input_ids, placeholder_token_id),