Unify RPS and Concurrent Scheduler Paths (#233)

sjmonson · markurtz · web-flow · commit ad9513fd5f89 · 2025-09-05T13:01:35.000-04:00
Unify the scheduling method used for async and synchronous modes in preparation for multi-turn conversation support. This change with also significantly reduce the number PIDs used by GuideLLM at high concurrency. Relates to #196 --------- Signed-off-by: Samuel Monson <smonson@redhat.com> Co-authored-by: Mark Kurtz <mark.j.kurtz@gmail.com>
diff --git a/src/guidellm/benchmark/aggregator.py b/src/guidellm/benchmark/aggregator.py
@@ -32,11 +32,11 @@
     GenerationRequest,
     GenerativeRequestLoaderDescription,
     RequestLoaderDescription,
+    RequestT,
+    ResponseT,
 )
 from guidellm.scheduler import (
     GenerativeRequestsWorkerDescription,
-    RequestT,
-    ResponseT,
     SchedulerRequestResult,
     WorkerDescription,
 )
diff --git a/src/guidellm/benchmark/benchmarker.py b/src/guidellm/benchmark/benchmarker.py
@@ -27,12 +27,12 @@
     GenerationRequest,
     GenerativeRequestLoaderDescription,
     RequestLoaderDescription,
+    RequestT,
+    ResponseT,
 )
 from guidellm.scheduler import (
     GenerativeRequestsWorker,
     RequestsWorker,
-    RequestT,
-    ResponseT,
     Scheduler,
     SchedulerRequestResult,
     SchedulingStrategy,
diff --git a/src/guidellm/config.py b/src/guidellm/config.py
@@ -1,4 +1,5 @@
 import json
+import os
 from collections.abc import Sequence
 from enum import Enum
 from typing import Literal, Optional
@@ -131,8 +132,12 @@ class Settings(BaseSettings):
 
     # Scheduler settings
     max_concurrency: int = 512
-    max_worker_processes: int = 10
-    max_add_requests_per_loop: int = 20
+    max_worker_processes: int = Field(
+        # use number of CPUs - 1, but at least 10
+        default_factory=lambda: max((os.cpu_count() or 1) - 1, 10)
+    )
+    min_queued_requests: int = 20
+    scheduler_start_delay: float = 5
 
     # Data settings
     dataset: DatasetSettings = DatasetSettings()
diff --git a/src/guidellm/request/__init__.py b/src/guidellm/request/__init__.py
@@ -5,11 +5,14 @@
     RequestLoaderDescription,
 )
 from .request import GenerationRequest
+from .types import RequestT, ResponseT
 
 __all__ = [
     "GenerationRequest",
     "GenerativeRequestLoader",
     "GenerativeRequestLoaderDescription",
     "RequestLoader",
     "RequestLoaderDescription",
+    "RequestT",
+    "ResponseT",
 ]
diff --git a/src/guidellm/request/loader.py b/src/guidellm/request/loader.py
@@ -30,10 +30,10 @@ class RequestLoaderDescription(StandardBaseModel):
 
 class RequestLoader(Iterable):
     @abstractmethod
-    def __iter__(self): ...
+    def __iter__(self) -> Iterator: ...
 
     @abstractmethod
-    def __len__(self): ...
+    def __len__(self) -> int: ...
 
     @property
     @abstractmethod
diff --git a/src/guidellm/request/types.py b/src/guidellm/request/types.py
@@ -1,6 +1,9 @@
 from typing import TypeVar
 
-__all__ = ["RequestT", "ResponseT"]
+__all__ = [
+    "RequestT",
+    "ResponseT",
+]
 
 
 RequestT = TypeVar("RequestT")
diff --git a/src/guidellm/scheduler/__init__.py b/src/guidellm/scheduler/__init__.py
@@ -15,14 +15,12 @@
     ThroughputStrategy,
     strategy_display_str,
 )
-from .types import RequestT, ResponseT
 from .worker import (
     GenerativeRequestsWorker,
     GenerativeRequestsWorkerDescription,
     RequestsWorker,
     ResolveStatus,
     WorkerDescription,
-    WorkerProcessRequest,
     WorkerProcessResult,
 )
 
@@ -32,10 +30,8 @@
     "ConcurrentStrategy",
     "GenerativeRequestsWorker",
     "GenerativeRequestsWorkerDescription",
-    "RequestT",
     "RequestsWorker",
     "ResolveStatus",
-    "ResponseT",
     "Scheduler",
     "SchedulerRequestInfo",
     "SchedulerRequestResult",
@@ -46,7 +42,6 @@
     "SynchronousStrategy",
     "ThroughputStrategy",
     "WorkerDescription",
-    "WorkerProcessRequest",
     "WorkerProcessResult",
     "strategy_display_str",
 ]
diff --git a/src/guidellm/scheduler/queues.py b/src/guidellm/scheduler/queues.py
@@ -0,0 +1,25 @@
+"""
+Helper module for importing the correct queue types.
+"""
+
+from dataclasses import dataclass
+from queue import Empty as QueueEmpty
+from queue import Full as QueueFull
+from queue import Queue
+from typing import Generic
+
+from guidellm.request.types import RequestT, ResponseT
+from guidellm.scheduler.result import WorkerProcessRequest, WorkerProcessResult
+
+__all__ = [
+    "MPQueues",
+    "Queue",
+    "QueueEmpty",
+    "QueueFull",
+]
+
+
+@dataclass
+class MPQueues(Generic[RequestT, ResponseT]):
+    requests: Queue[WorkerProcessRequest[RequestT, ResponseT]]
+    responses: Queue[WorkerProcessResult[RequestT, ResponseT]]
diff --git a/src/guidellm/scheduler/result.py b/src/guidellm/scheduler/result.py
@@ -1,18 +1,21 @@
+from dataclasses import dataclass
 from typing import (
     Generic,
     Literal,
     Optional,
 )
 
 from guidellm.objects import StandardBaseModel
+from guidellm.request.types import RequestT, ResponseT
 from guidellm.scheduler.strategy import SchedulingStrategy
-from guidellm.scheduler.types import RequestT, ResponseT
 
 __all__ = [
     "SchedulerRequestInfo",
     "SchedulerRequestResult",
     "SchedulerResult",
     "SchedulerRunInfo",
+    "WorkerProcessRequest",
+    "WorkerProcessResult",
 ]
 
 
@@ -135,3 +138,18 @@ class SchedulerRequestResult(
     request: RequestT
     request_info: SchedulerRequestInfo
     response: Optional[ResponseT] = None
+
+
+@dataclass
+class WorkerProcessRequest(Generic[RequestT, ResponseT]):
+    request: RequestT
+    timeout_time: float
+    queued_time: float
+
+
+@dataclass
+class WorkerProcessResult(Generic[RequestT, ResponseT]):
+    type_: Literal["request_scheduled", "request_start", "request_complete"]
+    request: RequestT
+    response: Optional[ResponseT]
+    info: SchedulerRequestInfo
diff --git a/src/guidellm/scheduler/scheduler.py b/src/guidellm/scheduler/scheduler.py
diff --git a/src/guidellm/scheduler/strategy.py b/src/guidellm/scheduler/strategy.py
diff --git a/src/guidellm/scheduler/worker.py b/src/guidellm/scheduler/worker.py

Original file line number	Diff line number	Diff line change
`@@ -32,11 +32,11 @@`
`32`	`32`	`GenerationRequest,`
`33`	`33`	`GenerativeRequestLoaderDescription,`
`34`	`34`	`RequestLoaderDescription,`
	`35`	`+ RequestT,`
	`36`	`+ ResponseT,`
`35`	`37`	`)`
`36`	`38`	`from guidellm.scheduler import (`
`37`	`39`	`GenerativeRequestsWorkerDescription,`
`38`		`- RequestT,`
`39`		`- ResponseT,`
`40`	`40`	`SchedulerRequestResult,`
`41`	`41`	`WorkerDescription,`
`42`	`42`	`)`
Original file line number	Diff line number	Diff line change
`@@ -5,11 +5,14 @@`
`5`	`5`	`RequestLoaderDescription,`
`6`	`6`	`)`
`7`	`7`	`from .request import GenerationRequest`
	`8`	`+from .types import RequestT, ResponseT`
`8`	`9`
`9`	`10`	`__all__ = [`
`10`	`11`	`"GenerationRequest",`
`11`	`12`	`"GenerativeRequestLoader",`
`12`	`13`	`"GenerativeRequestLoaderDescription",`
`13`	`14`	`"RequestLoader",`
`14`	`15`	`"RequestLoaderDescription",`
	`16`	`+ "RequestT",`
	`17`	`+ "ResponseT",`
`15`	`18`	`]`