fix: e2e tests per PR.

pawelpaszki · pawelpaszki · commit abca6f95f510 · 2025-11-21T15:38:52.000Z
diff --git a/tests/e2e/heterogeneous_clusters_kind_test.py b/tests/e2e/heterogeneous_clusters_kind_test.py
@@ -31,27 +31,6 @@ def test_heterogeneous_clusters(self):
     def run_heterogeneous_clusters(
         self, gpu_resource_name="nvidia.com/gpu", number_of_gpus=0
     ):
-        # Use GPU-enabled Ray image when GPUs are requested
-        from codeflare_sdk.common.utils import constants
-
-        ray_image = (
-            f"rayproject/ray:{constants.RAY_VERSION}-gpu"
-            if number_of_gpus > 0
-            else f"rayproject/ray:{constants.RAY_VERSION}"
-        )
-
-        # GPU images need more memory due to CUDA libraries
-        if number_of_gpus > 0:
-            head_memory_requests = 4
-            head_memory_limits = 6
-            worker_memory_requests = 4
-            worker_memory_limits = 8
-        else:
-            head_memory_requests = 2
-            head_memory_limits = 2
-            worker_memory_requests = 1
-            worker_memory_limits = 4
-
         for flavor in self.resource_flavors:
             node_labels = (
                 get_flavor_spec(self, flavor).get("spec", {}).get("nodeLabels", {})
@@ -70,16 +49,15 @@ def run_heterogeneous_clusters(
                     num_workers=1,
                     head_cpu_requests="500m",
                     head_cpu_limits="500m",
-                    head_memory_requests=head_memory_requests,
-                    head_memory_limits=head_memory_limits,
+                    head_memory_requests=2,
+                    head_memory_limits=2,
                     worker_cpu_requests="500m",
                     worker_cpu_limits=1,
-                    worker_memory_requests=worker_memory_requests,
-                    worker_memory_limits=worker_memory_limits,
+                    worker_memory_requests=1,
+                    worker_memory_limits=4,
                     worker_extended_resource_requests={
                         gpu_resource_name: number_of_gpus
                     },
-                    image=ray_image,
                     write_to_file=True,
                     verify_tls=False,
                     local_queue=queue_name,
diff --git a/tests/e2e/local_interactive_sdk_kind_test.py b/tests/e2e/local_interactive_sdk_kind_test.py
@@ -49,42 +49,18 @@ def run_local_interactives(
 
         ray.shutdown()
 
-        # Use GPU-enabled Ray image when GPUs are requested
-        from codeflare_sdk.common.utils import constants
-
-        ray_image = (
-            f"rayproject/ray:{constants.RAY_VERSION}-gpu"
-            if number_of_gpus > 0
-            else f"rayproject/ray:{constants.RAY_VERSION}"
-        )
-
-        # GPU images need more memory due to CUDA libraries
-        if number_of_gpus > 0:
-            head_memory_requests = 4
-            head_memory_limits = 6
-            worker_memory_requests = 4
-            worker_memory_limits = 8
-        else:
-            head_memory_requests = None
-            head_memory_limits = None
-            worker_memory_requests = 1
-            worker_memory_limits = 4
-
         cluster = Cluster(
             ClusterConfiguration(
                 name=cluster_name,
                 namespace=self.namespace,
                 num_workers=1,
                 head_cpu_requests="500m",
                 head_cpu_limits="500m",
-                head_memory_requests=head_memory_requests,
-                head_memory_limits=head_memory_limits,
                 worker_cpu_requests="500m",
                 worker_cpu_limits=1,
-                worker_memory_requests=worker_memory_requests,
-                worker_memory_limits=worker_memory_limits,
+                worker_memory_requests=1,
+                worker_memory_limits=4,
                 worker_extended_resource_requests={gpu_resource_name: number_of_gpus},
-                image=ray_image,
                 verify_tls=False,
             )
         )
diff --git a/tests/e2e/mnist.py b/tests/e2e/mnist.py
@@ -42,6 +42,11 @@
 print("ACCELERATOR: is ", os.getenv("ACCELERATOR"))
 ACCELERATOR = os.getenv("ACCELERATOR")
 
+# If GPU is requested but CUDA is not available, fall back to CPU
+if ACCELERATOR == "gpu" and not torch.cuda.is_available():
+    print("Warning: GPU requested but CUDA is not available. Falling back to CPU.")
+    ACCELERATOR = "cpu"
+
 STORAGE_BUCKET_EXISTS = "AWS_DEFAULT_ENDPOINT" in os.environ
 print("STORAGE_BUCKET_EXISTS: ", STORAGE_BUCKET_EXISTS)
 
diff --git a/tests/e2e/mnist_pip_requirements.txt b/tests/e2e/mnist_pip_requirements.txt
@@ -1,4 +1,6 @@
+--extra-index-url https://download.pytorch.org/whl/cu118
+torch==2.5.1
+torchvision==0.20.1
 pytorch_lightning==1.9.5
 torchmetrics==0.9.1
-torchvision==0.20.1
 minio
diff --git a/tests/e2e/mnist_raycluster_sdk_aw_kind_test.py b/tests/e2e/mnist_raycluster_sdk_aw_kind_test.py
@@ -37,42 +37,18 @@ def test_mnist_ray_cluster_sdk_kind_nvidia_gpu(self):
     def run_mnist_raycluster_sdk_kind(
         self, accelerator, gpu_resource_name="nvidia.com/gpu", number_of_gpus=0
     ):
-        # Use GPU-enabled Ray image when GPUs are requested
-        from codeflare_sdk.common.utils import constants
-
-        ray_image = (
-            f"rayproject/ray:{constants.RAY_VERSION}-gpu"
-            if number_of_gpus > 0
-            else f"rayproject/ray:{constants.RAY_VERSION}"
-        )
-
-        # GPU images need more memory due to CUDA libraries
-        if number_of_gpus > 0:
-            head_memory_requests = 4
-            head_memory_limits = 6
-            worker_memory_requests = 4
-            worker_memory_limits = 8
-        else:
-            head_memory_requests = None
-            head_memory_limits = None
-            worker_memory_requests = 1
-            worker_memory_limits = 4
-
         cluster = Cluster(
             ClusterConfiguration(
                 name="mnist",
                 namespace=self.namespace,
                 num_workers=1,
                 head_cpu_requests="500m",
                 head_cpu_limits="500m",
-                head_memory_requests=head_memory_requests,
-                head_memory_limits=head_memory_limits,
                 worker_cpu_requests="500m",
                 worker_cpu_limits=1,
-                worker_memory_requests=worker_memory_requests,
-                worker_memory_limits=worker_memory_limits,
+                worker_memory_requests=1,
+                worker_memory_limits=4,
                 worker_extended_resource_requests={gpu_resource_name: number_of_gpus},
-                image=ray_image,
                 write_to_file=True,
                 verify_tls=False,
                 appwrapper=True,
diff --git a/tests/e2e/mnist_raycluster_sdk_kind_test.py b/tests/e2e/mnist_raycluster_sdk_kind_test.py
@@ -37,42 +37,18 @@ def test_mnist_ray_cluster_sdk_kind_nvidia_gpu(self):
     def run_mnist_raycluster_sdk_kind(
         self, accelerator, gpu_resource_name="nvidia.com/gpu", number_of_gpus=0
     ):
-        # Use GPU-enabled Ray image when GPUs are requested
-        from codeflare_sdk.common.utils import constants
-
-        ray_image = (
-            f"rayproject/ray:{constants.RAY_VERSION}-gpu"
-            if number_of_gpus > 0
-            else f"rayproject/ray:{constants.RAY_VERSION}"
-        )
-
-        # GPU images need more memory due to CUDA libraries
-        if number_of_gpus > 0:
-            head_memory_requests = 4
-            head_memory_limits = 6
-            worker_memory_requests = 4
-            worker_memory_limits = 8
-        else:
-            head_memory_requests = None
-            head_memory_limits = None
-            worker_memory_requests = 1
-            worker_memory_limits = 4
-
         cluster = Cluster(
             ClusterConfiguration(
                 name="mnist",
                 namespace=self.namespace,
                 num_workers=1,
                 head_cpu_requests="500m",
                 head_cpu_limits="500m",
-                head_memory_requests=head_memory_requests,
-                head_memory_limits=head_memory_limits,
                 worker_cpu_requests="500m",
                 worker_cpu_limits=1,
-                worker_memory_requests=worker_memory_requests,
-                worker_memory_limits=worker_memory_limits,
+                worker_memory_requests=1,
+                worker_memory_limits=4,
                 worker_extended_resource_requests={gpu_resource_name: number_of_gpus},
-                image=ray_image,
                 write_to_file=True,
                 verify_tls=False,
             )