More error catching; run kernels from explicit list

yf225 · yf225 · commit f99c8e196e18 · 2025-08-04T17:03:40.000-07:00
diff --git a/benchmarks/run.py b/benchmarks/run.py
@@ -38,17 +38,6 @@
 #   - Multiple kernels with args: (tritonbench_module, [(helion_module, helion_func), ...], args_dict)
 KERNEL_MAPPINGS: dict[str, tuple[str, ...]] = {  # pyright: ignore[reportAssignmentType]
     # <tritonbench_op_name>: (<tritonbench_module_path>, <helion_kernel_module_path>, <helion_kernel_function_name>)
-    "vector_add": ("tritonbench.operators.vector_add.operator", "examples.add", "add"),
-    "embedding": (
-        "tritonbench.operators.embedding.operator",
-        "examples.embedding",
-        "embedding_tritonbench",
-    ),
-    "vector_exp": (
-        "tritonbench.operators.vector_exp.operator",
-        "examples.exp",
-        "exp_tritonbench",
-    ),
     "rms_norm": (
         "tritonbench.operators.rms_norm.operator",
         "examples.rms_norm",
@@ -57,33 +46,16 @@
             "num_inputs": 3
         },  # TODO(yf225): reduction dim size = 8192 currently throws error
     ),
-    "sum": ("tritonbench.operators.sum.operator", "examples.sum", "sum_tritonbench"),
+    "layer_norm": (
+        "tritonbench.operators.layer_norm.operator",
+        "examples.layer_norm",
+        "layer_norm_fwd",
+    ),
     "softmax": (
         "tritonbench.operators.softmax.operator",
         "examples.softmax",
         "softmax",
     ),
-    "jagged_mean": (
-        "tritonbench.operators.jagged_mean.operator",
-        "examples.jagged_mean",
-        "jagged_mean_tritonbench",
-        {"B": 32, "M": 8, "seqlen": 64}
-        if os.environ.get("HELION_DEV_LOW_VRAM", "0") == "1"
-        else {},
-    ),
-    "fp8_gemm": (
-        "tritonbench.operators.fp8_gemm.fp8_gemm",
-        "examples.fp8_gemm",
-        "fp8_gemm_tritonbench",
-    ),
-    "flash_attention": (
-        "tritonbench.operators.flash_attention.operator",
-        "examples.attention",
-        "attention",
-        {
-            "d_head": 128
-        },  # Set default head dimension to 128 for TLX attention compatibility
-    ),
     "cross_entropy": (
         "tritonbench.operators.cross_entropy.operator",
         "examples.cross_entropy",
@@ -92,25 +64,81 @@
         if os.environ.get("HELION_DEV_LOW_VRAM", "0") == "1"
         else {},
     ),
-    "fp8_attention": (
-        "tritonbench.operators.fp8_attention.operator",
-        "examples.fp8_attention",
-        "fp8_attention_tritonbench",
+    "sum": ("tritonbench.operators.sum.operator", "examples.sum", "sum_tritonbench"),
+    "jagged_mean": (
+        "tritonbench.operators.jagged_mean.operator",
+        "examples.jagged_mean",
+        "jagged_mean_tritonbench",
+        {"B": 32, "M": 8, "seqlen": 64}
+        if os.environ.get("HELION_DEV_LOW_VRAM", "0") == "1"
+        else {},
     ),
-    "layer_norm": (
-        "tritonbench.operators.layer_norm.operator",
-        "examples.layer_norm",
-        "layer_norm_fwd",
+    "vector_add": ("tritonbench.operators.vector_add.operator", "examples.add", "add"),
+    "embedding": (
+        "tritonbench.operators.embedding.operator",
+        "examples.embedding",
+        "embedding_tritonbench",
     ),
-    # Multiple kernel variants:
-    "gemm": (
-        "tritonbench.operators.gemm.operator",
-        [
-            ("examples.matmul", "matmul_tritonbench"),
-            ("examples.matmul_split_k", "matmul_split_k_tritonbench"),
-        ],
+    "vector_exp": (
+        "tritonbench.operators.vector_exp.operator",
+        "examples.exp",
+        "exp_tritonbench",
     ),
+    # "fp8_gemm": (
+    #     "tritonbench.operators.fp8_gemm.fp8_gemm",
+    #     "examples.fp8_gemm",
+    #     "fp8_gemm_tritonbench",
+    # ),
+    # "flash_attention": (
+    #     "tritonbench.operators.flash_attention.operator",
+    #     "examples.attention",
+    #     "attention",
+    #     {
+    #         "d_head": 128
+    #     },  # Set default head dimension to 128 for TLX attention compatibility
+    # ),
+    # "fp8_attention": (
+    #     "tritonbench.operators.fp8_attention.operator",
+    #     "examples.fp8_attention",
+    #     "fp8_attention_tritonbench",
+    # ),
+    # # Multiple kernel variants:
+    # "gemm": (
+    #     "tritonbench.operators.gemm.operator",
+    #     [
+    #         ("examples.matmul", "matmul_tritonbench"),
+    #         ("examples.matmul_split_k", "matmul_split_k_tritonbench"),
+    #     ],
+    # ),
 }
+# KERNEL_MAPPINGS: dict[str, tuple[str, ...]] = {  # pyright: ignore[reportAssignmentType]
+#     "flash_attention": (
+#         "tritonbench.operators.flash_attention.operator",
+#         "examples.attention",
+#         "attention",
+#         {
+#             "d_head": 128
+#         },  # Set default head dimension to 128 for TLX attention compatibility
+#     ),
+#     # Multiple kernel variants:
+#     "gemm": (
+#         "tritonbench.operators.gemm.operator",
+#         [
+#             ("examples.matmul", "matmul_tritonbench"),
+#             ("examples.matmul_split_k", "matmul_split_k_tritonbench"),
+#         ],
+#     ),
+#     "fp8_gemm": (
+#         "tritonbench.operators.fp8_gemm.fp8_gemm",
+#         "examples.fp8_gemm",
+#         "fp8_gemm_tritonbench",
+#     ),
+#     "fp8_attention": (
+#         "tritonbench.operators.fp8_attention.operator",
+#         "examples.fp8_attention",
+#         "fp8_attention_tritonbench",
+#     ),   
+# }
 
 
 def get_system_memory_gb() -> float:
@@ -298,6 +326,23 @@ def run_kernel_variants(
 ) -> None:
     """Run kernel variants in the same benchmark run."""
 
+    # Configure Helion to use fewer generations for faster autotuning during benchmarks
+    import helion
+    from helion.autotuner import DifferentialEvolutionSearch, LocalAutotuneCache
+    from helion.runtime.kernel import BoundKernel
+    from typing import Sequence
+    
+    def fast_autotuner_fn(
+        bound_kernel: BoundKernel, args: Sequence[object], **kwargs: object
+    ) -> LocalAutotuneCache:
+        # Use only 1 generation instead of default 20 for faster benchmarking
+        return LocalAutotuneCache(
+            DifferentialEvolutionSearch(bound_kernel, args, num_generations=1, **kwargs)
+        )
+    
+    # Set the custom autotuner function
+    helion.set_default_settings(helion.Settings(autotuner_fn=fast_autotuner_fn))
+
     # Import tritonbench components
     try:
         from tritonbench.utils.parser import (  # pyright: ignore[reportMissingImports]
diff --git a/benchmarks/run_input_shard.sh b/benchmarks/run_input_shard.sh
@@ -7,27 +7,42 @@ TIMESTAMP=$(date +%s)
 OUTPUT_FILE="benchmarks_autotune_${TIMESTAMP}_input_shard_${SHARD}_of_${WORLD_SIZE}.txt"
 CSV_OUTPUT_DIR="benchmarks_autotune_${TIMESTAMP}_input_shard_${SHARD}_of_${WORLD_SIZE}_csv"
 
+KERNEL_NAME_LIST = (
+    "rms_norm"
+    "layer_norm"
+    "softmax"
+    "cross_entropy"
+    "sum"
+    "jagged_mean"
+    "vector_add"
+    "embedding"
+    "vector_exp"
+)
+
 # Retry until success
 attempt=0
-while true; do
-# while (( attempt < 10 )); do
-    attempt=$((attempt + 1))
-    echo "Attempt $attempt: Running benchmark for shard ${SHARD}/${WORLD_SIZE}..."
+for KERNEL_NAME in KERNEL_NAME_LIST; do
+    while true; do
+    # while (( attempt < 10 )); do
+        attempt=$((attempt + 1))
+        echo "Attempt $attempt: Running benchmark for shard ${SHARD}/${WORLD_SIZE}..."
 
-    # TIMESTAMP=$(date +%s)
-    # OUTPUT_FILE="benchmarks_autotune_${TIMESTAMP}_input_shard_${SHARD}_of_${WORLD_SIZE}.txt"
+        # TIMESTAMP=$(date +%s)
+        # OUTPUT_FILE="benchmarks_autotune_${TIMESTAMP}_input_shard_${SHARD}_of_${WORLD_SIZE}.txt"
 
-    mkdir -p ${CSV_OUTPUT_DIR} || true
-    CUDA_VISIBLE_DEVICES=$((RANK_OFFSET+SHARD-1)) python benchmarks/run.py --input-shard ${SHARD}/${WORLD_SIZE} --metrics accuracy,tflops,gbps,speedup --csv --output-dir ${CSV_OUTPUT_DIR} >"$OUTPUT_FILE" 2>&1
+        mkdir -p ${CSV_OUTPUT_DIR} || true
+        CUDA_VISIBLE_DEVICES=$((RANK_OFFSET+SHARD-1)) python benchmarks/run.py --input-shard ${SHARD}/${WORLD_SIZE} --kernel ${KERNEL_NAME} --metrics accuracy,tflops,gbps,speedup --csv --output-dir ${CSV_OUTPUT_DIR} >"$OUTPUT_FILE" 2>&1
 
-    exit_code=$?
-    if [ $exit_code -eq 0 ]; then
-        echo "Success! Benchmark completed for shard ${SHARD}/${WORLD_SIZE}"
-        break
-    else
-        echo "Failed with exit code $exit_code. Retrying..."
-        sleep 10  # wait a few seconds before retrying
-    fi
+        exit_code=$?
+        # Check for success: exit code 0 AND no exception message in output
+        if [ $exit_code -eq 0 ] && ! grep -q "Caught exception, terminating early with partial results" "$OUTPUT_FILE"; then
+            echo "Success! Benchmark completed for shard $((SHARD+1))/${WORLD_SIZE}"
+            break
+        else
+            echo "Failed with exit code $exit_code. Retrying..."
+            sleep 10  # wait a few seconds before retrying
+        fi
+    done
 done
 
 # Runs the 1st shard of input on GPU-0: