add two configs

zhewenl · zhewenl · commit 9fb7562fd401 · 2025-07-29T17:19:57.000-07:00
diff --git a/.buildkite/lm-eval-harness/configs/DeepSeek-V3.yaml b/.buildkite/lm-eval-harness/configs/DeepSeek-V3.yaml
@@ -1,6 +1,7 @@
 # For vllm script, with -t option (tensor parallel size).
 # bash ./run-lm-eval-gsm-vllm-baseline.sh -m deepseek-ai/DeepSeek-V3 -b 32 -l 250 -f 8
 model_name: "deepseek-ai/DeepSeek-V3"
+backend: "vllm"
 tasks:
 - name: "gsm8k"
   metrics:
@@ -11,6 +12,7 @@ tasks:
 limit: 50
 num_fewshot: 8
 trust_remote_code: True
+# TODO(zhewenl): we should increase bath_size and seq_len when we have MI300X or other large GPUs.
 max_model_len: 1024
 batch_size: 1
 gpu_memory_utilization: 0.98
diff --git a/.buildkite/lm-eval-harness/configs/Meta-Llama-4-Maverick-17B-128E-Instruct-FP8-MM.yaml b/.buildkite/lm-eval-harness/configs/Meta-Llama-4-Maverick-17B-128E-Instruct-FP8-MM.yaml
@@ -0,0 +1,11 @@
+# For hf script, without -t option (tensor parallel size).
+# bash .buildkite/lm-eval-harness/run-lm-eval-gsm-hf-baseline.sh -m meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 -b 32 -l 250 -f 8
+model_name: "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8"
+backend: "vllm-vlm"
+tasks:
+- name: "chartqa"
+  metrics:
+  - name: "relaxed_accuracy,none"
+    value: 0.853
+limit: 100
+num_fewshot: 0
diff --git a/.buildkite/lm-eval-harness/configs/Meta-Llama-4-Maverick-17B-128E-Instruct-FP8.yaml b/.buildkite/lm-eval-harness/configs/Meta-Llama-4-Maverick-17B-128E-Instruct-FP8.yaml
@@ -1,6 +1,7 @@
 # For hf script, without -t option (tensor parallel size).
 # bash .buildkite/lm-eval-harness/run-lm-eval-gsm-hf-baseline.sh -m meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 -b 32 -l 250 -f 8
 model_name: "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8"
+backend: "vllm-vlm"
 tasks:
 - name: "gsm8k"
   metrics:
diff --git a/.buildkite/lm-eval-harness/configs/models-large-h100.txt b/.buildkite/lm-eval-harness/configs/models-large-h100.txt
@@ -1,2 +1 @@
-DeepSeek-V3.yaml
 Meta-Llama-4-Maverick-17B-128E-Instruct-FP8.yaml
diff --git a/.buildkite/lm-eval-harness/configs/models-mm-large-h100.txt b/.buildkite/lm-eval-harness/configs/models-mm-large-h100.txt
@@ -0,0 +1 @@
+Meta-Llama-4-Maverick-17B-128E-Instruct-FP8-MM.yaml

Original file line number	Diff line number	Diff line change
`@@ -1,2 +1 @@`
`1`		`-DeepSeek-V3.yaml`
`2`	`1`	`Meta-Llama-4-Maverick-17B-128E-Instruct-FP8.yaml`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+Meta-Llama-4-Maverick-17B-128E-Instruct-FP8-MM.yaml`