changed enable_checkpoint->enable

wesleytruong · wesleytruong · commit 19bd2df67c47 · 2025-08-21T13:04:11.000-07:00
diff --git a/docs/checkpoint.md b/docs/checkpoint.md
@@ -5,26 +5,26 @@ You may want to enable checkpointing in `torchtitan` for better fault tolerance
 ## A general guide to use checkpoints during training
 
 1. ENABLE CHECKPOINTING
-In your `torchtitan` training config, ensure that `enable_checkpoint` is set to True.
+In your `torchtitan` training config, ensure that under `[checkpoint]`, `enable` is set to True.
 ```
 [checkpoint]
-enable_checkpoint = true
+enable = true
 folder = "checkpoint"
 interval = 500
 ```
 2. SAVE MODEL ONLY
 By setting `last_save_model_only` to `True`, the checkpoint will only contain the model and exclude the optimizer state and extra train states, resulting in a smaller checkpoint size.
 ```
 [checkpoint]
-enable_checkpoint = true
+enable = true
 last_save_model_only = true
 ```
 
 3. CHOOSE DESIRED EXPORT PRECISION
 The default model states are in `float32`. You can choose to export the checkpoint in a lower precision format such as `bfloat16`.
 ```
 [checkpoint]
-enable_checkpoint = true
+enable = true
 last_save_model_only = true
 export_dtype = "bfloat16"
 ```
@@ -34,15 +34,15 @@ In some cases, you may want to partially load from a previous-trained checkpoint
 This parameter takes a list of string that should be excluded from loading.
 ```
 [checkpoint]
-enable_checkpoint = true
+enable = true
 exclude_from_loading = ["data_loader", "lr_scheduler"]
 ```
 When used in command line, the parameter should be a comma-separated list of strings. For example: `--checkpoint.exclude_from_loading data_loader,lr_scheduler`.
 
 5. EXAMPLE CHECKPOINT CONFIGURATION
 ```
 [checkpoint]
-enable_checkpoint = true
+enable = true
 folder = "checkpoint"
 interval = 10
 load_step = 5
@@ -60,7 +60,7 @@ A seed checkpoint does initialization of the model on a single CPU, and can be l
 To create a seed checkpoint, use the same model config as you use for training.
 e.g.
 ```bash
-NGPU=1 CONFIG_FILE=<path_to_model_config> ./run_train.sh --checkpoint.enable_checkpoint --checkpoint.create_seed_checkpoint --parallelism.data_parallel_replicate_degree 1 --parallelism.data_parallel_shard_degree 1 --parallelism.tensor_parallel_degree 1 --parallelism.pipeline_parallel_degree 1 --parallelism.context_parallel_degree 1 --parallelism.expert_parallel_degree 1
+NGPU=1 CONFIG_FILE=<path_to_model_config> ./run_train.sh --checkpoint.enable --checkpoint.create_seed_checkpoint --parallelism.data_parallel_replicate_degree 1 --parallelism.data_parallel_shard_degree 1 --parallelism.tensor_parallel_degree 1 --parallelism.pipeline_parallel_degree 1 --parallelism.context_parallel_degree 1 --parallelism.expert_parallel_degree 1
 ```
 
 ## Conversion support
@@ -86,7 +86,7 @@ This guide will walk you through the steps required to convert a checkpoint from
 1. CHECKPOINT CONFIGURATION
 ```
 [checkpoint]
-enable_checkpoint = true
+enable = true
 folder = "checkpoint"
 interval = 10
 last_save_model_only = true
diff --git a/docs/debugging.md b/docs/debugging.md
@@ -100,7 +100,7 @@ For multiple experimental runs with different parallelism configs, we need to us
 
 
 ```bash
-NGPU=1 CONFIG_FILE="./torchtitan/models/llama3/train_configs/debug_model.toml" ./run_train.sh --checkpoint.enable_checkpoint --checkpoint.create_seed_checkpoint --parallelism.data_parallel_replicate_degree 1 --parallelism.data_parallel_shard_degree 1 --parallelism.tensor_parallel_degree 1 --parallelism.pipeline_parallel_degree 1 --parallelism.context_parallel_degree 1 --parallelism.expert_parallel_degree 1
+NGPU=1 CONFIG_FILE="./torchtitan/models/llama3/train_configs/debug_model.toml" ./run_train.sh --checkpoint.enable --checkpoint.create_seed_checkpoint --parallelism.data_parallel_replicate_degree 1 --parallelism.data_parallel_shard_degree 1 --parallelism.tensor_parallel_degree 1 --parallelism.pipeline_parallel_degree 1 --parallelism.context_parallel_degree 1 --parallelism.expert_parallel_degree 1
 ```
 
 **Note**: Using a seed checkpoint will only make sure a model has same initial weights when configs change, but the training process may not be the same even after setting the seed and the `deterministic` mode, e.g. due to tensor shape change, data precision change, usage of randomness in model code, etc.
diff --git a/tests/integration_tests.py b/tests/integration_tests.py
@@ -108,10 +108,10 @@ def build_test_list():
         OverrideDefinitions(
             [
                 [
-                    "--checkpoint.enable_checkpoint",
+                    "--checkpoint.enable",
                 ],
                 [
-                    "--checkpoint.enable_checkpoint",
+                    "--checkpoint.enable",
                     "--training.steps 20",
                 ],
             ],
@@ -121,13 +121,13 @@ def build_test_list():
         OverrideDefinitions(
             [
                 [
-                    "--checkpoint.enable_checkpoint",
+                    "--checkpoint.enable",
                     "--checkpoint.folder hf_checkpoint",
                     "--checkpoint.last_save_model_only",
                     "--checkpoint.last_save_in_hf",
                 ],
                 [
-                    "--checkpoint.enable_checkpoint",
+                    "--checkpoint.enable",
                     "--checkpoint.initial_load_path artifacts-to-be-uploaded/model_only_hf_checkpoint/hf_checkpoint/step-10/",
                     "--checkpoint.initial_load_model_only",
                     "--checkpoint.initial_load_in_hf",
@@ -139,7 +139,7 @@ def build_test_list():
         OverrideDefinitions(
             [
                 [
-                    "--checkpoint.enable_checkpoint",
+                    "--checkpoint.enable",
                     "--checkpoint.last_save_model_only",
                 ],
             ],
@@ -149,7 +149,7 @@ def build_test_list():
         OverrideDefinitions(
             [
                 [
-                    "--checkpoint.enable_checkpoint",
+                    "--checkpoint.enable",
                     "--checkpoint.last_save_model_only",
                     "--checkpoint.export_dtype bfloat16",
                 ],
@@ -244,14 +244,14 @@ def build_test_list():
         OverrideDefinitions(
             [
                 [
-                    "--checkpoint.enable_checkpoint",
+                    "--checkpoint.enable",
                     "--parallelism.pipeline_parallel_degree 2",
                     "--parallelism.data_parallel_shard_degree 2",
                     "--parallelism.tensor_parallel_degree 2",
                 ],
                 [
                     "--training.steps 20",
-                    "--checkpoint.enable_checkpoint",
+                    "--checkpoint.enable",
                     "--parallelism.pipeline_parallel_degree 2",
                     "--parallelism.data_parallel_shard_degree 2",
                     "--parallelism.tensor_parallel_degree 2",
@@ -443,7 +443,7 @@ def build_test_list():
         OverrideDefinitions(
             [
                 [
-                    "--checkpoint.enable_checkpoint",
+                    "--checkpoint.enable",
                     "--parallelism.tensor_parallel_degree=2",
                     "--parallelism.context_parallel_degree=2",
                     "--training.enable_cpu_offload",
@@ -474,7 +474,7 @@ def build_test_list():
         OverrideDefinitions(
             [
                 [
-                    "--checkpoint.enable_checkpoint",
+                    "--checkpoint.enable",
                 ],
                 [
                     # placeholder for the generation script's generate step
@@ -497,13 +497,13 @@ def build_test_list():
         OverrideDefinitions(
             [
                 [
-                    "--checkpoint.enable_checkpoint",
+                    "--checkpoint.enable",
                     "--training.steps 10",
                 ],
                 # Save at [dp:4] and load at [dp:2, tp:2]. Note that the dataloader should be
                 # excluded during loading to avoid errors caused by mismatched dp_degree.
                 [
-                    "--checkpoint.enable_checkpoint",
+                    "--checkpoint.enable",
                     "--checkpoint.exclude_from_loading lr_scheduler,dataloader,optimizer",
                     "--parallelism.tensor_parallel_degree 2",
                     "--training.steps 20",
diff --git a/tests/integration_tests_ft.py b/tests/integration_tests_ft.py
@@ -32,7 +32,7 @@ def build_test_list():
     integration_tests_flavors["debug_model.toml"] = [
         OverrideDefinitions(
             [
-                ["--training.steps 10", "--checkpoint.enable_checkpoint"],
+                ["--training.steps 10", "--checkpoint.enable"],
             ],
             "Default TorchFT integration test",
             "default_torchft",
diff --git a/tests/unit_tests/test_checkpoint.py b/tests/unit_tests/test_checkpoint.py
@@ -83,7 +83,7 @@ class DummyJobConfig:
     def __init__(self, job):
         self.job = job
         self.checkpoint = CheckpointConfig(
-            enable_checkpoint=True,
+            enable=True,
             async_mode="disabled",
             folder="",
             interval=1,
@@ -114,7 +114,7 @@ def setUp(self):
         self.ft_manager = DummyFTManager()
 
         ckpt_cfg = CheckpointConfig(
-            enable_checkpoint=True,
+            enable=True,
             async_mode="DISABLED",
             folder="",
             interval=1,
diff --git a/torchtitan/components/checkpoint.py b/torchtitan/components/checkpoint.py
@@ -186,7 +186,7 @@ def __init__(
         base_folder: str = "",
         ft_manager: FTManager | None = None,
     ) -> None:
-        self.enable_checkpoint = checkpoint_config.enable_checkpoint
+        self.enable = checkpoint_config.enable
 
         self.ft_manager = (
             ft_manager.manager if ft_manager and ft_manager.enabled else None
@@ -216,10 +216,10 @@ def load_state_dict(state_dict):
 
         async_mode = checkpoint_config.async_mode.lower()
         self.enable_staging = (
-            self.enable_checkpoint and async_mode == AsyncMode.ASYNC_WITH_PINNED_MEM
+            self.enable and async_mode == AsyncMode.ASYNC_WITH_PINNED_MEM
         ) or self.ft_manager
 
-        if not self.enable_checkpoint and self.ft_manager is None:
+        if not self.enable and self.ft_manager is None:
             return
 
         self.states = states
@@ -305,7 +305,7 @@ def __del__(self):
         self.close()
 
     def close(self):
-        if hasattr(self, "enable_checkpoint") and self.enable_checkpoint:
+        if hasattr(self, "enable") and self.enable:
             if hasattr(self, "mp") and self.mp and self.mp.is_alive():
                 self.mp_queue_send.put(Terminate())
                 self.mp.join()
@@ -517,7 +517,7 @@ def load(self, step: int = -1) -> bool:
         if self.ft_manager:
             self._ft_load()
 
-        if not self.enable_checkpoint:
+        if not self.enable:
             return False
 
         model_only = False
@@ -739,7 +739,7 @@ def _save_last_step(self, curr_step: int) -> None:
         )
 
     def _should_save(self, curr_step: int, last_step: bool = False) -> bool:
-        if not self.enable_checkpoint:
+        if not self.enable:
             return False
 
         if curr_step == 1 and self.enable_first_step_checkpoint:
diff --git a/torchtitan/config/job_config.py b/torchtitan/config/job_config.py
@@ -398,13 +398,13 @@ class Parallelism:
 
 @dataclass
 class Checkpoint:
-    enable_checkpoint: bool = False
+    enable: bool = False
     """Whether to enable checkpoint"""
 
     folder: str = "checkpoint"
     """
     The folder to store the checkpoints.
-    When enable_checkpoint is set to true, checkpoints will be in {--job.dump_folder}/{--checkpoint.folder}.
+    When enable is set to true, checkpoints will be in {--job.dump_folder}/{--checkpoint.folder}.
     """
 
     interval: int = 500
diff --git a/torchtitan/experiments/deepseek_v3/train_configs/deepseek_v2.toml b/torchtitan/experiments/deepseek_v3/train_configs/deepseek_v2.toml
@@ -56,7 +56,7 @@ context_parallel_degree = 1
 # expert_parallel_degree = 2  set in custom_args
 
 [checkpoint]
-enable_checkpoint = false
+enable = false
 folder = "checkpoint"
 interval = 10
 model_weights_only = false
diff --git a/torchtitan/experiments/flux/inference/run_infer.sh b/torchtitan/experiments/flux/inference/run_infer.sh
@@ -18,5 +18,5 @@ PYTORCH_ALLOC_CONF="expandable_segments:True" \
 torchrun --nproc_per_node=${NGPU} --rdzv_backend c10d --rdzv_endpoint="localhost:0" \
 --local-ranks-filter ${LOG_RANK} --role rank --tee 3 \
 -m torchtitan.experiments.flux.inference.infer --job.config_file ${CONFIG_FILE} \
---checkpoint.enable_checkpoint \
+--checkpoint.enable \
 --checkpoint.exclude_from_loading=lr_scheduler,dataloader,optimizer "$@"
diff --git a/torchtitan/experiments/flux/tests/integration_tests.py b/torchtitan/experiments/flux/tests/integration_tests.py
@@ -44,10 +44,10 @@ def build_test_list():
         OverrideDefinitions(
             [
                 [
-                    "--checkpoint.enable_checkpoint",
+                    "--checkpoint.enable",
                 ],
                 [
-                    "--checkpoint.enable_checkpoint",
+                    "--checkpoint.enable",
                     "--training.steps 20",
                 ],
             ],
@@ -57,7 +57,7 @@ def build_test_list():
         OverrideDefinitions(
             [
                 [
-                    "--checkpoint.enable_checkpoint",
+                    "--checkpoint.enable",
                     "--checkpoint.last_save_model_only",
                 ],
             ],
diff --git a/torchtitan/experiments/flux/train.py b/torchtitan/experiments/flux/train.py
@@ -167,7 +167,7 @@ def forward_backward_step(
                 int(os.environ["WORLD_SIZE"]) == 1
             ), "Must create seed checkpoint using a single device, to disable sharding."
             assert (
-                config.checkpoint.enable_checkpoint
+                config.checkpoint.enable
             ), "Must enable checkpointing when creating a seed checkpoint."
             trainer.checkpointer.save(curr_step=0, last_step=True)
             logger.info("Created seed checkpoint")
diff --git a/torchtitan/experiments/flux/train_configs/debug_model.toml b/torchtitan/experiments/flux/train_configs/debug_model.toml
@@ -57,7 +57,7 @@ custom_args_module = "torchtitan.experiments.flux.job_config"
 mode = "full"
 
 [checkpoint]
-enable_checkpoint = false
+enable = false
 folder = "checkpoint"
 interval = 10
 last_save_model_only = false
diff --git a/torchtitan/experiments/flux/train_configs/flux_dev_model.toml b/torchtitan/experiments/flux/train_configs/flux_dev_model.toml
@@ -56,7 +56,7 @@ custom_args_module = "torchtitan.experiments.flux.job_config"
 mode = "full"
 
 [checkpoint]
-enable_checkpoint = false
+enable = false
 folder = "checkpoint"
 interval = 1_000
 last_save_model_only = true
diff --git a/torchtitan/experiments/flux/train_configs/flux_schnell_model.toml b/torchtitan/experiments/flux/train_configs/flux_schnell_model.toml
@@ -57,7 +57,7 @@ custom_args_module = "torchtitan.experiments.flux.job_config"
 mode = "full"
 
 [checkpoint]
-enable_checkpoint = false
+enable = false
 folder = "checkpoint"
 interval = 1_000
 last_save_model_only = true
diff --git a/torchtitan/experiments/llama4/scripts/REAME.md b/torchtitan/experiments/llama4/scripts/REAME.md
@@ -7,11 +7,11 @@ This folder contains the scripts for converting officially released Llama 4 chec
 
 From Meta format:
 ```bash
-CONFIG_FILE=../train_configs/llama4_16.toml ./convert_meta_to_dcp.sh --checkpoint.enable_checkpoint --checkpoint.convert_path=[checkpoint_folder] --checkpoint.convert_load_every_n_ranks=8
+CONFIG_FILE=../train_configs/llama4_16.toml ./convert_meta_to_dcp.sh --checkpoint.enable --checkpoint.convert_path=[checkpoint_folder] --checkpoint.convert_load_every_n_ranks=8
 ```
 
 
 From HuggingFace format:
 ```bash
-CONFIG_FILE=../train_configs/llama4_16.toml  ./convert_hf_to_dcp_with_gpus.sh --checkpoint.enable_checkpoint --checkpoint.convert_path=[checkpoint_folder] --checkpoint.convert_load_every_n_ranks=8
+CONFIG_FILE=../train_configs/llama4_16.toml  ./convert_hf_to_dcp_with_gpus.sh --checkpoint.enable --checkpoint.convert_path=[checkpoint_folder] --checkpoint.convert_load_every_n_ranks=8
 ```
diff --git a/torchtitan/experiments/llama4/train_configs/debug_model.toml b/torchtitan/experiments/llama4/train_configs/debug_model.toml
@@ -56,7 +56,7 @@ expert_parallel_degree = 1
 expert_tensor_parallel_degree = 1
 
 [checkpoint]
-enable_checkpoint = false
+enable = false
 folder = "checkpoint"
 interval = 10
 last_save_model_only = false
diff --git a/torchtitan/experiments/llama4/train_configs/llama4_17bx128e.toml b/torchtitan/experiments/llama4/train_configs/llama4_17bx128e.toml
@@ -49,7 +49,7 @@ expert_parallel_degree = 1
 expert_tensor_parallel_degree = 8
 
 [checkpoint]
-enable_checkpoint = false
+enable = false
 folder = "checkpoint"
 interval = 500
 last_save_model_only = true
diff --git a/torchtitan/experiments/llama4/train_configs/llama4_17bx16e.toml b/torchtitan/experiments/llama4/train_configs/llama4_17bx16e.toml
@@ -47,7 +47,7 @@ expert_parallel_degree = 1
 expert_tensor_parallel_degree = 8
 
 [checkpoint]
-enable_checkpoint = false
+enable = false
 folder = "checkpoint"
 interval = 500
 last_save_model_only = true
diff --git a/torchtitan/experiments/qwen3/train_configs/qwen3_0.6b.toml b/torchtitan/experiments/qwen3/train_configs/qwen3_0.6b.toml
@@ -41,7 +41,7 @@ tensor_parallel_degree = 1
 context_parallel_degree = 1
 
 [checkpoint]
-enable_checkpoint = false
+enable = false
 folder = "checkpoint"
 interval = 500
 last_save_model_weights_only = false
diff --git a/torchtitan/experiments/simple_fsdp/tests/integration_tests.py b/torchtitan/experiments/simple_fsdp/tests/integration_tests.py
diff --git a/torchtitan/models/deepseek_v3/train_configs/debug_model.toml b/torchtitan/models/deepseek_v3/train_configs/debug_model.toml
diff --git a/torchtitan/models/deepseek_v3/train_configs/deepseek_v3_16b.toml b/torchtitan/models/deepseek_v3/train_configs/deepseek_v3_16b.toml
diff --git a/torchtitan/models/deepseek_v3/train_configs/deepseek_v3_671b.toml b/torchtitan/models/deepseek_v3/train_configs/deepseek_v3_671b.toml
diff --git a/torchtitan/models/llama3/train_configs/debug_model.toml b/torchtitan/models/llama3/train_configs/debug_model.toml
diff --git a/torchtitan/models/llama3/train_configs/llama3_405b.toml b/torchtitan/models/llama3/train_configs/llama3_405b.toml
diff --git a/torchtitan/models/llama3/train_configs/llama3_70b.toml b/torchtitan/models/llama3/train_configs/llama3_70b.toml
diff --git a/torchtitan/models/llama3/train_configs/llama3_8b.toml b/torchtitan/models/llama3/train_configs/llama3_8b.toml
diff --git a/torchtitan/train.py b/torchtitan/train.py

Original file line number	Diff line number	Diff line change
`@@ -108,10 +108,10 @@ def build_test_list():`
`108`	`108`	`OverrideDefinitions(`
`109`	`109`	`[`
`110`	`110`	`[`
`111`		`- "--checkpoint.enable_checkpoint",`
	`111`	`+ "--checkpoint.enable",`
`112`	`112`	`],`
`113`	`113`	`[`
`114`		`- "--checkpoint.enable_checkpoint",`
	`114`	`+ "--checkpoint.enable",`
`115`	`115`	`"--training.steps 20",`
`116`	`116`	`],`
`117`	`117`	`],`
`@@ -121,13 +121,13 @@ def build_test_list():`
`121`	`121`	`OverrideDefinitions(`
`122`	`122`	`[`
`123`	`123`	`[`
`124`		`- "--checkpoint.enable_checkpoint",`
	`124`	`+ "--checkpoint.enable",`
`125`	`125`	`"--checkpoint.folder hf_checkpoint",`
`126`	`126`	`"--checkpoint.last_save_model_only",`
`127`	`127`	`"--checkpoint.last_save_in_hf",`
`128`	`128`	`],`
`129`	`129`	`[`
`130`		`- "--checkpoint.enable_checkpoint",`
	`130`	`+ "--checkpoint.enable",`
`131`	`131`	`"--checkpoint.initial_load_path artifacts-to-be-uploaded/model_only_hf_checkpoint/hf_checkpoint/step-10/",`
`132`	`132`	`"--checkpoint.initial_load_model_only",`
`133`	`133`	`"--checkpoint.initial_load_in_hf",`
`@@ -139,7 +139,7 @@ def build_test_list():`
`139`	`139`	`OverrideDefinitions(`
`140`	`140`	`[`
`141`	`141`	`[`
`142`		`- "--checkpoint.enable_checkpoint",`
	`142`	`+ "--checkpoint.enable",`
`143`	`143`	`"--checkpoint.last_save_model_only",`
`144`	`144`	`],`
`145`	`145`	`],`
`@@ -149,7 +149,7 @@ def build_test_list():`
`149`	`149`	`OverrideDefinitions(`
`150`	`150`	`[`
`151`	`151`	`[`
`152`		`- "--checkpoint.enable_checkpoint",`
	`152`	`+ "--checkpoint.enable",`
`153`	`153`	`"--checkpoint.last_save_model_only",`
`154`	`154`	`"--checkpoint.export_dtype bfloat16",`
`155`	`155`	`],`
`@@ -244,14 +244,14 @@ def build_test_list():`
`244`	`244`	`OverrideDefinitions(`
`245`	`245`	`[`
`246`	`246`	`[`
`247`		`- "--checkpoint.enable_checkpoint",`
	`247`	`+ "--checkpoint.enable",`
`248`	`248`	`"--parallelism.pipeline_parallel_degree 2",`
`249`	`249`	`"--parallelism.data_parallel_shard_degree 2",`
`250`	`250`	`"--parallelism.tensor_parallel_degree 2",`
`251`	`251`	`],`
`252`	`252`	`[`
`253`	`253`	`"--training.steps 20",`
`254`		`- "--checkpoint.enable_checkpoint",`
	`254`	`+ "--checkpoint.enable",`
`255`	`255`	`"--parallelism.pipeline_parallel_degree 2",`
`256`	`256`	`"--parallelism.data_parallel_shard_degree 2",`
`257`	`257`	`"--parallelism.tensor_parallel_degree 2",`
`@@ -443,7 +443,7 @@ def build_test_list():`
`443`	`443`	`OverrideDefinitions(`
`444`	`444`	`[`
`445`	`445`	`[`
`446`		`- "--checkpoint.enable_checkpoint",`
	`446`	`+ "--checkpoint.enable",`
`447`	`447`	`"--parallelism.tensor_parallel_degree=2",`
`448`	`448`	`"--parallelism.context_parallel_degree=2",`
`449`	`449`	`"--training.enable_cpu_offload",`
`@@ -474,7 +474,7 @@ def build_test_list():`
`474`	`474`	`OverrideDefinitions(`
`475`	`475`	`[`
`476`	`476`	`[`
`477`		`- "--checkpoint.enable_checkpoint",`
	`477`	`+ "--checkpoint.enable",`
`478`	`478`	`],`
`479`	`479`	`[`
`480`	`480`	`# placeholder for the generation script's generate step`
`@@ -497,13 +497,13 @@ def build_test_list():`
`497`	`497`	`OverrideDefinitions(`
`498`	`498`	`[`
`499`	`499`	`[`
`500`		`- "--checkpoint.enable_checkpoint",`
	`500`	`+ "--checkpoint.enable",`
`501`	`501`	`"--training.steps 10",`
`502`	`502`	`],`
`503`	`503`	`# Save at [dp:4] and load at [dp:2, tp:2]. Note that the dataloader should be`
`504`	`504`	`# excluded during loading to avoid errors caused by mismatched dp_degree.`
`505`	`505`	`[`
`506`		`- "--checkpoint.enable_checkpoint",`
	`506`	`+ "--checkpoint.enable",`
`507`	`507`	`"--checkpoint.exclude_from_loading lr_scheduler,dataloader,optimizer",`
`508`	`508`	`"--parallelism.tensor_parallel_degree 2",`
`509`	`509`	`"--training.steps 20",`
Original file line number	Diff line number	Diff line change
`@@ -32,7 +32,7 @@ def build_test_list():`
`32`	`32`	`integration_tests_flavors["debug_model.toml"] = [`
`33`	`33`	`OverrideDefinitions(`
`34`	`34`	`[`
`35`		`- ["--training.steps 10", "--checkpoint.enable_checkpoint"],`
	`35`	`+ ["--training.steps 10", "--checkpoint.enable"],`
`36`	`36`	`],`
`37`	`37`	`"Default TorchFT integration test",`
`38`	`38`	`"default_torchft",`
Original file line number	Diff line number	Diff line change
`@@ -44,10 +44,10 @@ def build_test_list():`
`44`	`44`	`OverrideDefinitions(`
`45`	`45`	`[`
`46`	`46`	`[`
`47`		`- "--checkpoint.enable_checkpoint",`
	`47`	`+ "--checkpoint.enable",`
`48`	`48`	`],`
`49`	`49`	`[`
`50`		`- "--checkpoint.enable_checkpoint",`
	`50`	`+ "--checkpoint.enable",`
`51`	`51`	`"--training.steps 20",`
`52`	`52`	`],`
`53`	`53`	`],`
`@@ -57,7 +57,7 @@ def build_test_list():`
`57`	`57`	`OverrideDefinitions(`
`58`	`58`	`[`
`59`	`59`	`[`
`60`		`- "--checkpoint.enable_checkpoint",`
	`60`	`+ "--checkpoint.enable",`
`61`	`61`	`"--checkpoint.last_save_model_only",`
`62`	`62`	`],`
`63`	`63`	`],`