bghira · bghira · Jan 17, 2026 · Jan 16, 2026 · Jan 17, 2026
diff --git a/documentation/OPTIONS.es.md b/documentation/OPTIONS.es.md
@@ -964,6 +964,61 @@ CREPA es una técnica de regularización para fine-tuning de modelos de difusió
 - **Por qué**: Los modelos DINOv2 funcionan mejor a su resolución de entrenamiento. El modelo gigante usa 518x518.
 - **Predeterminado**: `518`
 
+### `--crepa_scheduler`
+
+- **Qué**: Programa para el decaimiento del coeficiente CREPA durante el entrenamiento.
+- **Por qué**: Permite reducir la fuerza de regularización CREPA a medida que avanza el entrenamiento, previniendo el sobreajuste en características profundas del encoder.
+- **Opciones**: `constant`, `linear`, `cosine`, `polynomial`
+- **Predeterminado**: `constant`
+
+### `--crepa_warmup_steps`
+
+- **Qué**: Número de pasos para incrementar linealmente el peso CREPA desde 0 hasta `crepa_lambda`.
+- **Por qué**: Un calentamiento gradual puede ayudar a estabilizar el entrenamiento temprano antes de que la regularización CREPA entre en efecto.
+- **Predeterminado**: `0`
+
+### `--crepa_decay_steps`
+
+- **Qué**: Pasos totales para el decaimiento (después del calentamiento). Establece a 0 para decaer durante todo el entrenamiento.
+- **Por qué**: Controla la duración de la fase de decaimiento. El decaimiento comienza después de que se completa el calentamiento.
+- **Predeterminado**: `0` (usa `max_train_steps`)
+
+### `--crepa_lambda_end`
+
+- **Qué**: Peso CREPA final después de que se completa el decaimiento.
+- **Por qué**: Establecerlo a 0 desactiva efectivamente CREPA al final del entrenamiento, útil para text2video donde CREPA puede causar artefactos.
+- **Predeterminado**: `0.0`
+
+### `--crepa_power`
+
+- **Qué**: Factor de potencia para el decaimiento polinomial. 1.0 = lineal, 2.0 = cuadrático, etc.
+- **Por qué**: Valores más altos causan un decaimiento inicial más rápido que se ralentiza hacia el final.
+- **Predeterminado**: `1.0`
+
+### `--crepa_cutoff_step`
+
+- **Qué**: Paso de corte duro después del cual CREPA se desactiva.
+- **Por qué**: Útil para desactivar CREPA después de que el modelo ha convergido en el alineamiento temporal.
+- **Predeterminado**: `0` (sin corte basado en pasos)
+
+### `--crepa_similarity_threshold`
+
+- **Qué**: Umbral de EMA de similitud en el cual se activa el corte de CREPA.
+- **Por qué**: Cuando el promedio móvil exponencial de similitud alcanza este valor, CREPA se desactiva para prevenir el sobreajuste en características profundas del encoder. Esto es particularmente útil para entrenamiento text2video.
+- **Predeterminado**: None (desactivado)
+
+### `--crepa_similarity_ema_decay`
+
+- **Qué**: Factor de decaimiento del promedio móvil exponencial para el seguimiento de similitud.
+- **Por qué**: Valores más altos proporcionan un seguimiento más suave (0.99 ≈ ventana de 100 pasos), valores más bajos reaccionan más rápido a los cambios.
+- **Predeterminado**: `0.99`
+
+### `--crepa_threshold_mode`
+
+- **Qué**: Comportamiento cuando se alcanza el umbral de similitud.
+- **Opciones**: `permanent` (CREPA permanece desactivado una vez que se alcanza el umbral), `recoverable` (CREPA se reactiva si la similitud cae)
+- **Predeterminado**: `permanent`
+
 ### Ejemplo de configuración
 
 ```toml
@@ -981,6 +1036,15 @@ crepa_encoder_frames_batch_size = -1
 crepa_use_backbone_features = false
 # crepa_teacher_block_index = 16
 crepa_encoder_image_size = 518
+
+# Programación CREPA (opcional)
+# crepa_scheduler = "cosine"           # Tipo de decaimiento: constant, linear, cosine, polynomial
+# crepa_warmup_steps = 100             # Calentamiento antes de que CREPA entre en efecto
+# crepa_decay_steps = 1000             # Pasos para el decaimiento (0 = todo el entrenamiento)
+# crepa_lambda_end = 0.0               # Peso final después del decaimiento
+# crepa_cutoff_step = 5000             # Paso de corte duro (0 = desactivado)
+# crepa_similarity_threshold = 0.9    # Corte basado en similitud
+# crepa_threshold_mode = "permanent"   # permanent o recoverable
 ```
 
 ---

diff --git a/documentation/OPTIONS.hi.md b/documentation/OPTIONS.hi.md
@@ -962,6 +962,61 @@ CREPA एक regularization तकनीक है जो video diffusion models
 - **Why**: DINOv2 models अपने training resolution पर बेहतर काम करते हैं। giant model 518x518 उपयोग करता है।
 - **Default**: `518`
 
+### `--crepa_scheduler`
+
+- **What**: training के दौरान CREPA coefficient decay का schedule।
+- **Why**: जैसे-जैसे training आगे बढ़े, CREPA regularization strength को कम करने देता है, deep encoder features पर overfitting रोकता है।
+- **Options**: `constant`, `linear`, `cosine`, `polynomial`
+- **Default**: `constant`
+
+### `--crepa_warmup_steps`
+
+- **What**: CREPA weight को 0 से `crepa_lambda` तक linearly ramp करने के लिए steps की संख्या।
+- **Why**: gradual warmup CREPA regularization शुरू होने से पहले early training को stabilize करने में मदद कर सकता है।
+- **Default**: `0`
+
+### `--crepa_decay_steps`
+
+- **What**: decay के लिए कुल steps (warmup के बाद)। 0 सेट करने पर पूरी training run पर decay होगा।
+- **Why**: decay phase की duration नियंत्रित करता है। warmup पूरा होने के बाद decay शुरू होता है।
+- **Default**: `0` (`max_train_steps` उपयोग होगा)
+
+### `--crepa_lambda_end`
+
+- **What**: decay पूरा होने के बाद final CREPA weight।
+- **Why**: 0 सेट करने पर training के अंत में CREPA प्रभावी रूप से disable हो जाता है, text2video के लिए उपयोगी जहाँ CREPA artifacts पैदा कर सकता है।
+- **Default**: `0.0`
+
+### `--crepa_power`
+
+- **What**: polynomial decay के लिए power factor। 1.0 = linear, 2.0 = quadratic, आदि।
+- **Why**: higher values शुरुआत में तेज decay करते हैं जो अंत की ओर धीमा हो जाता है।
+- **Default**: `1.0`
+
+### `--crepa_cutoff_step`
+
+- **What**: hard cutoff step जिसके बाद CREPA disable हो जाता है।
+- **Why**: model temporal alignment पर converge होने के बाद CREPA disable करने के लिए उपयोगी।
+- **Default**: `0` (कोई step-based cutoff नहीं)
+
+### `--crepa_similarity_threshold`
+
+- **What**: similarity EMA threshold जिस पर CREPA cutoff trigger होता है।
+- **Why**: जब similarity का exponential moving average इस मान तक पहुँचता है, तो deep encoder features पर overfitting रोकने के लिए CREPA disable हो जाता है। text2video training के लिए विशेष रूप से उपयोगी।
+- **Default**: None (disabled)
+
+### `--crepa_similarity_ema_decay`
+
+- **What**: similarity tracking के लिए exponential moving average decay factor।
+- **Why**: higher values smoother tracking देते हैं (0.99 ≈ 100-step window), lower values changes पर तेज react करते हैं।
+- **Default**: `0.99`
+
+### `--crepa_threshold_mode`
+
+- **What**: similarity threshold पहुँचने पर व्यवहार।
+- **Options**: `permanent` (threshold hit होने पर CREPA permanently off रहता है), `recoverable` (similarity गिरने पर CREPA फिर से enable होता है)
+- **Default**: `permanent`
+
 ### Example Configuration
 
 ```toml
@@ -979,6 +1034,15 @@ crepa_encoder_frames_batch_size = -1
 crepa_use_backbone_features = false
 # crepa_teacher_block_index = 16
 crepa_encoder_image_size = 518
+
+# CREPA Scheduling (optional)
+# crepa_scheduler = "cosine"           # Decay type: constant, linear, cosine, polynomial
+# crepa_warmup_steps = 100             # Warmup before CREPA kicks in
+# crepa_decay_steps = 1000             # Steps for decay (0 = entire training)
+# crepa_lambda_end = 0.0               # Final weight after decay
+# crepa_cutoff_step = 5000             # Hard cutoff step (0 = disabled)
+# crepa_similarity_threshold = 0.9    # Similarity-based cutoff
+# crepa_threshold_mode = "permanent"   # permanent or recoverable
 ```
 
 ---

diff --git a/documentation/OPTIONS.ja.md b/documentation/OPTIONS.ja.md
@@ -966,12 +966,67 @@ CREPA は動画拡散モデルのファインチューニング向け正則化
 - **理由**: DINOv2 は学習時の解像度で最も良く動作します。巨大モデルは 518x518 を使用します。
 - **既定**: `518`
 
+### `--crepa_scheduler`
+
+- **内容**: 学習中の CREPA 係数減衰スケジュール。
+- **理由**: 学習が進むにつれて CREPA 正則化の強度を下げることで、深層エンコーダ特徴への過学習を防ぎます。
+- **選択肢**: `constant`、`linear`、`cosine`、`polynomial`
+- **既定**: `constant`
+
+### `--crepa_warmup_steps`
+
+- **内容**: CREPA 重みを 0 から `crepa_lambda` まで線形に上昇させるステップ数。
+- **理由**: 段階的なウォームアップにより、CREPA 正則化が有効になる前の初期学習を安定させます。
+- **既定**: `0`
+
+### `--crepa_decay_steps`
+
+- **内容**: 減衰の総ステップ数（ウォームアップ後）。0 に設定すると学習全体で減衰します。
+- **理由**: 減衰フェーズの期間を制御します。減衰はウォームアップ完了後に開始されます。
+- **既定**: `0`（`max_train_steps` を使用）
+
+### `--crepa_lambda_end`
+
+- **内容**: 減衰完了後の最終 CREPA 重み。
+- **理由**: 0 に設定すると学習終了時に CREPA を実質的に無効化できます。text2video で CREPA がアーティファクトを引き起こす場合に有用です。
+- **既定**: `0.0`
+
+### `--crepa_power`
+
+- **内容**: 多項式減衰のべき乗係数。1.0 = 線形、2.0 = 二次など。
+- **理由**: 値が大きいほど初期の減衰が速く、終盤に向けて緩やかになります。
+- **既定**: `1.0`
+
+### `--crepa_cutoff_step`
+
+- **内容**: CREPA を無効化するハードカットオフステップ。
+- **理由**: モデルが時間的整合に収束した後に CREPA を無効化するのに有用です。
+- **既定**: `0`（ステップベースのカットオフなし）
+
+### `--crepa_similarity_threshold`
+
+- **内容**: CREPA カットオフをトリガーする類似度 EMA 閾値。
+- **理由**: 類似度の指数移動平均がこの値に達すると、深層エンコーダ特徴への過学習を防ぐために CREPA が無効化されます。text2video 学習に特に有用です。
+- **既定**: なし（無効）
+
+### `--crepa_similarity_ema_decay`
+
+- **内容**: 類似度追跡の指数移動平均減衰係数。
+- **理由**: 値が大きいほど滑らかな追跡（0.99 ≈ 100 ステップウィンドウ）、値が小さいほど変化に素早く反応します。
+- **既定**: `0.99`
+
+### `--crepa_threshold_mode`
+
+- **内容**: 類似度閾値に達した際の動作。
+- **選択肢**: `permanent`（閾値に達すると CREPA はオフのまま）、`recoverable`（類似度が下がると CREPA が再有効化）
+- **既定**: `permanent`
+
 ### 設定例
 
 ```toml
-# Enable CREPA for video fine-tuning
+# 動画ファインチューニング用 CREPA を有効化
 crepa_enabled = true
-crepa_block_index = 8          # Adjust based on your model
+crepa_block_index = 8          # モデルに応じて調整
 crepa_lambda = 0.5
 crepa_adjacent_distance = 1
 crepa_adjacent_tau = 1.0
@@ -983,6 +1038,15 @@ crepa_encoder_frames_batch_size = -1
 crepa_use_backbone_features = false
 # crepa_teacher_block_index = 16
 crepa_encoder_image_size = 518
+
+# CREPA スケジューリング（オプション）
+# crepa_scheduler = "cosine"           # 減衰タイプ: constant, linear, cosine, polynomial
+# crepa_warmup_steps = 100             # CREPA 有効化前のウォームアップ
+# crepa_decay_steps = 1000             # 減衰ステップ数（0 = 学習全体）
+# crepa_lambda_end = 0.0               # 減衰後の最終重み
+# crepa_cutoff_step = 5000             # ハードカットオフステップ（0 = 無効）
+# crepa_similarity_threshold = 0.9    # 類似度ベースのカットオフ
+# crepa_threshold_mode = "permanent"   # permanent または recoverable
 ```
 
 ---

diff --git a/documentation/OPTIONS.md b/documentation/OPTIONS.md
@@ -962,6 +962,61 @@ CREPA is a regularization technique for fine-tuning video diffusion models that
 - **Why**: DINOv2 models work best at their training resolution. The giant model uses 518x518.
 - **Default**: `518`
 
+### `--crepa_scheduler`
+
+- **What**: Schedule for CREPA coefficient decay over training.
+- **Why**: Allows reducing CREPA regularization strength as training progresses, preventing overfitting on deep encoder features.
+- **Options**: `constant`, `linear`, `cosine`, `polynomial`
+- **Default**: `constant`
+
+### `--crepa_warmup_steps`
+
+- **What**: Number of steps to linearly ramp CREPA weight from 0 to `crepa_lambda`.
+- **Why**: Gradual warmup can help stabilize early training before CREPA regularization kicks in.
+- **Default**: `0`
+
+### `--crepa_decay_steps`
+
+- **What**: Total steps for decay (after warmup). Set to 0 to decay over entire training run.
+- **Why**: Controls the duration of the decay phase. Decay starts after warmup completes.
+- **Default**: `0` (uses `max_train_steps`)
+
+### `--crepa_lambda_end`
+
+- **What**: Final CREPA weight after decay completes.
+- **Why**: Setting to 0 effectively disables CREPA at end of training, useful for text2video where CREPA may cause artifacts.
+- **Default**: `0.0`
+
+### `--crepa_power`
+
+- **What**: Power factor for polynomial decay. 1.0 = linear, 2.0 = quadratic, etc.
+- **Why**: Higher values cause faster initial decay that slows down towards the end.
+- **Default**: `1.0`
+
+### `--crepa_cutoff_step`
+
+- **What**: Hard cutoff step after which CREPA is disabled.
+- **Why**: Useful for disabling CREPA after model has converged on temporal alignment.
+- **Default**: `0` (no step-based cutoff)
+
+### `--crepa_similarity_threshold`
+
+- **What**: Similarity EMA threshold at which CREPA cutoff triggers.
+- **Why**: When the exponential moving average of similarity reaches this value, CREPA is disabled to prevent overfitting on deep encoder features. This is particularly useful for text2video training.
+- **Default**: None (disabled)
+
+### `--crepa_similarity_ema_decay`
+
+- **What**: Exponential moving average decay factor for similarity tracking.
+- **Why**: Higher values provide smoother tracking (0.99 ≈ 100-step window), lower values react faster to changes.
+- **Default**: `0.99`
+
+### `--crepa_threshold_mode`
+
+- **What**: Behavior when similarity threshold is reached.
+- **Options**: `permanent` (CREPA stays off once threshold is hit), `recoverable` (CREPA re-enables if similarity drops)
+- **Default**: `permanent`
+
 ### Example Configuration
 
 ```toml
@@ -979,6 +1034,15 @@ crepa_encoder_frames_batch_size = -1
 crepa_use_backbone_features = false
 # crepa_teacher_block_index = 16
 crepa_encoder_image_size = 518
+
+# CREPA Scheduling (optional)
+# crepa_scheduler = "cosine"           # Decay type: constant, linear, cosine, polynomial
+# crepa_warmup_steps = 100             # Warmup before CREPA kicks in
+# crepa_decay_steps = 1000             # Steps for decay (0 = entire training)
+# crepa_lambda_end = 0.0               # Final weight after decay
+# crepa_cutoff_step = 5000             # Hard cutoff step (0 = disabled)
+# crepa_similarity_threshold = 0.9    # Similarity-based cutoff
+# crepa_threshold_mode = "permanent"   # permanent or recoverable
 ```
 
 ---

diff --git a/documentation/OPTIONS.pt-BR.md b/documentation/OPTIONS.pt-BR.md
@@ -960,6 +960,61 @@ CREPA e uma tecnica de regularizacao para fine-tuning de modelos de difusao de v
 - **Por que**: Modelos DINOv2 funcionam melhor na resolucao de treino. O modelo giant usa 518x518.
 - **Padrao**: `518`
 
+### `--crepa_scheduler`
+
+- **O que**: Agendamento para decaimento do coeficiente CREPA durante o treinamento.
+- **Por que**: Permite reduzir a forca da regularizacao CREPA conforme o treinamento progride, prevenindo overfitting nas features profundas do encoder.
+- **Opcoes**: `constant`, `linear`, `cosine`, `polynomial`
+- **Padrao**: `constant`
+
+### `--crepa_warmup_steps`
+
+- **O que**: Numero de passos para aumentar linearmente o peso CREPA de 0 ate `crepa_lambda`.
+- **Por que**: Aquecimento gradual pode ajudar a estabilizar o treinamento inicial antes da regularizacao CREPA entrar em acao.
+- **Padrao**: `0`
+
+### `--crepa_decay_steps`
+
+- **O que**: Total de passos para decaimento (apos warmup). Defina como 0 para decair durante todo o treinamento.
+- **Por que**: Controla a duracao da fase de decaimento. O decaimento comeca apos o warmup completar.
+- **Padrao**: `0` (usa `max_train_steps`)
+
+### `--crepa_lambda_end`
+
+- **O que**: Peso CREPA final apos o decaimento completar.
+- **Por que**: Definir como 0 efetivamente desabilita o CREPA no final do treinamento, util para text2video onde CREPA pode causar artefatos.
+- **Padrao**: `0.0`
+
+### `--crepa_power`
+
+- **O que**: Fator de potencia para decaimento polinomial. 1.0 = linear, 2.0 = quadratico, etc.
+- **Por que**: Valores maiores causam decaimento inicial mais rapido que desacelera no final.
+- **Padrao**: `1.0`
+
+### `--crepa_cutoff_step`
+
+- **O que**: Passo de corte rigido apos o qual o CREPA e desabilitado.
+- **Por que**: Util para desabilitar o CREPA apos o modelo convergir no alinhamento temporal.
+- **Padrao**: `0` (sem corte baseado em passo)
+
+### `--crepa_similarity_threshold`
+
+- **O que**: Limiar de EMA de similaridade no qual o corte CREPA e acionado.
+- **Por que**: Quando a media movel exponencial da similaridade atinge este valor, o CREPA e desabilitado para prevenir overfitting nas features profundas do encoder. Isto e particularmente util para treinamento text2video.
+- **Padrao**: None (desabilitado)
+
+### `--crepa_similarity_ema_decay`
+
+- **O que**: Fator de decaimento da media movel exponencial para rastreamento de similaridade.
+- **Por que**: Valores maiores fornecem rastreamento mais suave (0.99 ≈ janela de 100 passos), valores menores reagem mais rapido a mudancas.
+- **Padrao**: `0.99`
+
+### `--crepa_threshold_mode`
+
+- **O que**: Comportamento quando o limiar de similaridade e atingido.
+- **Opcoes**: `permanent` (CREPA permanece desligado apos atingir o limiar), `recoverable` (CREPA reabilita se a similaridade cair)
+- **Padrao**: `permanent`
+
 ### Exemplo de configuracao
 
 ```toml
@@ -977,6 +1032,15 @@ crepa_encoder_frames_batch_size = -1
 crepa_use_backbone_features = false
 # crepa_teacher_block_index = 16
 crepa_encoder_image_size = 518
+
+# Agendamento CREPA (opcional)
+# crepa_scheduler = "cosine"           # Tipo de decaimento: constant, linear, cosine, polynomial
+# crepa_warmup_steps = 100             # Warmup antes do CREPA entrar em acao
+# crepa_decay_steps = 1000             # Passos para decaimento (0 = treinamento inteiro)
+# crepa_lambda_end = 0.0               # Peso final apos decaimento
+# crepa_cutoff_step = 5000             # Passo de corte rigido (0 = desabilitado)
+# crepa_similarity_threshold = 0.9    # Corte baseado em similaridade
+# crepa_threshold_mode = "permanent"   # permanent ou recoverable
 ```
 
 ---