mindspore-lab · vigo999 · Aug 29, 2025 · Aug 5, 2025
@@ -232,6 +232,8 @@
         title: PriorTransformer
       - local: api/models/sd3_transformer2d
         title: SD3Transformer2DModel
+      - local: api/models/skyreels_v2_transformer_3d
+        title: SkyReelsV2Transformer3DModel
       - local: api/models/sana_transformer2d
         title: SanaTransformer2DModel
       - local: api/models/stable_audio_transformer
@@ -420,6 +422,8 @@
       title: Semantic Guidance
     - local: api/pipelines/shap_e
       title: Shap-E
+    - local: api/pipelines/skyreels_v2
+      title: SkyReels-V2
     - local: api/pipelines/stable_audio
       title: Stable Audio
     - local: api/pipelines/stable_cascade

@@ -24,7 +24,9 @@ LoRA is a fast and lightweight training method that inserts and trains a signifi
 - `SanaLoraLoaderMixin` provides similar functions for [Sana](../../api/pipelines/sana.md).
 - `HunyuanVideoLoraLoaderMixin` provides similar functions for [HunyuanVideo](../../api/pipelines/hunyuan_video.md).
 - `Lumina2LoraLoaderMixin` provides similar functions for [Lumina2](../../api/pipelines/lumina2.md).
-- `AmusedLoraLoaderMixin` is for the [`AmusedPipeline`].
+- `WanLoraLoaderMixin` provides similar functions for [Wan](../../api/pipelines/wan.md).
+- `SkyReelsV2LoraLoaderMixin` provides similar functions for [SkyReels-V2](../../api/pipelines/skyreels_v2.md).
+- `AmusedLoraLoaderMixin` is for the [AmusedPipeline](../../api/pipelines/amused.md).
 - `LoraBaseMixin` provides a base class with several utility methods to fuse, unfuse, unload, LoRAs and more.
 
 !!! tip
@@ -52,6 +54,10 @@ LoRA is a fast and lightweight training method that inserts and trains a signifi
 
 ::: mindone.diffusers.loaders.lora_pipeline.Lumina2LoraLoaderMixin
 
+::: mindone.diffusers.loaders.lora_pipeline.WanLoraLoaderMixin
+
+::: mindone.diffusers.loaders.lora_pipeline.SkyReelsV2LoraLoaderMixin
+
 ::: mindone.diffusers.loaders.lora_pipeline.AmusedLoraLoaderMixin
 
 ::: mindone.diffusers.loaders.lora_base.LoraBaseMixin
@@ -0,0 +1,26 @@
+<!-- Copyright 2024 The HuggingFace Team. All rights reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with
+the License. You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on
+an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the
+specific language governing permissions and limitations under the License. -->
+
+# SkyReelsV2Transformer3DModel
+
+A Diffusion Transformer model for 3D video-like data was introduced in [SkyReels-V2](https://github.com/SkyworkAI/SkyReels-V2) by the Skywork AI.
+
+The model can be loaded with the following code snippet.
+
+```python
+from mindone.diffusers import SkyReelsV2Transformer3DModel
+
+transformer = SkyReelsV2Transformer3DModel.from_pretrained("Skywork/SkyReels-V2-DF-1.3B-540P-Diffusers", subfolder="transformer", mindspore_dtype=ms.bfloat16)
+```
+
+::: mindone.diffusers.SkyReelsV2Transformer3DModel
+
+::: mindone.diffusers.models.modeling_outputs.Transformer2DModelOutput
@@ -70,6 +70,7 @@
         "SD3ControlNetModel",
         "SD3MultiControlNetModel",
         "SD3Transformer2DModel",
+        "SkyReelsV2Transformer3DModel",
         "SparseControlNetModel",
         "StableAudioDiTModel",
         "StableCascadeUNet",
@@ -219,6 +220,11 @@
         "SemanticStableDiffusionPipeline",
         "ShapEImg2ImgPipeline",
         "ShapEPipeline",
+        "SkyReelsV2DiffusionForcingImageToVideoPipeline",
+        "SkyReelsV2DiffusionForcingPipeline",
+        "SkyReelsV2DiffusionForcingVideoToVideoPipeline",
+        "SkyReelsV2ImageToVideoPipeline",
+        "SkyReelsV2Pipeline",
         "StableAudioPipeline",
         "StableAudioProjectionModel",
         "StableCascadeCombinedPipeline",
@@ -399,6 +405,7 @@
         SD3ControlNetModel,
         SD3MultiControlNetModel,
         SD3Transformer2DModel,
+        SkyReelsV2Transformer3DModel,
         SparseControlNetModel,
         StableAudioDiTModel,
         StableCascadeUNet,
@@ -547,6 +554,11 @@
         SemanticStableDiffusionPipeline,
         ShapEImg2ImgPipeline,
         ShapEPipeline,
+        SkyReelsV2DiffusionForcingImageToVideoPipeline,
+        SkyReelsV2DiffusionForcingPipeline,
+        SkyReelsV2DiffusionForcingVideoToVideoPipeline,
+        SkyReelsV2ImageToVideoPipeline,
+        SkyReelsV2Pipeline,
         StableAudioPipeline,
         StableAudioProjectionModel,
         StableCascadeCombinedPipeline,

@@ -76,6 +76,7 @@ def text_encoder_attn_modules(text_encoder):
         "Lumina2LoraLoaderMixin",
         "WanLoraLoaderMixin",
         "HiDreamImageLoraLoaderMixin",
+        "SkyReelsV2LoraLoaderMixin",
     ],
     "peft": ["PeftAdapterMixin"],
     "single_file": ["FromSingleFileMixin"],
@@ -100,6 +101,7 @@ def text_encoder_attn_modules(text_encoder):
         Mochi1LoraLoaderMixin,
         SanaLoraLoaderMixin,
         SD3LoraLoaderMixin,
+        SkyReelsV2LoraLoaderMixin,
         StableDiffusionLoraLoaderMixin,
         StableDiffusionXLLoraLoaderMixin,
         WanLoraLoaderMixin,