mindspore-lab
diff --git a/‎mindone/diffusers/__init__.py‎
Lines changed: 12 additions & 0 deletions b/‎mindone/diffusers/__init__.py‎
Lines changed: 12 additions & 0 deletions
diff --git a/‎mindone/diffusers/loaders/__init__.py‎
Lines changed: 2 additions & 0 deletions b/‎mindone/diffusers/loaders/__init__.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎mindone/diffusers/loaders/lora_pipeline.py‎
Lines changed: 371 additions & 0 deletions b/‎mindone/diffusers/loaders/lora_pipeline.py‎
Lines changed: 371 additions & 0 deletions
diff --git a/‎mindone/diffusers/models/__init__.py‎
Lines changed: 2 additions & 0 deletions b/‎mindone/diffusers/models/__init__.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎mindone/diffusers/models/embeddings.py‎
Lines changed: 6 additions & 1 deletion b/‎mindone/diffusers/models/embeddings.py‎
Lines changed: 6 additions & 1 deletion
diff --git a/‎mindone/diffusers/models/transformers/__init__.py‎
Lines changed: 1 addition & 0 deletions b/‎mindone/diffusers/models/transformers/__init__.py‎
Lines changed: 1 addition & 0 deletions
@@ -70,6 +70,7 @@
         "SD3ControlNetModel",
         "SD3MultiControlNetModel",
         "SD3Transformer2DModel",
+        "SkyReelsV2Transformer3DModel",
         "SparseControlNetModel",
         "StableAudioDiTModel",
         "StableCascadeUNet",
@@ -219,6 +220,11 @@
         "SemanticStableDiffusionPipeline",
         "ShapEImg2ImgPipeline",
         "ShapEPipeline",
+        "SkyReelsV2DiffusionForcingImageToVideoPipeline",
+        "SkyReelsV2DiffusionForcingPipeline",
+        "SkyReelsV2DiffusionForcingVideoToVideoPipeline",
+        "SkyReelsV2ImageToVideoPipeline",
+        "SkyReelsV2Pipeline",
         "StableAudioPipeline",
         "StableAudioProjectionModel",
         "StableCascadeCombinedPipeline",
@@ -399,6 +405,7 @@
         SD3ControlNetModel,
         SD3MultiControlNetModel,
         SD3Transformer2DModel,
+        SkyReelsV2Transformer3DModel,
         SparseControlNetModel,
         StableAudioDiTModel,
         StableCascadeUNet,
@@ -547,6 +554,11 @@
         SemanticStableDiffusionPipeline,
         ShapEImg2ImgPipeline,
         ShapEPipeline,
+        SkyReelsV2DiffusionForcingImageToVideoPipeline,
+        SkyReelsV2DiffusionForcingPipeline,
+        SkyReelsV2DiffusionForcingVideoToVideoPipeline,
+        SkyReelsV2ImageToVideoPipeline,
+        SkyReelsV2Pipeline,
         StableAudioPipeline,
         StableAudioProjectionModel,
         StableCascadeCombinedPipeline,
 
@@ -76,6 +76,7 @@ def text_encoder_attn_modules(text_encoder):
         "Lumina2LoraLoaderMixin",
         "WanLoraLoaderMixin",
         "HiDreamImageLoraLoaderMixin",
+        "SkyReelsV2LoraLoaderMixin",
     ],
     "peft": ["PeftAdapterMixin"],
     "single_file": ["FromSingleFileMixin"],
@@ -100,6 +101,7 @@ def text_encoder_attn_modules(text_encoder):
         Mochi1LoraLoaderMixin,
         SanaLoraLoaderMixin,
         SD3LoraLoaderMixin,
+        SkyReelsV2LoraLoaderMixin,
         StableDiffusionLoraLoaderMixin,
         StableDiffusionXLLoraLoaderMixin,
         WanLoraLoaderMixin,
 
@@ -78,6 +78,7 @@
     "transformers.transformer_mochi": ["MochiTransformer3DModel"],
     "transformers.transformer_omnigen": ["OmniGenTransformer2DModel"],
     "transformers.transformer_sd3": ["SD3Transformer2DModel"],
+    "transformers.transformer_skyreels_v2": ["SkyReelsV2Transformer3DModel"],
     "transformers.transformer_temporal": ["TransformerTemporalModel"],
     "transformers.transformer_wan": ["WanTransformer3DModel"],
     "unets.unet_1d": ["UNet1DModel"],
@@ -154,6 +155,7 @@
         PriorTransformer,
         SanaTransformer2DModel,
         SD3Transformer2DModel,
+        SkyReelsV2Transformer3DModel,
         StableAudioDiTModel,
         T5FilmDecoder,
         Transformer2DModel,
 
@@ -327,7 +327,7 @@ def get_2d_sincos_pos_embed_from_grid(embed_dim, grid, output_type="np"):
     return emb
 
 
-def get_1d_sincos_pos_embed_from_grid(embed_dim, pos, output_type="np"):
+def get_1d_sincos_pos_embed_from_grid(embed_dim, pos, output_type="np", flip_sin_to_cos=False):
     """
     This function generates 1D positional embeddings from a grid.
 
@@ -360,6 +360,11 @@ def get_1d_sincos_pos_embed_from_grid(embed_dim, pos, output_type="np"):
     emb_cos = mint.cos(out)  # (M, D/2)
 
     emb = mint.concat([emb_sin, emb_cos], dim=1)  # (M, D)
+
+    # flip sine and cosine embeddings
+    if flip_sin_to_cos:
+        emb = mint.cat([emb[:, embed_dim // 2 :], emb[:, : embed_dim // 2]], dim=1)
+
     return emb
 
 
 
@@ -26,5 +26,6 @@
 from .transformer_mochi import MochiTransformer3DModel
 from .transformer_omnigen import OmniGenTransformer2DModel
 from .transformer_sd3 import SD3Transformer2DModel
+from .transformer_skyreels_v2 import SkyReelsV2Transformer3DModel
 from .transformer_temporal import TransformerTemporalModel
 from .transformer_wan import WanTransformer3DModel