Working with cleaned code

quic-amitraj · quic-amitraj · commit 910f065715f4 · 2025-08-05T08:04:10.000Z
Signed-off-by: Amit Raj &lt;amitraj@qti.qualcomm.com&gt;
diff --git a/QEfficient/diffusers/models/attention.py b/QEfficient/diffusers/models/attention.py
@@ -1,13 +1,8 @@
-from diffusers.models.attention import JointTransformerBlock, _chunked_feed_forward
 import torch
-import torch as nn
-from QEfficient.diffusers.models.attention_processor import QEffJointAttnProcessor2_0
-from QEfficient.diffusers.models.attention_processor import QEffAttention
-from typing import Optional
+from diffusers.models.attention import JointTransformerBlock, _chunked_feed_forward
 
 
 class QEffJointTransformerBlock(JointTransformerBlock):
-        
     def forward(
         self, hidden_states: torch.FloatTensor, encoder_hidden_states: torch.FloatTensor, temb: torch.FloatTensor
     ):
@@ -45,7 +40,7 @@ def forward(
             # "feed_forward_chunk_size" can be used to save memory
             ff_output = _chunked_feed_forward(self.ff, norm_hidden_states, self._chunk_dim, self._chunk_size)
         else:
-            #ff_output = self.ff(norm_hidden_states)
+            # ff_output = self.ff(norm_hidden_states)
             ff_output = self.ff(norm_hidden_states, block_size=4096)
         ff_output = gate_mlp.unsqueeze(1) * ff_output
 
@@ -66,7 +61,7 @@ def forward(
                     self.ff_context, norm_encoder_hidden_states, self._chunk_dim, self._chunk_size
                 )
             else:
-                #context_ff_output = self.ff_context(norm_encoder_hidden_states)
+                # context_ff_output = self.ff_context(norm_encoder_hidden_states)
                 context_ff_output = self.ff_context(norm_encoder_hidden_states, block_size=333)
             encoder_hidden_states = encoder_hidden_states + c_gate_mlp.unsqueeze(1) * context_ff_output
 
diff --git a/QEfficient/diffusers/models/attention_processor.py b/QEfficient/diffusers/models/attention_processor.py
@@ -1,14 +1,13 @@
-from diffusers.models.attention_processor import Attention
-import torch
 from typing import Optional
-import torch as nn
-from diffusers.models.attention_processor import JointAttnProcessor2_0
+
+import torch
+from diffusers.models.attention_processor import Attention, JointAttnProcessor2_0
+
 
 class QEffAttention(Attention):
-    
     def __qeff_init__(self):
-        processor=QEffJointAttnProcessor2_0()
-        self.processor=processor
+        processor = QEffJointAttnProcessor2_0()
+        self.processor = processor
         processor.query_block_size = 64
 
     def get_attention_scores(
@@ -47,8 +46,8 @@ def get_attention_scores(
 
         return attention_probs
 
+
 class QEffJointAttnProcessor2_0(JointAttnProcessor2_0):
-    
     def __call__(
         self,
         attn: QEffAttention,
@@ -110,18 +109,18 @@ def __call__(
 
         # pre-transpose the key
         key = key.transpose(-1, -2)
-        if query.size(-2) != value.size(-2): # cross-attention, use regular attention
+        if query.size(-2) != value.size(-2):  # cross-attention, use regular attention
             # QKV done in single block
             attention_probs = attn.get_attention_scores(query, key, attention_mask)
             hidden_states = torch.bmm(attention_probs, value)
-        else: # self-attention, use blocked attention
+        else:  # self-attention, use blocked attention
             # QKV done with block-attention (a la FlashAttentionV2)
             print(f"{query.shape = }, {key.shape = }, {value.shape = }")
             query_block_size = self.query_block_size
             query_seq_len = query.size(-2)
             num_blocks = (query_seq_len + query_block_size - 1) // query_block_size
             for qidx in range(num_blocks):
-                query_block = query[:,qidx*query_block_size:(qidx+1)*query_block_size,:]
+                query_block = query[:, qidx * query_block_size : (qidx + 1) * query_block_size, :]
                 attention_probs = attn.get_attention_scores(query_block, key, attention_mask)
                 hidden_states_block = torch.bmm(attention_probs, value)
                 if qidx == 0:
diff --git a/QEfficient/diffusers/models/pytorch_transforms.py b/QEfficient/diffusers/models/pytorch_transforms.py
@@ -6,32 +6,30 @@
 # -----------------------------------------------------------------------------
 from typing import Tuple
 
-from torch import nn
-from QEfficient.customop import CustomRMSNormAIC
-
-
-from diffusers import AutoencoderKL
-from QEfficient.base.pytorch_transforms import ModuleMappingTransform, ExternalModuleMapperTransform
 from diffusers.models.attention import JointTransformerBlock
 from diffusers.models.attention_processor import Attention, JointAttnProcessor2_0
+from torch import nn
 
-
-from QEfficient.diffusers.models.attention_processor import QEffAttention, QEffJointAttnProcessor2_0, JointAttnProcessor2_0
+from QEfficient.base.pytorch_transforms import ModuleMappingTransform
 from QEfficient.diffusers.models.attention import QEffJointTransformerBlock
+from QEfficient.diffusers.models.attention_processor import (
+    QEffAttention,
+    QEffJointAttnProcessor2_0,
+)
+
 
 class CustomOpsTransform(ModuleMappingTransform):
-    _module_mapping = {
-    }
+    _module_mapping = {}
 
 
 class AttentionTransform(ModuleMappingTransform):
     _module_mapping = {
-       Attention: QEffAttention,
-       JointAttnProcessor2_0: QEffJointAttnProcessor2_0,
-       JointTransformerBlock: QEffJointTransformerBlock       
+        Attention: QEffAttention,
+        JointAttnProcessor2_0: QEffJointAttnProcessor2_0,
+        JointTransformerBlock: QEffJointTransformerBlock,
     }
-    
+
     @classmethod
     def apply(cls, model: nn.Module) -> Tuple[nn.Module, bool]:
         model, transformed = super().apply(model)
-        return model, transformed
+        return model, transformed
diff --git a/QEfficient/diffusers/pipelines/pipeline_utils.py b/QEfficient/diffusers/pipelines/pipeline_utils.py
@@ -5,14 +5,14 @@
 
 from QEfficient.base.modeling_qeff import QEFFBaseModel
 from QEfficient.base.onnx_transforms import FP16ClipTransform, SplitTensorsTransform
+from QEfficient.diffusers.models.pytorch_transforms import AttentionTransform
 from QEfficient.transformers.models.pytorch_transforms import (
     CustomOpsTransform,
     KVCacheExternalModuleMapperTransform,
     KVCacheTransform,
 )
 from QEfficient.transformers.quantizers.quant_transforms import AwqToMatmulNbitsTransform, GPTQToMatmulNbitsTransform
 from QEfficient.utils.cache import to_hashable
-from QEfficient. diffusers.models.pytorch_transforms import CustomOpsTransform, AttentionTransform
 
 
 class QEffTextEncoder(QEFFBaseModel):
@@ -266,9 +266,7 @@ def get_model_config(self) -> dict:
 
 
 class QEffSD3Transformer2DModel(QEFFBaseModel):
-    _pytorch_transforms = [
-        AttentionTransform, CustomOpsTransform
-    ]
+    _pytorch_transforms = [AttentionTransform, CustomOpsTransform]
     _onnx_transforms = [FP16ClipTransform, SplitTensorsTransform]
 
     def __init__(self, model: nn.modules):
diff --git a/QEfficient/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion.py b/QEfficient/diffusers/pipelines/stable_diffusion/pipeline_stable_diffusion.py
@@ -3,9 +3,9 @@
 
 import numpy as np
 import torch
-
 from diffusers import StableDiffusionPipeline
 from diffusers.image_processor import VaeImageProcessor
+
 from QEfficient.diffusers.pipelines.pipeline_utils import QEffSafetyChecker, QEffTextEncoder, QEffUNet, QEffVAE
 from QEfficient.generation.cloud_infer import QAICInferenceSession
 from QEfficient.utils import constants
@@ -252,14 +252,14 @@ def compile(
 
         # Compile vae_encoder
 
-        encoder_specializations = [
-            {
-                "batch_size": batch_size,
-                "channels": self.vae_encoder.model.config.in_channels,
-                "height": self.vae_encoder.model.config.sample_size,
-                "width": self.vae_encoder.model.config.sample_size,
-            }
-        ]
+        # encoder_specializations = [
+        #     {
+        #         "batch_size": batch_size,
+        #         "channels": self.vae_encoder.model.config.in_channels,
+        #         "height": self.vae_encoder.model.config.sample_size,
+        #         "width": self.vae_encoder.model.config.sample_size,
+        #     }
+        # ]
 
         # self.vae_encoder_compile_path=self.vae_encoder._compile(
         #     onnx_path,
@@ -273,14 +273,14 @@ def compile(
 
         # compile vae decoder
 
-        decoder_sepcializations = [
-            {
-                "batch_size": batch_size,
-                "channels": 4,
-                "height": self.vae_decoder.model.config.sample_size,
-                "width": self.vae_decoder.model.config.sample_size,
-            }
-        ]
+        # decoder_sepcializations = [
+        #     {
+        #         "batch_size": batch_size,
+        #         "channels": 4,
+        #         "height": self.vae_decoder.model.config.sample_size,
+        #         "width": self.vae_decoder.model.config.sample_size,
+        #     }
+        # ]
 
         # self.vae_decoder_compile_path=self.vae_decoder._compile(
         #     onnx_path,
diff --git a/QEfficient/diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion3.py b/QEfficient/diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion3.py
@@ -1,15 +1,14 @@
 import os
-import time
 from typing import Any, Callable, Dict, List, Optional, Union
 from venv import logger
 
 import numpy as np
 import torch
-
 from diffusers import StableDiffusion3Pipeline
 from diffusers.image_processor import VaeImageProcessor
 from diffusers.pipelines.stable_diffusion.pipeline_stable_diffusion import retrieve_timesteps
 from diffusers.pipelines.stable_diffusion_3.pipeline_output import StableDiffusion3PipelineOutput
+
 from QEfficient.diffusers.pipelines.pipeline_utils import QEffSD3Transformer2DModel, QEffTextEncoder, QEffVAE
 from QEfficient.generation.cloud_infer import QAICInferenceSession
 from QEfficient.utils import constants
@@ -310,10 +309,10 @@ def _get_clip_prompt_embeds(
         device_ids: List[int] = [0],
     ):
         if clip_model_index == 0:
-            text_encoder = self.text_encoder
+            # text_encoder = self.text_encoder
             tokenizer = self.tokenizer
         else:
-            text_encoder = self.text_encoder_2
+            # text_encoder = self.text_encoder_2
             tokenizer = self.tokenizer_2
 
         prompt = [prompt] if isinstance(prompt, str) else prompt