Add training limitation warning for QwenImage long prompts

robin-ede · robin-ede · commit c7ac38076824 · 2025-08-07T08:17:55.000-05:00
- Add warning when prompts exceed 512 tokens (model's training limit)

- Warn users about potential unpredictable behavior with long prompts

- Add comprehensive test with CaptureLogger to verify warning system

- Follow established diffusers warning patterns for consistency
diff --git a/src/diffusers/models/transformers/transformer_qwenimage.py b/src/diffusers/models/transformers/transformer_qwenimage.py
@@ -203,6 +203,14 @@ def _expand_pos_freqs_if_needed(self, required_len):
         # Calculate new size (use next power of 2 or round to nearest 512 for efficiency)
         new_max_len = max(required_len, int((required_len + 511) // 512) * 512)
         
+        # Log warning about potential quality degradation for long prompts
+        if required_len > 512:
+            logger.warning(
+                f"QwenImage model was trained on prompts up to 512 tokens. "
+                f"Current prompt requires {required_len} tokens, which may lead to unpredictable behavior. "
+                f"Consider using shorter prompts for better results."
+            )
+        
         # Generate expanded indices
         pos_index = torch.arange(new_max_len, device=self.pos_freqs.device)
         neg_index = torch.arange(new_max_len, device=self.neg_freqs.device).flip(0) * -1 - 1
diff --git a/tests/pipelines/qwenimage/test_qwenimage.py b/tests/pipelines/qwenimage/test_qwenimage.py
@@ -260,4 +260,40 @@ def test_long_prompt_no_error(self):
         }
         
         # This should not raise a RuntimeError about tensor dimension mismatch
-    _ = pipe(**inputs)
+        _ = pipe(**inputs)
+
+    def test_long_prompt_warning(self):
+        """Test that long prompts trigger appropriate warning about training limitation"""
+        from diffusers.utils.testing_utils import CaptureLogger
+        from diffusers.utils import logging
+        
+        device = torch_device
+        components = self.get_dummy_components()
+        pipe = self.pipeline_class(**components)
+        pipe.to(device)
+        
+        # Create prompt that will exceed 512 tokens to trigger warning
+        # Use a longer phrase and repeat more times to ensure we exceed the 512 token limit
+        long_phrase = "A detailed photorealistic description of a complex scene with many elements "
+        long_prompt = (long_phrase * 20)[:800]  # Create a prompt that will exceed 512 tokens
+        
+        # Capture transformer logging  
+        logger = logging.get_logger("diffusers.models.transformers.transformer_qwenimage")
+        logger.setLevel(30)  # WARNING level
+        
+        with CaptureLogger(logger) as cap_logger:
+            _ = pipe(
+                prompt=long_prompt,
+                generator=torch.Generator(device=device).manual_seed(0),
+                num_inference_steps=2,
+                guidance_scale=3.0,
+                true_cfg_scale=1.0,
+                height=32,  # Small size for fast test
+                width=32,   # Small size for fast test
+                max_sequence_length=900,  # Allow long sequence
+                output_type="pt"
+            )
+        
+        # Verify warning was logged about the 512-token training limitation
+        self.assertTrue("512 tokens" in cap_logger.out)
+        self.assertTrue("unpredictable behavior" in cap_logger.out)