Extend using of full chat history mode for stateful pipeline for VLM and LLM with encoded inputs (#2835)

AlexanderKalistratov · Your Name · sbalandi · web-flow · commit 744c69f1c378 · 2025-10-26T11:36:31.000Z
## Description This PR is mostly based on @sbalandi PR: [Extend using of full chat history mode for stateful pipeline for VLM and LLM with encoded inputs](#2486) and contains few additional fixes Ticket: CVS-168848 CVS-168079 ## Checklist: - [x] Tests have been updated or added to cover the new code  - [x] This patch fully addresses the ticket.  - [ ] I have made corresponding changes to the documentation --------- Co-authored-by: Your Name <you@example.com> Co-authored-by: Sofya Balandina <sofya.balandina@intel.com> Co-authored-by: Vladimir Zlobin <vladimir.zlobin@intel.com>
diff --git a/src/cpp/src/llm/pipeline_stateful.cpp b/src/cpp/src/llm/pipeline_stateful.cpp
@@ -320,6 +320,9 @@ EncodedResults StatefulLLMPipeline::generate(
 
     size_t real_input_ids_size = input_ids.get_shape().at(1);
 
+    if (is_chat_conversation && m_use_full_chat_history)
+        m_kv_cache_state.reset_state();
+
     // Tail of previous output in chat mode is missing in KV cache.
     if (is_chat_conversation && m_chat_input_type == ov::genai::utils::GenerationChatInputsType::ENCODED_INPUTS) {
         ov::Tensor new_chat_tokens = ov::Tensor{ov::element::i64, {1, m_tokenized_chat_history.size()}, m_tokenized_chat_history.data()};
diff --git a/src/cpp/src/visual_language/inputs_embedder.cpp b/src/cpp/src/visual_language/inputs_embedder.cpp
@@ -248,7 +248,7 @@ InputsEmbedder::InputsEmbedder(const std::filesystem::path& model_dir,
     } else if (vlm_config.model_type == VLMModelType::QWEN2_5_VL) {
         m_impl = std::make_shared<InputsEmbedderQwen2_5_VL>(vlm_config, model_dir, device, device_config);
     } else if (vlm_config.model_type == VLMModelType::GEMMA3) {
-        m_impl = std::make_shared<InputsEmbedderGemma3>(vlm_config, model_dir, device, device_config); 
+        m_impl = std::make_shared<InputsEmbedderGemma3>(vlm_config, model_dir, device, device_config);
     } else {
         OPENVINO_THROW("Unsupported model type in VLM InputsEmbedder class. Please, create feature request on new model support");
     }
@@ -282,7 +282,7 @@ InputsEmbedder::InputsEmbedder(const ModelsMap& models_map,
     } else if (vlm_config.model_type == VLMModelType::QWEN2_5_VL) {
         m_impl = std::make_shared<InputsEmbedderQwen2_5_VL>(vlm_config, models_map, tokenizer, config_dir_path, device, device_config);
     } else if (vlm_config.model_type == VLMModelType::GEMMA3) {
-        m_impl = std::make_shared<InputsEmbedderGemma3>(vlm_config, models_map, tokenizer, config_dir_path, device, device_config); 
+        m_impl = std::make_shared<InputsEmbedderGemma3>(vlm_config, models_map, tokenizer, config_dir_path, device, device_config);
     } else {
         OPENVINO_THROW("Unsupported model type in VLM InputsEmbedder class. Please, create feature request on new model support");
     }
diff --git a/src/cpp/src/visual_language/inputs_embedder.hpp b/src/cpp/src/visual_language/inputs_embedder.hpp
@@ -55,7 +55,7 @@ class InputsEmbedder {
     std::pair<ov::Tensor, ov::Tensor> get_inputs_embeds_with_token_type_ids(const std::string& prompt, const std::vector<EncodedImage>& images, VLMPerfMetrics& metrics, bool recalculate_merged_embeddings = true, const std::vector<size_t>& image_sequence = {});
 
     bool has_token_type_ids() const;
-    
+
     std::vector<ov::genai::EncodedImage> encode_images(const std::vector<ov::Tensor>& images);
 
     std::vector<ov::genai::EncodedVideo> encode_videos(const std::vector<ov::Tensor>& videos);
@@ -81,7 +81,7 @@ class InputsEmbedder {
     // set the apply_chat_template flag, which determines whether chat template should be applied for non-chat scenarios
     void set_apply_chat_template_status(bool apply_chat_template);
 
-    // finishes chat and clears a chat history 
+    // finishes chat and clears a chat history
     void finish_chat();
 
     virtual NormlizedPrompt normalize_prompt(
@@ -147,21 +147,21 @@ class InputsEmbedder {
         virtual std::vector<ov::genai::EncodedImage> encode_images(const std::vector<ov::Tensor>& images);
 
         virtual std::vector<ov::genai::EncodedVideo> encode_videos(const std::vector<ov::Tensor>& videos);
-    
+
         virtual std::pair<ov::Tensor, std::optional<int64_t>> get_position_ids(const size_t inputs_embeds_size, const size_t history_size);
-    
+
         EmbeddingsModel::Ptr get_embedding_model() const {
             return m_embedding;
         }
-    
+
         Tokenizer get_tokenizer() const {
             return m_tokenizer;
         }
-    
+
         utils::KVCacheState& get_kv_cache_state() {
             return m_kv_cache_state;
         }
-    
+
         void set_apply_chat_template_status(bool apply_chat_template) {
             m_apply_chat_template = apply_chat_template;
         }
@@ -170,43 +170,43 @@ class InputsEmbedder {
             m_add_special_tokens = value;
             m_add_special_tokens_is_set = true;
         }
-    
+
         virtual void start_chat(const std::string& system_message);
-    
+
         virtual void update_chat_history(const std::string& decoded_results, const ov::genai::GenerationStatus generation_finish_status);
-    
+
         virtual void finish_chat();
 
         virtual NormlizedPrompt normalize_prompt(
             const std::string& prompt,
             size_t base_id,
             const std::vector<EncodedImage>& images
         ) const = 0;
-    
+
         virtual NormlizedPrompt normalize_prompt(
             const std::string& prompt,
             size_t base_image_id,
             size_t base_video_id,
             const std::vector<EncodedImage>& images,
             const std::vector<EncodedVideo>& videos) const;
-    
+
     protected:
         IInputsEmbedder(
             const VLMConfig& vlm_config,
             const std::filesystem::path& model_dir,
             const std::string& device,
             const ov::AnyMap device_config);
-        
+
         IInputsEmbedder(
             const VLMConfig& vlm_config,
             const ModelsMap& models_map,
             const Tokenizer& tokenizer,
             const std::filesystem::path& config_dir_path,
             const std::string& device,
             const ov::AnyMap device_config);
-    
+
         virtual ov::Tensor apply_chat_template_tokenize(const std::string& prompt, ov::genai::VLMPerfMetrics& metrics);
-    
+
         ov::Tensor update_history(const ov::Tensor& new_chat_tokens);
 
         ov::Tensor get_encoded_input_ids(const std::string& prompt, ov::genai::VLMPerfMetrics& metrics);
diff --git a/src/cpp/src/visual_language/minicpm/classes.cpp b/src/cpp/src/visual_language/minicpm/classes.cpp
@@ -634,6 +634,7 @@ ov::Tensor InputsEmbedderMiniCPM::get_inputs_embeds(const std::string& unified_p
     CircularBufferQueueElementGuard<EmbeddingsRequest> embeddings_request_guard(m_embedding->get_request_queue().get());
     EmbeddingsRequest& req = embeddings_request_guard.get();
     ov::Tensor inputs_embeds = m_embedding->infer(req, encoded_input);
+
     OPENVINO_ASSERT(
         m_vlm_config.hidden_size == inputs_embeds.get_shape().at(2),
         "Unexpected embedding size"
diff --git a/src/cpp/src/visual_language/phi4mm/classes.cpp b/src/cpp/src/visual_language/phi4mm/classes.cpp
@@ -227,80 +227,80 @@ ov::Tensor calculate_patch_position_ids(
     ov::Shape image_embeds_shape = input_image_embeds.get_shape();
     // image_attention_mask: [batch, num_images, mask_height, mask_width]
     ov::Shape image_attention_mask_shape = image_attention_mask.get_shape();
-    
+
     size_t batch_size = image_embeds_shape[0];
     size_t num_images = image_embeds_shape[1];
     size_t mask_height = image_attention_mask_shape[2];
     size_t mask_width = image_attention_mask_shape[3];
-    
+
     size_t flattened_batch_size = batch_size * num_images;
     size_t total_mask_elements = mask_height * mask_width;
-    
+
     std::vector<float> boundaries;
     boundaries.reserve(num_patches_per_side - 1);
     for (size_t i = 1; i < num_patches_per_side; ++i) {
         boundaries.push_back(static_cast<float>(i) / num_patches_per_side);
     }
-    
+
     ov::Tensor position_ids{ov::element::i64, {flattened_batch_size, total_mask_elements}};
     int64_t* position_ids_data = position_ids.data<int64_t>();
-    
+
     std::fill_n(position_ids_data, flattened_batch_size * total_mask_elements, 0);
-    
+
     const float* image_attention_mask_data = image_attention_mask.data<float>();
-    
+
     for (size_t flat_batch_idx = 0; flat_batch_idx < flattened_batch_size; ++flat_batch_idx) {
         size_t mask_offset = flat_batch_idx * mask_height * mask_width;
         const float* current_mask = image_attention_mask_data + mask_offset;
-        
+
         size_t num_patches_h = 0;
         size_t num_patches_w = 0;
-        
+
         for (size_t h = 0; h < mask_height; ++h) {
             if (current_mask[h * mask_width] > 0.0f) {
                 num_patches_h++;
             }
         }
-        
+
         for (size_t w = 0; w < mask_width; ++w) {
             if (current_mask[w] > 0.0f) {
                 num_patches_w++;
             }
         }
-        
+
         if (num_patches_h == 0 || num_patches_w == 0) {
             continue;
         }
-        
+
         std::vector<float> fractional_coords_h;
         std::vector<float> fractional_coords_w;
         fractional_coords_h.reserve(num_patches_h);
         fractional_coords_w.reserve(num_patches_w);
-        
+
         const float eps = 1e-6f;
-        
+
         for (size_t i = 0; i < num_patches_h; ++i) {
             float coord = static_cast<float>(i) / num_patches_h;
             if (coord >= 1.0f - eps) {
                 coord = 1.0f - eps;
             }
             fractional_coords_h.push_back(coord);
         }
-        
+
         for (size_t i = 0; i < num_patches_w; ++i) {
             float coord = static_cast<float>(i) / num_patches_w;
             if (coord >= 1.0f - eps) {
                 coord = 1.0f - eps;
             }
             fractional_coords_w.push_back(coord);
         }
-        
+
         // Bucket coordinates (equivalent to torch.bucketize with right=True)
         std::vector<size_t> bucket_coords_h;
         std::vector<size_t> bucket_coords_w;
         bucket_coords_h.reserve(fractional_coords_h.size());
         bucket_coords_w.reserve(fractional_coords_w.size());
-        
+
         for (float coord : fractional_coords_h) {
             size_t bucket = 0;
             for (size_t i = 0; i < boundaries.size(); ++i) {
@@ -312,7 +312,7 @@ ov::Tensor calculate_patch_position_ids(
             }
             bucket_coords_h.push_back(bucket);
         }
-        
+
         for (float coord : fractional_coords_w) {
             size_t bucket = 0;
             for (size_t i = 0; i < boundaries.size(); ++i) {
@@ -324,26 +324,26 @@ ov::Tensor calculate_patch_position_ids(
             }
             bucket_coords_w.push_back(bucket);
         }
-        
+
         std::vector<int64_t> pos_ids;
         pos_ids.reserve(bucket_coords_h.size() * bucket_coords_w.size());
-        
+
         for (size_t h_coord : bucket_coords_h) {
             for (size_t w_coord : bucket_coords_w) {
                 pos_ids.push_back(static_cast<int64_t>(h_coord * num_patches_per_side + w_coord));
             }
         }
-        
+
         int64_t* batch_position_ids = position_ids_data + flat_batch_idx * total_mask_elements;
         size_t pos_idx = 0;
-        
+
         for (size_t i = 0; i < total_mask_elements && pos_idx < pos_ids.size(); ++i) {
             if (current_mask[i] > 0.0f) {
                 batch_position_ids[i] = pos_ids[pos_idx++];
             }
         }
     }
-    
+
     return position_ids;
 }
 
@@ -650,7 +650,7 @@ VisionEncoderPhi4MM::VisionEncoderPhi4MM(
     const std::filesystem::path& config_dir_path,
     const std::string& device,
     const ov::AnyMap properties
-) : 
+) :
 VisionEncoder(models_map, config_dir_path, device, properties),
 m_image_preprocessors{create_image_preprocessors()},
 m_separator_inserters{create_separator_inserters()} {
@@ -675,7 +675,7 @@ EncodedImage VisionEncoderPhi4MM::encode(const ov::Tensor& image, const ov::AnyM
         CircularBufferQueueElementGuard<ov::InferRequest> lock{m_image_preprocessors.get()};
         ov::InferRequest& image_preprocessor = lock.get();
         image_preprocessor.set_tensor("image", image);
-        
+
         ov::Tensor new_size_tensor{ov::element::i64, {2}};
         new_size_tensor.data<int64_t>()[0] = target_sizes.width;
         new_size_tensor.data<int64_t>()[1] = target_sizes.height;
@@ -690,7 +690,7 @@ EncodedImage VisionEncoderPhi4MM::encode(const ov::Tensor& image, const ov::AnyM
         image_preprocessor.set_tensor("padding_height", padding_height_tensor);
 
         image_preprocessor.set_tensor("attention_mask", target_sizes.attention_mask);
-        
+
         image_preprocessor.infer();
         image_preprocessor.get_tensor("input_image_embeds").copy_to(input_image_embeds);
         image_preprocessor.get_tensor("image_attention_mask").copy_to(image_attention_mask);
@@ -858,7 +858,7 @@ ov::Tensor InputsEmbedderPhi4MM::get_inputs_embeds(
 }
 
 void InputsEmbedderPhi4MM::update_chat_history(
-    const std::string& decoded_results, 
+    const std::string& decoded_results,
     const ov::genai::GenerationStatus generation_finish_status
 ) {
     IInputsEmbedder::update_chat_history(decoded_results, generation_finish_status);
diff --git a/src/cpp/src/visual_language/pipeline.cpp b/src/cpp/src/visual_language/pipeline.cpp
diff --git a/tests/python_tests/test_vlm_pipeline.py b/tests/python_tests/test_vlm_pipeline.py