divide configs for model types

dylanneve1 · dylanneve1 · commit 88e68efbf8d1 · 2026-03-24T10:59:07.000Z
diff --git a/src/plugins/intel_npu/tests/functional/behavior/npuw/test_engine/models/model_builder.cpp b/src/plugins/intel_npu/tests/functional/behavior/npuw/test_engine/models/model_builder.cpp
@@ -1376,7 +1376,7 @@ void ModelBuilder::clear() {
     m_name_idx = 0;
 }
 
-ov::Output<ov::Node> ModelBuilder::setup_position_ids(ModelConfig& config, const ov::Output<ov::Node>& seq_source) {
+ov::Output<ov::Node> ModelBuilder::setup_position_ids(LLMConfig& config, const ov::Output<ov::Node>& seq_source) {
     OPENVINO_ASSERT(!(config.internal_position_ids && config.position_ids.get_node()),
                     "internal_position_ids and position_ids are mutually exclusive");
     ov::Output<ov::Node> position_ids_output;
@@ -1418,36 +1418,11 @@ std::shared_ptr<ov::Model> ModelBuilder::make_model(const ov::Output<ov::Node>&
     return std::make_shared<ov::Model>(ov::OutputVector{res->output(0)}, m_sinks, model_name);
 }
 
-std::shared_ptr<ov::Model> ModelBuilder::build_model(const ModelConfig& config_in) {
-    OPENVINO_ASSERT(
-        static_cast<int>(config_in.use_conv_features) + static_cast<int>(config_in.use_cross_attention) + static_cast<int>(config_in.use_token_type_embedding) <= 1,
-        "At most one structural dispatch flag may be set");
-
-    // Fill in norm/ffn defaults from actual config sizes when the caller left them empty.
-    ModelConfig config = config_in;
-    if (!config.norm) {
-        config.norm = LayerNorm(config.hidden_size, config.precision);
-    }
-    if (!config.ffn) {
-        config.ffn = SwiGLU(config.hidden_size, config.intermediate_size, config.precision, config.weight);
-    }
-
-    if (config.use_conv_features) {
-        return build_whisper_encoder(config);
-    }
-    if (config.use_cross_attention) {
-        return build_whisper_decoder(config);
-    }
-    if (config.use_token_type_embedding) {
-        return build_embedding_encoder(config);
-    }
-    return build_llm(config);
-}
-
-std::shared_ptr<ov::Model> ModelBuilder::build_llm(const ModelConfig& config_in) {
+std::shared_ptr<ov::Model> ModelBuilder::build_llm(const LLMConfig& config_in) {
     clear();
 
-    ModelConfig config = config_in;
+    LLMConfig config = config_in;
+    config.finalize_defaults();
     const auto prec = config.precision;
 
     auto attention_mask = parameter(ov::element::i64, ov::PartialShape{-1, -1}, "attention_mask");
@@ -1565,8 +1540,10 @@ std::shared_ptr<ov::Model> ModelBuilder::build_llm(const ModelConfig& config_in)
     return make_model(final_norm, "last_hidden_state", model_name);
 }
 
-std::shared_ptr<ov::Model> ModelBuilder::build_whisper_encoder(const ModelConfig& config) {
+std::shared_ptr<ov::Model> ModelBuilder::build_whisper_encoder(const WhisperEncoderConfig& config_in) {
     clear();
+    WhisperEncoderConfig config = config_in;
+    config.finalize_defaults();
     const auto prec = config.precision;
     const auto d = config.hidden_size;
 
@@ -1813,8 +1790,10 @@ static ov::Output<ov::Node> make_whisper_positional_embedding(const ov::Output<o
     return hidden_states->output(0);
 }
 
-std::shared_ptr<ov::Model> ModelBuilder::build_whisper_decoder(const ModelConfig& config) {
+std::shared_ptr<ov::Model> ModelBuilder::build_whisper_decoder(const WhisperDecoderConfig& config_in) {
     clear();
+    WhisperDecoderConfig config = config_in;
+    config.finalize_defaults();
     const auto prec = config.precision;
     const auto d = config.hidden_size;
     const auto heads = config.num_heads;
@@ -1948,8 +1927,10 @@ std::shared_ptr<ov::Model> ModelBuilder::build_whisper_decoder(const ModelConfig
     return make_model(logits_out, "logits", "synthetic_whisper_decoder");
 }
 
-std::shared_ptr<ov::Model> ModelBuilder::build_embedding_encoder(const ModelConfig& config) {
+std::shared_ptr<ov::Model> ModelBuilder::build_embedding_encoder(const BertConfig& config_in) {
     clear();
+    BertConfig config = config_in;
+    config.finalize_defaults();
 
     const auto prec = config.precision;
     const auto hs = config.hidden_size;
diff --git a/src/plugins/intel_npu/tests/functional/behavior/npuw/test_engine/models/model_builder.hpp b/src/plugins/intel_npu/tests/functional/behavior/npuw/test_engine/models/model_builder.hpp
@@ -367,9 +367,8 @@ ov::Output<ov::Node> make_post_norm_layer(const ov::Output<ov::Node>& input,
     return normed2;
 }
 
-/// Unified config for all model types. build_model() dispatches on structural flags.
-/// NOTE: weight MUST be declared before lm_head_weight/norm/ffn (C++ member init order).
-struct ModelConfig {
+struct BaseModelConfig {
+    // Common parameters
     size_t hidden_size = 64;
     size_t num_heads = 4;
     size_t head_dim = 16;
@@ -378,16 +377,6 @@ struct ModelConfig {
     size_t vocab_size = 1000;
     size_t num_layers = 10;
 
-    bool use_kv_cache = true;
-    bool use_inputs_embeds = false;
-    bool internal_position_ids = false;
-
-    // Structural flags — build_model() dispatches on these
-    bool use_conv_features = false;
-    bool use_cross_attention = false;
-    bool use_token_type_embedding = false;
-    bool pre_norm = true;
-
     ov::element::Type precision = ov::element::f32;
 
     WeightFn weight = FP32Weight{};
@@ -400,32 +389,56 @@ struct ModelConfig {
     ov::Output<ov::Node> position_ids;  ///< Empty = auto-creates 2D Parameter + HalfRotationRoPE
     NormFn qk_norm;
 
-    // Whisper-specific
-    size_t encoder_layers = 0;  ///< 0 = use num_layers
-    size_t decoder_layers = 0;  ///< 0 = use num_layers
-    size_t num_mel_bins = 80;
-    size_t max_source_positions = 1500;
-    size_t max_target_positions = 448;
+    BaseModelConfig() : lm_head_weight(weight) {}
 
-    // BERT/Encoder-specific
-    size_t max_position_embeddings = 512;
-    size_t type_vocab_size = 2;
+    virtual ~BaseModelConfig() = default;
 
-    ModelConfig() : lm_head_weight(weight) {}
+    /// Fill in norm/ffn defaults from actual config sizes when the caller left them empty.
+    void finalize_defaults() {
+        if (!norm) {
+            norm = LayerNorm(hidden_size, precision);
+        }
+        if (!ffn) {
+            ffn = SwiGLU(hidden_size, intermediate_size, precision, weight);
+        }
+    }
 
     size_t get_kv_heads() const {
         return num_kv_heads == 0 ? num_heads : num_kv_heads;
     }
+};
+
+struct LLMConfig : public BaseModelConfig {
+    bool use_kv_cache = true;
+    bool use_inputs_embeds = false;
+    bool internal_position_ids = false; ///< embedding model
+    bool pre_norm = true;
+};
+
+struct WhisperEncoderConfig : public BaseModelConfig {
+    size_t encoder_layers = 0;
+    size_t num_mel_bins = 80;
+    size_t max_source_positions = 1500;
 
     size_t get_encoder_layers() const {
         return encoder_layers == 0 ? num_layers : encoder_layers;
     }
+};
+
+struct WhisperDecoderConfig : public BaseModelConfig {
+    size_t decoder_layers = 0;
+    size_t max_target_positions = 448;
 
     size_t get_decoder_layers() const {
         return decoder_layers == 0 ? num_layers : decoder_layers;
     }
 };
 
+struct BertConfig : public BaseModelConfig {
+    size_t max_position_embeddings = 512;
+    size_t type_vocab_size = 2;
+};
+
 class ModelBuilder {
 public:
     ModelBuilder() = default;
@@ -450,19 +463,16 @@ class ModelBuilder {
                                                      const ov::PartialShape& shape,
                                                      const std::string& name);
 
-    /// Unified entry point. Dispatches on config structural flags.
-    std::shared_ptr<ov::Model> build_model(const ModelConfig& config);
+    std::shared_ptr<ov::Model> build_llm(const LLMConfig& config);
+    std::shared_ptr<ov::Model> build_whisper_encoder(const WhisperEncoderConfig& config);
+    std::shared_ptr<ov::Model> build_whisper_decoder(const WhisperDecoderConfig& config);
+    std::shared_ptr<ov::Model> build_embedding_encoder(const BertConfig& config);
 
     void clear();
 
 private:
-    std::shared_ptr<ov::Model> build_llm(const ModelConfig& config);
-    std::shared_ptr<ov::Model> build_whisper_encoder(const ModelConfig& config);
-    std::shared_ptr<ov::Model> build_whisper_decoder(const ModelConfig& config);
-    std::shared_ptr<ov::Model> build_embedding_encoder(const ModelConfig& config);
-
     /// May auto-create HalfRotationRoPE on config.rope (hence non-const ref).
-    ov::Output<ov::Node> setup_position_ids(ModelConfig& config, const ov::Output<ov::Node>& seq_source);
+    ov::Output<ov::Node> setup_position_ids(LLMConfig& config, const ov::Output<ov::Node>& seq_source);
 
     std::shared_ptr<ov::Model> make_model(const ov::Output<ov::Node>& output,
                                           const std::string& result_name,
diff --git a/src/plugins/intel_npu/tests/unit/npuw/llm_test_helpers.hpp b/src/plugins/intel_npu/tests/unit/npuw/llm_test_helpers.hpp
@@ -19,8 +19,9 @@
 
 namespace ov::test::npuw {
 
-inline ModelConfig make_llm_test_model_config() {
-    ModelConfig cfg;
+template <typename Config = LLMConfig>
+inline Config make_test_model_config() {
+    Config cfg;
     cfg.num_layers = 2;
     cfg.hidden_size = 64;
     cfg.num_heads = 4;
@@ -32,21 +33,17 @@ inline ModelConfig make_llm_test_model_config() {
 
 inline std::shared_ptr<ov::Model> build_llm_test_model() {
     ModelBuilder mb;
-    return mb.build_model(make_llm_test_model_config());
+    return mb.build_llm(make_test_model_config());
 }
 
 inline std::shared_ptr<ov::Model> build_whisper_decoder_test_model() {
-    auto cfg = make_llm_test_model_config();
-    cfg.use_cross_attention = true;
     ModelBuilder mb;
-    return mb.build_model(cfg);
+    return mb.build_whisper_decoder(make_test_model_config<WhisperDecoderConfig>());
 }
 
 inline std::shared_ptr<ov::Model> build_embedding_test_model() {
-    auto cfg = make_llm_test_model_config();
-    cfg.use_token_type_embedding = true;
     ModelBuilder mb;
-    return mb.build_model(cfg);
+    return mb.build_embedding_encoder(make_test_model_config<BertConfig>());
 }
 
 class NullPlugin : public ov::IPlugin {
diff --git a/src/plugins/intel_npu/tests/unit/npuw/online_partitioning.cpp b/src/plugins/intel_npu/tests/unit/npuw/online_partitioning.cpp
@@ -18,7 +18,7 @@
 #include "partitioning/online/snapshot.hpp"
 
 using ov::test::npuw::ModelBuilder;
-using ov::test::npuw::ModelConfig;
+using ov::test::npuw::LLMConfig;
 
 namespace {
 
@@ -675,14 +675,14 @@ INSTANTIATE_TEST_SUITE_P(OnlinePartitioningTest,
 // always exposes its boundary Add in getInputs(), detects the mask mismatch, and
 // correctly sets irregular_io=true regardless of hash order.
 TEST(OnlinePartitioningTest, IsRegularParameterCase_PrefillModel_InputsEmbeds) {
-    ModelConfig config;
+    LLMConfig config;
     config.num_layers = 4;
     config.hidden_size = 64;
     config.use_inputs_embeds = true;  // layer 0's residual Add reads inputs_embeds (ov::Parameter)
     config.use_kv_cache = true;
 
     ModelBuilder mb;
-    auto model = mb.build_model(config);
+    auto model = mb.build_llm(config);
 
     // Partitioning requires a static-shape stateless model, matching the real
     // production path in LLMCompiledModel before getPartitioning() is called.
diff --git a/src/plugins/intel_npu/tests/unit/npuw/partitioning_options_test.cpp b/src/plugins/intel_npu/tests/unit/npuw/partitioning_options_test.cpp
@@ -23,7 +23,7 @@
 #include "pyramid_attention.hpp"
 
 using ov::test::npuw::ModelBuilder;
-using ov::test::npuw::ModelConfig;
+using ov::test::npuw::LLMConfig;
 
 namespace {
 
@@ -68,7 +68,7 @@ std::shared_ptr<ov::Model> build_unary_chain_model() {
 }
 
 std::shared_ptr<ov::Model> build_static_llm_model(const int64_t query_len, const int64_t past_len) {
-    ModelConfig config;
+    LLMConfig config;
     config.num_layers = 4;
     config.hidden_size = 64;
     config.num_heads = 4;
@@ -77,7 +77,7 @@ std::shared_ptr<ov::Model> build_static_llm_model(const int64_t query_len, const
     config.vocab_size = 256;
 
     ModelBuilder mb;
-    auto model = mb.build_model(config);
+    auto model = mb.build_llm(config);
 
     ov::pass::StatefulToStateless().run_on_model(model);
     model = model->clone();