WOQ qconfig API compatibility in scripts (#2354)

jianan-gu · web-flow · commit 15f1ea754e4c · 2023-12-13T14:42:11.000+08:00
* Update run_llama_quantization.py

* Update run_codegen_quantization.py

* Update run_falcon_quantization.py

* Update run_gpt-j_quantization.py

* Update run_gpt-neox_quantization.py

* Update run_opt_quantization.py
diff --git a/examples/cpu/inference/python/llm/single_instance/run_codegen_quantization.py b/examples/cpu/inference/python/llm/single_instance/run_codegen_quantization.py
@@ -190,18 +190,25 @@
         else:
             lowp_mode = ipex.quantization.WoqLowpMode.BF16
 
-    act_quant_mode_dict = {
-        "PER_TENSOR": ipex.quantization.WoqActQuantMode.PER_TENSOR,
-        "PER_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_IC_BLOCK,
-        "PER_BATCH": ipex.quantization.WoqActQuantMode.PER_BATCH,
-        "PER_BATCH_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_BATCH_IC_BLOCK,
-    }
-    qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
-        weight_dtype=weight_dtype,
-        lowp_mode=lowp_mode,
-        act_quant_mode=act_quant_mode_dict[args.act_quant_mode],
-        group_size=args.group_size
-    )
+    try:
+        act_quant_mode_dict = {
+            "PER_TENSOR": ipex.quantization.WoqActQuantMode.PER_TENSOR,
+            "PER_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_IC_BLOCK,
+            "PER_BATCH": ipex.quantization.WoqActQuantMode.PER_BATCH,
+            "PER_BATCH_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_BATCH_IC_BLOCK,
+        }
+        qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
+            weight_dtype=weight_dtype,
+            lowp_mode=lowp_mode,
+            act_quant_mode=act_quant_mode_dict[args.act_quant_mode],
+            group_size=args.group_size
+        )
+    except:
+        qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
+            weight_dtype=weight_dtype,
+            lowp_mode=lowp_mode,
+        )
+
     if args.low_precision_checkpoint != "":
         low_precision_checkpoint = torch.load(args.low_precision_checkpoint)
     else:
diff --git a/examples/cpu/inference/python/llm/single_instance/run_falcon_quantization.py b/examples/cpu/inference/python/llm/single_instance/run_falcon_quantization.py
@@ -205,18 +205,25 @@
         else:
             lowp_mode = ipex.quantization.WoqLowpMode.BF16
 
-    act_quant_mode_dict = {
-        "PER_TENSOR": ipex.quantization.WoqActQuantMode.PER_TENSOR,
-        "PER_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_IC_BLOCK,
-        "PER_BATCH": ipex.quantization.WoqActQuantMode.PER_BATCH,
-        "PER_BATCH_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_BATCH_IC_BLOCK,
-    }
-    qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
-        weight_dtype=weight_dtype,
-        lowp_mode=lowp_mode,
-        act_quant_mode=act_quant_mode_dict[args.act_quant_mode],
-        group_size=args.group_size
-    )
+    try:
+        act_quant_mode_dict = {
+            "PER_TENSOR": ipex.quantization.WoqActQuantMode.PER_TENSOR,
+            "PER_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_IC_BLOCK,
+            "PER_BATCH": ipex.quantization.WoqActQuantMode.PER_BATCH,
+            "PER_BATCH_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_BATCH_IC_BLOCK,
+        }
+        qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
+            weight_dtype=weight_dtype,
+            lowp_mode=lowp_mode,
+            act_quant_mode=act_quant_mode_dict[args.act_quant_mode],
+            group_size=args.group_size
+        )
+    except:
+        qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
+            weight_dtype=weight_dtype,
+            lowp_mode=lowp_mode,
+        )
+
     if args.low_precision_checkpoint != "":
         low_precision_checkpoint = torch.load(args.low_precision_checkpoint)
     else:
diff --git a/examples/cpu/inference/python/llm/single_instance/run_gpt-j_quantization.py b/examples/cpu/inference/python/llm/single_instance/run_gpt-j_quantization.py
@@ -196,18 +196,25 @@
         else:
             lowp_mode = ipex.quantization.WoqLowpMode.BF16
 
-    act_quant_mode_dict = {
-        "PER_TENSOR": ipex.quantization.WoqActQuantMode.PER_TENSOR,
-        "PER_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_IC_BLOCK,
-        "PER_BATCH": ipex.quantization.WoqActQuantMode.PER_BATCH,
-        "PER_BATCH_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_BATCH_IC_BLOCK,
-    }
-    qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
-        weight_dtype=weight_dtype,
-        lowp_mode=lowp_mode,
-        act_quant_mode=act_quant_mode_dict[args.act_quant_mode],
-        group_size=args.group_size
-    )
+    try:
+        act_quant_mode_dict = {
+            "PER_TENSOR": ipex.quantization.WoqActQuantMode.PER_TENSOR,
+            "PER_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_IC_BLOCK,
+            "PER_BATCH": ipex.quantization.WoqActQuantMode.PER_BATCH,
+            "PER_BATCH_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_BATCH_IC_BLOCK,
+        }
+        qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
+            weight_dtype=weight_dtype,
+            lowp_mode=lowp_mode,
+            act_quant_mode=act_quant_mode_dict[args.act_quant_mode],
+            group_size=args.group_size
+        )
+    except:
+        qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
+            weight_dtype=weight_dtype,
+            lowp_mode=lowp_mode,
+        )
+
     if args.low_precision_checkpoint != "":
         low_precision_checkpoint = torch.load(args.low_precision_checkpoint)
     else:
diff --git a/examples/cpu/inference/python/llm/single_instance/run_gpt-neox_quantization.py b/examples/cpu/inference/python/llm/single_instance/run_gpt-neox_quantization.py
@@ -193,18 +193,25 @@
         else:
             lowp_mode = ipex.quantization.WoqLowpMode.BF16
 
-    act_quant_mode_dict = {
-        "PER_TENSOR": ipex.quantization.WoqActQuantMode.PER_TENSOR,
-        "PER_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_IC_BLOCK,
-        "PER_BATCH": ipex.quantization.WoqActQuantMode.PER_BATCH,
-        "PER_BATCH_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_BATCH_IC_BLOCK,
-    }
-    qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
-        weight_dtype=weight_dtype,
-        lowp_mode=lowp_mode,
-        act_quant_mode=act_quant_mode_dict[args.act_quant_mode],
-        group_size=args.group_size
-    )
+    try:
+        act_quant_mode_dict = {
+            "PER_TENSOR": ipex.quantization.WoqActQuantMode.PER_TENSOR,
+            "PER_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_IC_BLOCK,
+            "PER_BATCH": ipex.quantization.WoqActQuantMode.PER_BATCH,
+            "PER_BATCH_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_BATCH_IC_BLOCK,
+        }
+        qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
+            weight_dtype=weight_dtype,
+            lowp_mode=lowp_mode,
+            act_quant_mode=act_quant_mode_dict[args.act_quant_mode],
+            group_size=args.group_size
+        )
+    except:
+        qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
+            weight_dtype=weight_dtype,
+            lowp_mode=lowp_mode,
+        )
+
     if args.low_precision_checkpoint != "":
         low_precision_checkpoint = torch.load(args.low_precision_checkpoint)
     else:
diff --git a/examples/cpu/inference/python/llm/single_instance/run_llama_quantization.py b/examples/cpu/inference/python/llm/single_instance/run_llama_quantization.py
@@ -329,19 +329,25 @@ def calib_func(prepared_model):
             lowp_mode = ipex.quantization.WoqLowpMode.INT8
         else:
             lowp_mode = ipex.quantization.WoqLowpMode.BF16
+    try:
+        act_quant_mode_dict = {
+            "PER_TENSOR": ipex.quantization.WoqActQuantMode.PER_TENSOR,
+            "PER_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_IC_BLOCK,
+            "PER_BATCH": ipex.quantization.WoqActQuantMode.PER_BATCH,
+            "PER_BATCH_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_BATCH_IC_BLOCK,
+        }
+        qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
+            weight_dtype=weight_dtype,
+            lowp_mode=lowp_mode,
+            act_quant_mode=act_quant_mode_dict[args.act_quant_mode],
+            group_size=args.group_size
+        )
+    except:
+        qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
+            weight_dtype=weight_dtype,
+            lowp_mode=lowp_mode,
+        )
 
-    act_quant_mode_dict = {
-        "PER_TENSOR": ipex.quantization.WoqActQuantMode.PER_TENSOR,
-        "PER_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_IC_BLOCK,
-        "PER_BATCH": ipex.quantization.WoqActQuantMode.PER_BATCH,
-        "PER_BATCH_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_BATCH_IC_BLOCK,
-    }
-    qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
-        weight_dtype=weight_dtype,
-        lowp_mode=lowp_mode,
-        act_quant_mode=act_quant_mode_dict[args.act_quant_mode],
-        group_size=args.group_size
-    )
     if args.low_precision_checkpoint != "":
         low_precision_checkpoint = torch.load(args.low_precision_checkpoint)
     else:
diff --git a/examples/cpu/inference/python/llm/single_instance/run_opt_quantization.py b/examples/cpu/inference/python/llm/single_instance/run_opt_quantization.py
@@ -190,18 +190,25 @@
         else:
             lowp_mode = ipex.quantization.WoqLowpMode.BF16
 
-    act_quant_mode_dict = {
-        "PER_TENSOR": ipex.quantization.WoqActQuantMode.PER_TENSOR,
-        "PER_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_IC_BLOCK,
-        "PER_BATCH": ipex.quantization.WoqActQuantMode.PER_BATCH,
-        "PER_BATCH_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_BATCH_IC_BLOCK,
-    }
-    qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
-        weight_dtype=weight_dtype,
-        lowp_mode=lowp_mode,
-        act_quant_mode=act_quant_mode_dict[args.act_quant_mode],
-        group_size=args.group_size
-    )
+    try:
+        act_quant_mode_dict = {
+            "PER_TENSOR": ipex.quantization.WoqActQuantMode.PER_TENSOR,
+            "PER_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_IC_BLOCK,
+            "PER_BATCH": ipex.quantization.WoqActQuantMode.PER_BATCH,
+            "PER_BATCH_IC_BLOCK": ipex.quantization.WoqActQuantMode.PER_BATCH_IC_BLOCK,
+        }
+        qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
+            weight_dtype=weight_dtype,
+            lowp_mode=lowp_mode,
+            act_quant_mode=act_quant_mode_dict[args.act_quant_mode],
+            group_size=args.group_size
+        )
+    except:
+        qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
+            weight_dtype=weight_dtype,
+            lowp_mode=lowp_mode,
+        )
+
     if args.low_precision_checkpoint != "":
         low_precision_checkpoint = torch.load(args.low_precision_checkpoint)
     else: