add chat template to tokenizer

chencyudel · chencyudel · commit a2a0bffae49c · 2024-06-04T10:59:14.000+08:00
diff --git a/mftcoder_accelerate/src/pefts/mft_accelerate.py b/mftcoder_accelerate/src/pefts/mft_accelerate.py
@@ -543,7 +543,7 @@ def main():
         model.parameters(),
         weight_decay=args.weight_decay,
         lr=args.learning_rate,
-        betas=(0.9, 0.95),
+        betas=(0.9, 0.999),
     )
     # for group in optimizer.param_groups:
     #     group.setdefault("initial_lr", group["lr"])
diff --git a/mftcoder_accelerate/src/tokenizer/tokenizer.py b/mftcoder_accelerate/src/tokenizer/tokenizer.py
@@ -8,6 +8,7 @@
 from typing import List, Union
 from utils.common_utils import print_rank_0
 from transformers import AutoTokenizer
+from tokenizer.chat_template import MFTCoder_template
 
 
 def build_tokenizer(args):
@@ -20,6 +21,11 @@ def build_tokenizer(args):
         tokenizer = AutoTokenizer.from_pretrained(args.pretrained_model_path, trust_remote_code=True)
         tokenizer.eod_id = tokenizer.convert_tokens_to_ids(args.eos_token)
         tokenizer.pad_id = tokenizer.convert_tokens_to_ids(args.pad_token)
+        try:
+            tokenizer.eos_token = args.eos_token
+            tokenizer.pad_token = args.pad_token
+        except:
+            print(f"[WARNING]Cannot set tokenizer.eos_token")
         print_rank_0(f"Tokenizer: {type(tokenizer)}")
         print_rank_0(f"Length of tokenizer: {len(tokenizer)}")
         print_rank_0(f"build_tokenizer PAD id: {tokenizer.pad_id}, EOD id: {tokenizer.eod_id}")

Original file line number	Diff line number	Diff line change
`@@ -543,7 +543,7 @@ def main():`
`543`	`543`	`model.parameters(),`
`544`	`544`	`weight_decay=args.weight_decay,`
`545`	`545`	`lr=args.learning_rate,`
`546`		`- betas=(0.9, 0.95),`
	`546`	`+ betas=(0.9, 0.999),`
`547`	`547`	`)`
`548`	`548`	`# for group in optimizer.param_groups:`
`549`	`549`	`# group.setdefault("initial_lr", group["lr"])`