Add support for Gemma 3 models within Fastchat #3705

deep1401 · 2025-03-27T15:24:09Z

Why are these changes needed?

Added support for Gemma 3 text version. It adds support for inference of all Gemma 3 models (base as well as instruct) for text only mode inference.

Related issue number (if applicable)

Closes #3697

mortanius-1 · 2025-07-06T22:45:28Z

fastchat/model/model_adapter.py

+        if device_map == "sequential":
+            device_map = "auto"
+        # print("From pretrained kwargs", from_pretrained_kwargs)
+        tokenizer = AutoTokenizer.from_pretrained(model_path, revision=revision)


Hi,

I have a small suggestion:

Suggested change

tokenizer = AutoTokenizer.from_pretrained(model_path, revision=revision)

tokenizer = AutoTokenizer.from_pretrained(model_path, revision=revision, pad_to_multiple_of=8)

See this similar issue in huggingface/transformers: huggingface/transformers#36815

Some prompts may trigger an error similar to the following:

ERROR | stderr | Exception in thread Thread-5 (<lambda>): ERROR | stderr | Traceback (most recent call last): ERROR | stderr | File "/usr/lib/python3.10/threading.py", line 1016, in _bootstrap_inner ERROR | stderr | self.run() ERROR | stderr | File "/usr/lib/python3.10/threading.py", line 953, in run ERROR | stderr | self._target(*self._args, **self._kwargs) ERROR | stderr | File "/home/example/projects/FastChat/fastchat/model/model_gemma3.py", line 81, in <lambda> ERROR | stderr | target=lambda: model.generate(input_ids=input_ids, **generate_kwargs) ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/torch/utils/_contextlib.py", line 115, in decorate_context ERROR | stderr | return func(*args, **kwargs) ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/transformers/generation/utils.py", line 2465, in generate ERROR | stderr | result = self._sample( ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/transformers/generation/utils.py", line 3434, in _sample ERROR | stderr | outputs = model_forward(**model_inputs, return_dict=True) ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1511, in _wrapped_call_impl ERROR | stderr | return self._call_impl(*args, **kwargs) ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1520, in _call_impl ERROR | stderr | return forward_call(*args, **kwargs) ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/transformers/utils/generic.py", line 965, in wrapper ERROR | stderr | output = func(self, *args, **kwargs) ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func ERROR | stderr | return func(*args, **kwargs) ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/transformers/models/gemma3/modeling_gemma3.py", line 942, in forward ERROR | stderr | outputs: BaseModelOutputWithPast = self.model( ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1511, in _wrapped_call_impl ERROR | stderr | return self._call_impl(*args, **kwargs) ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1520, in _call_impl ERROR | stderr | return forward_call(*args, **kwargs) ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/transformers/utils/generic.py", line 965, in wrapper ERROR | stderr | output = func(self, *args, **kwargs) ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/transformers/models/gemma3/modeling_gemma3.py", line 722, in forward ERROR | stderr | layer_outputs = decoder_layer( ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1511, in _wrapped_call_impl ERROR | stderr | return self._call_impl(*args, **kwargs) ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1520, in _call_impl ERROR | stderr | return forward_call(*args, **kwargs) ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/transformers/models/gemma3/modeling_gemma3.py", line 420, in forward ERROR | stderr | hidden_states, self_attn_weights = self.self_attn( ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1511, in _wrapped_call_impl ERROR | stderr | return self._call_impl(*args, **kwargs) ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1520, in _call_impl ERROR | stderr | return forward_call(*args, **kwargs) ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/transformers/models/gemma3/modeling_gemma3.py", line 342, in forward ERROR | stderr | attn_output, attn_weights = attention_interface( ERROR | stderr | File "/home/example/projects/fastchat-venv/lib/python3.10/site-packages/transformers/integrations/sdpa_attention.py", line 54, in sdpa_attention_forward ERROR | stderr | attn_output = torch.nn.functional.scaled_dot_product_attention( ERROR | stderr | RuntimeError: p.attn_bias_ptr is not correctly aligned

Hi,
Thanks for this, we actually ended up creating: https://www.github.com/transformerlab/transformerlab-inference.
We use that instead since fastchat hasn't been merging and stopped new developments.
This model is added on there and works without flash attention which was causing your original issue, please let me know if it also occuses without flash attention too?

fuckgitb · 2025-07-21T21:56:16Z

您好，我最近正在休假中，无法亲自回复您的邮件。我将在假期结束后，尽快给您回复。

aliasaria and others added 3 commits March 12, 2025 14:56

handle value error if version can't be parsed

4644982

Add Gemma 3 support

db7e748

Linter changes

cb5a1ef

mortanius-1 reviewed Jul 6, 2025

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Add support for Gemma 3 models within Fastchat #3705

Add support for Gemma 3 models within Fastchat #3705

Uh oh!

deep1401 commented Mar 27, 2025

Uh oh!

mortanius-1 Jul 6, 2025

Uh oh!

deep1401 Jul 21, 2025

Uh oh!

fuckgitb commented Jul 21, 2025 via email

Uh oh!

Uh oh!

	tokenizer = AutoTokenizer.from_pretrained(model_path, revision=revision)
	tokenizer = AutoTokenizer.from_pretrained(model_path, revision=revision, pad_to_multiple_of=8)

Add support for Gemma 3 models within Fastchat #3705

Are you sure you want to change the base?

Add support for Gemma 3 models within Fastchat #3705

Uh oh!

Conversation

deep1401 commented Mar 27, 2025

Why are these changes needed?

Related issue number (if applicable)

Uh oh!

mortanius-1 Jul 6, 2025

Choose a reason for hiding this comment

Uh oh!

deep1401 Jul 21, 2025

Choose a reason for hiding this comment

Uh oh!

fuckgitb commented Jul 21, 2025 via email

Uh oh!

Uh oh!