Skywork-RM from hf

swarna · swarna · commit 1162d6022f4e · 2025-09-04T23:42:15.000Z
diff --git a/src/fairseq2/recipes/lm/__init__.py b/src/fairseq2/recipes/lm/__init__.py
@@ -93,6 +93,9 @@
 from fairseq2.recipes.lm._online_finetune._remote_model import (
     NoEnvAceMathRMPipeline as NoEnvAceMathRMPipeline,
 )
+from fairseq2.recipes.lm._online_finetune._remote_model import (
+    NoEnvSkyworkRMPipeline as NoEnvSkyworkRMPipeline,
+)
 from fairseq2.recipes.lm._online_finetune._remote_model import (
     RemoteModelHandler as RemoteModelHandler,
 )
diff --git a/src/fairseq2/recipes/lm/_online_finetune/_generative_judge.py b/src/fairseq2/recipes/lm/_online_finetune/_generative_judge.py
@@ -213,15 +213,18 @@
 
 class JudgmentExtractorHandler(ABC):
     @abstractmethod
-    def create(self, tokenizer): ...
+    def create(self, tokenizer):
+        ...
 
     @property
     @abstractmethod
-    def name(self) -> str: ...
+    def name(self) -> str:
+        ...
 
     @property
     @abstractmethod
-    def config_kls(self) -> type[object]: ...
+    def config_kls(self) -> type[object]:
+        ...
 
 
 """
@@ -240,10 +243,12 @@ class JudgmentExtractor(ABC):
     """
 
     @abstractmethod
-    def prompt(self) -> str: ...
+    def prompt(self) -> str:
+        ...
 
     @abstractmethod
-    def format_prompt(self, prompt_text, **kwargs: Any) -> str: ...
+    def format_prompt(self, prompt_text, **kwargs: Any) -> str:
+        ...
 
     """
     Format the prompt text and additional arguments into a string suitable for input to the reward model.
@@ -256,7 +261,8 @@ def format_prompt(self, prompt_text, **kwargs: Any) -> str: ...
     """
 
     @abstractmethod
-    def extract(self, generation) -> float | str: ...
+    def extract(self, generation) -> float | str:
+        ...
 
     """
     Extract the final scalar reward score from the model's response.
@@ -275,7 +281,8 @@ def extract(self, generation) -> float | str: ...
     """
 
     @abstractmethod
-    def aggregate(self, judgments) -> float | str: ...
+    def aggregate(self, judgments) -> float | str:
+        ...
 
     """
     Aggregate multiple responses (judgments) from the reward model into a single value.
diff --git a/src/fairseq2/recipes/lm/_online_finetune/_handler.py b/src/fairseq2/recipes/lm/_online_finetune/_handler.py
@@ -19,15 +19,18 @@ class OnlineFinetuneUnitHandler(ABC):
     @abstractmethod
     def create(
         self, model: Model, gangs: Gangs, recipe_config: object, vllm_actors: object
-    ) -> TrainUnit[SequenceBatch]: ...
+    ) -> TrainUnit[SequenceBatch]:
+        ...
 
     @property
     @abstractmethod
-    def name(self) -> str: ...
+    def name(self) -> str:
+        ...
 
     @property
     @abstractmethod
-    def config_kls(self) -> type[object]: ...
+    def config_kls(self) -> type[object]:
+        ...
 
 
 class UnknownOnlineFinetuneUnitError(Exception):
diff --git a/src/fairseq2/recipes/lm/_online_finetune/_remote_model.py b/src/fairseq2/recipes/lm/_online_finetune/_remote_model.py
@@ -27,13 +27,12 @@
 from fairseq2.gang import Gangs
 from fairseq2.logging import log
 from fairseq2.nn._batch_layout import BatchLayout
+from fairseq2.recipes.lm._online_finetune.third_party.ace_math import AceMathRMPipeline
 from fairseq2.recipes.lm._online_finetune.third_party.athene import AtheneRewardPipeline
 from fairseq2.recipes.lm._online_finetune.third_party.general_verifier import (
     GeneralVerifierPipeline,
 )
-from fairseq2.recipes.lm._online_finetune.third_party.ace_math import (
-    AceMathRMPipeline,
-)
+from fairseq2.recipes.lm._online_finetune.third_party.skywork import SkyworkRMPipeline
 from fairseq2.utils.structured import StructureError, structure
 
 
@@ -140,7 +139,8 @@ def is_ready(self):
     @property
     def name(self):
         return "general_verifier_pipeline"
-    
+
+
 @ray.remote
 class NoEnvAceMathRMPipeline(AceMathRMPipeline):
     """
@@ -162,6 +162,27 @@ def name(self):
         return "ace_math_rm_pipeline"
 
 
+@ray.remote
+class NoEnvSkyworkRMPipeline(SkyworkRMPipeline):
+    """
+    This is for running Ace Math RM pipeline with HF backend.
+    """
+
+    def __init__(self, *args, **kwargs):
+        # stop ray from manipulating CUDA_VISIBLE_DEVICES
+        # at the top-level
+        del os.environ["CUDA_VISIBLE_DEVICES"]
+        super().__init__(*args, **kwargs)
+        self.ready = True  # Set a flag or return a signal
+
+    def is_ready(self):
+        return self.ready
+
+    @property
+    def name(self):
+        return "skywork_rm_pipeline"
+
+
 class WorkerExtension:
     """
     The class for vLLM's worker to inherit from.
@@ -462,7 +483,7 @@ def reward_from_model(self, prompt_list, batch_size=64):
         ray_outputs = ray.get(outputs)
         ray_outputs_flat = [o for sublist in ray_outputs for o in sublist]
         rewards = [o.outputs.data.item() for o in ray_outputs_flat]
-        
+
         log.info(f"Rewards = {rewards}")
 
         return rewards
@@ -591,15 +612,18 @@ class RemoteModelHandler(ABC):
     @abstractmethod
     def create(
         self, gangs: Gangs, unit_config: object
-    ) -> Union[RemoteVllmModel, RemoteHFModel]: ...
+    ) -> Union[RemoteVllmModel, RemoteHFModel]:
+        ...
 
     @property
     @abstractmethod
-    def name(self) -> str: ...
+    def name(self) -> str:
+        ...
 
     @property
     @abstractmethod
-    def config_kls(self) -> type[object]: ...
+    def config_kls(self) -> type[object]:
+        ...
 
 
 class RemoteRayModelHandler(RemoteModelHandler):
diff --git a/src/fairseq2/recipes/lm/_online_finetune/_rewards.py b/src/fairseq2/recipes/lm/_online_finetune/_rewards.py
@@ -57,23 +57,28 @@ class VLLMOutputRewardHandler(ABC):
     @abstractmethod
     def create(
         self, reward_model: Any, gangs: Gangs, reward_config: object
-    ) -> VLLMOutputReward: ...
+    ) -> VLLMOutputReward:
+        ...
 
     @property
     @abstractmethod
-    def name(self) -> str: ...
+    def name(self) -> str:
+        ...
 
     @property
     @abstractmethod
-    def config_kls(self) -> type[object]: ...
+    def config_kls(self) -> type[object]:
+        ...
 
 
 class VLLMOutputReward(ABC):
     @abstractmethod
-    def process_rollouts(self, vllm_outputs: list[RequestOutput]): ...
+    def process_rollouts(self, vllm_outputs: list[RequestOutput]):
+        ...
 
     @abstractmethod
-    def prepare_preference_batch(self, prompt_batch: PromptBatch, rollouts): ...
+    def prepare_preference_batch(self, prompt_batch: PromptBatch, rollouts):
+        ...
 
 
 class GSM8kVerifierHandler(VLLMOutputRewardHandler):
@@ -461,7 +466,8 @@ def prepare_preference_batch(
         )
 
         return batch, is_bad_batch, reward_output
-    
+
+
 class AceMathVerifierHandler(VLLMOutputRewardHandler):
     def __init__(self):
         pass
@@ -492,7 +498,8 @@ def name(self):
     @override
     def config_kls(self):
         return None
-    
+
+
 class AceMathVerifier(VLLMOutputReward):
     def __init__(
         self,
@@ -514,11 +521,16 @@ def __init__(
 
     def wrap_text(self, prompt_text, rollout_text):
         wrapped_text = [
-            {"role": "system", "content": "Please reason step by step, and check your final answer within \\boxed{}."},
+            {
+                "role": "system",
+                "content": "Please reason step by step, and check your final answer within \\boxed{}.",
+            },
             {"role": "user", "content": prompt_text},
-            {"role": "assistant", "content": rollout_text}
+            {"role": "assistant", "content": rollout_text},
         ]
-        chat_str = self.tokenizer.apply_chat_template(wrapped_text, tokenize=False, add_generation_prompt=False)
+        chat_str = self.tokenizer.apply_chat_template(
+            wrapped_text, tokenize=False, add_generation_prompt=False
+        )
         if self.tokenizer.bos_token is not None and chat_str.startswith(
             self.tokenizer.bos_token
         ):
@@ -557,7 +569,7 @@ def process_rollouts(
         batch_rewards = generate_rewards(
             vllm_inputs, dp_gang=self._gangs.dp, vllm_model=self.reward_model
         )
-        
+
         log.info(f"Batch rewards = {batch_rewards}")
 
         # reshape batch_rewards to [Batch, Rollouts]
diff --git a/src/fairseq2/recipes/lm/_online_finetune/third_party/ace_math.py b/src/fairseq2/recipes/lm/_online_finetune/third_party/ace_math.py
@@ -1,28 +1,33 @@
 import torch
-from fairseq2.logging import log
 from transformers import AutoModelForSequenceClassification, AutoTokenizer
 
+from fairseq2.logging import log
+
+
 class AceMathRMPipeline:
     def __init__(self, *args, **kwargs):
         model_path = "/datasets/pretrained-llms/AceMath-7B-RM"
-        self.tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
+        self.tokenizer = AutoTokenizer.from_pretrained(
+            model_path, trust_remote_code=True
+        )
         self.model = AutoModelForSequenceClassification.from_pretrained(
-            model_path, num_labels=1, torch_dtype=torch.bfloat16, trust_remote_code=True, device_map = "auto"
+            model_path,
+            num_labels=1,
+            torch_dtype=torch.bfloat16,
+            trust_remote_code=True,
+            device_map="auto",
         ).eval()
         self.model.config.pad_token_id = self.tokenizer.pad_token_id
 
     def __call__(self, prompt_chunk):
         inputs = self.tokenizer(
-            prompt_chunk, 
-            return_tensors="pt", 
-            padding=True,
-            add_special_tokens=False
+            prompt_chunk, return_tensors="pt", padding=True, add_special_tokens=False
         ).to(self.model.device)
-        
+
         outputs = self.model(**inputs)[0]
         log.info(f"outputs = {outputs}")
-        rewards =[output[0] for output in outputs]
-        
+        rewards = [output[0] for output in outputs]
+
         log.info(f"Length of rewards = {len(rewards)}")
 
         return rewards
diff --git a/src/fairseq2/recipes/lm/_online_finetune/third_party/skywork.py b/src/fairseq2/recipes/lm/_online_finetune/third_party/skywork.py
@@ -0,0 +1,30 @@
+import torch
+from transformers import AutoModelForSequenceClassification, AutoTokenizer
+
+from fairseq2.logging import log
+
+
+class SkyworkRMPipeline:
+    def __init__(self, *args, **kwargs):
+        model_path = "/datasets/pretrained-llms/Skywork-Reward-V2-Llama-3.1-8B"
+        self.tokenizer = AutoTokenizer.from_pretrained(
+            model_path, trust_remote_code=True
+        )
+        self.model = AutoModelForSequenceClassification.from_pretrained(
+            model_path,
+            num_labels=1,
+            torch_dtype=torch.bfloat16,
+            trust_remote_code=True,
+            device_map="auto",
+        ).eval()
+        self.model.config.pad_token_id = self.tokenizer.pad_token_id
+
+    def __call__(self, prompt_chunk):
+        inputs = self.tokenizer(
+            prompt_chunk, return_tensors="pt", padding=True, add_special_tokens=False
+        ).to(self.model.device)
+
+        outputs = self.model(**inputs)[0]
+        rewards = [output[0] for output in outputs]
+
+        return rewards

Original file line number	Diff line number	Diff line change
`@@ -93,6 +93,9 @@`
`93`	`93`	`from fairseq2.recipes.lm._online_finetune._remote_model import (`
`94`	`94`	`NoEnvAceMathRMPipeline as NoEnvAceMathRMPipeline,`
`95`	`95`	`)`
	`96`	`+from fairseq2.recipes.lm._online_finetune._remote_model import (`
	`97`	`+ NoEnvSkyworkRMPipeline as NoEnvSkyworkRMPipeline,`
	`98`	`+)`
`96`	`99`	`from fairseq2.recipes.lm._online_finetune._remote_model import (`
`97`	`100`	`RemoteModelHandler as RemoteModelHandler,`
`98`	`101`	`)`