fix: change score type to float to prevent truncation when evaluator score range is 0-1

AAgnihotry · AAgnihotry · commit a4c51af6c35a · 2026-02-10T09:58:36.000-08:00
The bug was in span_utils.py where EvalSetRunOutput and EvaluationOutput
models had score field typed as int instead of float. This caused float
scores (e.g., 0.85) to be truncated to 0 when converted to int.

Changes:
- Changed score field from int to float in EvalSetRunOutput model
- Changed score field from int to float in EvaluationOutput model
- Removed int() conversion when creating output objects
- Updated tests to expect float scores instead of int

Fixes: AE-1000
diff --git a/src/uipath/_cli/_evals/_span_utils.py b/src/uipath/_cli/_evals/_span_utils.py
@@ -18,15 +18,15 @@ class EvalSetRunOutput(BaseModel):
 
     model_config = ConfigDict(populate_by_name=True)
 
-    score: int = Field(..., alias="score")
+    score: float = Field(..., alias="score")
 
 
 class EvaluationOutput(BaseModel):
     """Output model for Evaluation span."""
 
     model_config = ConfigDict(populate_by_name=True)
 
-    score: int = Field(..., alias="score")
+    score: float = Field(..., alias="score")
 
 
 class EvaluationOutputSpanOutput(BaseModel):
@@ -91,7 +91,7 @@ def set_eval_set_run_output_and_metadata(
         success: Whether the evaluation set run was successful
     """
     # Set span output with overall score using Pydantic model (formatted for UI rendering)
-    output = EvalSetRunOutput(score=int(overall_score))
+    output = EvalSetRunOutput(score=overall_score)
     span.set_attribute("output", output.model_dump_json(by_alias=True, indent=2))
 
     # Set metadata attributes
@@ -139,7 +139,7 @@ def set_evaluation_output_and_metadata(
         error_message: Optional error message if has_error is True
     """
     # Set span output with average score using Pydantic model (formatted for UI rendering)
-    output = EvaluationOutput(score=int(avg_score))
+    output = EvaluationOutput(score=avg_score)
     span.set_attribute("output", output.model_dump_json(by_alias=True, indent=2))
 
     # Set input data if provided (formatted JSON for UI rendering)
diff --git a/tests/cli/eval/test_eval_span_utils.py b/tests/cli/eval/test_eval_span_utils.py
@@ -45,7 +45,7 @@ def test_eval_set_run_output_model(self):
         data = json.loads(json_str)
 
         assert data == {"score": 85}
-        assert isinstance(data["score"], int)
+        assert isinstance(data["score"], (int, float))
 
     def test_evaluation_output_model(self):
         """Test EvaluationOutput model serialization."""
@@ -54,7 +54,7 @@ def test_evaluation_output_model(self):
         data = json.loads(json_str)
 
         assert data == {"score": 90}
-        assert isinstance(data["score"], int)
+        assert isinstance(data["score"], (int, float))
 
     def test_evaluation_output_span_output_model_with_justification(self):
         """Test EvaluationOutputSpanOutput model with justification."""
@@ -150,7 +150,7 @@ def test_set_eval_set_run_output_and_metadata(self):
         # Check output
         assert "output" in span.attributes
         output_data = json.loads(span.attributes["output"])
-        assert output_data == {"score": 82}
+        assert output_data == {"score": 82.5}
 
         # Check metadata
         assert span.attributes["agentId"] == "exec-123"
@@ -202,7 +202,7 @@ def test_set_evaluation_output_and_metadata(self):
         # Check output
         assert "output" in span.attributes
         output_data = json.loads(span.attributes["output"])
-        assert output_data == {"score": 88}
+        assert output_data == {"score": 88.3}
 
         # Check metadata
         assert span.attributes["agentId"] == "eval-789"
@@ -304,7 +304,7 @@ async def test_configure_eval_set_run_span(self):
 
         # Verify score calculation
         output_data = json.loads(span.attributes["output"])
-        assert output_data["score"] == 85  # (80 + 90) / 2
+        assert output_data["score"] == 85.0  # (80 + 90) / 2
 
         # Verify metadata
         assert span.attributes["agentId"] == "exec-complete"
@@ -377,7 +377,7 @@ async def test_configure_evaluation_span(self):
 
         # Verify score calculation
         output_data = json.loads(span.attributes["output"])
-        assert output_data["score"] == 80  # (70 + 90) / 2
+        assert output_data["score"] == 80.0  # (70 + 90) / 2
 
         # Verify metadata
         assert span.attributes["agentId"] == "eval-complete"
@@ -489,7 +489,7 @@ def test_set_evaluation_output_and_metadata_with_input_data(self):
 
         # Verify output is set
         output_data = json.loads(span.attributes["output"])
-        assert output_data == {"score": 92}
+        assert output_data == {"score": 92.0}
 
         # Verify other attributes
         assert span.attributes["agentId"] == "eval-input-test"
diff --git a/tests/cli/eval/test_eval_tracing_integration.py b/tests/cli/eval/test_eval_tracing_integration.py
@@ -790,7 +790,7 @@ async def test_evaluation_set_run_span_has_output_attribute(
 
         output_data = json.loads(eval_span["attributes"]["output"])
         assert "score" in output_data
-        assert isinstance(output_data["score"], int)
+        assert isinstance(output_data["score"], (int, float))
 
     @pytest.mark.asyncio
     async def test_evaluation_span_has_metadata_attributes(