mongodb
diff --git a/‎package-lock.json
Lines changed: 4198 additions & 1799 deletions b/‎package-lock.json
Lines changed: 4198 additions & 1799 deletions
diff --git a/‎packages/benchmarks/package.json
Lines changed: 3 additions & 1 deletion b/‎packages/benchmarks/package.json
Lines changed: 3 additions & 1 deletion
diff --git a/‎packages/benchmarks/src/bin/mongoDbBenchmarkCli.ts
Lines changed: 3 additions & 1 deletion b/‎packages/benchmarks/src/bin/mongoDbBenchmarkCli.ts
Lines changed: 3 additions & 1 deletion
diff --git a/‎packages/benchmarks/src/cli/BenchmarkConfig.ts
Lines changed: 7 additions & 1 deletion b/‎packages/benchmarks/src/cli/BenchmarkConfig.ts
Lines changed: 7 additions & 1 deletion
diff --git a/‎packages/benchmarks/src/cli/runBenchmark.test.ts
Lines changed: 15 additions & 0 deletions b/‎packages/benchmarks/src/cli/runBenchmark.test.ts
Lines changed: 15 additions & 0 deletions
diff --git a/‎packages/benchmarks/src/cli/runBenchmark.ts
Lines changed: 64 additions & 57 deletions b/‎packages/benchmarks/src/cli/runBenchmark.ts
Lines changed: 64 additions & 57 deletions
diff --git a/‎packages/benchmarks/src/textToDriver/bin/mongoshBenchmarks/claudeGenerated/promptCompletionAnnotatedSchema.ts
Lines changed: 1 addition & 1 deletion b/‎packages/benchmarks/src/textToDriver/bin/mongoshBenchmarks/claudeGenerated/promptCompletionAnnotatedSchema.ts
Lines changed: 1 addition & 1 deletion
diff --git a/‎packages/benchmarks/src/textToDriver/bin/mongoshBenchmarks/config.ts
Lines changed: 1 addition & 1 deletion b/‎packages/benchmarks/src/textToDriver/bin/mongoshBenchmarks/config.ts
Lines changed: 1 addition & 1 deletion
diff --git a/‎packages/benchmarks/src/textToDriver/generateDriverCode/generateAtlasSearchCodeAgentic.ts
Lines changed: 71 additions & 0 deletions b/‎packages/benchmarks/src/textToDriver/generateDriverCode/generateAtlasSearchCodeAgentic.ts
Lines changed: 71 additions & 0 deletions
diff --git a/‎packages/benchmarks/src/textToDriver/generateDriverCode/languagePrompts/atlasSearch.ts
Lines changed: 5 additions & 0 deletions b/‎packages/benchmarks/src/textToDriver/generateDriverCode/languagePrompts/atlasSearch.ts
Lines changed: 5 additions & 0 deletions
@@ -45,16 +45,18 @@
   },
   "dependencies": {
     "@ai-sdk/openai": "^1.3.6",
+    "@modelcontextprotocol/sdk": "^1.17.2",
     "@supercharge/promise-pool": "^3.2.0",
     "ai": "^4.2.10",
     "autoevals": "^0.0.129",
     "csv-writer": "^1.6.0",
     "dotenv": "^16",
     "mongodb-chatbot-server": "*",
+    "mongodb-mcp-server": "^0.2.0",
     "mongodb-rag-core": "*",
     "mongodb-schema": "^12.2.0",
     "yaml": "^2.7.1",
     "yargs": "^17.7.2",
     "zod": "^3.23.8"
   }
-}
+}
@@ -6,7 +6,8 @@ import { assertEnvVars, BRAINTRUST_ENV_VARS } from "mongodb-rag-core";
 import { multipleChoiceBenchmarkConfig } from "../quizQuestions/config";
 import { nlPromptResponseBenchmark } from "../nlPromptResponse/config";
 import { discoveryBenchmarkConfig } from "../discovery/config";
-import { nlToMongoshBenchmarkConfig } from "../textToDriver/config";
+import { nlToMongoshBenchmarkConfig } from "../textToDriver/nlToMongoshBenchmarkConfig";
+import { nlToAtlasSearchBenchmarkConfig } from "../textToDriver/nltoAtlasSearchBenchmarkConfig";
 
 const { BRAINTRUST_API_KEY, BRAINTRUST_ENDPOINT } =
   assertEnvVars(BRAINTRUST_ENV_VARS);
@@ -22,6 +23,7 @@ const config: BenchmarkCliConfig = {
     nl_prompt_response: nlPromptResponseBenchmark,
     discovery: discoveryBenchmarkConfig,
     nl_to_mongosh: nlToMongoshBenchmarkConfig,
+    nl_to_atlas_search: nlToAtlasSearchBenchmarkConfig,
   },
 };
 
 
@@ -23,7 +23,9 @@ export interface BenchmarkTask<
   taskFunc: (
     modelProvider: ModelProvider,
     deployment: ModelConfig
-  ) => EvalTask<Input, Output, Expected, Metadata, Parameters>;
+  ) =>
+    | Promise<EvalTask<Input, Output, Expected, Metadata, Parameters>>
+    | EvalTask<Input, Output, Expected, Metadata, Parameters>;
   description?: string;
 }
 
@@ -48,6 +50,10 @@ export interface BenchmarkConfig<
   datasets: Record<string, BenchmarkDataset<Input, Expected, Metadata>>;
   tasks: Record<string, BenchmarkTask<Input, Output, Expected, Metadata>>;
   scorers: Record<string, BenchmarkScorer<Input, Output, Expected, Metadata>>;
+  environment?: {
+    beforeAll?: () => Promise<void>;
+    afterAll?: () => Promise<void>;
+  };
 }
 
 export type ModelProvider = {
 
@@ -28,6 +28,8 @@ describe("runBenchmark", () => {
   let mockScorerFunc: jest.Mock;
   let mockProcessFunction: jest.Mock;
   let mockPromisePoolInstance: any;
+  let mockBeforeAll: jest.Mock;
+  let mockAfterAll: jest.Mock;
 
   beforeEach(() => {
     mockDataset1 = [
@@ -38,6 +40,8 @@ describe("runBenchmark", () => {
 
     mockTaskFunc = jest.fn().mockReturnValue("mock-task-result");
     mockScorerFunc = jest.fn().mockReturnValue("mock-scorer-result");
+    mockBeforeAll = jest.fn();
+    mockAfterAll = jest.fn();
 
     mockModels = [
       {
@@ -64,6 +68,10 @@ describe("runBenchmark", () => {
       },
       benchmarks: {
         "test-benchmark": {
+          environment: {
+            beforeAll: mockBeforeAll,
+            afterAll: mockAfterAll,
+          },
           description: "Test benchmark",
           projectName: "test-project",
           datasets: {
@@ -629,5 +637,12 @@ describe("runBenchmark", () => {
         mockConfig.models[1]
       );
     });
+
+    it("should call beforeAll and afterAll functions", async () => {
+      await runBenchmark(mockConfig, mockArgs);
+
+      expect(mockBeforeAll).toHaveBeenCalled();
+      expect(mockAfterAll).toHaveBeenCalled();
+    });
   });
 });
@@ -53,65 +53,72 @@ export async function runBenchmark(
   console.log(`Task: ${task}`);
   console.log(`Model concurrency: ${modelConcurrency}`);
 
-  // Run benchmarks with model concurrency
-  const { results } = await PromisePool.for(models)
-    .withConcurrency(modelConcurrency)
-    .handleError((error) => {
-      console.error(error);
-    })
-    .process(async (model) => {
-      const maxConcurrency = taskConcurrency ?? model.maxConcurrency ?? 1;
-
-      console.log(`Running experiments for model: ${model.label}`);
-
-      // Run each task-dataset combination
-
-      const dataset = (
-        await Promise.all(
-          datasetsToRun.map(([_datasetName, datasetConfig]) =>
-            datasetConfig.getDataset()
+  // Setup environment
+  await benchmarkConfig.environment?.beforeAll?.();
+
+  try {
+    // Run benchmarks with model concurrency
+    const { results } = await PromisePool.for(models)
+      .withConcurrency(modelConcurrency)
+      .handleError((error) => {
+        console.error(error);
+      })
+      .process(async (model) => {
+        const maxConcurrency = taskConcurrency ?? model.maxConcurrency ?? 1;
+
+        console.log(`Running experiments for model: ${model.label}`);
+
+        // Run each task-dataset combination
+
+        const dataset = (
+          await Promise.all(
+            datasetsToRun.map(([_datasetName, datasetConfig]) =>
+              datasetConfig.getDataset()
+            )
           )
-        )
-      ).flat();
-      const datasetName = datasetsToRun.map(([name]) => name).join("+");
-
-      const experimentName = makeExperimentName({
-        baseName: type,
-        experimentType: task,
-        datasets: datasetName,
-        model: model.label,
-      });
-
-      console.log(`Running experiment: ${experimentName}`);
-
-      const scores = Object.values(benchmarkConfig.scorers).map(
-        (scorer) => scorer.scorerFunc
-      );
-
-      try {
-        // Load dataset
-        // Run evaluation
-        const evalResult = await Eval(benchmarkConfig.projectName, {
-          data: dataset,
-          experimentName,
-          maxConcurrency,
-          metadata: {
-            model: model.label,
-            task,
-            dataset: datasetName,
-            taskConcurrency,
-          },
-          task: taskToRun.taskFunc(config.modelProvider, model),
-          scores,
+        ).flat();
+        const datasetName = datasetsToRun.map(([name]) => name).join("+");
+
+        const experimentName = makeExperimentName({
+          baseName: type,
+          experimentType: task,
+          datasets: datasetName,
+          model: model.label,
         });
 
-        console.log(`✓ Completed experiment: ${experimentName}`);
-        return { evalResult, dataset, experimentName };
-      } catch (error) {
-        console.error(`✗ Failed experiment: ${experimentName}`, error);
-      }
-    });
+        console.log(`Running experiment: ${experimentName}`);
+
+        const scores = Object.values(benchmarkConfig.scorers).map(
+          (scorer) => scorer.scorerFunc
+        );
+
+        try {
+          // Load dataset
+          // Run evaluation
+          const evalResult = await Eval(benchmarkConfig.projectName, {
+            data: dataset,
+            experimentName,
+            maxConcurrency,
+            metadata: {
+              model: model.label,
+              task,
+              dataset: datasetName,
+              taskConcurrency,
+            },
+            task: await taskToRun.taskFunc(config.modelProvider, model),
+            scores,
+          });
+
+          console.log(`✓ Completed experiment: ${experimentName}`);
+          return { evalResult, dataset, experimentName };
+        } catch (error) {
+          console.error(`✗ Failed experiment: ${experimentName}`, error);
+        }
+      });
 
-  console.log("Benchmark run completed");
-  return results;
+    console.log("Benchmark run completed");
+    return results;
+  } finally {
+    await benchmarkConfig.environment?.afterAll?.();
+  }
 }
@@ -3,7 +3,7 @@ import { loadTextToDriverBraintrustEvalCases } from "../../../loadBraintrustData
 import {
   ReasonableOutput,
   SuccessfulExecution,
-} from "../../../evaluationMetrics";
+} from "../../../scorers/evaluationMetrics";
 import { annotatedDbSchemas } from "../../../generateDriverCode/annotatedDbSchemas";
 import { createOpenAI, wrapLanguageModel } from "mongodb-rag-core/aiSdk";
 import { BraintrustMiddleware } from "mongodb-rag-core/braintrust";
 
@@ -7,7 +7,7 @@ import {
   SchemaStrategy,
   SystemPromptStrategy,
 } from "../../generateDriverCode/languagePrompts/PromptStrategies";
-import { makeMongoshBenchmarkMetrics } from "../../evaluationMetrics";
+import { makeMongoshBenchmarkMetrics } from "../../scorers/evaluationMetrics";
 
 export { MODELS } from "../../../benchmarkModels";
 
 
@@ -0,0 +1,71 @@
+import { GenerateTextResult, ToolSet } from "mongodb-rag-core/aiSdk";
+import { TextToDriverEvalTask, TextToDriverOutput } from "../TextToDriverEval";
+import {
+  makeMongoDbMcpAgent,
+  MakeMongoDbMcpAgentParams,
+} from "./mongoDbMcpAgent";
+
+export async function makeGenerateAtlasSearchCodeAgenticTask(
+  constructorArgs: MakeMongoDbMcpAgentParams
+): Promise<TextToDriverEvalTask> {
+  const agent = await makeMongoDbMcpAgent(constructorArgs);
+  return async function generateAtlasSearchCodeAgentic({
+    databaseName,
+    nlQuery,
+  }) {
+    const response = await agent({
+      messages: [makeAtlasSearchUserMessage(databaseName, nlQuery)],
+    });
+
+    return extractOutputFromMessages(response);
+  };
+}
+
+function makeAtlasSearchUserMessage(dbName: string, nlQuery: string) {
+  return {
+    role: "user" as const,
+    content: `Database name: ${dbName}
+Natural language query: ${nlQuery}`,
+  };
+}
+
+function extractOutputFromMessages(
+  agentResponse: GenerateTextResult<ToolSet, unknown>
+): TextToDriverOutput {
+  // Find the last call to the `aggregate` tool
+  const toolCalls =
+    agentResponse.steps?.flatMap((step) => step.toolCalls || []) || [];
+  const lastAggregateCall = toolCalls.findLast(
+    (call) => call.toolName === "aggregate"
+  );
+
+  if (!lastAggregateCall) {
+    return {
+      execution: {
+        executionTimeMs: null,
+        result: null,
+        error: { message: "No tool calls found" },
+      },
+      generatedCode: "",
+    } satisfies TextToDriverOutput;
+  }
+
+  // Extract the tool call argument and stringify it for generatedCode
+  const generatedCode = JSON.stringify(lastAggregateCall.input, null, 2);
+
+  // Get the result from the tool results in the steps
+  const toolResults =
+    agentResponse.steps?.flatMap((step) => step.toolResults || []) || [];
+  const correspondingResult = toolResults.find(
+    (result) => result.toolCallId === lastAggregateCall.toolCallId
+  );
+  const toolResult = correspondingResult?.output || null;
+
+  return {
+    execution: {
+      executionTimeMs: null,
+      result: toolResult,
+    },
+    generatedCode,
+  } satisfies TextToDriverOutput;
+}
@@ -0,0 +1,5 @@
+export const atlasSearchPrompt = `You are a MongoDB Atlas Search expert. You are given a natural language query and you need to generate the appropriate Atlas Search query.
+
+You may use the available tools to help you explore the database and generate the query
+
+Once you have generated a query that you are confident in, simply respond "Done" to the user.`;