server/llm: improve token counting

haraldschilly · haraldschilly · commit a602031a7390 · 2025-07-17T14:20:43.000+02:00
diff --git a/src/packages/server/llm/anthropic.ts b/src/packages/server/llm/anthropic.ts
@@ -1,9 +1,11 @@
 import { ChatAnthropic } from "@langchain/anthropic";
+import { AIMessageChunk } from "@langchain/core/messages";
 import {
   ChatPromptTemplate,
   MessagesPlaceholder,
 } from "@langchain/core/prompts";
 import { RunnableWithMessageHistory } from "@langchain/core/runnables";
+import { concat } from "@langchain/core/utils/stream";
 
 import getLogger from "@cocalc/backend/logger";
 import { getServerSettings } from "@cocalc/database/settings";
@@ -108,24 +110,57 @@ export async function evaluateAnthropic(
 
   const chunks = await chainWithHistory.stream({ input });
 
+  let finalResult: AIMessageChunk | undefined;
   let output = "";
   for await (const chunk of chunks) {
     const { content } = chunk;
     if (typeof content !== "string") continue;
     output += content;
     opts.stream?.(content);
+    
+    // Collect the final result to check for usage metadata
+    if (finalResult) {
+      finalResult = concat(finalResult, chunk);
+    } else {
+      finalResult = chunk;
+    }
   }
 
   opts.stream?.(null);
 
-  // we use that GPT3 tokenizer to get an approximate number of tokens
-  const prompt_tokens = numTokens(input) + historyTokens;
-  const completion_tokens = numTokens(output);
-
-  return {
-    output,
-    total_tokens: prompt_tokens + completion_tokens,
-    completion_tokens,
-    prompt_tokens,
-  };
+  // Check for usage metadata from LangChain first (more accurate)
+  const usage_metadata = finalResult?.usage_metadata;
+  log.debug("usage_metadata", usage_metadata);
+
+  if (usage_metadata) {
+    const { input_tokens, output_tokens, total_tokens } = usage_metadata;
+    log.debug("evaluateAnthropic successful (using usage_metadata)", {
+      input_tokens,
+      output_tokens,
+      total_tokens,
+    });
+    
+    return {
+      output,
+      total_tokens,
+      completion_tokens: output_tokens,
+      prompt_tokens: input_tokens,
+    };
+  } else {
+    // Fallback to manual token counting (approximation using GPT-3 tokenizer)
+    const prompt_tokens = numTokens(input) + historyTokens;
+    const completion_tokens = numTokens(output);
+
+    log.debug("evaluateAnthropic successful (using manual counting)", {
+      prompt_tokens,
+      completion_tokens,
+    });
+
+    return {
+      output,
+      total_tokens: prompt_tokens + completion_tokens,
+      completion_tokens,
+      prompt_tokens,
+    };
+  }
 }
diff --git a/src/packages/server/llm/custom-openai.ts b/src/packages/server/llm/custom-openai.ts
@@ -4,11 +4,13 @@ import {
   isCustomOpenAI,
 } from "@cocalc/util/db-schema/llm-utils";
 import type { ChatOutput, History, Stream } from "@cocalc/util/types/llm";
+import { AIMessageChunk } from "@langchain/core/messages";
 import {
   ChatPromptTemplate,
   MessagesPlaceholder,
 } from "@langchain/core/prompts";
 import { RunnableWithMessageHistory } from "@langchain/core/runnables";
+import { concat } from "@langchain/core/utils/stream";
 import {
   ChatOpenAI as ChatOpenAILC,
   OpenAICallOptions,
@@ -75,6 +77,7 @@ export async function evaluateCustomOpenAI(
 
   const chunks = await chainWithHistory.stream({ input });
 
+  let finalResult: AIMessageChunk | undefined;
   let output = "";
   for await (const chunk of chunks) {
     const { content } = chunk;
@@ -83,19 +86,51 @@ export async function evaluateCustomOpenAI(
     }
     output += content;
     opts.stream?.(content);
+    
+    // Collect the final result to check for usage metadata
+    if (finalResult) {
+      finalResult = concat(finalResult, chunk);
+    } else {
+      finalResult = chunk;
+    }
   }
 
   // and an empty call when done
   opts.stream?.(null);
 
-  // we use that GPT3 tokenizer to get an approximate number of tokens
-  const prompt_tokens = numTokens(input) + historyTokens;
-  const completion_tokens = numTokens(output);
+  // Check for usage metadata from LangChain first (more accurate)
+  const usage_metadata = finalResult?.usage_metadata;
+  log.debug("usage_metadata", usage_metadata);
+
+  if (usage_metadata) {
+    const { input_tokens, output_tokens, total_tokens } = usage_metadata;
+    log.debug("evaluateCustomOpenAI successful (using usage_metadata)", {
+      input_tokens,
+      output_tokens,
+      total_tokens,
+    });
+    
+    return {
+      output,
+      total_tokens,
+      completion_tokens: output_tokens,
+      prompt_tokens: input_tokens,
+    };
+  } else {
+    // Fallback to manual token counting (approximation using GPT-3 tokenizer)
+    const prompt_tokens = numTokens(input) + historyTokens;
+    const completion_tokens = numTokens(output);
 
-  return {
-    output,
-    total_tokens: prompt_tokens + completion_tokens,
-    completion_tokens,
-    prompt_tokens,
-  };
+    log.debug("evaluateCustomOpenAI successful (using manual counting)", {
+      prompt_tokens,
+      completion_tokens,
+    });
+
+    return {
+      output,
+      total_tokens: prompt_tokens + completion_tokens,
+      completion_tokens,
+      prompt_tokens,
+    };
+  }
 }
diff --git a/src/packages/server/llm/google-genai-client.ts b/src/packages/server/llm/google-genai-client.ts
@@ -163,7 +163,6 @@ export class GoogleGenAIClient {
     // Check for usage metadata from LangChain first (more accurate, includes thinking tokens)
     const usage_metadata = finalResult?.usage_metadata;
     log.debug("usage_metadata", usage_metadata);
-     console.log("usage_metadata", usage_metadata);
 
     if (usage_metadata) {
       const { input_tokens, output_tokens, total_tokens } = usage_metadata;
diff --git a/src/packages/server/llm/google-lc.ts b/src/packages/server/llm/google-lc.ts
@@ -1,8 +1,10 @@
+import { AIMessageChunk } from "@langchain/core/messages";
 import {
   ChatPromptTemplate,
   MessagesPlaceholder,
 } from "@langchain/core/prompts";
 import { RunnableWithMessageHistory } from "@langchain/core/runnables";
+import { concat } from "@langchain/core/utils/stream";
 
 import getLogger from "@cocalc/backend/logger";
 import { getServerSettings } from "@cocalc/database/settings";
@@ -94,24 +96,57 @@ export async function evaluateGoogleGenAILC(
 
   const chunks = await chainWithHistory.stream({ input });
 
+  let finalResult: AIMessageChunk | undefined;
   let output = "";
   for await (const chunk of chunks) {
     const { content } = chunk;
     if (typeof content !== "string") continue;
     output += content;
     opts.stream?.(content);
+    
+    // Collect the final result to check for usage metadata
+    if (finalResult) {
+      finalResult = concat(finalResult, chunk);
+    } else {
+      finalResult = chunk;
+    }
   }
 
   opts.stream?.(null);
 
-  // we use that GPT3 tokenizer to get an approximate number of tokens
-  const prompt_tokens = numTokens(input) + historyTokens;
-  const completion_tokens = numTokens(output);
-
-  return {
-    output,
-    total_tokens: prompt_tokens + completion_tokens,
-    completion_tokens,
-    prompt_tokens,
-  };
+  // Check for usage metadata from LangChain first (more accurate)
+  const usage_metadata = finalResult?.usage_metadata;
+  log.debug("usage_metadata", usage_metadata);
+
+  if (usage_metadata) {
+    const { input_tokens, output_tokens, total_tokens } = usage_metadata;
+    log.debug("evaluateGoogleGenAILC successful (using usage_metadata)", {
+      input_tokens,
+      output_tokens,
+      total_tokens,
+    });
+    
+    return {
+      output,
+      total_tokens,
+      completion_tokens: output_tokens,
+      prompt_tokens: input_tokens,
+    };
+  } else {
+    // Fallback to manual token counting (approximation using GPT-3 tokenizer)
+    const prompt_tokens = numTokens(input) + historyTokens;
+    const completion_tokens = numTokens(output);
+
+    log.debug("evaluateGoogleGenAILC successful (using manual counting)", {
+      prompt_tokens,
+      completion_tokens,
+    });
+
+    return {
+      output,
+      total_tokens: prompt_tokens + completion_tokens,
+      completion_tokens,
+      prompt_tokens,
+    };
+  }
 }
diff --git a/src/packages/server/llm/mistral.ts b/src/packages/server/llm/mistral.ts
@@ -1,8 +1,10 @@
+import { AIMessageChunk } from "@langchain/core/messages";
 import {
   ChatPromptTemplate,
   MessagesPlaceholder,
 } from "@langchain/core/prompts";
 import { RunnableWithMessageHistory } from "@langchain/core/runnables";
+import { concat } from "@langchain/core/utils/stream";
 import { ChatMistralAI, ChatMistralAIInput } from "@langchain/mistralai";
 import getLogger from "@cocalc/backend/logger";
 import { getServerSettings } from "@cocalc/database/settings";
@@ -86,24 +88,57 @@ export async function evaluateMistral(
 
   const chunks = await chainWithHistory.stream({ input });
 
+  let finalResult: AIMessageChunk | undefined;
   let output = "";
   for await (const chunk of chunks) {
     const { content } = chunk;
     if (typeof content !== "string") continue;
     output += content;
     opts.stream?.(content);
+    
+    // Collect the final result to check for usage metadata
+    if (finalResult) {
+      finalResult = concat(finalResult, chunk);
+    } else {
+      finalResult = chunk;
+    }
   }
 
   opts.stream?.(null);
 
-  // we use that GPT3 tokenizer to get an approximate number of tokens
-  const prompt_tokens = numTokens(input) + historyTokens;
-  const completion_tokens = numTokens(output);
-
-  return {
-    output,
-    total_tokens: prompt_tokens + completion_tokens,
-    completion_tokens,
-    prompt_tokens,
-  };
+  // Check for usage metadata from LangChain first (more accurate)
+  const usage_metadata = finalResult?.usage_metadata;
+  log.debug("usage_metadata", usage_metadata);
+
+  if (usage_metadata) {
+    const { input_tokens, output_tokens, total_tokens } = usage_metadata;
+    log.debug("evaluateMistral successful (using usage_metadata)", {
+      input_tokens,
+      output_tokens,
+      total_tokens,
+    });
+    
+    return {
+      output,
+      total_tokens,
+      completion_tokens: output_tokens,
+      prompt_tokens: input_tokens,
+    };
+  } else {
+    // Fallback to manual token counting (approximation using GPT-3 tokenizer)
+    const prompt_tokens = numTokens(input) + historyTokens;
+    const completion_tokens = numTokens(output);
+
+    log.debug("evaluateMistral successful (using manual counting)", {
+      prompt_tokens,
+      completion_tokens,
+    });
+
+    return {
+      output,
+      total_tokens: prompt_tokens + completion_tokens,
+      completion_tokens,
+      prompt_tokens,
+    };
+  }
 }
diff --git a/src/packages/server/llm/test/models.test.ts b/src/packages/server/llm/test/models.test.ts