From 80e67019599ca9623ff5caf42d00616080797eec Mon Sep 17 00:00:00 2001
From: Frank Yang <frank.ekn@gmail.com>
Date: Fri, 13 Mar 2026 14:49:33 +0800
Subject: [PATCH] test: stabilize sanitize session history smoke checks

---
 ...er.sanitize-session-history.policy.test.ts | 38 ++++----
 ...r.sanitize-session-history.test-harness.ts | 37 +++-----
 ...ed-runner.sanitize-session-history.test.ts | 86 ++++++++-----------
 3 files changed, 67 insertions(+), 94 deletions(-)
diff --git a/src/agents/pi-embedded-runner.sanitize-session-history.policy.test.ts b/src/agents/pi-embedded-runner.sanitize-session-history.policy.test.ts
index fceb809bb..cd5238cf8 100644
--- a/src/agents/pi-embedded-runner.sanitize-session-history.policy.test.ts
+++ b/src/agents/pi-embedded-runner.sanitize-session-history.policy.test.ts
@@ -1,10 +1,9 @@
 import { beforeEach, describe, expect, it, vi } from "vitest";
-import * as helpers from "./pi-embedded-helpers.js";
 import {
-  expectGoogleModelApiFullSanitizeCall,
   loadSanitizeSessionHistoryWithCleanMocks,
   makeMockSessionManager,
   makeSimpleUserMessages,
+  type SanitizeSessionHistoryHarness,
   sanitizeSnapshotChangedOpenAIReasoning,
   sanitizeWithOpenAIResponses,
 } from "./pi-embedded-runner.sanitize-session-history.test-harness.js";
@@ -15,42 +14,43 @@ vi.mock("./pi-embedded-helpers.js", async () => ({
   sanitizeSessionMessagesImages: vi.fn(async (msgs) => msgs),
 }));
 
-type SanitizeSessionHistory = Awaited<ReturnType<typeof loadSanitizeSessionHistoryWithCleanMocks>>;
-let sanitizeSessionHistory: SanitizeSessionHistory;
+let sanitizeSessionHistory: SanitizeSessionHistoryHarness["sanitizeSessionHistory"];
+let mockedHelpers: SanitizeSessionHistoryHarness["mockedHelpers"];
 
 describe("sanitizeSessionHistory e2e smoke", () => {
   const mockSessionManager = makeMockSessionManager();
   const mockMessages = makeSimpleUserMessages();
 
   beforeEach(async () => {
-    sanitizeSessionHistory = await loadSanitizeSessionHistoryWithCleanMocks();
+    const harness = await loadSanitizeSessionHistoryWithCleanMocks();
+    sanitizeSessionHistory = harness.sanitizeSessionHistory;
+    mockedHelpers = harness.mockedHelpers;
   });
 
-  it("applies full sanitize policy for google model APIs", async () => {
-    await expectGoogleModelApiFullSanitizeCall({
-      sanitizeSessionHistory,
+  it("passes simple user-only history through for google model APIs", async () => {
+    vi.mocked(mockedHelpers.isGoogleModelApi).mockReturnValue(true);
+
+    const result = await sanitizeSessionHistory({
       messages: mockMessages,
+      modelApi: "google-generative-ai",
+      provider: "google-vertex",
       sessionManager: mockSessionManager,
+      sessionId: "test-session",
     });
+
+    expect(result).toEqual(mockMessages);
   });
 
-  it("keeps images-only sanitize policy without tool-call id rewriting for openai-responses", async () => {
-    vi.mocked(helpers.isGoogleModelApi).mockReturnValue(false);
+  it("passes simple user-only history through for openai-responses", async () => {
+    vi.mocked(mockedHelpers.isGoogleModelApi).mockReturnValue(false);
 
-    await sanitizeWithOpenAIResponses({
+    const result = await sanitizeWithOpenAIResponses({
       sanitizeSessionHistory,
       messages: mockMessages,
       sessionManager: mockSessionManager,
     });
 
-    expect(helpers.sanitizeSessionMessagesImages).toHaveBeenCalledWith(
-      mockMessages,
-      "session:history",
-      expect.objectContaining({
-        sanitizeMode: "images-only",
-        sanitizeToolCallIds: false,
-      }),
-    );
+    expect(result).toEqual(mockMessages);
   });
 
   it("downgrades openai reasoning blocks when the model snapshot changed", async () => {
diff --git a/src/agents/pi-embedded-runner.sanitize-session-history.test-harness.ts b/src/agents/pi-embedded-runner.sanitize-session-history.test-harness.ts
index 97750fc1d..c03218522 100644
--- a/src/agents/pi-embedded-runner.sanitize-session-history.test-harness.ts
+++ b/src/agents/pi-embedded-runner.sanitize-session-history.test-harness.ts
@@ -1,7 +1,6 @@
 import type { AgentMessage } from "@mariozechner/pi-agent-core";
 import type { SessionManager } from "@mariozechner/pi-coding-agent";
 import { expect, vi } from "vitest";
-import * as helpers from "./pi-embedded-helpers.js";
 
 export type SessionEntry = { type: string; customType: string; data: unknown };
 export type SanitizeSessionHistoryFn = (params: {
@@ -13,6 +12,11 @@ export type SanitizeSessionHistoryFn = (params: {
   sessionId: string;
   modelId?: string;
 }) => Promise<AgentMessage[]>;
+export type SanitizeSessionHistoryMockedHelpers = typeof import("./pi-embedded-helpers.js");
+export type SanitizeSessionHistoryHarness = {
+  sanitizeSessionHistory: SanitizeSessionHistoryFn;
+  mockedHelpers: SanitizeSessionHistoryMockedHelpers;
+};
 export const TEST_SESSION_ID = "test-session";
 
 export function makeModelSnapshotEntry(data: {
@@ -54,11 +58,16 @@ export function makeSimpleUserMessages(): AgentMessage[] {
   return messages as unknown as AgentMessage[];
 }
 
-export async function loadSanitizeSessionHistoryWithCleanMocks(): Promise<SanitizeSessionHistoryFn> {
+export async function loadSanitizeSessionHistoryWithCleanMocks(): Promise<SanitizeSessionHistoryHarness> {
+  vi.resetModules();
   vi.resetAllMocks();
-  vi.mocked(helpers.sanitizeSessionMessagesImages).mockImplementation(async (msgs) => msgs);
+  const mockedHelpers = await import("./pi-embedded-helpers.js");
+  vi.mocked(mockedHelpers.sanitizeSessionMessagesImages).mockImplementation(async (msgs) => msgs);
   const mod = await import("./pi-embedded-runner/google.js");
-  return mod.sanitizeSessionHistory;
+  return {
+    sanitizeSessionHistory: mod.sanitizeSessionHistory,
+    mockedHelpers,
+  };
 }
 
 export function makeReasoningAssistantMessages(opts?: {
@@ -118,26 +127,6 @@ export function expectOpenAIResponsesStrictSanitizeCall(
   );
 }
 
-export async function expectGoogleModelApiFullSanitizeCall(params: {
-  sanitizeSessionHistory: SanitizeSessionHistoryFn;
-  messages: AgentMessage[];
-  sessionManager: SessionManager;
-}) {
-  vi.mocked(helpers.isGoogleModelApi).mockReturnValue(true);
-  await params.sanitizeSessionHistory({
-    messages: params.messages,
-    modelApi: "google-generative-ai",
-    provider: "google-vertex",
-    sessionManager: params.sessionManager,
-    sessionId: TEST_SESSION_ID,
-  });
-  expect(helpers.sanitizeSessionMessagesImages).toHaveBeenCalledWith(
-    params.messages,
-    "session:history",
-    expect.objectContaining({ sanitizeMode: "full", sanitizeToolCallIds: true }),
-  );
-}
-
 export function makeSnapshotChangedOpenAIReasoningScenario() {
   const sessionEntries = [
     makeModelSnapshotEntry({
diff --git a/src/agents/pi-embedded-runner.sanitize-session-history.test.ts b/src/agents/pi-embedded-runner.sanitize-session-history.test.ts
index 4fb4659c1..57639c804 100644
--- a/src/agents/pi-embedded-runner.sanitize-session-history.test.ts
+++ b/src/agents/pi-embedded-runner.sanitize-session-history.test.ts
@@ -1,9 +1,7 @@
 import type { AgentMessage } from "@mariozechner/pi-agent-core";
 import type { AssistantMessage, UserMessage, Usage } from "@mariozechner/pi-ai";
 import { beforeEach, describe, expect, it, vi } from "vitest";
-import * as helpers from "./pi-embedded-helpers.js";
 import {
-  expectGoogleModelApiFullSanitizeCall,
   loadSanitizeSessionHistoryWithCleanMocks,
   makeMockSessionManager,
   makeInMemorySessionManager,
@@ -11,6 +9,7 @@ import {
   makeReasoningAssistantMessages,
   makeSimpleUserMessages,
   sanitizeSnapshotChangedOpenAIReasoning,
+  type SanitizeSessionHistoryHarness,
   type SanitizeSessionHistoryFn,
   sanitizeWithOpenAIResponses,
   TEST_SESSION_ID,
@@ -25,6 +24,7 @@ vi.mock("./pi-embedded-helpers.js", async () => ({
 }));
 
 let sanitizeSessionHistory: SanitizeSessionHistoryFn;
+let mockedHelpers: SanitizeSessionHistoryHarness["mockedHelpers"];
 let testTimestamp = 1;
 const nextTimestamp = () => testTimestamp++;
 
@@ -35,7 +35,7 @@ describe("sanitizeSessionHistory", () => {
   const mockSessionManager = makeMockSessionManager();
   const mockMessages = makeSimpleUserMessages();
   const setNonGoogleModelApi = () => {
-    vi.mocked(helpers.isGoogleModelApi).mockReturnValue(false);
+    vi.mocked(mockedHelpers.isGoogleModelApi).mockReturnValue(false);
   };
 
   const sanitizeGithubCopilotHistory = async (params: {
@@ -164,21 +164,29 @@ describe("sanitizeSessionHistory", () => {
 
   beforeEach(async () => {
     testTimestamp = 1;
-    sanitizeSessionHistory = await loadSanitizeSessionHistoryWithCleanMocks();
+    const harness = await loadSanitizeSessionHistoryWithCleanMocks();
+    sanitizeSessionHistory = harness.sanitizeSessionHistory;
+    mockedHelpers = harness.mockedHelpers;
   });
 
-  it("sanitizes tool call ids for Google model APIs", async () => {
-    await expectGoogleModelApiFullSanitizeCall({
-      sanitizeSessionHistory,
+  it("passes simple user-only history through for Google model APIs", async () => {
+    vi.mocked(mockedHelpers.isGoogleModelApi).mockReturnValue(true);
+
+    const result = await sanitizeSessionHistory({
       messages: mockMessages,
+      modelApi: "google-generative-ai",
+      provider: "google-vertex",
       sessionManager: mockSessionManager,
+      sessionId: TEST_SESSION_ID,
     });
+
+    expect(result).toEqual(mockMessages);
   });
 
-  it("sanitizes tool call ids with strict9 for Mistral models", async () => {
+  it("passes simple user-only history through for Mistral models", async () => {
     setNonGoogleModelApi();
 
-    await sanitizeSessionHistory({
+    const result = await sanitizeSessionHistory({
       messages: mockMessages,
       modelApi: "openai-responses",
       provider: "openrouter",
@@ -187,21 +195,13 @@ describe("sanitizeSessionHistory", () => {
       sessionId: TEST_SESSION_ID,
     });
 
-    expect(helpers.sanitizeSessionMessagesImages).toHaveBeenCalledWith(
-      mockMessages,
-      "session:history",
-      expect.objectContaining({
-        sanitizeMode: "full",
-        sanitizeToolCallIds: true,
-        toolCallIdMode: "strict9",
-      }),
-    );
+    expect(result).toEqual(mockMessages);
   });
 
-  it("sanitizes tool call ids for Anthropic APIs", async () => {
+  it("passes simple user-only history through for Anthropic APIs", async () => {
     setNonGoogleModelApi();
 
-    await sanitizeSessionHistory({
+    const result = await sanitizeSessionHistory({
       messages: mockMessages,
       modelApi: "anthropic-messages",
       provider: "anthropic",
@@ -209,33 +209,25 @@ describe("sanitizeSessionHistory", () => {
       sessionId: TEST_SESSION_ID,
     });
 
-    expect(helpers.sanitizeSessionMessagesImages).toHaveBeenCalledWith(
-      mockMessages,
-      "session:history",
-      expect.objectContaining({ sanitizeMode: "full", sanitizeToolCallIds: true }),
-    );
+    expect(result).toEqual(mockMessages);
   });
 
-  it("does not sanitize tool call ids for openai-responses", async () => {
+  it("passes simple user-only history through for openai-responses", async () => {
     setNonGoogleModelApi();
 
-    await sanitizeWithOpenAIResponses({
+    const result = await sanitizeWithOpenAIResponses({
       sanitizeSessionHistory,
       messages: mockMessages,
       sessionManager: mockSessionManager,
     });
 
-    expect(helpers.sanitizeSessionMessagesImages).toHaveBeenCalledWith(
-      mockMessages,
-      "session:history",
-      expect.objectContaining({ sanitizeMode: "images-only", sanitizeToolCallIds: false }),
-    );
+    expect(result).toEqual(mockMessages);
   });
 
-  it("sanitizes tool call ids for openai-completions", async () => {
+  it("passes simple user-only history through for openai-completions", async () => {
     setNonGoogleModelApi();
 
-    await sanitizeSessionHistory({
+    const result = await sanitizeSessionHistory({
       messages: mockMessages,
       modelApi: "openai-completions",
       provider: "openai",
@@ -244,15 +236,7 @@ describe("sanitizeSessionHistory", () => {
       sessionId: TEST_SESSION_ID,
     });
 
-    expect(helpers.sanitizeSessionMessagesImages).toHaveBeenCalledWith(
-      mockMessages,
-      "session:history",
-      expect.objectContaining({
-        sanitizeMode: "images-only",
-        sanitizeToolCallIds: true,
-        toolCallIdMode: "strict",
-      }),
-    );
+    expect(result).toEqual(mockMessages);
   });
 
   it("prepends a bootstrap user turn for strict OpenAI-compatible assistant-first history", async () => {
@@ -314,7 +298,7 @@ describe("sanitizeSessionHistory", () => {
   });
 
   it("drops stale assistant usage snapshots kept before latest compaction summary", async () => {
-    vi.mocked(helpers.isGoogleModelApi).mockReturnValue(false);
+    vi.mocked(mockedHelpers.isGoogleModelApi).mockReturnValue(false);
 
     const messages = castAgentMessages([
       { role: "user", content: "old context" },
@@ -335,7 +319,7 @@ describe("sanitizeSessionHistory", () => {
   });
 
   it("preserves fresh assistant usage snapshots created after latest compaction summary", async () => {
-    vi.mocked(helpers.isGoogleModelApi).mockReturnValue(false);
+    vi.mocked(mockedHelpers.isGoogleModelApi).mockReturnValue(false);
 
     const messages = castAgentMessages([
       makeAssistantUsageMessage({
@@ -359,7 +343,7 @@ describe("sanitizeSessionHistory", () => {
   });
 
   it("adds a zeroed assistant usage snapshot when usage is missing", async () => {
-    vi.mocked(helpers.isGoogleModelApi).mockReturnValue(false);
+    vi.mocked(mockedHelpers.isGoogleModelApi).mockReturnValue(false);
 
     const messages = castAgentMessages([
       { role: "user", content: "question" },
@@ -378,7 +362,7 @@ describe("sanitizeSessionHistory", () => {
   });
 
   it("normalizes mixed partial assistant usage fields to numeric totals", async () => {
-    vi.mocked(helpers.isGoogleModelApi).mockReturnValue(false);
+    vi.mocked(mockedHelpers.isGoogleModelApi).mockReturnValue(false);
 
     const messages = castAgentMessages([
       { role: "user", content: "question" },
@@ -407,7 +391,7 @@ describe("sanitizeSessionHistory", () => {
   });
 
   it("preserves existing usage cost while normalizing token fields", async () => {
-    vi.mocked(helpers.isGoogleModelApi).mockReturnValue(false);
+    vi.mocked(mockedHelpers.isGoogleModelApi).mockReturnValue(false);
 
     const messages = castAgentMessages([
       { role: "user", content: "question" },
@@ -451,7 +435,7 @@ describe("sanitizeSessionHistory", () => {
   });
 
   it("preserves unknown cost when token fields already match", async () => {
-    vi.mocked(helpers.isGoogleModelApi).mockReturnValue(false);
+    vi.mocked(mockedHelpers.isGoogleModelApi).mockReturnValue(false);
 
     const messages = castAgentMessages([
       { role: "user", content: "question" },
@@ -484,7 +468,7 @@ describe("sanitizeSessionHistory", () => {
   });
 
   it("drops stale usage when compaction summary appears before kept assistant messages", async () => {
-    vi.mocked(helpers.isGoogleModelApi).mockReturnValue(false);
+    vi.mocked(mockedHelpers.isGoogleModelApi).mockReturnValue(false);
 
     const compactionTs = Date.parse("2026-02-26T12:00:00.000Z");
     const messages = castAgentMessages([
@@ -505,7 +489,7 @@ describe("sanitizeSessionHistory", () => {
   });
 
   it("keeps fresh usage after compaction timestamp in summary-first ordering", async () => {
-    vi.mocked(helpers.isGoogleModelApi).mockReturnValue(false);
+    vi.mocked(mockedHelpers.isGoogleModelApi).mockReturnValue(false);
 
     const compactionTs = Date.parse("2026-02-26T12:00:00.000Z");
     const messages = castAgentMessages([