Propagate structured outputs in model middleware (#81)

mateusz834 · web-flow · commit 04dfeb6c5200 · 2026-03-06T14:02:25.000+01:00
diff --git a/splunklib/ai/README.md b/splunklib/ai/README.md
@@ -407,14 +407,15 @@ from splunklib.ai.middleware import (
     AgentRequest,
     ModelMiddlewareHandler,
     ModelRequest,
+	ModelResponse,
     SubagentMiddlewareHandler,
     SubagentRequest,
     SubagentResponse,
     ToolMiddlewareHandler,
     ToolRequest,
     ToolResponse,
 )
-from splunklib.ai.messages import AIMessage, AgentResponse, ToolCall
+from splunklib.ai.messages import AgentResponse, ToolCall
 
 
 class ExampleMiddleware(AgentMiddleware):
@@ -431,7 +432,7 @@ class ExampleMiddleware(AgentMiddleware):
     @override
     async def model_middleware(
         self, request: ModelRequest, handler: ModelMiddlewareHandler
-    ) -> AIMessage:
+    ) -> ModelResponse:
         request.system_message = request.system_message.replace("SECRET", "[REDACTED]")
         return await handler(request)
 
@@ -484,14 +485,13 @@ from splunklib.ai.middleware import (
     model_middleware,
     ModelMiddlewareHandler,
     ModelRequest,
+	ModelResponse,
 )
-from splunklib.ai.messages import AIMessage
-
 
 @model_middleware
 async def redact_system_prompt(
     request: ModelRequest, handler: ModelMiddlewareHandler
-) -> AIMessage:
+) -> ModelResponse:
     request.system_message = request.system_message.replace("SECRET", "[REDACTED]")
     return await handler(request)
 ```
diff --git a/splunklib/ai/engines/langchain.py b/splunklib/ai/engines/langchain.py
@@ -85,6 +85,7 @@
     AgentRequest,
     ModelMiddlewareHandler,
     ModelRequest,
+    ModelResponse,
     SubagentMiddlewareHandler,
     SubagentRequest,
     SubagentResponse,
@@ -352,7 +353,7 @@ async def awrap_model_call(
             sdk_request,
             _convert_model_handler_from_lc(handler, original_request=request),
         )
-        return _convert_ai_message_to_model_result(sdk_response)
+        return _convert_model_response_to_model_result(sdk_response)
 
     @override
     async def awrap_tool_call(
@@ -436,7 +437,7 @@ def _convert_model_handler_from_lc(
     handler: Callable[[LC_ModelRequest], Awaitable[LC_ModelCallResult]],
     original_request: LC_ModelRequest,
 ) -> ModelMiddlewareHandler:
-    async def _sdk_handler(request: ModelRequest) -> AIMessage:
+    async def _sdk_handler(request: ModelRequest) -> ModelResponse:
         lc_request = _convert_model_request_to_lc(request, original_request)
         result = await handler(lc_request)
 
@@ -508,10 +509,17 @@ def _convert_model_request_to_lc(
     )
 
 
-def _convert_ai_message_to_model_result(message: AIMessage) -> LC_ModelCallResult:
-    lc_message = LC_AIMessage(content=message.content)
+def _convert_model_response_to_model_result(
+    resp: ModelResponse,
+) -> LC_ModelCallResult:
+    lc_message = LC_AIMessage(content=resp.message.content)
     # This field can't be set via __init__()
-    lc_message.tool_calls = [_map_tool_call_to_langchain(c) for c in message.calls]
+    lc_message.tool_calls = [_map_tool_call_to_langchain(c) for c in resp.message.calls]
+    if resp.structured_output is not None:
+        return LC_ModelResponse(
+            result=[lc_message],
+            structured_response=resp.structured_output,
+        )
     return lc_message
 
 
@@ -585,18 +593,23 @@ def _convert_tool_message_from_lc(
             raise NotImplementedError("Command is not supported")
 
 
-def _convert_model_result_from_lc(model_response: LC_ModelCallResult) -> AIMessage:
+def _convert_model_result_from_lc(model_response: LC_ModelCallResult) -> ModelResponse:
     if isinstance(model_response, LC_ModelResponse):
         ai_message = next(
             (m for m in model_response.result if isinstance(m, LC_AIMessage)), None
         )
         assert ai_message, "ModelResponse should contain at least one LC_AIMessage"
+        structured_response = model_response.structured_response
     else:
         ai_message = model_response
-
-    return AIMessage(
-        content=ai_message.content.__str__(),
-        calls=[_map_tool_call_from_langchain(tc) for tc in ai_message.tool_calls],
+        structured_response = None
+
+    return ModelResponse(
+        message=AIMessage(
+            content=ai_message.content.__str__(),
+            calls=[_map_tool_call_from_langchain(tc) for tc in ai_message.tool_calls],
+        ),
+        structured_output=structured_response,
     )
 
 
diff --git a/splunklib/ai/middleware.py b/splunklib/ai/middleware.py
@@ -73,7 +73,13 @@ class ModelRequest:
     state: AgentState
 
 
-ModelMiddlewareHandler = Callable[[ModelRequest], Awaitable[AIMessage]]
+@dataclass
+class ModelResponse:
+    message: AIMessage
+    structured_output: Any | None = None
+
+
+ModelMiddlewareHandler = Callable[[ModelRequest], Awaitable[ModelResponse]]
 
 
 @dataclass
@@ -107,7 +113,7 @@ async def model_middleware(
         self,
         request: ModelRequest,
         handler: ModelMiddlewareHandler,
-    ) -> AIMessage:
+    ) -> ModelResponse:
         """Executed in between the LLM calls"""
 
         return await handler(request)
@@ -155,15 +161,15 @@ async def subagent_middleware(
 
 
 def model_middleware(
-    func: Callable[[ModelRequest, ModelMiddlewareHandler], Awaitable[AIMessage]],
+    func: Callable[[ModelRequest, ModelMiddlewareHandler], Awaitable[ModelResponse]],
 ) -> AgentMiddleware:
     class _CustomMiddleware(AgentMiddleware):
         @override
         async def model_middleware(
             self,
             request: ModelRequest,
             handler: ModelMiddlewareHandler,
-        ) -> AIMessage:
+        ) -> ModelResponse:
             return await func(request, handler)
 
     return _CustomMiddleware()
diff --git a/tests/integration/ai/test_middleware.py b/tests/integration/ai/test_middleware.py
@@ -35,6 +35,7 @@
     AgentRequest,
     ModelMiddlewareHandler,
     ModelRequest,
+    ModelResponse,
     SubagentMiddlewareHandler,
     SubagentRequest,
     SubagentResponse,
@@ -274,7 +275,7 @@ async def tool_test_middleware(
         @model_middleware
         async def model_test_middleware(
             request: ModelRequest, handler: ModelMiddlewareHandler
-        ) -> AIMessage:
+        ) -> ModelResponse:
             nonlocal model_called
             model_called = True
             return await handler(request)
@@ -310,7 +311,7 @@ class ExampleMiddleware(AgentMiddleware):
             @override
             async def model_middleware(
                 self, request: ModelRequest, handler: ModelMiddlewareHandler
-            ) -> AIMessage:
+            ) -> ModelResponse:
                 nonlocal model_called
                 model_called = True
                 return await handler(request)
@@ -512,21 +513,21 @@ async def test_agent_middleware_model_retry(self) -> None:
         @model_middleware
         async def test_middleware(
             request: ModelRequest, handler: ModelMiddlewareHandler
-        ) -> AIMessage:
+        ) -> ModelResponse:
             nonlocal middleware_called
             middleware_called = True
 
             first_result = await handler(request)
-            assert isinstance(first_result, AIMessage)
+            assert isinstance(first_result, ModelResponse)
 
             second_result = await handler(request)
 
             # Only if it's a model response that contains the tool calls
-            if first_result.calls:
-                tool_call = first_result.calls[0]
+            if first_result.message.calls:
+                tool_call = first_result.message.calls[0]
                 assert isinstance(tool_call, ToolCall)
 
-                second_tool_call = first_result.calls[0]
+                second_tool_call = first_result.message.calls[0]
                 assert isinstance(second_tool_call, ToolCall)
 
                 assert tool_call.name == second_tool_call.name == "temperature"
@@ -562,21 +563,21 @@ class NicknameGeneratorInput(BaseModel):
         @model_middleware
         async def test_middleware(
             request: ModelRequest, handler: ModelMiddlewareHandler
-        ) -> AIMessage:
+        ) -> ModelResponse:
             nonlocal middleware_called
             middleware_called = True
 
             first_result = await handler(request)
-            assert isinstance(first_result, AIMessage)
+            assert isinstance(first_result, ModelResponse)
 
             second_result = await handler(request)
 
             # only if it's a model response that contains the subagent calls
-            if first_result.calls:
-                subagent_call = first_result.calls[0]
+            if first_result.message.calls:
+                subagent_call = first_result.message.calls[0]
                 assert isinstance(subagent_call, SubagentCall)
 
-                second_subagent_call = first_result.calls[0]
+                second_subagent_call = first_result.message.calls[0]
                 assert isinstance(second_subagent_call, SubagentCall)
 
                 assert (
@@ -627,11 +628,11 @@ async def test_agent_middleware_model_made_up_response(self) -> None:
         @model_middleware
         async def test_middleware(
             _request: ModelRequest, _handler: ModelMiddlewareHandler
-        ) -> AIMessage:
+        ) -> ModelResponse:
             nonlocal middleware_called
             middleware_called = True
 
-            return AIMessage(content="My response is made up")
+            return ModelResponse(message=AIMessage(content="My response is made up"))
 
         async with Agent(
             model=await self.model(),
@@ -658,7 +659,7 @@ async def test_agent_middleware_model_exception_raised(self) -> None:
         @model_middleware
         async def test_middleware(
             _request: ModelRequest, _handler: ModelMiddlewareHandler
-        ) -> AIMessage:
+        ) -> ModelResponse:
             raise Exception("testing")
 
         async with Agent(
@@ -676,6 +677,86 @@ async def test_middleware(
                     ]
                 )
 
+    @pytest.mark.asyncio
+    async def test_model_middleware_structured_output(self) -> None:
+        pytest.importorskip("langchain_openai")
+
+        # Regression test - make sure that model middleware does not
+        # cause structured output to be dropped.
+
+        class Output(BaseModel):
+            name: str = Field(description="name of the Person")
+
+        @model_middleware
+        async def test_middleware(
+            req: ModelRequest, handler: ModelMiddlewareHandler
+        ) -> ModelResponse:
+            return await handler(req)
+
+        async with Agent(
+            model=await self.model(),
+            system_prompt="Your name is stefan",
+            service=self.service,
+            middleware=[test_middleware],
+            output_schema=Output,
+        ) as agent:
+            resp = await agent.invoke([HumanMessage(content="What is your name?")])
+            assert resp.structured_output.name.lower() == "stefan"
+
+    @pytest.mark.asyncio
+    async def test_model_middleware_modify_structured_output(self) -> None:
+        pytest.importorskip("langchain_openai")
+
+        class Output(BaseModel):
+            name: str = Field(description="name of the Person")
+
+        @model_middleware
+        async def test_middleware(
+            req: ModelRequest, handler: ModelMiddlewareHandler
+        ) -> ModelResponse:
+            resp = await handler(req)
+            assert type(resp.structured_output) is Output
+            resp.structured_output.name = "Mike"
+            return resp
+
+        async with Agent(
+            model=await self.model(),
+            system_prompt="Your name is stefan",
+            service=self.service,
+            middleware=[test_middleware],
+            output_schema=Output,
+        ) as agent:
+            resp = await agent.invoke([HumanMessage(content="What is your name?")])
+            assert resp.structured_output.name == "Mike"
+
+    @pytest.mark.asyncio
+    async def test_model_middleware_made_up_structured_output(self) -> None:
+        pytest.importorskip("langchain_openai")
+
+        class Output(BaseModel):
+            name: str = Field(description="name of the Person")
+
+        @model_middleware
+        async def test_middleware(
+            _req: ModelRequest, _handler: ModelMiddlewareHandler
+        ) -> ModelResponse:
+            return ModelResponse(
+                message=AIMessage(
+                    content="Stefan",
+                ),
+                structured_output=Output(name="Stefan"),
+            )
+
+        async with Agent(
+            model=await self.model(),
+            system_prompt="Your name is stefan",
+            service=self.service,
+            middleware=[test_middleware],
+            output_schema=Output,
+        ) as agent:
+            resp = await agent.invoke([HumanMessage(content="What is your name?")])
+            assert resp.structured_output.name.lower() == "stefan"
+
     @pytest.mark.asyncio
     async def test_agent_middleware(self) -> None:
         pytest.importorskip("langchain_openai")