技术方案
统一入口、LLM 决策核心、可插拔后端适配——三层结构清晰解耦,路由逻辑集中且可观测。
设计目标
04 / 设计目标- 统一入口:应用侧仅需对接单一入口,后端对接各模型。
- 结构化结果:LLM 这一步输出目标后端、备选或拒绝理由,而非自由文本。
- 适配层:对接各家 API 或自建推理服务。
- 可解释日志:能够回答「这次请求为何如此路由」。
分层结构
请求路径┌─────────────┐
│ Client │
└──────┬──────┘
▼
┌─────────────┐
│ Ingress │ 鉴权、限流、请求规范化
└──────┬──────┘
▼
┌─────────────┐
│ LLM Router │ 组装上下文、注入策略、选择后端
└──────┬──────┘
▼
┌─────────────┐
│ Adapters │ OpenAI 协议、Anthropic 协议、自建节点 …
└─────────────┘
核心模块
结构| 模块 | 职责 | 归类 |
|---|---|---|
| Normalizer | 将各客户端异构的请求体归一化为统一的内部格式。 | ingress |
| Context builder | 注入租户策略、会话摘要与硬性约束。 | policy |
| Decision engine | 调用 LLM,返回包含目标后端与理由的结构化结果(JSON 或类似格式)。 | core |
| Registry | 维护后端列表、能力标签(fast、code 等)与健康状态。 | state |
| Observability | 提供 trace,并为每次决策记录一条审计记录。 | audit |
一次请求的大致流程
生命周期- 请求抵达入口层(Ingress):完成鉴权、限流与请求规范化。
- Normalizer 与 Context builder准备决策所需的输入。
- LLM 给出路由结果:目标后端、备选方案,或拒绝理由。
- Adapter 转发至选中的后端,并按其原生协议发出。
- 响应返回:响应阶段的二次路由能力为后续演进项。
安全与治理
不可妥协- 策略沙箱。模型只能在允许的后端集合中选择,不得指向任意端点。
- 字段裁剪或脱敏:在进入决策 prompt 之前先行处理。
- 失败降级。当 LLM 步骤出错时,回落至预先配置的默认后端,而非进行不可控的路由。
演进路线
如实呈现| 阶段 | 重点 |
|---|---|
| 当前 | 核心路由链路原型闭环,沉淀设计取舍与基准。 |
| 近期 | 端到端链路打通、可观测性与评测体系、错误决策回放。 |
| 远期 | 开源与试点落地,共建多模型路由生态。 |