19 · 工程开发规格 · 项目章程

网关引擎 · 工程总览与项目章程

从这一篇起,文档从"研究/策略"切换到"工程/可开工"。本套 19–27 把 路线 C 的共享 COGS 引擎规格化到可以直接建仓库、写代码、跑 CI 的程度。本篇是工程区的子索引:定义我们要造什么、范围边界、里程碑、角色、风险、关键架构决策与完成标准。

🎯 构建目标:网关引擎(仅) ☁️ Cloudflare Workers + Hono + D1 🚦 M0→M3 里程碑 可开工就绪

1愿景与定位

我们要造一个自托管的 LLM 网关引擎:对内部各产品(解梦、GEO 审计、programmatic-SEO、prospecting……)提供"统一接入 + 智能路由 + 自动回退 + 缓存 + Batch + 计费记账",对外暴露 OpenAI 兼容 API。它不是对外售卖的产品,而是路线 C 里所有产品共享的 COGS 降本引擎——把每个产品的 token 成本压到收入的 10~25%,支撑 50~70% 毛利(见 11)。

🎯一句话

一个内部"模型自来水管":产品端只认一个 Base URL + 一个内部 key,引擎负责选最划算的模型、回退、缓存、记账。

🧱边界

只做引擎,不做具体产品 UI;只接合法来源(官方 API/免费层/付费批发/BYOK)。

📐规格化来源

04/09/16/17/18 的结论落成可实现规格。

2范围(In / Out)

范围内(MVP)
  • OpenAI 兼容端点:/v1/chat/completions(流式+非流式)、/v1/embeddings/v1/models
  • 内部产品 API key 签发/校验/吊销,按产品隔离
  • 渠道(Channel):OpenRouter、Cloudflare Workers AI、DeepSeek 直采、Groq 直采、官方免费层
  • 分层路由 + 429/5xx 自动回退 + 权重负载均衡
  • 响应缓存(KV)+ prompt 缓存透传
  • 令牌桶限流(每 key RPM/并发)
  • 计费记账:每请求 model/tokens/cost/latency 落 D1;倍率与配额
  • 声明式渠道/路由配置;可观测(Analytics Engine/日志)
范围外(本期不做)
  • 面向最终消费者的产品 UI(解梦/审计等是引擎的"客户",单独立项)
  • 对外出售网关访问权 / 多租户计费门户(路线 A2,后期可选)
  • Batch 异步路径在 MVP 为"接口预留 + 单元实现",全链路压测放 M3
  • 逆向接口 / 养号 / 住宅代理(红线,永不做,见 02/08
  • 自建模型推理(用厂商 API/Workers AI,不自养 GPU)

3里程碑 M0–M3

M0第 0 周 · 脚手架
monorepo + Workers 脚手架 + wrangler bindings + D1 迁移骨架 + CI 跑通(lint/typecheck/test/deploy preview)。产出:能部署一个返回 200 的空网关。
M1第 1–2 周 · 直通 + 记账
/v1/chat/completions 经单一渠道(OpenRouter)直通;API key 校验;每请求记账落 D1;基础限流。产出:内部产品可用一个 key 调通并看到用量。
M2第 3–4 周 · 路由 + 缓存 + 多渠道
分层路由 + 回退 + 权重;接入 DeepSeek/Groq 直采与 Workers AI;响应缓存 + prompt 缓存透传;倍率与配额。产出:同一请求自动选最划算模型、命中缓存零成本、超配额拒绝。
M3第 5–6 周 · Batch + 可观测 + 硬化
Batch 异步路径(Queues)端到端;Analytics Engine 看板 + 告警;安全硬化(密钥保险库、零信任、速率防护);压测与回滚演练。产出:生产可用、可观测、可回滚。

4角色分工(最小团队)

角色职责关键文档
技术负责人 / 全栈架构、路由/计费核心、CI/CD、上线21 / 23 / 25
后端工程师API 端点、渠道适配、数据层、限流22 / 23
数据/计费记账 schema、用量报表、成本对账22 / 23
SRE / DevOps(可兼)环境、密钥、监控、回滚25 / 26
产品/合规(兼)验收标准、红线把关、对接内部产品方20 / 26

MVP 可由 1–2 名全栈完成;角色为职责划分而非必须独立人头。

5关键架构决策(ADR)

#决策选择理由 / 取舍
ADR-1自建 Workers 网关 vs 直接用 New API/LiteLLM自建(薄)+ 前置 OpenRouter自建薄网关掌控路由/计费/记账与红线;OpenRouter 作统一接入省去逐家适配。New API/LiteLLM 重且 New API 为 AGPL(见 04),不作核心。后期如需企业治理可再评估 LiteLLM。
ADR-2运行时Cloudflare Workers边缘、免费层友好、与 D1/KV/Queues/AI Gateway 同栈、零 egress(见 05/17)。
ADR-3Web 框架HonoWorkers 原生、轻、TS 友好、中间件齐全。
ADR-4数据层D1(记账/配置)+ KV(缓存/计数)+ DO(强一致限流)D1 关系型适合记账与配置;KV 适合缓存与软计数;Durable Objects 用于需要强一致的令牌桶。
ADR-5校验ZodAPI I/O 与配置 schema 运行时校验,类型与校验同源。
ADR-6仓库形态pnpm workspaces monorepo引擎 + 共享 packages(core/db/config)+ 未来产品同仓复用。
ADR-7缓存前置Cloudflare AI Gateway 前置 + 自建 KV 响应缓存AI Gateway 免费提供缓存/可观测/重试;自建 KV 缓存覆盖业务级 key。

ADR 为可演进决策;变更需在本表追加新条目并注明取代关系。

6风险登记

风险影响缓解
供应商限额/价格变动成本与可用性波动多渠道路由 + 回退;配置化定价;定期复核(见 16/17)
免费层 429 频繁免费档体验下降免费层仅低 SLA;超限降级到便宜付费模型
密钥泄露被盗刷、成本爆炸密钥保险库 + 不下发客户端 + 定期轮换 + 用量异常告警
Workers CPU/时长限制长请求/流式中断流式透传;超重任务走 Batch/Queues;必要时小 VPS 兜底(见 05)
记账与厂商账单对不上毛利失真以厂商返回 usage 为准记账 + 月度对账
合规红线被无意突破法律/支付风险渠道准入清单 + CI 红线检查(见 26)

7完成标准(Definition of Done)

  • 功能:内部产品用一个 Base URL + key,可流式/非流式调用,自动路由+回退+缓存,超配额被拒。
  • 记账:每请求 model/tokens/cost/latency 入库,可按产品/模型/日聚合查询。
  • 质量:核心路径单测覆盖 ≥ 80%;CI 全绿(lint/typecheck/test);关键路径有集成测试(Miniflare)。
  • 可观测:有用量/成本/错误率/延迟看板与基础告警。
  • 安全:密钥不入仓、不下发;限流生效;红线检查通过。
  • 可运维:一键部署、可回滚、有 runbook(见 25)。

8工程文档阅读路径

👔投资 / 决策

19 章程 → 20 PRD24 §MVP 序列27 待办

🧑‍💻工程 / 开发

21 架构22 数据/API23 路由/计费24 仓库25 环境26 测试27 待办

📋产品 / 合规

20 PRD(验收)26 安全合规08 合规