AI API 成本分析

数据范围：2026-02-22 至 2026-04-19（全部历史数据）模型：Gemini 3 Flash Preview · 计价：输入 $0.50 / 百万 tokens，输出 $3.00 / 百万 tokens 用户数：8,917 · 塔罗解读：77,462 次 · 平均每次抽牌：3.44 张

一、当前 AI 服务成本

应用中使用 AI 的功能：

功能	说明	月均调用	月均成本
首次塔罗解读	抽牌后一次生成全部内容（总结、逐牌解读、建议、幸运石等）	~39,600	$170
追问对话	用户在解读后发问	~15,200	$44
追加抽牌	用户在对话中请求额外抽牌	~20,300	$47
牌阵推荐	根据用户问题推荐最佳牌阵	~38,500	$42
每日塔罗	每日一卡解读	~6,400	$7
每周指引 / 灵魂旅程	已开发，但从未被使用	0	$0
博客翻译 / 管理后台翻译	偶发	< 100	忽略
合计			~$310 / 月

首次塔罗解读占总成本的 55%，是拆分讨论的焦点。

二、首次解读的拆分方案对比

当前方案：抽牌后发 1 次 AI 请求，一次性输出所有内容（总结 + 逐牌解读 + 建议 + 幸运石 + 推荐问题）。

拆分方案：将 1 次请求拆成多次请求（2 次、3 次、或每条消息 1 次约 9 次），分段输出。每种拆分方式都可以用流式输出。

成本差异的核心原因

每次 AI 请求都必须重新发送"上下文"（角色设定、用户问题、牌意数据等），约 ~2,000 tokens。拆得越多，这份上下文就重复发送越多次。

单次首次解读成本对比

方案	请求次数	输入 tokens	输出 tokens	单次成本	倍数
当前（1 次请求）	1	1,942	1,113	$0.0043	1×
拆 2 次	2	~4,000	~1,200	$0.0056	1.3×
拆 3 次	3	~6,000	~1,300	$0.0069	1.6×
每条消息 1 次（~9 次）	~9	~18,000	~2,000	$0.015	3.5×

输出 tokens 增加不多（拆分后每次 schema 更小），成本增加主要来自重复发送输入上下文。

月度成本对比（仅首次解读，~39,600 次 / 月）

方案	月成本	与现状差额
当前（1 次请求）	$170	—
拆 2 次	$222	+$52
拆 3 次	$273	+$103
每条消息 1 次	$594	+$424

整应用月度总成本对比

方案	首次解读	其他 AI 功能	月总计	与现状差额
当前	$170	$140	$310	—
拆 2 次	$222	$140	$362	+$52
拆 3 次	$273	$140	$413	+$103
每条消息 1 次	$594	$140	$734	+$424

三、用户增长敏感度

场景	当前方案	每条消息 1 次
当前用户量 (8,917)	$310 / 月	$734 / 月
用户量 × 5	$1,550 / 月	$3,670 / 月
用户量 × 10	$3,100 / 月	$7,340 / 月

用户量越大，拆分带来的额外成本越显著。用户量翻 10 倍时，每条消息 1 次的方案比当前方案每月多花 $4,240（约 ¥30,000）。

四、拆分的其他影响

维度	拆分的好处	拆分的代价
互动体验	可实现"用户点击才生成下一段"	每段等待 1-3 秒，打断节奏
稳定性	单次输出更简单，不容易出格式错误	任何一段失败都影响整体体验；9 次调用的整体失败率约 1-2%（当前 0.51%）
灵活性	不同段可用不同模型/参数	复杂度增加

五、建议

方案 A（推荐）：不拆分 + 前端节奏化揭示

后端保持 1 次 AI 请求，抽牌后立即发起
AI 生成完毕后，前端把内容"藏起来"，让用户点击翻牌逐步揭示
翻牌时读取的是已生成好的本地数据，无需等待
可以加翻牌动画、音效、震动
零额外 AI 成本

方案 B：拆 2 次（基础 + 深度按需）

第 1 次请求：总结 + 简短牌意（快速出结果）
第 2 次请求：用户点击"深度解读"后才触发（建议、幸运石、详细分析）
月成本 +$52（+17%），但只有选择深度解读的用户才触发第 2 次
实际平均成本可能仅 +10-15%

不推荐：每条消息 1 次

月成本 +$424（+137%）
用户每点一次都要等 1-3 秒
整体失败率上升

数据来源：生产数据库全量历史数据（2026-02-22 至 2026-04-19），模型 Gemini 3 Flash Preview，价格按 Vertex AI 官方定价。

AI API 成本分析 ​

一、当前 AI 服务成本 ​

二、首次解读的拆分方案对比 ​

成本差异的核心原因 ​

单次首次解读成本对比 ​

月度成本对比（仅首次解读，~39,600 次 / 月） ​

整应用月度总成本对比 ​

三、用户增长敏感度 ​

四、拆分的其他影响 ​

五、建议 ​

方案 A（推荐）：不拆分 + 前端节奏化揭示 ​

方案 B：拆 2 次（基础 + 深度按需） ​

不推荐：每条消息 1 次 ​