087 AI Insights Engine

竞品调研 & 技术方案 & Insight 建模设计 & 跨行业产品对标 & AI Native 架构

创建于 2026-03-03 | 四轮调研（美业竞品 + BI 平台 + 跨行业 AI 产品 + AI Native 深度调研）综合整理 | 最后更新 2026-03-06

竞品功能矩阵（三梯队 20+ 平台）
行业最佳实践 & 趋势
差距分析 & 差异化机会
技术架构方案
Insight 指标体系（50+ 指标）
归因推理链设计（10 个详细示例）
Insight 卡片 UX 设计
反馈闭环架构
AI 学习路线图（4 阶段）
成本估算 & 风险
批判性反思
跨行业产品对标
设计启示（修订版）
AI Insights 定价策略分析
AI Native 产品深度调研
Celoria AI Native 架构方案

一、竞品功能矩阵

第一梯队：美业/沙龙 SaaS（直接竞品）

平台	AI 功能	核心能力	异常检测	交付形式	定价
Zenoti	Zeenie AI 助手 + Smart Marketing + AI Lead Manager	自然语言问答、营销内容生成、客人趋势/收入/员工绩效可视化、AI Lead 评分	有收入趋势/员工异常/ROI	Dashboard + 对话式 AI + Email/SMS	$225-$15K/月
MaSe	无 AI	基础报表（收入/客户/员工产能）	无	Dashboard 报表	$299/年
Mindbody	Attentive 合作 AI 营销	行为触发个性化 SMS/Email；"流失风险""高消费"预置分群	有限行为变化触发	SMS/Email + Dashboard 分群	$139+/月 (AI 限 Ultimate)
Phorest	Client Reconnect + Smart KPI + PhorestAI (2026)	学习客户预订周期，自动召回；KPI 阈值告警	有 KPI 阈值告警	Dashboard + 自动 SMS + 告警	~$99+/月
Boulevard	Precision Scheduling (ML)	ML 分析历史模式、服务时长，自动建议最优排班	有限排班间隙损失	Dashboard 内嵌建议	$175-$400+/月
GlossGenius	AI Growth Analyst	自然语言问答分析（"谁是最高收入客户？"）；增长机会识别	有限数据驱动识别	Dashboard + 对话式查询	$24-$48/月
Vagaro	AI 前台接待员 + AI 内容生成	AI 回答客户问题、建议服务；生成营销内容	无	Dashboard + AI 聊天	$30-$90/月
Mangomint	Automated Flows	基于预约历史/购买/偏好触发个性化沟通序列	有限流程目标追踪	Dashboard + 自动 Email/SMS	$165-$375/月
DaySmart	基础报表分析	销售/预约/绩效趋势追踪；无独立 AI 品牌功能	无	Dashboard 报表	$29-$199/月

第二梯队：相邻行业 SaaS

平台	AI 功能	核心能力	异常检测	突破点
Square AI	对话式 AI 助手	自然语言问答；融合外部数据（天气/事件/新闻/评价）+ 内部数据	有结合外部数据解释异常	外部数据融合归因
Toast IQ	智能引擎 + AI 助手	"For You"推荐流；自然语言问答并可直接执行操作（改菜单/调班次）	有历史模式预测	从洞察到行动闭环
Shopify Sidekick	Sidekick + Pulse	Pulse 后台持续扫描趋势/异常/机会并主动推送	有 Pulse 主动检测	主动式洞察推送
Lightspeed AI	对话式助手	自然语言问答 + 上下文推荐（不只给数字，还给解释）	有限	2026年1月刚发布

第三梯队：通用 BI / AI Analytics

平台	AI 功能	核心能力	异常检测	定价
ThoughtSpot	SpotIQ + Spotter AI	自然语言搜索即时可视化；AI 自动发现异常/趋势/模式	核心能力	$25/用户/月起
Tableau AI	Tableau Agent + Pulse	Pulse 持续扫描指标并以自然语言+可视化推送	核心能力	$70-150/用户/月
Yellowfin	Signals + Assisted Insights	自动监控数据变化、统计显著异常检测；支持多 LLM 后端	核心能力	~$50/用户/月
Power BI Copilot	Copilot for Power BI	自然语言查询+自动可视化；移动端随时可用	有限	$10-20/用户/月

二、行业最佳实践 & 趋势

1. 对话式 AI 成标配

Zenoti/Square/Toast/Shopify/GlossGenius 全部采用自然语言问答。核心模式："用自然语言问，AI 给答案 + 上下文 + 推荐行动"。Toast IQ 突破：不仅给答案，还能直接在对话中执行操作。

2. 主动式洞察推送

用户不会每天看报表。Shopify Pulse 后台持续扫描主动推送。Phorest KPI Insights 阈值自动告警。Yellowfin Signals 统计显著异常检测。被动查看 → 主动推送 才是真价值。

3. 行为触发个性化营销

Phorest Client Reconnect：学习每个客户预订周期，逾期自动召回。Mangomint Flows：预约+购买+偏好触发个性化序列。AI 归因最大商业价值不是"看报表"，而是自动触发针对性行动。

4. 外部数据融合

Square AI：天气、本地事件、新闻、评价。Toast IQ：天气、事件、历史模式。单纯内部数据分析价值有限，融合外部因子才能做真正的归因分析。

5. 从洞察到行动闭环

Toast IQ：对话中直接改菜单、调班次。Shopify：直接设折扣、调分群。最佳产品不只是"告诉你发生了什么"，而是帮你直接采取行动。纯报表工具正在被淘汰。

6. AI = "虚拟业务合伙人"

Shopify → "co-founder"。Toast → "operator's right hand"。Zenoti → "intelligent business companion"。产品叙事已从"报表工具"升级为"AI 业务伙伴"。

三、差距分析 & 差异化机会

Celoria vs 领先者差距

维度	Celoria 现状	行业领先者	差距
对话式 AI 查询	无	Zenoti Zeenie, Square AI, Toast IQ	严重
主动式异常检测	无	Shopify Pulse, Yellowfin, Phorest	严重
AI 营销归因	基础营销模块，无 AI 归因	Mindbody+Attentive, Toast IQ	较大
外部数据融合	无	Square AI (天气+事件+新闻)	较大
基础报表	有（收入/预约/员工等）	各竞品均有	持平
多租户架构	Schema-based 隔离	仅 Zenoti 有多租户	优势
中文/多语言	next-intl 完整支持	仅 MaSe 有中文	优势

七大差异化机会

机会 1（最大）：华人美甲市场的垂直 AI 洞察
MaSe（最直接竞品，$299/年）完全没有 AI 能力。Zenoti 有 AI 但定价 $225+/月且无中文。Celoria 可成为第一个为华人美甲沙龙提供中英双语 AI 业务洞察的 SaaS。

机会 2：小老板友好的主动式推送
沙龙老板通常不会每天登录系统。通过 SMS/Email 推送关键异常（"本周回头客率下降 15%"），零操作被动接收，更适合忙碌的小老板。

机会 3：促销活动归因分析
几乎所有美业 SaaS 都能"发促销"但无法"算清 ROI"。Celoria 已有完整营销模块，可构建自动归因报告（多少新客/复购/收入增量）。这是明确的功能空白。

机会 4-7： 员工绩效 AI 洞察 + 佣金优化 | 客户 LTV 预测 + 流失预警 | 轻量对话式 AI | 多租户匿名基准对比（"你的客单价比同城高 12%"）

四、技术架构方案

技术选型推荐

层	推荐方案	理由
异常检测	Z-Score（滑动4周）+ CUSUM + 百分比变化	美甲数据量小（日均10-50笔），不需要 ML。Z-Score / CUSUM 不超过 100 行 JS，无需引入 Python
LLM 模型	DeepSeek-V3 (主) + Claude Haiku (备)	DeepSeek 成本极低（$0.27/M input），中文能力强。已有 CircuitBreaker 熔断机制
RAG	MVP 不引入，直接 context injection	归因数据是结构化的指标 JSON，比向量检索更精确可控
关联分析	MVP 硬编码已知关联对 → Phase 2 Pearson 自动计算	不要指望 LLM 自行发现关联，预计算后传入更精确
数据管道	node-cron 每日凌晨 → SQL 聚合 → 异常检测 → LLM → DB	已有 node-cron 基础设施，数据量级不需要 Kafka/流式处理
缓存	DB 持久化 + 24h TTL	insight 读取频率低（管理者一天看一两次），不需要 Redis

数据流架构

PostgreSQL ──→ 指标聚合层 ──→ 异常检测层 ──→ (仅异常通过) (报表数据) (SQL+JS聚合) (Z-Score+CUSUM) │ ▼ 关联指标 ──→ Context 组装器 ──→ LLM API ──→ 排序/去重 ──→ ai_insights 表预计算 (Prompt+JSON) (DeepSeek) 评分层 │ ▼ Dashboard + Email 推送 ▲ 用户反馈 (👍/👎) 调度: node-cron 每日 03:00 触发 | /api/insights/refresh 手动触发

Prompt 设计框架

[System] 你是 Celoria 美甲沙龙数据分析师。只能基于以下数据分析，不得推测未出现的信息。

[Context - 异常摘要]
{anomaly_type}: {metric_name}
当前值: {current_value} | 基线值: {baseline_value} | 偏差: {deviation}%

[Context - 关联指标]
同期也发生显著变化的指标: {correlated_metrics_json}

[Context - 业务日历]
{events}: 节假日/促销/员工变动

[Task]
1. 列出 2-3 个最可能原因（每个引用具体数据点）
2. 每个原因给出置信度（高/中/低）
3. 给出 1-2 个可执行建议

[Output] 严格按 JSON schema 输出

五、Insight 指标体系

5.1 运营效率维度

指标	计算公式	正常范围	异常阈值	归因方向
员工利用率	实际服务时长 / 可排班时长	65-85%	<55% 或 >90%	低→排班多/客流不足；高→超负荷
服务完成率	completed / (completed+no_show+cancelled)	85-95%	<80%	no-show→提醒失效；cancel→定价/信任
平均服务时长偏差	(actual - standard) / standard	±10%	>+20% / <-15%	超时→熟练度低；过快→质量风险
排班匹配度	有客时段 / 总排班时段	70-85%	<60%	高峰排班不足/低谷排班过多
Walk-in 转化率	walk_in_completed / walk_in_total	70-90%	<60%	等待过长/无可用技师
平均等待时间	avg(start_time - check_in_time)	5-15分钟	>25分钟	前服务超时/排班间隙不足

5.2 客户行为维度

指标	计算公式	正常范围	异常阈值	归因方向
指定员工率	指定技师预约 / 总预约	40-65%	<30% / >80%	低→忠诚度弱；高→过度依赖个别技师
30天回访率	30天内回访客户 / 活跃客户	35-50%	<25%	质量下降/价格竞争/缺少召回
客户流失率	90天未回访 / 90天前活跃	15-30%	>35%	系统性问题需排查
新客获取率	新客 / 总服务客户（月度）	15-30%	<10%	营销效果差/口碑下降
客单价 (AOV)	总收入 / 完成预约数	因店而异	环比降>15%	降级消费/折扣过多
新客→回头客转化	首次后60天回访新客 / 新客	30-45%	<20%	首次体验差/无follow-up
Upsell 率	add-on附加服务预约 / 总预约	15-25%	<10%	未做交叉推荐/菜单设计

5.3 财务维度

指标	计算公式	正常范围	异常阈值	归因方向
日收入趋势	当日收入 vs 同星期历史均值	±15%	偏差>25%	天气/节假日/促销/缺勤
小费率	小费总额 / 服务收入	15-22%	<12%	满意度下降/POS提示设计
退款率	退款笔数 / 总交易笔数	<2%	>4%	质量问题/预期管理差
折扣深度	总折扣 / 折扣前应收	5-12%	>18%	促销过度/员工随意打折
每工时收入	总收入 / 总工时	因地区而异	环比降>10%	利用率低/客单价降

5.4 营销 + 员工维度

指标	计算公式	正常范围	异常阈值
Campaign ROI	(增量收入 - 成本) / 成本	>200%	<50%
邮件打开率	打开数 / 送达数	20-35%	<15%
老客召回率	召回后30天回访 / 目标流失客	10-20%	<5%
技师指名率	被指定预约 / 该技师总预约	40-70%	<25% (资深)
技师留存率	期末在职 / (期初+新入职)	>85%	<75%

六、归因推理链设计

归因不是简单的"A下降所以B有问题"，而是多层证据链：信号 → 假设生成 → 证据验证 → 归因结论 → 可行动建议

推理链 1：员工利用率断崖下降

信号: 技师 Amy 利用率从 78% 降至 52%（-26pp）

→ 假设A: 客户流失？ → 验证: 回头客预约数 → 下降 40% ✓

→ 假设A: 验证: 小费率 → 从 20% 降至 14% ✓

→ 假设B: 排班减少？ → 验证: 排班时长 → 不变 ✗

→ 假设C: 全店因素？ → 验证: 其他技师利用率 → 稳定 ✗

结论: Amy 服务质量导致回客减少

"Amy 的预约量本周下降 40%，同时小费率也在下滑。建议安排经理一对一沟通，了解是否有个人困难，并考虑与高满意度技师搭档学习。"

推理链 2：高价值客户集体流失

信号: 月消费 >$200 客户，90天回访率从 72% 降至 51%（-21pp）

→ 假设A: 价格敏感？ → 验证: 最近涨价 8% ✓ | 流失集中在涨价后 ✓

→ 假设B: 竞品分流？ → 验证: 0.5mi 内新开一家 ✓

结论: 涨价 + 竞品双重打击导致 VIP 客户流失

"建议对 47 名 VIP 推出 6 个月旧价保护，同时强化差异化（专属时段/优先预约）。挽回预估价值 $9,400/月。"

推理链 3：周三收入持续低迷

信号: 连续 4 周，周三收入比其他工作日低 35%+

→ 排班人数 → 与周二/四相同 ✗

→ 周三预约请求数 → 不低，但完成数低 ✓

→ walk-in 拒绝率 → 40%（其他天 15%）✓

→ 周三排班技师技能覆盖 → 缺少 gel extension 高级技师 ✓

结论: 周三技能组合不匹配高需求服务

"建议将 Lisa 或 Jenny 排班调一天到周三，覆盖 gel extension 需求。预计增加约 $800/周。"

推理链 4：No-show 率突然飙升

信号: No-show 率从 5% 飙升至 14%

→ SMS 提醒送达率 → 从 98% 降至 32% (Twilio 配额问题！) ✓

结论: SMS 提醒系统故障

"请立即检查 Twilio 账户状态。按当前客单价估算，每周因 no-show 损失约 $2,100。"

推理链 5：隐形危机（多指标联合归因）

信号组合: 总收入稳定 | 新客↑20% | 回头客收入↓15% | 折扣率↑40%

→ 表面收入稳定，但"用折扣拉新客来弥补回头客流失" ✓

→ 新客靠折扣获取，利润率远低于回头客 ✓

→ 回头客在悄悄流失，被新客量掩盖 ✓

结论: 不可持续的"折扣换收入"循环

"⚠️ 收入警告：回头客收入下降 15%，靠折扣新客填补缺口。建议暂停大规模折扣获客，将预算转向留存。如趋势持续，3 个月后月收入将下降约 $4,500。"

七、Insight 卡片 UX 设计

卡片 Mockup

紧急客户留存 2026-03-03

VIP 客户回访率下降 21%

月消费 >$200 的客户群体

72% → 51% ↓21pp

📊 为什么会这样？

上月涨价 8% 后，高价值客户流失加速
同期周边 0.5mi 内新开竞品店
受影响客户约 47 人，预估月收入影响 -$9,400

💡 建议行动

对 47 名 VIP 推旧价保护 → 导出流失客户名单 →

卡片元素说明

元素	说明	设计要点
严重程度	紧急(红) / 需关注(橙) / 建议(蓝) / 正面(绿)	左上色块，一眼可辨
标题	一句话概括核心发现	≤15字，动词/数字开头
数据摘要	关键数字 + 变化幅度	大字号，颜色编码
归因分析	2-4 条最可能原因	用证据支撑，避免空泛
建议行动	1-3 条具体步骤	每条带 CTA 按钮
置信度	0-100%	<60% 时显示"需更多数据"
财务影响	预估金额	让决策者做 cost-benefit
反馈区	👍/👎/✏️	学习闭环的入口

排序公式

Priority Score = Impact × Confidence × Actionability × Urgency
Impact (1-10): 预估财务影响 | Confidence (0-1): 归因置信度 | Actionability (1-5): 可执行性 | Urgency (1-3): 时效性

推送频率策略

频率	适用指标	推送方式
实时	No-show突增、系统故障、退款异常	Push + Dashboard 红色 Alert
每日摘要	当日收入、利用率、walk-in拒绝率	Dashboard + 可选邮件
每周报告	客户留存、新客转化、员工表现	邮件 + Dashboard
月度深度	利润率、ROI、季节性预判	邮件 + PDF 报告

八、反馈闭环架构

数据采集 ──→ Insight 生成引擎 ──→ 交付层 ──→ 反馈收集器 Pipeline ↑ │ ↑ Prompt 优化器 ←── 学习引擎 ←── 反馈分析器 │ │ └─────────────────────────────────────────┘ 反馈数据回流到数据层

显式反馈

类型	UI 元素	用途
👍 有用	按钮	正面信号，增加该类 insight 权重
👎 不准确	按钮 → 展开原因选择	数据有误 / 原因不对 / 不重要 / 建议不可行 / 重复
✏️ 补充信息	文本输入	用户提供 AI 不知道的上下文（如"Amy 请了病假"）

隐式反馈

行为	追踪方式	推断
查看详情	点击 + 停留 >30s	高兴趣 → 提高同类权重
忽略 (>3次)	出现但未点击	不重要 → 降低优先级
执行建议	CTA 按钮点击	建议可行 → 正强化
建议后指标变化	7/14/30天追踪	最核心的学习信号！

学习机制：Few-shot 动态注入（非 RLHF）

可行方案（非 RLHF）：
收集 👍 的 insight → 作为 few-shot 正面示例注入后续 prompt
收集 👎 + 用户纠正 → 作为反面示例告诉 LLM "不要这样分析"
用户补充的因果知识 → 写入 industry_knowledge 表
Prompt 版本化 + A/B 测试 → 按 useful_rate 自动切换

租户个性化基线

tenant_spa001:
  - 平均利用率: 72% (±8%)        ← 滑动90天窗口
  - 小费率: 18% (±3%)
  - 周三客单价偏低 15%（特殊：社区折扣日，用户已标注）
  - 冬季 12-2 月客流 -20%（季节性模式）

tenant_salon002:
  - 平均利用率: 81% (±5%)        ← 不同租户不同基线
  - 小费率: 22% (±2%)
  - 夏季 6-8 月是旺季（与 spa001 相反）

九、AI 学习路线图

Phase 0: 验证需求（1 周）

手动生成 3-5 条 insight 发给 2-3 个真实客户

验证指标：用户是否回复、是否觉得有价值

最重要的一步。如果验证失败，节省 6 周开发时间。

Phase 1: MVP — 纯统计异常检测（2 周）

Z-Score 异常检测 + 模板化文案（不调 LLM）+ Dashboard 展示

10 个核心指标 | 固定阈值 | 基础 👍/👎 反馈收集

验证指标：DAU of insight page | 👍 率 > 40%

Phase 2: LLM 归因 + 智能化（3-4 周）

接入 DeepSeek-V3 生成归因分析 | Few-shot 动态注入 | 多指标关联

租户个性化基线 | 行业知识库 | Prompt A/B 测试 | 邮件推送

验证指标：👍 率 > 60% | 归因准确率 > 65%

Phase 3: 预测与主动（Month 5-8）

时间序列预测 | 事件影响预估 | 外部数据（天气/日历）

跨租户匿名学习 | 自然语言问答 | 自动行动建议优化

验证指标：预测方向准确率 > 70% | 行动后改善率 > 50%

阶段对比

维度	MVP (Phase 1)	智能化 (Phase 2)	预测 (Phase 3)
检测方式	固定阈值	个性化基线 + 多指标关联	趋势预测 + 事件预估
归因能力	单指标模板归因	多指标 + LLM + 上下文	因果推理 + 历史匹配
学习来源	手工 examples	用户反馈动态注入	跨租户匿名 + 效果追踪
建议质量	通用模板	数据支撑的具体建议	个性化 + 历史验证过
推送方式	被动查看	主动推送 + 排序	预测预警 + 对话探索

十、成本估算 & 风险

LLM API 成本

结论：LLM API 成本基本可忽略
当前 10 个租户 × 1 异常/天 = 10 次调用/天
DeepSeek-V3 月度成本：$0.42（input $0.27/M + output $1.10/M）
扩展到 100 租户：月度约 $4.2
真正的成本是开发时间（4-6周）和误报带来的注意力消耗。

模型成本对比

模型	Input 价格	Output 价格	10 租户月度	100 租户月度
DeepSeek-V3 ✓	$0.27/M	$1.10/M	$0.42	$4.2
GPT-4o-mini	$0.15/M	$0.60/M	$0.23	$2.3
Claude 3.5 Haiku	$0.80/M	$4.00/M	$1.44	$14.4

风险矩阵

风险	严重性	概率	缓解措施
LLM 归因幻觉	高	高	Structured output 强制引用数据点 + 后处理校验 + 展示原始数据让用户验证
冷启动基线不可靠	高	中	至少 4 周数据才启用 + 行业基准值兜底 + 明确告知"数据积累中"
告警疲劳	中	高	每天最多 3 条 + 阈值从宽松开始(>30%) + dismiss率>70%的指标自动降权
多租户数据泄露	极高	低	tenantDb 确保隔离 + prompt 断言 tenant_schema 一致 + 审计日志

十一、批判性反思

真正该担心的问题 1：这个功能的用户到底是谁？
美甲沙龙老板通常忙碌、不看数据、靠直觉决策。一个"AI告诉你利用率下降15%"的功能，她真的会看吗？她可能比 AI 更早知道——因为她亲自在店里。
建议：Phase 0 (Wizard of Oz) 验证是最重要的一步。

真正该担心的问题 2：归因分析的价值前提
美甲沙龙数据维度有限（员工/时间/服务/客户）。很多指标变化的真正原因是系统外的——门口修路、隔壁开新店、员工心情不好——LLM 没有也不可能有这些信息。
建议：重心放在异常检测的准确性，归因作为"参考"而非"结论"呈现。

实用建议：先做最简单的版本
先实现纯统计异常检测 + Dashboard（不含 LLM，纯规则 + 模板文案），验证用户是否会看。如果有人看，再叠加 LLM 归因。 Phase 0 → Phase 1 → 看数据决定是否继续

十二、跨行业产品对标

087 的设计参考不仅限于美业和 BI 平台。以下覆盖三个关键赛道：垂直 SaaS 的内嵌 AI 洞察、主动异常监控专家、以及 SMB 友好的分析工具。

12.1 垂直 SaaS 内嵌 AI 洞察

与 Celoria 最直接可比——同为垂直行业 SaaS，面向非技术用户，AI 嵌入核心产品。

🍞 Toast IQ (餐饮 POS, 148,000+ 门店)

洞察→行动闭环：不只回答问题，还能在对话中直接执行操作（修改菜单、编辑班次、调整库存）。
零配置：接入 Toast POS 后自动获取所有数据。
"For You" Feed：连接 POS 交易 + 劳动力排班 + 库存 + 外部数据（天气、本地事件），构建个性化推荐流。
效果：发布数周内 25,000+ 餐厅使用，235,000+ 次交互。
087 启示：洞察→行动闭环是终极形态——不只告诉老板"员工利用率低"，还能直接帮她调排班。

🔧 ServiceTitan Atlas (家庭服务, NASDAQ: TTAN)

Google Gemini 驱动的 Agentic Copilot：不只回答问题，会自主调度技师、生成报表、优化营销支出。
全自动工单：Pantheon 2025 演示了从客户首次联系到出具发票的全程自动化。
Second Chance Leads：AI 审查所有被标记为"非线索"的来电，识别高潜力线索。
087 启示：Agent 模式是 Phase 2 方向——从"推送洞察"进化到"自动执行建议"。

🛍️ Shopify Sidekick Pulse (电商, 全球最大)

关键进化 — Pulse：在用户提问之前就推送个性化建议（最多 5 条），包括趋势检测、库存预警、性能优化。
从被动到主动：Sidekick 聊天机器人 → Pulse 后台持续分析引擎 + 主动推送。
不只是聊天：能构建自定义应用、创建自动化工作流（Shopify Flow）、生成 ShopifyQL 报表。
087 启示：Pulse 的"后台持续分析 → 主动推送 Top N"模式与 087 Email Digest 思路完全一致。

🏪 Square AI (中小商户 POS/支付)

独特亮点 — 外部上下文：接入天气、本地事件、新闻、评论等外部数据，让商户将业务指标与现实世界关联。
从 Pull 到 Push：当前以对话查询为主，已公布下一步方向为"主动浮现机会、警告和想法"。
示例："今年独立日比去年热还是冷？对业务有什么影响？"
087 启示：外部上下文是高级功能方向。Phase 2 可考虑接入天气/节假日日历。

垂直 SaaS AI 对比矩阵

维度	Toast IQ	ServiceTitan Atlas	Shopify Pulse	Square AI	Celoria 087
触达模式	Push+Pull+Action	Push+Pull+Action	Push+Pull+Action	Pull→Push	Push 优先
LLM	未公开	Google Gemini	未公开	未公开	DeepSeek
行动闭环	✅ 直接执行	✅ 全自动工单	✅ 工作流创建	⚠️ Dashboard	⚠️ 建议→人工
配置门槛	零配置	套餐订阅	零配置	零配置	Layer 0 对话
外部数据	天气+事件	行业基准	❌	天气+事件+评论	❌ (Phase 2)
核心差异	148K 门店数据	Gemini 全自动	Pulse 主动推送	社区洞察	归因分析+推送

12.2 主动异常监控专家

专注做异常检测和根因分析的产品，技术深度最高，087 的核心算法可参考。

📊 Anodot — 30 种 ML 模型集成

三阶段管道：
① 基线建模：对每个指标自动分类行为模式（季节性/趋势/平稳），选择最优数学模型构建动态基线
② 异常评分：偏离基线的数据点获得 Significance Score (0-100)——不是简单的"超出范围"，而是"相对于历史有多异常"
③ 跨指标关联：深度神经网络 + 聚类 + 模式匹配，将数千个告警合并为有意义的"事件"
效果：日处理 62 亿数据点，告警噪音减少 95%，检测时间缩短 80%。
087 启示：Significance Score 和跨指标关联是高级功能。Phase 1 用 Prophet，Phase 2 可借鉴关联分析。

🔍 Sisu Data — Key Driver Analysis (被 Snowflake 收购)

核心创新 — KDA：
① 定义 KPI + 方向（如"转化率，希望上升"）
② 穷举测试所有维度组合（地区×产品×渠道×时段×客群...），衡量每个因素的统计贡献度
③ 按影响力排名输出 Top Drivers（"德州×移动端×近7天贡献了 +2.3pp"）
④ 瀑布图分解：总变化 = 因素A + 因素B + ...
Stanford 剪枝算法：O(2^n) 优化为十亿级行秒级运行。
087 启示：KDA 瀑布分解是 087 维度拆解的学术基础。可按 employee / service / time_slot / day_of_week 做贡献度排名。

💀 Outlier AI — 纯推送日报 (产品已死)

纯 Push 模式：用户不登录 Dashboard，每天收到邮件，包含 4-5 个最重要的意外变化，自然语言讲述"数据故事"。
零配置：连接数据源后完全自动，无需训练或设置。
2022 年被收购，产品已停止运营。
087 启示 + 警示：验证了"纯推送日报"模式的产品吸引力，但独立运营失败说明 AI 洞察不能是独立产品，必须嵌入核心业务工作流。087 嵌入 Celoria 是正确路径。

📈 Avora — 检测包络线 + 维度排名

Detection Envelope：基于历史行为构建"正常范围包络线"，包络线外即异常。用户可通过 UI 滑块调整灵敏度。
Root Cause 卡片：异常检测后自动展示维度贡献排名（哪个维度解释了最大变化）。
推送：Email / Slack / Teams / Webhook。
定价：$750-$1,500+/月。
087 启示：灵敏度滑块是好的 UX 模式——默认自动，但允许高级用户微调。

12.3 SMB 友好的分析工具

与 Celoria 目标用户（小企业主）最匹配的工具。

Zoho Analytics (Zia) — 5 种异常检测模型全透明

最技术透明的异常检测实现——五种模型全部开放文档和参数配置：

模型	算法	最少数据点	可配参数	适用场景
RPCA	鲁棒主成分分析	6	偏差百分比 (0-95%, 默认 70%)	时序数据通用
IQR	四分位距	-	尺度因子 (默认 1.5x)	偏态分布
Z-Score	标准差	-	阈值 (默认 ±3 SD)	正态分布
Percentile	百分位	-	上下界 (默认 5th/95th)	通用
Custom Range	用户自定义	-	上下限值	业务规则驱动

087 启示：Zoho 证明多种检测模型可选是好的设计。Phase 1 可以只用 Prophet，但架构上应支持插拔不同检测算法。

Databox — Prophet 异常检测 + 异常评分 (与 087 技术路线最接近)

Databox 的 Prophet 实现是 087 最佳技术参考：
1. Prophet 模型：分解为趋势 + 季节性 + 事件三个组件
2. 置信区间：80% 或 95% 置信度范围，范围外即异常
3. 异常评分 (0-100)：基于偏离距离的归一化评分
4. 可配参数：适应性（变化点灵敏度）+ 灵敏度（范围宽度）
5. 默认校准：约 1% 的正常数据被标记为异常
6. MCP Server：将性能数据（含异常、洞察、目标）暴露给外部 AI 生态

ProfitWell Retain (Paddle) — 三层级流失预测

💎 三层级基准对比

50 亿+ 数据点训练，跨全球 → 行业 → 个体三层级识别流失模式。
当客户要取消时，分析数十个数据点计算最优"挽留方案"（折扣 / 暂停 / 降级）。
1:1 个性化算法。15 分钟接入 Stripe，后续全自动。
087 启示：Celoria 多租户数据可建立"类似规模沙龙基准"，Phase 2 实现。

Narrative BI — Multi-Agent 纯推送 (被 Cube 收购)

Agent	职责	准确率
SQL Agent	自然语言 → 精确 SQL	82-87%
Data Connection Agent	数据源整合	-
Insight Generation Agent	原始结果 → 业务建议	-
Anomaly Detection Agent	7×24 异常监控	-
Publisher Agent	自动调度报告	-

087 启示：Multi-Agent 架构是高级设计模式——不同 Agent 负责不同分析环节。087 的 Layer 1/2/3 可以视为不同 Agent 的职责划分。2025 年被 Cube（语义层平台）收购，再次验证 AI 分析需要语义层基础。

Athenic AI — Knowledge Graph 防幻觉

🧠 可视化语义层 + 主动澄清 + 方法论透明

Knowledge Graph：拖拽式构建，映射业务概念到数据库字段，编码"部落知识"（KPI 定义、内部术语）。
主动澄清：遇到歧义时 LLM 不猜测，而是主动要求用户澄清。
方法论透明：每个 AI 报告都附带"AI 是如何理解这个问题的"解释。
087 启示：主动澄清 + 方法论透明是建立信任的关键。Insight 卡片应展示"系统是怎么得出这个结论的"。

12.4 行业趋势信号

独立 AI 分析产品正在大量死亡/被收购

产品	命运	年份	收购方/原因
Sisu Data	被收购	2023	Snowflake (语义层+诊断分析整合)
Outlier AI	被收购，产品已死	2022	独立推送分析无法独立存活
Narrative BI	被收购	2025	Cube (语义层平台需要分析层)
Domo	探索出售	2026	中型 BI 平台受挤压
Viable	疑似关停	2025?	纯定性分析 SaaS 难持续

结论：AI 洞察必须嵌入垂直 SaaS 核心工作流才能存活。Toast、ServiceTitan、Shopify 的内嵌模式是正确方向，独立工具没有护城河。087 嵌入 Celoria 管理平台 = 正确路径。

Push > Pull 已成行业共识

Shopify：Sidekick → Sidekick Pulse（被动→主动）
Square：对话查询 → "主动浮现机会和警告"
Toast："For You" 主动推送 Feed
Outlier：从第一天就是纯推送

087 的 Email Digest 优先策略符合行业趋势。

反幻觉三大流派

流派	代表	核心机制	087 采用
语义层约束	Kyligence, Athenic, Looker	预定义指标/Knowledge Graph 约束 LLM 查询范围	✅ Domain Context
领域数据约束	Toast, ServiceTitan, Shopify	LLM 只能访问平台自有数据	✅ 仅用 020 数据
混合架构	Pecan AI, Tableau Pulse	LLM 负责 NLU，分析/预测用确定性算法	✅ 统计筑基+LLM推理

087 同时采用了三种策略：语义上下文（指标定义 Prompt）+ 领域数据约束（仅用自有报表数据）+ 混合架构（Layer 1 统计 + Layer 2 LLM）。这是最保险的组合。

MCP 正在成为分析 API 标准

Sisense 和 Databox 在 2026 年都发布了 MCP Server，将分析数据暴露给外部 AI Agent。ChartMogul 也发布了实验性 MCP Server。087 的 Phase 2 Agent 模式可以用 MCP 工具暴露预定义查询能力给 LLM。

十三、设计启示（修订版 — 整合跨行业调研）

1. 避免做成"又一个 AI 问答"

问答模式是大平台的数据规模游戏，我们应聚焦于"主动推送"。Outlier 的失败证明纯推送也需要嵌入工作流，不能独立存在。

2. "推送 + 行动闭环"是终极形态

Toast IQ 和 ServiceTitan 不只推送洞察，还能直接执行操作。087 Phase 1 做"推送 + 建议"，Phase 2 可进化到"推送 + 一键执行"。

3. Prophet 是 SMB 异常检测最优选

Databox、Mixpanel、Amplitude 都在用。开源、处理季节性强、自动计算阈值。087 直接采用。

4. 维度贡献排名是根因分析的核心

Sisu（KDA 穷举法）、Anodot（关联分析）、Avora（维度排名）从不同角度验证了这一点。087 的 Top Drivers / Detractors 方向正确。

5. 归因质量靠三道防线

语义上下文（指标定义 Prompt）+ 领域数据约束（仅用自有数据）+ 置信度标签（高/中/低）。三道防线同时使用。

6. 方法论透明建立信任

Athenic 的"AI 是怎么理解的"解释 + Pecan 的"每步 SQL 可审计"。087 的 Insight 卡片应展示推理过程。

7. 多租户行业基准是差异化

ProfitWell 三层级基准（全球→行业→个体）。Celoria 多租户数据可建立"类似规模沙龙基准"，Phase 2 实现。

8. 零配置是 SMB 的门槛要求

Toast、Shopify、Square 都是零配置。087 的 Smart Defaults + Layer 0 对话式收集是正确方案。

十四、AI Insights 定价策略分析

成本基础

LLM API 成本几乎为零，定价应基于价值而非成本：
DeepSeek-V3：10 租户 $0.42/月 | 100 租户 $4.2/月 | 1000 租户 $42/月
真正的成本是 4-6 周开发时间 + 持续维护。

竞品定价锚点

产品	AI 功能定价	模式	参考价值
MaSe	$299/年（整个平台）	无 AI	直接竞品价格天花板
GlossGenius	含在 $48/月套餐中	AI Growth Analyst 内含	AI 作为套餐差异化卖点
Phorest	含在 ~$99+/月套餐中	PhorestAI 内含	同上
Zenoti	$225-$15K/月（含 Zeenie）	企业级整合	不可比，价格太高
Databox AI	$399-$799/月	独立 Add-on	通用 BI，非垂直 SaaS

三条定价路径

路径 A：免费内含（推荐 Phase 1）

AI Insights 不单独收费，作为 Professional / Enterprise 套餐的内置功能。

✅ 优势：
• API 成本几乎为零，没有成本压力
• 推动 Standard → Professional 升级，间接增收
• 功能还在验证期，免费降低用户试用门槛

❌ 风险：
• 免费的东西用户不珍惜
• 没有价格信号验证价值

路径 B：低价 Add-on — $99/年/店

独立附加模块，按店收费。≈ $8.25/月 ≈ 一杯咖啡。

✅ 优势：
• 心理门槛极低（每天不到 3 毛钱）
• 有价格信号验证用户是否认为有价值
• 对标 MaSe $299/年整平台，$99/年 AI 加项合理

❌ 风险：
• 10 租户 = $990/年，ROI 是否支撑 4-6 周开发？
• 需要足够用户量才有意义

路径 C：价值定价 — $169/年/店

用 ROI 叙事支撑："一条洞察的价值 > 一年订阅费"。

✅ 优势：
• 一条 VIP 流失预警可能挽回 $9,400/月收入
• 价值叙事有说服力

❌ 风险：
• 前提是归因准确且可行——泛泛而谈的建议不值这个价
• $169 已接近 MaSe 整平台年费，定价锚点不利
• 美甲店老板每天在店里，可能比 AI 更早发现问题

推荐：分阶段定价策略

阶段	定价	理由
Phase 0-1 统计异常检测 MVP	免费（内含 Professional）	需要验证用户是否真的会看、👍 率多少。此时收费是自找麻烦
Phase 2 LLM 归因上线	$9.9/月或 $99/年	功能成熟后开始收费，低门槛快速获取付费用户
Phase 3 预测 + 行动闭环	$16.9/月或 $169/年	有预测能力 + 外部数据 + 行动建议后，价值足以支撑更高价格

⚠️ 最重要的一点
不要在功能没验证之前花时间纠结定价。Phase 0 的 Wizard of Oz 验证是前提——如果手动给 2-3 个客户发 AI 洞察邮件，他们连回复都不回复，那定多少钱都没意义。
先验证需求，再讨论定价。

MVP 数据表设计参考

CREATE TABLE ai_insights (
  id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
  tenant_schema VARCHAR(50) NOT NULL,
  metric_name VARCHAR(100) NOT NULL,
  metric_value NUMERIC NOT NULL,
  baseline_value NUMERIC NOT NULL,
  deviation_pct NUMERIC NOT NULL,
  anomaly_type VARCHAR(20) NOT NULL,      -- 'spike', 'drop', 'trend'
  detection_method VARCHAR(20) NOT NULL,   -- 'z_score', 'pct_change'
  analysis_json JSONB NOT NULL,            -- LLM 归因结果
  llm_model VARCHAR(50),
  prompt_version VARCHAR(20),
  impact_score NUMERIC NOT NULL,
  feedback VARCHAR(10),                    -- 'up', 'down', 'dismiss'
  feedback_at TIMESTAMPTZ,
  analysis_date DATE NOT NULL,
  created_at TIMESTAMPTZ DEFAULT NOW(),
  UNIQUE(tenant_schema, metric_name, analysis_date)
);

CREATE TABLE insight_feedback (
  id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
  insight_id UUID NOT NULL REFERENCES ai_insights(id),
  user_id UUID NOT NULL,
  feedback_type VARCHAR(20) NOT NULL,      -- 'useful', 'inaccurate', 'context'
  inaccuracy_reason VARCHAR(50),
  user_provided_cause TEXT,
  was_viewed BOOLEAN DEFAULT FALSE,
  view_duration_seconds INTEGER,
  action_taken BOOLEAN DEFAULT FALSE,
  outcome_effective BOOLEAN,
  created_at TIMESTAMPTZ DEFAULT NOW()
);

CREATE TABLE industry_knowledge (
  id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
  tenant_id VARCHAR(50),                   -- NULL = 全行业通用
  knowledge_type VARCHAR(30) NOT NULL,
  rule_text TEXT NOT NULL,
  source VARCHAR(20) NOT NULL,             -- 'user_input', 'ai_learned', 'default'
  confidence DECIMAL DEFAULT 0.5,
  created_at TIMESTAMPTZ DEFAULT NOW()
);

十五、AI Native 产品深度调研

15.1 AI Native vs AI Enhanced 定义

AI Enhanced（AI 增强型）

AI 是一个可选附加功能——移除它产品仍完整
AI 住在独立的模块/页面/按钮里
用户必须主动去"使用 AI 功能"
AI 只能分析和建议，不能执行
数据和操作在不同系统中分离

大部分美业 SaaS 在这里

AI Native（AI 原生型）

AI 是产品的骨骼而非皮肤——移除 AI 核心体验消失
洞察和行动在同一个界面完成
AI 是默认，手动是退路
持续学习的闭环——每次交互让系统更聪明
主动而非被动——AI 不等你问
分级自主——可调节的 Autonomy Dial

Toast IQ / Ramp / ServiceTitan Atlas

三层进化模型
Level 1 AI-Assisted（2024）：AI 提升个人效率，但交付系统不变。例：在仪表板旁加聊天框
Level 2 AI-Augmented（2025）：AI 嵌入工作流，提升速度但增加复杂度。例：AI 自动分类费用，审批流程不变
Level 3 AI-Native（2026）：人机协作成为团队工作方式的核心。例：AI 自主处理 65% 审批，自动调节营销预算

15.2 垂直 SaaS AI Native 标杆

Toast IQ（餐饮管理 — 离美甲场景最近）

核心创新：Insight → Action 闭环

Toast IQ 不是独立 AI 模块，而是覆盖整个 POS 平台的智能层（Intelligence Layer）。

交互：对话式界面，Web + 移动端均可用自然语言提问并直接执行操作
主动权：双向——"For You" 信息流主动推送 + 用户可随时提问
行动能力：可在对话中直接修改菜单价格、下架菜品、调整班次、跨渠道同步更新
行业黑话：理解 "86 all items with avocado"（下架含牛油果的菜品）

典型闭环场景
AI：「牛油果三明治过去两周销量↓37%，利润率仅 12%。建议用烟熏三文鱼替代，预计利润率 34%。要我更新菜单吗？」
店长：「好的，更新」
AI → 跨所有渠道（堂食 / 外卖 / 自助点餐机）同步更新 ✅

ServiceTitan Atlas（家庭服务 — 最激进的自主行动）

核心创新：Agentic Layer + 需求感知营销闭环

Atlas 是由 Google Gemini 驱动的代理层（Agentic Layer），覆盖整个平台。

行动能力（最强）：运行报告、派遣技师、引导工作流、自动调节营销支出
需求感知闭环：排程满了 → 自动减少广告 → 需求下降 → 自动加大推广。完全无人干预
自主等级：接近全自主，特别在营销预算管理上
语义理解："像跟最有经验的员工说话一样" 提出请求

Ramp Intelligence（费用管理 — 自主等级设计最精妙）

核心创新：推理图谱（Reasoning Graph）+ 渐进式自主

推理图谱：上传公司费用政策 PDF → AI 构建语义理解层（理解政策"精神"而非"字面"）
自动处理 65%+ 费用审批，只有 10-15% 需人类判断
检测违规支出是非 AI 方案的 15 倍，准确率 99%
双重学习：不仅学书面规则，还学历史审批中隐藏的例外情况
渐进式信任：公司可从"引导推荐"逐步演进到"智能自主决策"

Ramp 的自主等级不是二元的，而是一个光谱
员工 $5 咖啡（工作时间）→ 直接通过 | 异常大额支出 → 标记审批 | 疑似欺诈 → 升级人工

Shopify Sidekick（电商 — 从助手到联合创始人）

核心创新：Sidekick Pulse + Agentic Storefronts

Sidekick Pulse（2026 Winter）：主动研究你的店铺，推送高影响力建议
自然语言主题编辑："把这个按钮变成圆角" → 直接修改主题
Flow 工作流：用自然语言创建自动化（"下单超$200的客户自动打标签"）
构建应用：通过对话让 Sidekick 直接开发 Shopify Admin 应用
Agentic Storefronts：让商品出现在 ChatGPT / Perplexity / Copilot 的对话中——AI 原生分发渠道

15.3 AI Agent 平台

平台	核心定位	关键创新	规模	对 Celoria 的启发
Dust.tt	企业 AI 代理团队	Frames：AI 输出不再只是文字，而是可交互的仪表板/报告/工具。专业化代理团队 > 通用助手	80K 代理，1200 万次对话，$6M ARR	非技术人员可构建专业化 AI 代理
Lindy.ai	无代码 AI 代理构建器	语音代理：24/7 自主接打电话，跨语言。内置审批流程。跨会话记忆	快速增长	语音预约确认/提醒是美甲高频需求
Relevance AI	AI 劳动力平台	多模型支持（Claude/GPT/Gemini 分工）。基于置信度决定是否需人类审批	单月 4 万新代理注册	置信度路由审批是最佳实践
Sierra AI	企业客户体验代理	记忆 + 上下文 + 行动三角模型。Agent OS 2.0 分级自主。$100M ARR，$10B 估值	企业级部署	客人偏好记忆（颜色/过敏/偏好技师）是高价值场景

15.4 Insight → Action 闭环对比矩阵

产品	洞察能力	建议能力	执行能力	闭环程度
Toast IQ	主动推送 + 查询	具体可执行建议	直接修改菜单/排班	完整闭环
ServiceTitan Atlas	实时需求感知	派遣/营销建议	自动调节预算、派遣技师	最强闭环（含自动化循环）
Ramp Intelligence	异常检测 + 趋势	合规建议	自动审批/拒绝 65%+ 费用	高度自主
Shopify Sidekick	Pulse 主动建议	运营建议	修改主题/创建工作流	中等（需确认）
Sierra AI	客户意图理解	个性化方案	更新 CRM / 处理订单	客服领域完整闭环
Hex AI	数据分析	分析结论	生成报告/仪表板	分析闭环（无业务操作）
Databricks Genie	自然语言查询	分析解释	仅分析输出	仅分析
Celoria（当前设计）	规则引擎 + AI 归因	AI 生成建议	❌ 没有	断裂——只分析不行动

15.5 自主等级谱系（Autonomy Dial）

来自 Smashing Magazine 2026 年系统性总结的 Agentic AI UX 框架：

观察并建议 ────→ 规划并提议 ────→ 执行需确认 ────→ 全自主执行 (Observe) (Plan) (Act w/ Confirm) (Act Autonomous) │ │ │ │ 仅通知创建方案准备好操作预批准任务不提议等待审查等待最终确认事后通知 │ │ │ │ Databricks Shopify Sidekick Toast IQ Ramp Policy Agent Julius AI Hex Threads ServiceTitan Atlas

信任构建的六个 UX 模式

模式	含义	关键指标
Intent Preview	执行前展示步骤计划，用户可"执行/编辑/自己来"三选一	目标 >85% 计划无修改接受率
Autonomy Dial	用户按任务类型设置不同自主等级，信任是光谱非二元	允许用户渐进调节
Explainable Rationale	"因为你说了 X，所以我做了 Y"——基于先例而非技术日志	人类可理解的推理链
Confidence Signal	AI 展示自身确定程度，帮用户决定何时需仔细审查	置信度可视化
Action Audit & Undo	所有 AI 操作的时间线日志 + 限时撤销按钮	知道可以撤销，用户才敢授权
Escalation Pathway	不确定时升级而不是猜测。5-15% 升级率是健康的	升级比猜错好

置信度路由（Human-in-the-Loop 最佳实践）

AI 检测到事件 │ ├─ 置信度高（>95%）+ 低风险 ──→ 自动执行 ──→ 事后通知 │ ├─ 置信度中等（70-95%）──→ 展示方案 + 推理过程 ──→ 等待确认 │ └─ 置信度低（<70%）/ 高风险 ──→ 升级到人类 ──→ 提供上下文

15.6 AI Native 交互设计模式

Agent-First vs Dashboard-First

维度	Dashboard-First（传统）	Agent-First（AI Native）
信息呈现	用户主动查看仪表板	AI 主动推送关键信息
交互方式	点击、筛选、导航	对话、语音、自然语言
行动路径	看数据 → 分析 → 决定 → 去另一个页面操作	看推送 → AI 已准备好方案 → 一键执行
认知负担	用户需要知道去哪里找什么	AI 知道什么该推给你
典型代表	传统 BI 仪表板	Toast IQ "For You" Feed

"AI 队友" vs "AI 工具"

AI 工具（Tool）

被动响应
无状态（每次从零开始）
执行指令
用户驱动
单次交互
"帮我做 X"

AI 队友（Teammate）

主动发起
有记忆（知道历史上下文）
有自己的"议程"
目标驱动
持续监控
"我注意到 Y，建议做 Z"

美甲行业已有的 AI Native 产品

产品	能力	特点
Anolla	AI 助手实时处理 79.3% 重复咨询，填补日程空档，同步染色处理时间	25 种语言支持
BookingBee.ai	分析预约模式和员工可用性来创建高效排班	AI 排班优化
DaVoice AI	24/7 电话 AI 助手，接听客户来电，自动预约	专为美甲沙龙设计的语音 AI

⚠️ 行业警示
Gartner：到 2026 年底 40% 企业应用将内置 AI Agent，但超 40% 的 Agentic AI 项目将在 2027 年底前被取消——成本失控、价值不清晰、风险控制不到位。
Klarna 教训：AI 客服处理了 2/3 对话后，CEO 开始重新雇佣真人——"AI 客服意味着廉价客服"。美甲行业强调个人体验，AI 应增强而非替代人的温度。

十六、Celoria AI Native 架构方案

16.1 Tool-Use Agent 模式

核心思路：模型不写 SQL，而是学会调用预建的"分析工具箱"。降低模型要求（7B 够用），提高安全性。

┌─────────────────────────────────────────────────┐ │ Query Toolkit（你写的，经过测试的） │ │ │ │ getRevenueByPeriod(start, end, groupBy, store?) │ │ getRepeatRate(period, minVisits, store?) │ │ getServiceRanking(period, limit, metric) │ │ getEmployeeUtilization(period, employee?) │ │ getChurnRisk(period, thresholdDays) │ │ compareMetrics(metric, periodA, periodB) │ │ getBookingPattern(dayOfWeek?, timeSlot?) │ │ ... 50-100 个工具函数 │ └───────────────────┬─────────────────────────────┘ │ 工具描述 + 参数定义 ▼ ┌─────────────────────────────────────────────────┐ │ Local Agent（Ollama） │ │ │ │ 任务: "分析本月业绩下滑原因" │ │ │ │ Step 1: 调用 getRevenueByPeriod(本月, 上月) │ │ Step 2: 看到下滑 → 调用 getServiceRanking 对比 │ │ Step 3: 发现某服务下降 → getChurnRisk 检查 │ │ Step 4: 综合所有结果 → 生成 insight │ └─────────────────────────────────────────────────┘

维度	全自主写 SQL	Tool-Use 模式
需要的核心能力	SQL 语法 + schema 理解 + 复杂 JOIN	读懂工具描述 + 填参数 + 多步推理
最低可用模型	14B+	7B 够用，3B 勉强
CPU 推理可行性	不现实（太慢 + 太笨）	可行
出错后果	错误 SQL → 错误数据 → 误导性 insight	调错工具 → 无关数据 → 重试即可
安全性	SQL 注入风险	工具函数已参数化，无注入风险

16.2 分层处理架构

核心发现：80% 的 Manager 查询不需要 AI

┌──────────────────────────────────────────────────────────┐ │ 请求分层处理 │ │ │ │ 第一层：预计算缓存（毫秒级，无 AI） │ │ "今天营收多少" → 直接查缓存 → 瞬间返回 │ │ │ │ 第二层：模板查询（秒级，无 AI） │ │ "本周 top 5 服务" → 预定义 SQL → 5秒返回 │ │ │ │ 第三层：AI 分析（分钟级，需要 AI） │ │ "为什么本周营收下降" → Agent 推理 → 排队处理 │ └──────────────────────────────────────────────────────────┘ 不需要 AI（100% 本地）: ├── 规则引擎检测异常 → 纯 SQL 计算 ├── 基线自动计算 → 纯 SQL + Cron ├── 模式发现 → 纯 SQL 统计 ├── 反馈学习调参 → 纯代码逻辑 └── 执行操作（发 SMS、改排班） → 调内部 API 需要 AI 的（两个场景）: ├── "为什么"归因分析 → 需要推理能力 └── 自然语言对话 → 需要语言理解

完整系统架构图

┌────────────────────────────────────────────────────────┐ │ EC2 实例 │ │ │ │ ┌──────────┐ ┌───────────────┐ ┌──────────────┐ │ │ │ Express │───▶│ EventBus │───▶│ AI Agent │ │ │ │ API │ │ (规则引擎) │ │ (Ollama 7B) │ │ │ │ │◀──────────────────────▶│ │ │ │ └──────────┘ └───────────────┘ └──────────────┘ │ │ │ │ │ │ │ │ ┌─────▼───────┐ ┌────────▼───────┐ │ │ │ │ Query │ │ WebSocket │ │ │ │ │ Toolkit │ │ 推送 + 对话 │ │ │ │ │ (50+ 工具) │ │ │ │ │ │ └─────┬───────┘ └────────────────┘ │ │ │ │ │ │ └────────────────▼ │ │ ┌───────────────┐ │ │ │ PostgreSQL │ │ │ │ (租户数据) │ │ │ └───────────────┘ │ └──────────────────────────┬───────────────────────────────┘ │ WebSocket ▼ ┌──────────────────────┐ │ Manager App │ │ 💬 对话窗口 │ │ 🔔 异常推送 │ │ ⚙️ 自主等级设置 │ └──────────────────────┘

16.3 知识积累飞轮

每个租户的知识库有四个来源，前三层不需要 AI：

来源	内容	方式	需要 AI?
Layer 1：自动基线	周一均值 23 单、高峰 11-15 时、回头客周期 22 天	Cron Job 每周重算，数据越多越准	不需要
Layer 2：模式发现	"Lisa 请假时取消率↑50%"、"下雨天 walk-in↓30%"	SQL 统计分析，发现显著相关性后自动存储	不需要
Layer 3：Manager 输入	"周三下午培训"、"7月装修不算"	对话中提取 / Manager 主动标注	可选
Layer 4：反馈学习	"取消率提醒" → 有用 ×3、"小幅波动" → 没用 ×2	Manager 点 👍/👎，系统自动调阈值	不需要

Manager 日常使用 │ ┌─────────▼──────────┐ │ 数据自然增长 │ │ 基线自动优化 │ └─────────┬──────────┘ │ ┌─────────▼──────────┐ │ Agent 分析更准确 │ │ 推送更有价值 │ └─────────┬──────────┘ │ ┌─────────▼──────────┐ │ Manager 给反馈 │──→ "这个有用" / "这个没用" │ 补充业务知识 │──→ "每周三是培训日" └─────────┬──────────┘ │ ▼ Agent 下次更聪明

数据库设计

-- 每个租户 schema 内

-- Layer 1: 自动计算的基线
CREATE TABLE insight_baselines (
  id SERIAL PRIMARY KEY,
  metric_name VARCHAR(100),     -- 'daily_appointments', 'weekly_revenue'
  dimension VARCHAR(100),       -- 'monday', 'store_A', 'gel_manicure'
  baseline_value NUMERIC,       -- 均值
  std_deviation NUMERIC,        -- 标准差（判断异常）
  sample_count INTEGER,         -- 基于多少数据点
  period_type VARCHAR(20),      -- 'day_of_week', 'month', 'hour'
  updated_at TIMESTAMPTZ
);

-- Layer 2: 业务知识
CREATE TABLE business_knowledge (
  id SERIAL PRIMARY KEY,
  knowledge_text TEXT,           -- "每周三下午是培训时间"
  category VARCHAR(50),          -- 'schedule', 'staff', 'seasonal', 'external'
  source VARCHAR(20),            -- 'manager_input', 'system_discovered'
  confidence NUMERIC DEFAULT 1,  -- 0-1, 系统发现的低于人工输入
  active BOOLEAN DEFAULT true,
  created_at TIMESTAMPTZ,
  created_by INTEGER
);

-- Layer 3: 历史洞察 + 反馈
CREATE TABLE insight_history (
  id SERIAL PRIMARY KEY,
  insight_text TEXT,
  insight_type VARCHAR(50),      -- 'anomaly', 'trend', 'recommendation'
  severity VARCHAR(20),
  metrics_snapshot JSONB,
  tool_calls JSONB,              -- agent 调用了哪些工具
  feedback VARCHAR(20),          -- 'useful', 'not_useful', 'critical', NULL
  feedback_note TEXT,
  created_at TIMESTAMPTZ,
  feedback_at TIMESTAMPTZ
);

16.4 模型部署方案对比

核心约束：数据不出服务器
AI Agent 需直接查数据库（非预聚合文本），多轮推理涉及原始行数据。API 模式下每轮都在发送原始数据给第三方，隐私风险不可接受。

方案	模型	推理速度	并发	月成本	数据安全
A. 本地 CPU (Ollama)	Qwen2.5-7B INT4	10-20s/步	串行（1个）	$0（共用 EC2）	完全本地
B. 本地 GPU	Qwen3-14B	2-3s/步	并行（5-10）	$150-380	完全本地
C. 混合（推荐渐进路线）	本地 7B + API 备选	10-20s 本地 / 2-3s API	本地串行 + API 并行	$0-20	本地优先，API 仅发聚合

推荐路线：先 A（本地 CPU 验证 MVP），确认价值后升级 B 或 C。

EC2 配置建议（Ollama + Express + PostgreSQL 同机）

配置	模型	每步推理	月成本	建议
t3.xlarge (16GB, 4核)	Qwen2.5-7B INT4	10-20 秒	~$120	平衡之选 ✅
t3.large (8GB, 2核)	Qwen2.5-3B INT4	15-30 秒	~$60	最低配置
c7g.2xlarge (16GB, 8核 ARM)	Qwen2.5-7B INT4	5-10 秒	~$140	性价比最优 ✅

16.5 闭环场景设计

让 Celoria 从 Level 2（AI-Augmented）升级到 Level 3（AI-Native）的关键：给 AI 加上"手"

现在: 异常检测 → AI 分析原因 → 推送通知 → 结束 ↑ 到这里就断了 AI Native: 异常检测 → AI 分析原因 → 准备行动方案 → Manager 一键批准 → 执行 ↑ 闭环

场景 1：客户流失预警 + 自动挽回

⚠️ 客户流失风险置信度 73%

王女士 42 天未到店

她的平均到店周期 21 天，超出 2 倍。最常做：手部护理（$45）

我已准备好挽回方案：

→ 发送手部护理 8 折优惠券（有效期 7 天）

发送修改跳过

场景 2：技师请假 + 自动调度

📋 排班调整建议 Lisa 明天请假

6 个预约需要处理

→ 张小姐 10:00 Gel → 转 Amy（空闲 + 专长匹配）
→ 李太太 11:30 Full Set → 转 Jenny（评分最高）
→ 王先生 14:00 → 联系改期（其他技师都满了）
→ ...

全部执行逐个确认我自己处理

场景 3：空档填补

💡 空档优化建议明天下午异常空闲

明天下午 2-4 点有 3 个空档

异常：周四通常满员。等待列表有 5 位客人。

建议：向等待列表客人发送"明日特惠"

草稿：「明天下午到店享 9 折优惠，名额有限 — QQ Nails」

发送修改文案不处理

自主等级设置（Manager 可调）

操作类型	仅通知	建议+确认	自动执行	默认
预约提醒 SMS			●	自动
空档填补通知		●		需确认
促销活动发送		●		需确认
排班调整	●			仅通知
退款处理	●			仅通知

渐进式信任
初期所有操作默认"建议+确认"。随着 Manager 反复同意某类操作，系统提示："预约提醒 SMS 过去 30 次您都直接发送了，要改为自动执行吗？"
关键 UX：每个自动执行的操作旁边都有"撤销"按钮（限时 5 分钟）。知道可以撤销，用户才敢授权。

避免通知疲劳的分级策略

优先级	推送方式	示例
P0 紧急	立即推送	客人 15 分钟后到但技师还没到
P1 重要	App 内通知	明天有预约冲突需处理
P2 建议	每日摘要	本周空档率偏高，建议推促销
P3 洞察	每周报告	新客获取渠道分析

综合整理自四轮调研（美业竞品 + BI 平台 + 跨行业 AI 对标 + AI Native 产品深度调研）| Celoria Team | 2026-03-06