# RAG 策略建议

## 结论

现阶段不建议把完整合同、扫描件、采购销售流水和个人私用记录直接加入公共 RAG。建议先做一个“轻量事实索引”，只收录必要的可检索摘要和路径引用。

## 推荐架构

```text
结构化台账/数据库 = 权威事实来源
证据文件夹 = 原始凭证来源
轻量 RAG 索引 = 模糊检索入口
```

RAG 返回候选后，仍要回到台账和原始证据确认。

## 可以进入轻量 RAG 的内容

- 合同 ID、货品 ID、进出记录 ID
- 货品通用描述、别名、规格关键词
- 相关方简称或脱敏名称
- 日期范围
- 采购/销售/个人使用等分类
- 证据文件相对路径
- 不含敏感金额和身份信息的摘要

## 暂不进入公共 RAG 的内容

- 完整合同原文
- 签名页、身份证、手机号、银行账号
- 付款凭证、发票敏感字段
- 个人私用明细中的隐私内容
- 未确认、可能错误的机器人抽取结果

## 什么时候再升级

满足以下条件后，再考虑接入本地 RAG：

1. 台账字段稳定。
2. 小样本录入准确率可接受。
3. 已明确哪些字段需要脱敏。
4. 能区分公司业务记录与个人私用记录。
5. 能从台账自动导出轻量索引，而不是手工把原文塞进 RAG。

## 建议的查询策略

- 精确查询：合同编号、货品 ID、日期、数量 → 查台账/数据库。
- 模糊查询：描述、别名、场景、记不清的相关方 → 查轻量 RAG。
- 复核结论：打开 `source_path` 对应证据文件。
