# 小样本录入流程

## 目标

先用 3–5 份真实材料验证字段和流程，不急着做完整系统。小样本阶段重点确认：

- 合同、货品、进出记录能否拆清楚；
- 数量、日期、相关方、用途是否有足够字段承载；
- 证据文件能否被稳定追溯；
- 哪些字段需要脱敏或权限控制；
- 是否值得升级为 SQLite/PostgreSQL 或接入轻量 RAG。

## 材料建议

优先选择覆盖不同场景的材料：

1. 一份采购合同或采购确认材料；
2. 一份销售合同或销售确认材料；
3. 一份入库/出库/物流凭证；
4. 一份个人私用、借用或归还记录；
5. 一份信息不完整、需要人工确认的材料。

## 处理步骤

1. 将材料放入 `evidence/_待录入/`。
2. 在 `registers/intake_queue.csv` 记录每份材料的来源、类型、状态和敏感级别。
3. 机器人先抽取候选字段，不直接认定最终事实。
4. 人确认关键事实后，再写入正式台账：
   - `contracts.csv`
   - `items.csv`
   - `parties.csv`
   - `goods_movements.csv`
5. 对未确认内容标记 `待确认`，并写明需要补充的问题。
6. 完成小样本后，总结字段是否需要调整。

## 抽取时优先识别的字段

### 合同

- 合同标题或主题
- 相关方
- 合同类型：采购、销售、委托、补充协议等
- 签署日期、生效日期
- 关联货品
- 关联数量
- 证据文件路径
- 敏感级别

### 货品

- 当前名称
- 别名或俗称
- 品类
- 规格
- 单位
- 状态

### 进出记录

- 进出方向：入、出、借出、归还、私用、调拨、报废
- 场景：采购、销售、个人使用、样品、赠品等
- 数量和单位
- 日期
- 来源方、去向方
- 存放位置
- 证据文件路径

## 小样本验收标准

小样本完成后，至少能回答：

- 某个货品一共采购了多少、卖出多少、当前还能追溯多少；
- 某份合同关联了哪些货品和数量；
- 某条进出记录的证据文件在哪里；
- 哪些记录属于个人私用或非销售用途；
- 哪些字段仍然经常缺失或需要人工确认。

## RAG 判断

小样本阶段只更新项目索引，不把原始合同和流水加入公共 RAG。若后续需要快速模糊检索，可从正式台账自动导出脱敏 JSONL，作为轻量 RAG 来源。
