(项目)20251113大数据项目实施1——测试 FastGPT 中 RAG 查询的准确率

一、测试 FastGPT 中 RAG 查询的准确率,重点验证复杂场景表现

具体要做的事:

  1. 先测试单表查询的准确率,看简单问题能否正确响应;
  2. 再测试多表关联查询、数据统计计算这类复杂场景,验证是否能得出正确结果;
  3. 根据测试结果判断:如果复杂查询准确率达标,就不用调整现有配置;若不达标,再考虑优化。

实践过程1

  • 我选择的单表查询对象是:哈萨克斯坦2025年3月出口贸易数据2025.3.csv

  • 导入知识库

image-20251113220513059

  • 创建工作流

image-20251113220744567

  • 运行测试

一、基础信息查询类(验证字段理解能力)

测试目标:验证 RAG 能否正确识别字段含义并返回基础数据信息

测试编号 测试问题 预期正确结果 结果验证依据
1.1 数据中的贸易伙伴国家是哪个? 哈萨克斯坦 贸易伙伴名称字段唯一值

image-20251113221029343


二、条件筛选查询类(验证多条件组合能力)

测试目标:验证 RAG 能否处理多条件组合筛选,准确定位目标数据

测试编号 测试问题 预期正确结果 结果验证依据
2.1 人民币金额大于 100 万元的边境小额贸易记录有哪些(列出前 3 条的商品名称和金额)? 筛选 “贸易方式名称 = 边境小额贸易” 且 “人民币 > 1000000” 的记录,按金额降序排列后取前 3 条,展示商品名称和对应人民币金额 数值条件 + 文本条件组合筛选 + 排序
2.2 新疆维吾尔自治区出口的 “冻罗非鱼鱼片” 相关记录有多少条? 筛选 “注册地名称 = 新疆维吾尔自治区” 且 “商品名称 = 冻罗非鱼鱼片” 的记录,统计记录数量 地区 + 商品名称精确匹配筛选

image-20251113225050090

image-20251113224532893


三、数值统计计算类(验证数学计算能力)

测试目标:验证 RAG 能否正确执行求和、平均值、最大值等数值计算

测试编号 测试问题 预期正确结果 结果验证依据
3.1 所有贸易记录的人民币总金额是多少? 11,481,632,005 元(约 114.82 亿元) 人民币字段求和计算

image-20251113225207796

四、排序与排名查询类(验证排序分析能力)

测试目标:验证 RAG 能否正确执行排序操作并返回排名结果

测试编号 测试问题 预期正确结果 结果验证依据
4.1 人民币金额排名前 3 的商品名称分别是什么? 找出人民币字段最大值对应的 3 条记录,提取对应的商品名称(需注意可能存在金额相同的并列情况) 金额降序排序 + 商品名称提取

image-20251113225730733


五、特殊场景查询类(验证异常值与细节处理能力)

测试目标:验证 RAG 能否处理特殊值、异常数据和细节信息

测试编号 测试问题 预期正确结果 结果验证依据
5.1 第二计量单位为 “?” 的记录占总记录的比例是多少? 统计 “第二计量单位 =?” 的记录数量,除以总记录数(10000),计算百分比 特殊符号值统计 + 比例计算
5.2 来料加工贸易方式下,第一计量单位为 “千克” 的记录有多少条? 筛选 “贸易方式名称 = 来料加工贸易” 且 “第一计量单位 = 千克” 的记录,统计数量 多条件精确匹配(包含小众贸易方式)

image-20251113230101375

image-20251113230301417

总结1

测试单表查询的准确率几乎为0\