跳转至

提示词工程:质量如何影响LLM的答案准确性

研究简介

本研究通过对照实验,系统考察提示词质量对LLM答案准确性的影响。实验设置低、中、高三类提示词质量,以DeepSeek和豆包为测试模型,覆盖解题、资料查找、复杂实践三类任务,共收集162条输出样本。

核心结论

序号 结论
1 提示词质量显著正向影响答案准确性,从低质量提升至中质量时准确度提升30%-50%,继续提升至高质量时边际收益递减至10%-20%
2 资料查找任务对提示词质量最为敏感(准确度提升率最高达139%),解题任务次之,复杂实践任务最弱
3 高质量提示词的特征贡献排序为:步骤拆解 > 角色设定 > 格式约束 > 示例引导
4 豆包模型在高质量提示词条件下因“指令过载”出现异常低分,提示提示词复杂度存在最优区间

实践建议

  • 根据任务类型选择优化力度:资料查找任务回报率最高,解题任务优化到中质量即可,代码生成任务重在迭代调试
  • 避免指令过载:核心约束控制在3-5条以内
  • 善用迭代策略:对不满意的输出调整提示词重新提问,而非一次性追求完美

文档导航

  • 测试题目 — 涵盖解题、资料查找、复杂实践共9道题目
  • 分级提示词 — 每道题目对应的低、中、高三类质量提示词

研究信息

  • 实验模型:DeepSeek、豆包
  • 样本总量:162条输出样本(9题 × 3质量等级 × 2模型 × 3次重复)
  • 任务类型:解题任务(微积分、土力学、逻辑推理)/ 资料查找任务(概念、史实、文献)/ 复杂实践任务(PHP网站、Python工具、C语言光线追踪)