提示词工程:质量如何影响LLM的答案准确性
研究简介
本研究通过对照实验,系统考察提示词质量对LLM答案准确性的影响。实验设置低、中、高三类提示词质量,以DeepSeek和豆包为测试模型,覆盖解题、资料查找、复杂实践三类任务,共收集162条输出样本。
核心结论
| 序号 | 结论 |
|---|---|
| 1 | 提示词质量显著正向影响答案准确性,从低质量提升至中质量时准确度提升30%-50%,继续提升至高质量时边际收益递减至10%-20% |
| 2 | 资料查找任务对提示词质量最为敏感(准确度提升率最高达139%),解题任务次之,复杂实践任务最弱 |
| 3 | 高质量提示词的特征贡献排序为:步骤拆解 > 角色设定 > 格式约束 > 示例引导 |
| 4 | 豆包模型在高质量提示词条件下因“指令过载”出现异常低分,提示提示词复杂度存在最优区间 |
实践建议
- 根据任务类型选择优化力度:资料查找任务回报率最高,解题任务优化到中质量即可,代码生成任务重在迭代调试
- 避免指令过载:核心约束控制在3-5条以内
- 善用迭代策略:对不满意的输出调整提示词重新提问,而非一次性追求完美
文档导航
研究信息
- 实验模型:DeepSeek、豆包
- 样本总量:162条输出样本(9题 × 3质量等级 × 2模型 × 3次重复)
- 任务类型:解题任务(微积分、土力学、逻辑推理)/ 资料查找任务(概念、史实、文献)/ 复杂实践任务(PHP网站、Python工具、C语言光线追踪)