测试与评估
大模型应用不能只靠“肉眼看起来不错”。上线前应该建立评估集和自动化测试。
评估什么
| 指标 | 说明 |
|---|---|
| 准确性 | 回答是否正确 |
| 忠实性 | 是否基于给定上下文 |
| 召回率 | 是否找到相关文档 |
| 工具选择 | 是否调用正确工具 |
| 格式稳定性 | JSON 等结构是否可解析 |
| 安全性 | 是否泄露敏感信息或越权 |
| 成本 | token 与模型费用 |
| 延迟 | 用户等待时间 |
建议做法
- 收集 50~200 个真实问题作为第一版评估集。
- 每个问题标注期望答案或评分规则。
- 每次修改 Prompt、模型或切分策略后跑评估。
- 对线上 badcase 做归因并回流评估集。
后端视角
把大模型应用当作一个持续优化的系统,而不是一次性写完的功能。Prompt、检索、工具、模型、阈值都需要版本管理和灰度发布。
非官方声明
本站为个人维护的非官方中文学习文档,不代表 LangChain 官方。页面内容是基于公开文档、源码实践和中文开发者视角重新整理的学习资料。涉及 API 细节时,请以官方文档和实际安装版本为准。
参考来源
- LangChain / LangGraph 官方文档:
https://docs.langchain.com/ - LangChain API Reference:
https://reference.langchain.com/ - 本站内容为中文学习整理,不做官方身份声明。