Skip to content

测试与评估

大模型应用不能只靠“肉眼看起来不错”。上线前应该建立评估集和自动化测试。

评估什么

指标说明
准确性回答是否正确
忠实性是否基于给定上下文
召回率是否找到相关文档
工具选择是否调用正确工具
格式稳定性JSON 等结构是否可解析
安全性是否泄露敏感信息或越权
成本token 与模型费用
延迟用户等待时间

建议做法

  1. 收集 50~200 个真实问题作为第一版评估集。
  2. 每个问题标注期望答案或评分规则。
  3. 每次修改 Prompt、模型或切分策略后跑评估。
  4. 对线上 badcase 做归因并回流评估集。

后端视角

把大模型应用当作一个持续优化的系统,而不是一次性写完的功能。Prompt、检索、工具、模型、阈值都需要版本管理和灰度发布。

非官方声明

本站为个人维护的非官方中文学习文档,不代表 LangChain 官方。页面内容是基于公开文档、源码实践和中文开发者视角重新整理的学习资料。涉及 API 细节时,请以官方文档和实际安装版本为准。

参考来源

  • LangChain / LangGraph 官方文档:https://docs.langchain.com/
  • LangChain API Reference:https://reference.langchain.com/
  • 本站内容为中文学习整理,不做官方身份声明。

本站为非官方中文学习站点,不代表 LangChain 官方。部分内容参考官方文档并重新整理为中文学习笔记。