Skip to content

Document Loaders

Document Loader 负责把外部资料加载成统一的 Document 格式。资料来源可以是 Markdown、PDF、网页、数据库、对象存储或企业知识库。

Document 通常包含什么

python
Document(
    page_content="正文内容",
    metadata={"source": "xxx.md", "title": "标题"}
)

page_content 是实际参与检索的文本,metadata 用于记录来源、标题、时间、权限、标签等。

设计建议

  1. 文档来源必须可追溯。
  2. metadata 中保留 source,方便回答时展示引用。
  3. 企业知识库要处理权限,不同用户只能检索有权限的文档。
  4. 文档更新后要支持增量同步和删除旧向量。

常见来源

  • Markdown / HTML 技术文档。
  • PDF 合同、制度、手册。
  • 数据库里的 FAQ。
  • Git 仓库里的 README 和代码注释。
  • 飞书、语雀、Notion、Confluence 等知识库。

非官方声明

本站为个人维护的非官方中文学习文档,不代表 LangChain 官方。页面内容是基于公开文档、源码实践和中文开发者视角重新整理的学习资料。涉及 API 细节时,请以官方文档和实际安装版本为准。

参考来源

  • LangChain / LangGraph 官方文档:https://docs.langchain.com/
  • LangChain API Reference:https://reference.langchain.com/
  • 本站内容为中文学习整理,不做官方身份声明。

本站为非官方中文学习站点,不代表 LangChain 官方。部分内容参考官方文档并重新整理为中文学习笔记。