Skip to content

Text Splitters 文本切分

长文档不能直接整体丢给 Embedding 或模型,需要切成合适大小的片段。切分太大,召回不精准;切分太小,上下文不完整。

常见参数

参数说明
chunk_size每个片段长度
chunk_overlap相邻片段重叠长度
separators按标题、段落、句子等分隔

示例策略

text
技术文档:优先按 Markdown 标题切分
FAQ:一问一答作为一个 chunk
合同:按条款切分
代码文档:按类、函数、段落切分

后端经验

切分策略应该结合业务评估。比如客服知识库更看重“答案完整”,技术文档更看重“章节结构”,合同制度更看重“条款边界”。

常见问题

  • 切分后丢失标题:应把标题拼回 chunk 或放入 metadata。
  • chunk 过短:召回片段缺上下文,模型容易回答不完整。
  • chunk 过长:召回不精准,token 消耗大。

非官方声明

本站为个人维护的非官方中文学习文档,不代表 LangChain 官方。页面内容是基于公开文档、源码实践和中文开发者视角重新整理的学习资料。涉及 API 细节时,请以官方文档和实际安装版本为准。

参考来源

  • LangChain / LangGraph 官方文档:https://docs.langchain.com/
  • LangChain API Reference:https://reference.langchain.com/
  • 本站内容为中文学习整理,不做官方身份声明。

本站为非官方中文学习站点,不代表 LangChain 官方。部分内容参考官方文档并重新整理为中文学习笔记。