Text Splitters 文本切分
长文档不能直接整体丢给 Embedding 或模型,需要切成合适大小的片段。切分太大,召回不精准;切分太小,上下文不完整。
常见参数
| 参数 | 说明 |
|---|---|
| chunk_size | 每个片段长度 |
| chunk_overlap | 相邻片段重叠长度 |
| separators | 按标题、段落、句子等分隔 |
示例策略
text
技术文档:优先按 Markdown 标题切分
FAQ:一问一答作为一个 chunk
合同:按条款切分
代码文档:按类、函数、段落切分后端经验
切分策略应该结合业务评估。比如客服知识库更看重“答案完整”,技术文档更看重“章节结构”,合同制度更看重“条款边界”。
常见问题
- 切分后丢失标题:应把标题拼回 chunk 或放入 metadata。
- chunk 过短:召回片段缺上下文,模型容易回答不完整。
- chunk 过长:召回不精准,token 消耗大。
非官方声明
本站为个人维护的非官方中文学习文档,不代表 LangChain 官方。页面内容是基于公开文档、源码实践和中文开发者视角重新整理的学习资料。涉及 API 细节时,请以官方文档和实际安装版本为准。
参考来源
- LangChain / LangGraph 官方文档:
https://docs.langchain.com/ - LangChain API Reference:
https://reference.langchain.com/ - 本站内容为中文学习整理,不做官方身份声明。