前端大模型入门：Langchain的不同文本分割器对比和效果展示-教你根据场景选出最合适的方式

标签：分割文本处理分割器 Langchain Markdown 最合适 Document pageContent

在前端开发大模型应用的时候，处理和分割文本是常见需求，毕竟现在的大模型输入输出都有限-嵌入等也是有token限制的，合理的文本分割能显著提高模型的表现。Langchain提供了多种文本分割方式，本文将对比五种文本分割器：CharacterTextSplitter、RecursiveCharacterTextSplitter、TokenTextSplitter、MarkdownTextSplitter和LatexTextSplitter，从原理、优缺点和适用场景等多个维度进行分析，帮助你选出最合适当前续期的文本分割器。

如果你没有阅读过之前的文章，推荐看看前端大模型入门：编码(Tokenizer)和嵌入(Embedding)解析 - llm的输入，以了解本文的作用和文本切割发生时机。

准备工作

准备好nodejs20+，yarn，安装依赖"@langchain/textsplitters" 或者 “langchain/text_splitter”; 具体的代码实现，可以参考本文绑定的资源，可以在nodejs或者web页面测试。

1. CharacterTextSplitter

原理

CharacterTextSplitter通过简单地按字符进行分割。用户可以指定分割的字符数，以便将文本切分为固定长度的片段。

分词示例

这个分割器按字符分割文本，每个chunk包含30个字符，相邻chunk之间有5个字符的重叠。中间可能被截断

CharacterTextSplitter 结果:
[
  Document {
    pageContent: '人工智能（AI）是计算机科学的一个分支，致力于创造智能机器。',  
  },
  Document {
    pageContent: '智能机器。它已经在多个领域取得了重大突破，如自然语言处理、计',
  },
  Document {
    pageContent: '言处理、计算机视觉和机器学习等。\n\n近年来，深度学习技术的发',
  }
]

优缺点

优点：
- 实现简单，易于理解和使用。
- 适用于需要快速分割的简单文本场景。
缺点：
- 无法识别文本中的语义结构，可能导致信息碎片化。
- 对于长句子或段落，可能会导致上下文缺失。

适用场景

适用于对文本分割要求不高、上下文关系不强的情况，比如简单的日志文件处理或非结构化数据的初步处理。

2. RecursiveCharacterTextSplitter

原理

RecursiveCharacterTextSplitter在CharacterTextSplitter的基础上，使用递归算法来分割文本。首先按指定字符数分割，然后尝试合并相邻的片段，直到满足某些条件。

分词示例

这个分割器递归地分割文本，使用了多个分隔符（换行符、句号、逗号等），每个chunk最多50个字符，相邻chunk之间有10个字符的重叠。

RecursiveCharacterTextSplitter 结果:
[
  Document {
    pageContent: '人工智能（AI）是计算机科学的一个分支，致力于创造智能机器',
  },
  Document {
    pageContent: '。它已经在多个领域取得了重大突破，如自然语言处理、计算机视觉和机器学习等。',
  },
  Document {
    pageContent: '近年来，深度学习技术的发展使得AI的能力大幅提升',
  },
  ...
  ]

优缺点

优点：
- 保留了更多的上下文信息，尤其在长段落中。
- 更加灵活，适合处理多样化的文本。
缺点：
- 实现复杂，可能导致性能开销增加。
- 需要调节更多参数以适应不同文本类型。

适用场景

适用于对上下文保留有较高要求的场景，例如长篇文章或报告的处理。

3. TokenTextSplitter

原理

TokenTextSplitter基于词元（Token）进行分割，通常与语言模型的输入结构相结合。用户可以指定每个片段的最大Token数。

分词示例

这个分割器使用适合中文的cl100k_base编码，每个chunk包含20个token，相邻chunk之间有5个token的重叠。

[
  Document {
    pageContent: '人工智能（AI）是计算机科学的一个分支，�',
  },
  Document {
    pageContent: '一个分支，致力于创造智能机器。它已',
  },
  Document {
    pageContent: '器。它已经在多个领域取得了重大突',
  },
  Document {
    pageContent: '了重大突破，如自然语言处理、计算机视',
  },
  ...
  ]

优缺点

优点：
- 适合大多数自然语言处理任务，可以有效保留上下文信息。
- 分割后的片段大小更符合模型的输入要求。
缺点：
- 对于非英语文本或特定领域文本，Token化效果可能不佳。
- 需要根据模型的Token限制进行调整。

适用场景

适合与大语言模型配合使用的场景，特别是需要高保真度的语义解析时。

4. MarkdownTextSplitter

原理

MarkdownTextSplitter针对Markdown格式文本进行优化，按照Markdown语法规则分割文本，确保分割后的片段在结构上仍然保持有效性。

分词示例

这个分割器专门用于处理Markdown格式的文本，保留了Markdown的结构。

MarkdownTextSplitter 结果:
[
  Document {
    pageContent: '# 人工智能简介',
  },
  Document {
    pageContent: '## 发展现状\n\n人工智能技术已经在多个领域取得突破：',
  },
  Document {
    pageContent: '- 自然语言处理\n- 计算机视觉\n- 机器学习',
  },
  Document {
    pageContent: '## 未来挑战\n\n1. 隐私保护\n2. 算法偏见\n3. 就业影响',
  },
  Document {
    pageContent: '需要在技术创新和伦理考量之间取得平衡。',
  }
]

优缺点

优点：
- 保留了Markdown的语法结构，适合处理文档和笔记。
- 使得分割后的片段可以直接用于渲染。
缺点：
- 只适用于Markdown格式的文本，通用性较差。
- 对于复杂的Markdown文档，可能需要更复杂的逻辑来处理。

适用场景

适合处理Markdown文档的场景，比如技术文档、博客文章等。

5. LatexTextSplitter

原理

LatexTextSplitter专为处理LaTeX文档设计，遵循LaTeX的语法规则，确保数学公式和其他特性不会在分割时被破坏。

分词示例

LatexTextSplitter 被配置为每个 chunk 最多包含 100 个字符，相邻 chunk 之间有 20 个字符的重叠。

LatexTextSplitter 结果:
[
  Document {
    pageContent: '\\documentclass{article}\n  \\usepackage{CJKutf8}\n  \\usepackage{amsmath}',
  },
  Document {
    pageContent: '\\begin{document}\n  \\begin{CJK*}{UTF8}{gbsn}\n\n  \\section{人工智能简介}',
  },
  Document {
    pageContent: '\\section{人工智能简介}\n' +
      '\n' +
      '  人工智能（AI）是计算机科学的一个分支，致力于创造智能机器。\n' +
      '\n' +
      '  \\subsection{发展现状}\n' +
      '\n' +
      '  近年来，AI在多个领域取得了重大突破：',
  },

优缺点

优点：
- 专门针对LaTeX，适合处理学术论文和技术文档。
- 能够有效保留复杂公式和排版。
缺点：
- 仅限于LaTeX格式，不具备通用性。
- 学习曲线较陡，对于不熟悉LaTeX的用户可能不友好。

适用场景

适合处理学术论文、技术报告和需要精确排版的文档。

最佳实践推荐

在实际应用中，选择合适的文本分割器应根据具体需求进行。例如：

对于简单文本，可以选择CharacterTextSplitter。
处理长文本或需要上下文信息的场合，推荐使用RecursiveCharacterTextSplitter或TokenTextSplitter。
中文文章推荐用 RecursiveCharacterTextSplitter
处理Markdown文档时，MarkdownTextSplitter是最佳选择，而对于LaTeX文档，则应使用LatexTextSplitter。

综合考虑文本类型、上下文需求和输出质量，合理选用文本分割方式，将有助于提高模型的处理能力和效果。

标签：分割,文本,处理,分割器,Langchain,Markdown,最合适,Document,pageContent
From： https://blog.csdn.net/m0_38015699/article/details/142822379

前端大模型入门：Langchain的不同文本分割器对比和效果展示-教你根据场景选出最合适的方式

准备工作

1. CharacterTextSplitter

原理

分词示例

优缺点

适用场景

2. RecursiveCharacterTextSplitter

原理

分词示例

优缺点

适用场景

3. TokenTextSplitter

原理

分词示例

优缺点

适用场景

4. MarkdownTextSplitter

原理

分词示例

优缺点

适用场景

5. LatexTextSplitter

原理

分词示例

优缺点

适用场景

最佳实践推荐

相关文章

赞助商

阅读排行