由于大模型在现阶段对输入和输出字符有严格限制,而知识库也是输入内容的一种,同样需要遵循大模型的输入字数限制,当前大模型、检索策略的情况下,越短的内容在检索、润色的表现越好。
文本分段是将长文本切割成短段落,剔除不相关的信息,输入更加精准的内容。开发者可根据内容特性,个性化配置分段方式。
分段标识符:指用于切分段落的分割符号,将在符合"最大段落字符数"要求的符号位置切分段落。您可以设置标点、中文、英文、数据作为分割符号。
分段最大长度:注:内容越短,检索效果越好哦~,指切分后最大的段落长度,段落长度最大不能超过 5000个字符。
例如:一份 10000 字的文件,"最大段落字符数=1000"时,将得到 9~10 段 1000 字左右的段落。
分段重叠度:指上下 2 个分段中重复的内容长度。
例如:"平台的优势"标题与描述信息分在 2 个段落中,模型检索采用后也没有"平台的优势"相关的内容,这时就可以适当增加"段落重叠字符数",增加 2 段内容的相关性。