预处理知识库文件

在载入知识库文件的时候，直接上传文档虽然能实现基础的问答，但是，其效果并不能发挥到最佳水平。因此，我们建议开发者对知识库文件做出以下的预处理。以下方式的预处理如果执行了，有概率提升模型的召回率。

1. 使用`TXT / Markdown` 等格式化文件，并按照要点排版

例如，以下段落应该被处理成如下内容后在嵌入知识库，会有更好的效果。

原文: PDF类型
查特查特团队荣获AGI Playground Hackathon黑客松“生产力工具的新想象”赛道季军
2023年10月16日, Founder Park在近日结束的AGI Playground Hackathon黑客松比赛中，查特查特团队展现出色的实力，荣获了“生产力工具的新想象”赛道季军。本次比赛由Founder Park主办，并由智谱、Dify、Zilliz、声网、AWS云服务等企业协办。
比赛吸引了120多支参赛团队，最终有36支队伍进入决赛，其中34支队伍成功完成了路演。比赛规定，所有参赛选手必须在短短的48小时内完成一个应用产品开发，同时要求使用智谱大模型及Zilliz向量数据库进行开发。
查特查特团队的现场参赛人员由两名项目成员组成：
来自A大学的小明负责了Agent旅游助手的开发、场地协调以及团队住宿和行程的安排；在保证团队完赛上做出了主要贡献。作为队长，栋宇坚持自信，创新，沉着的精神，不断提出改进方案并抓紧落实，遇到相关问题积极请教老师，提高了团队开发效率。
作为核心开发者的B公司小蓝，他则主管Agent智能知识库查询开发、Agent底层框架设计、相关API调整和UI调整。在最后，他代表团队在规定的时间内呈现了产品的特点和优势，并完美的展示了产品demo。为团队最终产品能够得到奖项做出了重要贡献。

修改后的Markdown文件，具有更高的召回率

# 查特查特团队荣获AGI Playground Hackathon黑客松“生产力工具的新想象”赛道季军。

## 报道简介
2023年10月16日, Founder Park在近日结束的AGI Playground Hackathon黑客松比赛中，查特查特团队展现出色的实力，荣获了“生产力工具的新想象”赛道季军。本次比赛由Founder Park主办，并由智谱、Dify、Zilliz、声网、AWS云服务等企业协办。

## 比赛介绍

比赛吸引了120多支参赛团队，最终有36支队伍进入决赛，其中34支队伍成功完成了路演。比赛规定，所有参赛选手必须在短短的48小时内完成一个应用产品开发，同时要求使用智谱大模型及Zilliz向量数据库进行开发。

## 获奖队员简介

+ 小明，A大学
  + 负责Agent旅游助手的开发、场地协调以及团队住宿和行程的安排
  + 在保证团队完赛上做出了主要贡献。作为队长，栋宇坚持自信，创新，沉着的精神，不断提出改进方案并抓紧落实，遇到相关问题积极请教老师，提高了团队开发效率。

+ 小蓝，B公司
  + 主管Agent智能知识库查询开发、Agent底层框架设计、相关API调整和UI调整。
  + 代表团队在规定的时间内呈现了产品的特点和优势，并完美的展示了产品demo。

2. 减少文件中冲突的内容，分门别类存放数据

就像人类寻找相关点一样，如果在多份文件中存在相似的内容，可能会导致模型无法准确的搜索到相关内容。因此，需要减少文件中相似的内容，或将其分在不同的知识库中。例如，以下两个句子中，如果搜索外籍教师，则具有歧义，非常容易搜索到错误答案。

文件一：
在大数据专业中，我们已经拥有超过1/3的外籍博士和教师。

文件二：

本专业具有40%的外籍教师比例，
本专业有博士生10人，研究生12人。

3. 减少具有歧义的句子

知识库中应该减少具有歧义的句子和段落，或者汉语的高级用法，例如

1. 他说他会杀了那个人。
2. 你说啥子？
3. 我喜欢你的头发。
4. 地板真的滑，我差点没摔倒。

在相似度模型对比的时候，仅仅能搜索句子的表面意思，因此，使用有歧义的句子和段落可能导致搜索错误。

4. 减少单个文件的大小，减少文件中的特殊符号

上传知识库的单个文件不建议超过5MB，以免出现向量化中断卡死等情况。同时，上传大文件不要使用faiss数据库。
减少上传文件中的中文符号，特殊符号，无意义空格等。

自定义的关键词调整Embedding模型

1.首先准备一个关键字的文本文件，每一行是一个关键字。例如：

文件key_words.txt：
iphone13pro
中石油

配置kb_config.py

EMBEDDING_KEYWORD_FILE = "embedding_keywords.txt"

运行embeddings/add_embedding_keywords.py

输入的文本（这里只是一个没分隔的一串字符）：iphone13pro
生成的token id序列：[101, 21128, 102]
token到token id的映射：
[CLS]->101
iphone13pro->21128
[SEP]->102

输入的文本：中石油
生成的token id序列：[101, 21129, 102]
token到token id的映射：
[CLS]->101
中石油->21129
[SEP]->102

这样，你就获得了一个新的带有关键词调整的Embedding模型

标签：文件,知识库,Agent,token,查特,团队,预处理
From： https://www.cnblogs.com/end/p/18312776

1. 使用`TXT / Markdown` 等格式化文件，并按照要点排版

2. 减少文件中冲突的内容，分门别类存放数据

3. 减少具有歧义的句子

4. 减少单个文件的大小，减少文件中的特殊符号

自定义的关键词调整Embedding模型

相关文章

赞助商

阅读排行

预处理知识库文件

1. 使用TXT / Markdown 等格式化文件，并按照要点排版

2. 减少文件中冲突的内容，分门别类存放数据

3. 减少具有歧义的句子

4. 减少单个文件的大小，减少文件中的特殊符号

自定义的关键词调整Embedding模型

相关文章

赞助商

阅读排行

1. 使用`TXT / Markdown` 等格式化文件，并按照要点排版