在线问诊 Python、FastAPI、Neo4j — 构建问题分类器

时间：2023-09-25 17:12:57浏览次数：67

标签：wd Python FastAPI self 分类器 wds dict path 字典

构建字典数据
构建 Trie 字典树
按实体组装字典
问题分析

将问题进行分析，和系统已有的分类进行关联

构建字典数据

将构建的知识图片字典化，用于后面对问题的解析，下图为症状的字典，其它字典同理

构建 Trie 字典树

将建字典数据，组装集合

cur_dir = '/'.join(os.path.abspath(__file__).split('/')[:-1])
# 　特征词路径
self.disease_path = os.path.join(cur_dir, '../dict/disease.txt')
self.check_path = os.path.join(cur_dir, '../dict/examine.txt')
self.drug_path = os.path.join(cur_dir, '../dict/drug.txt')
self.food_path = os.path.join(cur_dir, '../dict/food.txt')
self.symptom_path = os.path.join(cur_dir, '../dict/symptom.txt')
self.deny_path = os.path.join(cur_dir, '../dict/deny.txt')
# 加载数据
self.disease_wds = [i.strip() for i in open(self.disease_path, encoding="utf-8") if i.strip()]   # ['干眼', '右膝髌上囊及关节腔少量积液']
self.check_wds = [i.strip() for i in open(self.check_path, encoding="utf-8") if i.strip()]  # ['膝关节核磁', '视力', '砂眼', '辨色力', '角膜', '眼底']
self.drug_wds = [i.strip() for i in open(self.drug_path, encoding="utf-8") if i.strip()]
self.food_wds = [i.strip() for i in open(self.food_path, encoding="utf-8") if i.strip()]
self.symptom_wds = [i.strip() for i in open(self.symptom_path, encoding="utf-8") if i.strip()] # ['畏光','干涩','看东西有时候清楚有时候不清楚']

# 读出所有 dict 里面的字典数据，并拼接成一个大而全的 集合
# ['干眼', '右膝髌上囊及关节腔少量积液','膝关节核磁', '视力', '砂眼', '辨色力', '角膜', '眼底','畏光','干涩','看东西有时候清楚有时候不清楚']
self.region_words = set(self.disease_wds + self.check_wds + self.drug_wds + self.food_wds + self.symptom_wds)

构建 Trie 字典树
Trie字典树：https://www.cnblogs.com/vipsoft/p/17722820.html
Aho-Corasick 算法 AC自动机实现：https://www.cnblogs.com/vipsoft/p/17722761.html

# 目的是为了将来对用户提的问题，进行关键词快速提取
def build_actree(self, word_list):
    """
    构造actree，加速过滤
    :param word_list:
    :return:
    """
    actree = ahocorasick.Automaton()
    for index, word in enumerate(word_list):
        actree.add_word(word, (index, word))  # 向trie树中添加单词
    actree.make_automaton()
    return actree

按实体组装字典

# 将 ['干眼', '右膝髌上囊及关节腔少量积液','膝关节核磁', '视力', '砂眼', '辨色力', '角膜', '眼底']，进行分类，组装成不同类型的字典
def build_wdtype_dict(self):
    """
    构造词对应的类型
    :return:
    """
    wd_dict = dict()
    for wd in self.region_words:
        wd_dict[wd] = []
        if wd in self.disease_wds:
            wd_dict[wd].append('disease')
        if wd in self.check_wds:
            wd_dict[wd].append('check')
        if wd in self.drug_wds:
            wd_dict[wd].append('drug')
        if wd in self.food_wds:
            wd_dict[wd].append('food')
        if wd in self.symptom_wds:
            wd_dict[wd].append('symptom')
    return wd_dict

问题分析

通过AC算法，过滤关键词

# "请问最近看东西有时候清楚有时候不清楚是怎么回事"
def check_medical(self, question):
    """
    问句过滤
    :param question:
    :return:
    """
    region_wds = []
    for i in self.region_tree.iter(question):  # 从问题中，找出关键词
        wd = i[1][1]  # 看东西有时候清楚有时候不清楚
        region_wds.append(wd)
    stop_wds = []
    for wd1 in region_wds:
        for wd2 in region_wds:
            if wd1 in wd2 and wd1 != wd2:
                stop_wds.append(wd1)
    final_wds = [i for i in region_wds if i not in stop_wds]  # '看东西有时候清楚有时候不清楚'
    medical_dict = {i: self.wdtype_dict.get(i) for i in final_wds}  # {'看东西有时候清楚有时候不清楚': ['symptom']}
    return medical_dict

解析出问题的类型

data['args'] = medical_dict
# 若没有查到相关的外部查询信息，那么则将该疾病的描述信息返回
if question_types == [] and 'symptom' in types:
   question_types = ['symptom_disease']
# 将多个分类结果进行合并处理，组装成一个字典
data['question_types'] = question_types

输出字典

question = "请问最近看东西有时候清楚有时候不清楚是怎么回事"
# 最终输出
data = {'args': {'看东西有时候清楚有时候不清楚': ['symptom']}, 'question_types': ['symptom_disease']}

标签：wd,Python,FastAPI,self,分类器,wds,dict,path,字典
From： https://www.cnblogs.com/vipsoft/p/17728136.html

python操作windows桌面实现鼠标、键盘操作，python之pyautogui库文档详解
文章目录一、概述1、概述2、安装二、屏幕操作1、获取屏幕分辨率2、某个坐标是否在屏幕上3、获取当前鼠标位置三、鼠标操作1、移动鼠标2、点击操作3、滚轮操作4、记录光标小程序5、鼠标拖拽6、缓动/渐变（Tween/Easing）函数99、保护措施（FAILSAFE）99、延迟操作（PAUSE）四、键盘操作1、......
Python爬虫基础（五）：使用scrapy框架
文章目录系列文章索引一、scrapy简介1、什么是scrapy2、scrapy安装3、scrapy架构组成4、scrapy工作原理二、scrapy基本使用1、创建项目2、创建爬虫文件3、（附）项目组成4、运行爬虫代码（1）修改baidu.py（2）robots文件5、response的属性和方法6、实战：获取百度的【百度一下】按钮的内容7、实......
python+Tesseract OCR实现截屏识别文字
文章目录一、tesseract-ocr下载安装1、下载2、安装tesseract-ocr（1）选择语言（2）开始安装（3）同意许可（4）选择安装的用户（5）选择附带要安装的语言包（6）安装位置（7）开始安装（8）安装完成3、安装语言包（1）下载安装（2）测试二、python截屏识别文字1、安装必须的包2、截屏识别文字3、准确度参考资料一、tesser......
Python爬虫基础（四）：使用更方便的requests库
文章目录系列文章索引一、requests库的使用1、官方文档2、安装requests库3、简单使用4、使用get请求5、使用post请求6、使用代理二、实战1、实战：实现古诗文网的登录（1）找到登录页面（2）登录操作需要的数据（3）获取隐藏域中的数据（4）获取验证码图片（5）登录操作（6）获取我的收藏2、实战：使用超级鹰验......
Python——25days
日志模块logging（CV）第三方模块的下载与安装**——————————————————————————————什么是日志:日志就是在你编码的过程中记录一些代码的变化比如：记录用户什么时间登录的用户什么时间注册的等日志的存在形式：文件类型的MySQL中elasticsearch搜......
[python] 调用CMD写入文件
[python]调用CMD写入文件importosos.system('echohelloworld>>"e:\\123.txt"')print('ok')运行后，将会在e盘下生成一个名为123.txt的文本文件，文件内容为“helloworld”注：e:\123.txt中的斜线必须为双斜线，第一个斜线为转义字符。......
python 缓存机制如何实现（cacheout）
Python缓存机制可以使用第三方库cacheout来实现。cacheout提供了一个Cache类，它支持多种缓存策略，包括LRU、FIFO、LFU和TTL。Cache类的基本使用方法如下：1.安装cacheout：pipinstallcacheout2.导入Cache类：fromcacheoutimportCache3.创建Cache对象：cac......
Python txt文本内容转换
#读取原始文本内容withopen("input.txt","r")asfile:lines=file.readlines()output_lines=[]#处理每一行数据forlineinlines:values=line.strip().split("\t")#判断第一个值是否已存在于结果列表中ifvalues[0]in[line.split(&qu......
【Python入门教程】Python实现猜数字小游戏
今天跟大家分享一下很久之前自己做的一款猜数字小游戏，基本的循环判断语句即可实现，可以用来当练手或者消磨时间用。大家在编代码的时候最重要就是先理清逻辑思路，例如应该套几层循环、分几个模块等等。然后在编码时可以先随意一点，变量名、函数等可以先......
python 排序
在您的代码中，排序函数中的`elem`是一个未定义的变量，因此会导致`NameError`错误。在Python中，`elem`不是一个内置变量，您需要使用实际的变量或表达式来代替。从您提供的数据和示例代码来看，您似乎希望按照每个子列表中的第一个元素进行排序。为了修复错误，您可以使用lambda函......

在线问诊 Python、FastAPI、Neo4j — 构建问题分类器

构建字典数据

构建 Trie 字典树

按实体组装字典

问题分析

相关文章

赞助商

阅读排行