首页 > 其他分享 >记录一下这两天在处理文档时遇到的小问题。

记录一下这两天在处理文档时遇到的小问题。

时间:2024-06-12 23:00:48浏览次数:10  
标签:keyword 记录 pattern 两天 正则 rule re flag 文档

第一个任务是读取两个文件,一个存放了很多正则表达式,另一个是要修改的excel文件。
读取已有的正则,然后挨个到excel里匹配并替换。
第一个问题报了
re.error: bad character range -\d at
搜了,说是:re分割字符串时,所用的分隔符集合必须按其ASCII值的大小,从小到大排列
记一下……本人正则小白,也就这两天搞会了。 或许过两天又忘了

第二个问题,测试了说结果不准确
原来的代码是:

keyword_pattern = '|'.join(map(re.escape, rule_keyword))	#多个正则分开
keyword_pattern = re.compile(keyword_pattern)	#正则编译
matches = test_df['title'].str.contains(keyword_pattern, regex=True, na=False)	#筛选

然后我仔细查看了需求,文档里要求的意思其实是每一条对应的规则,包含规则里所有的字。
于是改成了下面这样:

for keys in rule_keyword:
	flag = 1
	is_match = test_df['title'].str.contains(keys,regex=False, na=False)
	if is_match is True:
		flag *= 1
	else:
		flag *= 0
	# 在每一个规则里面找,但凡有一个不符合,flag=0,即不符合
	if flag == 1:
		new_clos = new_clos._append({'cate_id':rule_category_id,'cate_name':rule_category_name}, ignore_index = True)

for循环来判断每一个字是不是都在,在就是1,不在就是0,都乘起来,但凡有一个不在,就不符合要求。

后面运行的时候又不能读取文件,它报
No such file or directory
先以为是xlrd版本的问题,安装了xlrd1.2.0还是不行,就算在同一文件夹下也得填上绝对路径。

标签:keyword,记录,pattern,两天,正则,rule,re,flag,文档
From: https://www.cnblogs.com/tobias233/p/18244139

相关文章

  • 【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路
    前言现阶段,尽管大模型在生成式问答上取得了很大的成功,但由于大部分的数据都是私有数据,大模型的训练及微调成本非常高,RAG的方式逐渐成为落地应用的一种重要的选择方式。然而,如何准确的对文档进行划分chunks,成为一种挑战,在现实中,大部分的专业文档都是以PDF格式存储,低精度的......
  • C++基础入门学习记录
    本系列基于黑马程序员|c++课程,记录学习相关视频——黑马程序员匠心之作|C++教程从0到1入门编程,学习编程不再难_哔哩哔哩_bilibiliC++基础入门2.6字符串型作用:用于表示一串字符两种风格bool类型占==1个字节==大小示例:C风格字符串: char变量名[]="字符串值"示例:......
  • C++基础入门学习记录
    本系列基于黑马程序员|c++课程,记录学习相关视频——黑马程序员匠心之作|C++教程从0到1入门编程,学习编程不再难_哔哩哔哩_bilibiliC++基础入门3运算符**作用:**用于执行代码的运算本章我们主要讲解以下几类运算符:运算符类型作用算术运算符用于处理四则运算赋值运算符用于......
  • 线程池的使用:批量导入、数据汇总、异步保存搜索记录
    文章目录1、场景一:MySQL批量导入数据到ES1.1CountDownLatch1.2流程图1.3代码实现1.4效果2、场景二:数据汇总2.1流程图2.2代码实现3、场景三:异步调用3.1需求3.2代码实现1、场景一:MySQL批量导入数据到ES场景:需要将库里的1000万左右的数据量,导入到ES索引库中......
  • 记录--前端实现文件预览(word、excel、pdf、ppt、xmind、 音视频、图片、文本) 国际化
    ......
  • 用ESP32(ESP32-CAM)(Micropython)、水位传感器、继电器、水泵 做根据水位自动加水的设
    基本流程水位传感器放在水缸内上方位置,水位到达水位传感器所在的位置时,水位传感器触发,并输出信号给到ESP32(ESP32CAM)。然后ESP32(ESP32CAM)控制继电器闭合,水泵启动并工作60S。之后还是根据传感器信号,决定继电器是闭合还是断开,一直循环下去。main.py点击查看main.pyfrom......
  • 加密好的WPSword文档,忘记密码怎么办?
    在日常办公和学习中,我们经常使用WPSWord等文档处理软件来创建和编辑重要文件。为了保护这些文件不被未经授权的人访问,我们通常会选择给文档设置密码。然而,有时我们可能会因为时间久远或其他原因而忘记自己设置的密码,这时该如何是好呢?下面,我将为大家详细介绍几种应对加密WPSWo......
  • python系列:python fastapi + uvicorn 记录日志的最佳实践,结合nb_log
    pythonfastapi+uvicorn记录日志的最佳实践,结合nb_logpythonfastapi+uvicorn记录日志的最佳实践,结合nb_logpythonfastapi+uvicorn记录日志的最佳实践,结合nb_logpythonfastapi+uvicorn记录日志的最佳实践,要记录对fastapi什么时候请求了什么url和入......
  • Day26.记录流水、流水功能
    1.记录流水、流水功能_银行业务接口(bank_interface.py)函数中添加记录流水功能2.记录流水、流水功能_用户视图层(src.py)和银行业务接口(bank_interface.py)查看流水功能查看流水:src.py中的代码#7.查看流水,需要先记录流水@common.login_authdefcheck_flow():#直......
  • 最新AI系统+ChatGPT网站H5源码+AI绘画系统,DALL-E3文生图,详细图文搭建教程/文档分析/识
    目录一、文章前言系统文档 二、系统演示三、系统功能模块3.1AI全模型支持/插件系统AI模型提问文档分析​识图理解能力3.2GPts应用3.2.1GPTs应用3.2.2GPTs工作台3.2.3自定义创建预设应用3.3AI专业绘画3.3.1文生图/图生图(垫图)3.3.2 局部编辑重绘3.3.3 ......