首页 > 其他分享 >pandas 筛选某列包含空格或汉字的行

pandas 筛选某列包含空格或汉字的行

时间:2023-09-09 11:32:22浏览次数:57  
标签:字符 某列 包含 u4e00 正则表达式 u9fa5 汉字 空格 pandas

import pandas as pd

# 创建示例 DataFrame
data = {'某列': ['Hello', '123', '包含空格', '包含 汉字', 'OnlyLetters']}
df = pd.DataFrame(data)

# 使用正则表达式筛选包含空格或汉字的行
pattern = r'\s|[\u4e00-\u9fa5]'  # 正则表达式匹配空格或汉字

filtered_df = df[df['某列'].str.contains(pattern, regex=True, na=False)]

# 打印筛选后的 DataFrame
print(filtered_df)


逐个解释正则表达式r'\s|[\u4e00-\u9fa5]'

正则表达式 r'\s|[\u4e00-\u9fa5]' 是一个用于匹配文本模式的正则表达式。让我逐个解释它:

  1. r 前缀:
  • 在正则表达式前面添加 r 前缀表示这是一个原始字符串(raw string),这样可以避免反斜杠 \ 在字符串中被转义。这在正则表达式中非常有用,因为正则表达式通常包含许多反斜杠,而我们不希望它们被解释为转义字符。
  1. \s
  • \s 是一个特殊的正则表达式元字符,表示匹配空白字符(whitespace characters),包括空格、制表符(tab)、换行符等。它用于匹配任何空白字符。
  1. |
  • | 是正则表达式中的逻辑或运算符,用于分隔两个可能的匹配模式,表示 "或" 的关系。
  1. [\u4e00-\u9fa5]
  • [ ] 是字符类(character class)的表示法,在其中可以包含多个字符或字符范围,它表示匹配其中任何一个字符。
  • \u4e00-\u9fa5 是一个字符范围,表示 Unicode 编码范围内的所有汉字字符。具体来说,\u4e00 是第一个汉字("一"),\u9fa5 是最后一个汉字("龥")的 Unicode 编码。这个范围包括了中文汉字的所有字符。

综合起来,正则表达式 r'\s|[\u4e00-\u9fa5]' 的含义是匹配任何包含空白字符或者包含中文汉字字符的文本。这个正则表达式可以用来筛选包含空格或汉字的文本行。例如,在文本中,如果某一行包含空格或者包含中文汉字字符,这个正则表达式将匹配该行。

标签:字符,某列,包含,u4e00,正则表达式,u9fa5,汉字,空格,pandas
From: https://blog.51cto.com/u_16055028/7418524

相关文章

  • 验证 空行或空列 读取表格是否有影响 结论 pandas读取所有数据
    验证空行或空列读取表格是否有影响结论pandas读取所有数据......
  • pandas-空值处理
    pandas-空值处理目录pandas-空值处理pandas中的None和NaN空值检测空值删除(过滤)空值填充参考资料pandas中的None和NaNtype(None)--类型是NoneType空的对象类型type(NaN)--类型是float浮点型Pandas中None和NaN都视作np.nannumpy中的三个常量np.NAN、np.nan......
  • pandas-数值映射和替换
    pandas-数值映射和替换目录pandas-数值映射和替换映射map()输入字典dict输入函数替换replace()参考资料映射列值是指将一个列中的某些特定值映射为另外一些值,常用于数据清洗和转换。映射map()Series.map(arg,na_action=None)arg:接收function、dict或Series,表示映射关系;......
  • Pandas库在Anaconda中的部署方法
      本文介绍在Anaconda环境中,安装Python语言pandas模块的方法。  pandas模块是一个基于NumPy的开源数据分析库,提供了快速、灵活、易用的数据结构和数据分析工具。它的主要数据结构是Series和DataFrame,可以处理各种数据格式,如CSV、Excel、SQL数据库等,并且支持数据清洗、缺失值处......
  • pandas-遍历和迭代
    pandas-遍历和迭代目录pandas-遍历和迭代iterrows()itertuples()借助zip()foriindf备注参考资料遍历数据是最常见的一种方式,pandas同样也可以遍历。iterrows()或itertuples():这两个方法用于遍历DataFrame的行。iterrows()返回一个迭代器,产生索引和行的元组,而itertup......
  • pandas-数据合并和拆分
    pandas-数据合并和拆分目录pandas-数据合并和拆分数据拆分拆分行拆分列按条件拆分数据合并appendmergeconcatjoin参考资料数据集拆分是将一个大型的数据集拆分为多个较小的数据集,可以让数据更加清晰易懂,也方便对单个数据集进行分析和处理。同时,分开的数据集也可以分别应用不同......
  • Python的pandas库:数据分析工具
    在Python的数据分析领域,pandas库是一个非常强大的工具。它提供了一种灵活的数据结构,可以帮助我们轻松地处理和分析数据。本文将详细介绍pandas库的主要功能和用法,并通过具体案例进行说明。安装与导入首先,确保已经安装了pandas库。如果尚未安装,可以使用以下命令在Python环境中安装:pi......
  • 前端请求地址含特殊字符"+"后端接收数据显示空格
    问题描述:前端测试Get请求访问,path中的参数含有加号,后端过滤器中使用request.getParameter()方法无法获取。请求地址:http://localhost:8899/bookmark/getByUser?encryData=g3DGtZnczC7SUm+vRvkaYg==后端过滤器中接收参数如图所示,其中查询字符串是request.getQuerySt......
  • JS去掉空格
    去掉字符串中的所有空格,不仅仅包含前后空格:text=text.replace(//s/ig,'');去掉前后空格:第一种方法:使用trim()functionTrim(m){while((m.length>0)&&(m.charAt(0)==''))m=m.substring(1,m.length);while((m.length>0)&&(m.c......
  • Pandas中的to_datetime函数用法
    Pandas中的to_datetime函数用法importdatetimeimportpandasaspdimportnumpyasnp将字符串转换为日期时间:pd.to_datetime('2023-09-06')Timestamp('2023-09-0600:00:00')将多个字符串转换为日期时间:pd.to_datetime(['2023-09-06','2023-09-07'......