首页 > 编程语言 >Python拆分列中文和 字符

Python拆分列中文和 字符

时间:2023-10-28 22:56:02浏览次数:34  
标签:字符 中文 sheet name chinese 分列 Python df

需求描述:我们日常实际的工作中经常需要把一列数据按中文和 数字或者字母单独拆分出来

导入所需的库:

import pandas as pd

定义函数 extract_characters,该函数接受三个参数:file_path(Excel文件路径)、sheet_name(工作表名称)和 column_name(列名)。

def extract_characters(file_path, sheet_name, column_name):

读取Excel文件并将其存储到DataFrame中:

df = pd.read_excel(file_path, sheet_name=sheet_name)

创建两个新的列 '中文''其他字符',并将它们添加到DataFrame中:

df['中文'] = ''
df['其他字符'] = ''

遍历DataFrame的每一行数据:

for index, row in df.iterrows():

获取指定列的值,并将其转换为字符串:

text = str(row[column_name])

初始化两个空字符串变量 chineseother,用于存储中文字符和其他字符:

chinese = ''
other = ''

遍历每个字符:

for char in text:

判断当前字符是否为中文字符(Unicode范围为\u4e00\u9fff):

if '\u4e00' <= char <= '\u9fff':

如果是中文字符,则将其添加到 chinese 字符串中:

chinese += char

如果不是中文字符,则将其添加到 other 字符串中:

other += char

将中文字符集合添加到新的 '中文' 列中:

df.at[index, '中文'] = chinese

将其他字符集合添加到新的 '其他字符' 列中:

df.at[index, '其他字符'] = other

返回处理后的DataFrame对象:

return df

定义测试示例的文件路径、工作表名称和列名:

file_path = r'测试.xlsx'
sheet_name = 'Sheet1'
column_name = '店铺销售sku'

调用 extract_characters 函数,并将结果存储在 result_df 中:

result_df = extract_characters(file_path, sheet_name, column_name)

将处理后的DataFrame保存为Excel文件:

result_df.to_excel('result.xlsx', index=False)

完整代码:

 

标签:字符,中文,sheet,name,chinese,分列,Python,df
From: https://www.cnblogs.com/lcl-cn/p/17794823.html

相关文章

  • Python环境下LaTeX数学公式转图像方案调研与探讨
    @目录引言方案一:基于LaTeX环境方案二:基于KaTeX(推荐)方案三:基于Matplotlib写在最后引言近来,涉及到一些公式识别的项目,输入是公式的图像,输出是LaTeX格式的数学公式字符串。这类项目一般都采用深度学习的方法来做,这就涉及到构造公式LaTeX字符串和对应渲染后图像的数据集。来训练......
  • Python第二章读书笔记-2023.10.28
    03运行超市抹零结账行为money_all=67.99+11.75+21.1+8.49+25.89+17.5+22.4money_all_str=str(money_all)print("商品总金额为:",money_all_str)money_real=int(money_all)money_real_str=str(money_real)print("实收金额为:",money_real_str)print("学号后四位3126"......
  • 解决使用mitmprox抓包可以访问网页,但是使用python request 调用该网站接口报错问题
    可能有几种原因导致这种情况。以下是一些常见的问题和可能的解决方法:证书验证问题:当你使用mitmproxy抓包时,它通常会生成自签名的SSL证书,以便进行中间人攻击检查。但在Python中使用requests库时,默认情况下,它会验证SSL证书的有效性。你需要禁用SSL验证,以便使用mitmproxy生成的证书......
  • 2023-10-28:用go语言,给定一个n*m的二维矩阵,每个位置都是字符, U、D、L、R表示传送带的位
    2023-10-28:用go语言,给定一个n*m的二维矩阵,每个位置都是字符,U、D、L、R表示传送带的位置,会被传送到:上、下、左、右,.、O分别表示空地、目标,一定只有一个目标点,可以在空地上选择上、下、左、右四个方向的一个,到达传送带的点会被强制移动到其指向的下一个位置。如果越界直接结束,返......
  • 【Python】用Python生成图像特效
    1.引用本文重点介绍如何使用python进行图像处理,生成各式各样的图像特效。闲话少说,我们直接开始吧!2.读入图像首先我们来读取我们的样例图像,并尝试打印图像中相应元素的像素值。为了实现这一点,我们使用Python中的Pillow子模块进行实现,代码如下:fromPILimportImageimg=Image.o......
  • 2023-10-28:用go语言,给定一个n*m的二维矩阵,每个位置都是字符, U、D、L、R表示传送带的位
    2023-10-28:用go语言,给定一个n*m的二维矩阵,每个位置都是字符,U、D、L、R表示传送带的位置,会被传送到:上、下、左、右,.、O分别表示空地、目标,一定只有一个目标点,可以在空地上选择上、下、左、右四个方向的一个,到达传送带的点会被强制移动到其指向的下一个位置。如果越界直接......
  • 28. 找出字符串中第一个匹配项的下标
    目录题目法一、KMP法二、切片法三、两行题目给你两个字符串 haystack和needle,请你在haystack字符串中找出needle字符串的第一个匹配项的下标(下标从0开始)。如果 needle不是haystack的一部分,则返回 -1。示例1:输入:haystack="sadbutsad",needle="sad"......
  • Python 作用域:局部作用域、全局作用域和使用 global 关键字
    变量只在创建它的区域内可用。这被称为作用域。局部作用域在函数内部创建的变量属于该函数的局部作用域,并且只能在该函数内部使用。示例:在函数内部创建的变量在该函数内部可用:defmyfunc():x=300print(x)myfunc()函数内部的函数如上面的示例所解释的那样,变量x在......
  • 如何遍历字符串的单词?
    内容来自DOChttps://q.houxu6.top/?s=如何遍历字符串的单词?如何遍历由空格分隔的单词组成的字符串中的单词?请注意,我对C字符串函数或那种字符操作/访问不感兴趣。我更喜欢优雅而不是效率。我目前的解决方法:#include<iostream>#include<sstream>#include<string>using......
  • 手把手教你用python一键抢12306火车票(附代码)
    哈喽,哈喽~,一年一度的抢火车票大战正式拉开序幕…然饿大多数人碰到的是这种情况:当你满心期待摩拳擦掌准备抢票的时候,你会发现一票难求!想回趟家真难!那么作为程序猿的你,当然要用程序猿的方式来抢票!下面分享用python来抢票!欢迎关注公众号:每日推荐系列,提供各种免费资源!也可以咨询代码问......