文本数据清洗：去除纯数字、纯字母、手机号等

时间：2023-03-03 18:12:59浏览次数：49

import pandas as pd
import re


# 获取所有句子，并且没有重复值
df1 = pd.read_csv("无标题.csv",encoding='gbk')
col1 = df1[["usermsg"]]
df2 = pd.read_csv("无标题.csv",encoding='gbk')
col2 = df2[["usermsg"]]
col = pd.concat([col1, col2])
col = col.drop_duplicates()
col = col["usermsg"].apply(lambda x: x.strip())


# 剔除含有手机号的元素
new_data = []
for i in col:
    pattern2 = "(?<!\d)(1\d{10})(?!\d)"
    phone_list2 = re.compile(pattern2).findall(i)
    if not phone_list2:
        new_data.append(i)


# 剔除网站的元素
new_data1 = []
for i in new_data:
    if not ("https://" in i):
        new_data1.append(i)


# 剔除纯数字的元素
new_data2 = []
for i in new_data1:
    if not i.isdigit():
        new_data2.append(i)


# 剔除纯英文的元素
new_data3 = []
for i in new_data2:
    if not i.encode("UTF-8").isalpha():
        new_data3.append(i)


# 剔除纯英文和纯数字的元素
new_data4 = []
for i in new_data3:
    if not i.encode("UTF-8").isalnum():
        new_data4.append(i)


# 剔除小数
new_data5 = []
for i in new_data4:
    if not re.search("\d+(\.\d+)?", i):
        new_data5.append(i)


# 剔除纯符号和纯字母
def clean(desstr, restr=""):
    # 过滤表情
    try:
        co = re.compile(
            "[" "\U0001F300-\U0001F64F" "\U0001F680-\U0001F6FF" "\u2600-\u2B55]+"
        )
    except re.error:
        co = re.compile(
            "("
            "\ud83c[\udf00-\udfff]|"
            "\ud83d[\udc00-\ude4f\ude80-\udeff]|"
            "[\u2600-\u2B55])+"
        )
    return co.sub(restr, desstr)

new_data6 = []
for i in new_data5:
    new_data6.append(clean(i))



new_df = pd.DataFrame(data=new_data6)
new_df = new_df.dropna()
new_df.to_csv("new_df.csv")

标签：usermsg,csv,手机号,无标题,pd,去除,文本,col
From： https://www.cnblogs.com/tiansz/p/17176589.html

1.基于Label studio的训练数据标注指南：信息抽取（实体关系抽取）、文本分类等
文本抽取任务LabelStudio使用指南1.基于Labelstudio的训练数据标注指南：信息抽取（实体关系抽取）、文本分类等2.基于Labelstudio的训练数据标注指南：（智能文档）文档抽取任务......
为开源项目贡献代码、pycharm使用git、登录注册功能分析、手机号是否存在接口、多方式
目录1为开源项目贡献代码2pycharm使用git2.1先配置pycharm使用git3登录注册功能分析4手机号是否存在接口4.2视图函数模版5多方式登录接口5.1视图类5.2序列化类6......
适用于 .NET 的开源文本差异对比组件
适用于.NET的开源文本差异对比组件DotNet大王源码资料,微信zhaoxi965,有问必复关注他 1人赞同了该文章对于开发人员来说，Git是我们经常使用......
sap -文本编辑器
DATA:ok_codeTYPEsy-ucomm,save_okTYPEsy-ucomm.DATA:init.DATA:containerTYPEREFTOcl_gui_custom_container.DATA:editorTYPEREFTOcl_gui_texted......
3.基于Label studio的训练数据标注指南：文本分类任务
文本分类任务LabelStudio使用指南1.基于Labelstudio的训练数据标注指南：信息抽取（实体关系抽取）、文本分类等2.基于Labelstudio的训练数据标注指南：（智能文档）文档抽取任务......
SVG绘制文本
在SVG中，通过text标签来绘制文本，它是一个双标签，基本语法为：尖角号text，尖角号/text，标签里填写文本的内容。它的属性x和属性y，定义文本的位置坐标，值为数字。还有两个常用......
CSS 数学函数与容器查询实现不定宽文本溢出跑马灯效果
在许久之前，曾经写过这样一篇文章--不定宽溢出文本适配滚动。我们实现了这样一种效果：文本内容不超过容器宽度，正常展示文本内容超过容器的情况，内容可以进行跑马灯来回滚......
R语言自然语言处理NLP:情感分析上市公司文本信息知识发现可视化
全文链接：http://tecdat.cn/?p=31702原文出处：拓端数据部落公众号情感分析，就是根据一段文本，分析其表达情感的技术。比较简单的情感分析，能够辨别文本内容是积极的还是消极的......
文本注释
Java中的注释单行注释 //注释内容多行注释 /注释内容/文档注释/***注释内容*注释内容*/JavaDocJavaDoc用来生成自己的API文档参数信息@......
富文本编辑器 react-quill的使用介绍
在日常开发中，我们经常会有使用富文本输入的需求， react-quill是相对比较好用且免费的富文本编辑器，有着主流的黑白清新风，美观，支持hignlight.js，同样支持行内编辑模式，并可自定......

文本数据清洗：去除纯数字、纯字母、手机号等

相关文章

赞助商

阅读排行