首页 > 编程语言 >python 办公常用一:从文本文件中提取手机号码

python 办公常用一:从文本文件中提取手机号码

时间:2023-05-22 11:08:01浏览次数:47  
标签:文件 file python zA _- 文本文件 手机号码 path Z0


python 办公常用

一、从文本文件中提取手机号码

给定一个文本文件从中提取所有手机号码

import re

def main():
    with open(path, encoding="utf-8") as f:
        data = f.read()

    res = re.findall(r'(?:13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}',
        data)

    with open(save_path, 'w') as save_file:
        for phone in res:
            save_file.write(phone + '\n')

        save_file.write('\nTotal numbers: ' + str(len(res)))
        print('Number read OK, total number: ' + str(len(res)))


if __name__ == '__main__':
    path = input("Please enter the file path: ")
    save_path = input("Please enter the file Save Path: ")
    main()

2、给图片添加水印

3、删除重复文件

4、创建二维码

5、制作 gif 动画

6、翻译英文

7、从视频文件提取音频

知识点

一、Python File

1、open()

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
参数说明:
file: 文件路径。
mode: 文件打开模式
buffering: 设置缓冲
encoding: 一般使用utf8
errors: 报错级别
newline: 区分换行符
closefd: 传入的file参数类型
opener: 设置自定义开启器,开启器的返回值必须是一个打开的文件描述符。
mode 参数有:
r: 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。
w: 打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。
a: 打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。
x: 写模式,新建一个文件,如果该文件已存在则会报错。

t: 默认为文本模式,如果要以二进制模式打开,加上 b 。
b: 二进制模式。
+: 打开一个文件进行更新(可读可写)。

with open(file, mode='r', encoding='utf-8') as f:
	pass

2、read()

file.read([size])
从文件读取指定的字节数,如果未给定或为负则读取所有。

file.readline([size])
方法用于从文件读取整行,包括 "\n" 字符。如果指定了一个非负数的参数,则返回指定大小的字节数,包括 "\n" 字符。

file.readlines([sizeint])
读取所有行并返回列表,若给定sizeint>0,返回总和大约为sizeint字节的行, 实际读取值可能比 sizeint 较大, 因为需要填充缓冲区。如果碰到结束符 EOF 则返回空字符串。

file.write(str)
方法用于向文件中写入指定字符串,返回的是写入的字符长度。
在文件关闭前或缓冲区刷新前,字符串内容存储在缓冲区中,这时你在文件中是看不到写入的内容的。
如果文件打开模式带 b,那写入文件内容时,str (参数)要用 encode 方法转为 bytes 形式,否则报错。
	
file.writelines(sequence)
方法用于向文件中写入一序列的字符串。
这一序列字符串可以是由迭代对象产生的,如一个字符串列表。
换行需要制定换行符 \n。

二、Python OS

1、os.listdir()

用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。 它不包括 . 和 … 即使它在文件夹中。

os.listdir(path)
参数 path -- 需要列出的目录路径
返回值 返回指定路径下的文件和文件夹列表。

2、os.path.exists(path)

3、os.path.isfile(path)

4、os.path.basename(path)

5、os.path.dirname(path)

6、os.path.join(path1[, path2[, …]])

7、os.path.split(path)

把路径分割成 dirname 和 basename,返回一个元组。

8、os.path.splitext(path)

分割路径中的文件名与扩展名。

三、正则表达式

1、手机号码

1)各大运营商手机号码段

中国电信号段

133、153、173、177、180、181、189、190、191、193、199

中国联通号段

130、131、132、145、155、156、166、167、171、175、176、185、186、196

中国移动号段

134(0-8)、135、136、137、138、139、1440、147、148、150、151、152、157、158、159、172、178、182、183、184、187、188、195、197、198

中国广电号段

192

其他号段

14号段部分为上网卡专属号段:中国联通145,中国移动147,中国电信149

虚拟运营商:

电信:1700、1701、1702、162
移动:1703、1705、1706、165
联通:1704、1707、1708、1709、171、167
卫星通信:1349、174
物联网:140、141、144、146、148

手机号码起始1,第二位是3456789中的任意一个,第三位有的是0-9全段,有的只是部分,如下:

13和18开头的手机号是全段
15和19开头的手机号后面除4外都有,无154和194
17开头的手机号后面除9外都有
14开头的手机号除2,3外都有,无142和143
16开头的手机号后面只有2567

2)手机号验证的最新正则表达式:

^(?:13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}$

2、Email地址

似乎没有统一的邮箱账号格式,但是所有邮箱都符合“名称@域名”的规律。对于名称和域名的字符限制,我们可以根据项目的情况定义一个,比如只允许有英文、数字、下划线等组成。

实例1、只允许英文字母、数字、下划线、英文句号、以及中划线组成
举例:zhangsan-001@sina.com

分析邮件名称部分:

26个大小写英文字母表示为a-zA-Z
数字表示为0-9
下划线表示为_
中划线表示为-
由于名称是由若干个字母、数字、下划线和中划线组成,所以需要用到+表示多次出现
根据以上条件得出邮件名称表达式:[a-zA-Z0-9_-]+

分析域名部分:

一般域名的规律为“[N级域名][三级域名.]二级域名.顶级域名”,比如“qq.com”、“www.qq.com”、“mp.weixin.qq.com”、“12-34.com.cn”,分析可得域名类似“** .** .** .**”组成。

”部分可以表示为[a-zA-Z0-9_-]+
“.
”部分可以表示为.[a-zA-Z0-9_-]+
多个“.**”可以表示为(.[a-zA-Z0-9_-]+)+

综上所述,域名部分可以表示为[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+

最终表达式:

由于邮箱的基本格式为“名称@域名”,需要使用“^”匹配邮箱的开始部分,用“$”匹配邮箱结束部分以保证邮箱前后不能有其他字符,所以最终邮箱的正则表达式为:

^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$

实例2、名称允许汉字、字母、数字,域名只允许英文域名
举例:张三001Abc@lenovo.com.cn

分析邮件名称部分:

汉字在正则表示为[\u4e00-\u9fa5]
字母和数字表示为A-Za-z0-9

通过分析得出邮件名称部分表达式为[A-Za-z0-9\u4e00-\u9fa5]+

分析邮件域名部分

邮件部分可以参考实例1中的分析域名部分。
得出域名部分的表达式为[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+。

最终表达式:

我们用@符号将邮箱的名称和域名拼接起来,因此完整的邮箱表达式为
  ^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$

3、身份证号

15/18位身份证号

xxxxxx yyyy MM dd 375 0 十八位
xxxxxx yy MM dd 75 0 十五位

地区: [1-9]\d{5}
年的前两位: (18|19|([23]\d)) 1800-2399
年的后两位: \d{2}
月份: ((0[1-9])|(10|11|12))
天数: (([0-2][1-9])|10|20|30|31) 闰年不能禁止29+
三位顺序码: \d{3}
两位顺序码: \d{2}
校验码: [0-9Xx]

正则表达式

十八位: ^[1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$

十五位: ^[1-9]\d{5}\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{2}$

总:

( ^[1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$)|(^[1-9]\d{5}\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{2}$)

4、 re

Python 4-01 re

import re

content = 'Citizen wang , always fall in love with neighbour,WANG'
pattern = re.compile(r'wan\w', re.I)  
subStrings = pattern.findall(content)

# subStrings = re.findall(r'wan\w', content, re.I)
# subStrings = re.findall(re.compile(r'wan\w', re.I), content)

# 匹配所有的邮箱
res = re.findall(r'^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$', str)
# 匹配所有的手机号码
res = re.findall(r'^(?:13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}$', str)
注意:| 或规则 表示只要满足其中之一就可以匹配。
它的有效范围是它两边的整条规则,比如‘dog|cat’匹配的是‘dog’和’cat’,而不是’g’和’c’。如果想限定它的有效范围,必需使用一个无捕获组‘(?:)’包起来。比如要匹配‘I have a dog’或’I have a cat’,需要写成r’I have a (?:dog|cat)’,而不能写成r’I have a dog|cat’。

四、opencv

五、hashlib、md5

六、qrcode

七、 imageio

八、translate

九、moviepy


标签:文件,file,python,zA,_-,文本文件,手机号码,path,Z0
From: https://blog.51cto.com/u_1439909/6321594

相关文章

  • Python 4-05 sys
    syssys模块主要是针对与Python解释器相关的变量和方法,不是主机操作系统。导入方式:importsys属性及方法使用说明sys.argv获取命令行参数列表,第一个元素是程序本身sys.exit(n)退出Python程序,exit(0)表示正常退出。当参数非0时,会引发一个SystemExit异常,可以在程序中捕获该异......
  • Python 4-07 jieba
    https://github.com/felinx/jieba"结巴"中文分词一、jiebaclassTokenizer(object):#分词器defcut(self,sentence,cut_all=False,HMM=True,use_paddle=False):"""Themainfunctionthatsegmentsanentiresentencethatconta......
  • Python 1-19 集合
    Python1-19集合集合(set)是一个无序的不重复元素序列。创建集合,使用{}或者set(),注意:创建一个空集合必须用set(),因为{}是用来创建一个空字典。parame={value01,value02,...}或者set(value)>>>basket={'apple','orange','apple','pear','orange�......
  • Python 2-04 匿名函数
    Python匿名函数一、匿名函数lambdaλlambda[args]:expression即lambda[参数列表]:表达式lambda_add=lambdax,y:x+ydefnormal_add(x,y):returnx+yassertlambda_add(2,3)==normal_add(2,3)注:assertexpression[,arguments]即:assert表达式......
  • Python 1-14 列表
    Python1-14列表一、Python列表Python的列表是一个有序可重复的元素集合classlist([iterable])虽然被称为函数,list实际上是一种可变序列类型。1、创建创建一个列表,在方括号括中用逗号分隔不同的数据项。列表内的元素,可以是其它任意类型的数据,可多层嵌套列表,元素个数无限制。>>......
  • Python 1-14 列表
    Python1-14列表一、Python列表Python的列表是一个有序可重复的元素集合classlist([iterable])虽然被称为函数,list实际上是一种可变序列类型。1、创建创建一个列表,在方括号括中用逗号分隔不同的数据项。列表内的元素,可以是其它任意类型的数据,可多层嵌套列表,元素个数无限制。>>......
  • Python 2-03 递推和递归
    递推和递归一、递推算法Recursionmethod递推算法是通过已知条件,利用特定关系得出中间推论,直至得到结果的算法。递推算法分为顺推和逆推两种。动态规划1、顺推法所谓顺推法是从已知条件出发,逐步推算出要解决的问题的方法叫顺推。#n!阶乘deffactorial(n):t=1fori......
  • Python 2-07 装饰器 @decorator
    Python装饰器@decoratorPython装饰器其实就是对函数的包装,函数作为参数,在不修改函数源代码的基础上,并对函数做一些包装,然后返回增加了包装的函数,即生成了一个新函数。登录校验,权限校验,日志记录等,这些功能在各个环节都可能需要,但又十分雷同,可以通过装饰器来抽象、剥离这部分代码......
  • Python 4-09 time
    time 在 Python 中与时间处理有关的模块包括 time,datetime 以及 calendar。在 Python 中,用三种方式来表示时间,分别是时间戳、格式化时间字符串和结构化时间。时间戳(timestamp):1970年1月1日之后的秒,可以通过 time.time() 获得。时间戳是一个浮点数,可以进行加减运算,但......
  • Python 1-18 字典
    Python1-18字典Python的字典数据类型采用键值对(key:value)的形式,根据key的值计算value的地址,具有非常快的查取和插入速度。例如,用list实现成绩单:#给定一个名字,要查找对应的成绩,就先要在names中找到对应的位置,再从scores取出对应的成绩,list越长,耗时越长。names=......