python 办公常用一：从文本文件中提取手机号码

标签：文件 file python zA _- 文本文件手机号码 path Z0

python 办公常用

一、从文本文件中提取手机号码

给定一个文本文件从中提取所有手机号码

import re

def main():
    with open(path, encoding="utf-8") as f:
        data = f.read()

    res = re.findall(r'(?:13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}',
        data)

    with open(save_path, 'w') as save_file:
        for phone in res:
            save_file.write(phone + '\n')

        save_file.write('\nTotal numbers: ' + str(len(res)))
        print('Number read OK, total number: ' + str(len(res)))


if __name__ == '__main__':
    path = input("Please enter the file path: ")
    save_path = input("Please enter the file Save Path: ")
    main()

2、给图片添加水印

3、删除重复文件

4、创建二维码

5、制作 gif 动画

6、翻译英文

7、从视频文件提取音频

知识点

一、Python File

1、open()

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
参数说明:
file: 文件路径。
mode: 文件打开模式
buffering: 设置缓冲
encoding: 一般使用utf8
errors: 报错级别
newline: 区分换行符
closefd: 传入的file参数类型
opener: 设置自定义开启器，开启器的返回值必须是一个打开的文件描述符。
mode 参数有：
r: 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。
w: 打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。
a: 打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。
x: 写模式，新建一个文件，如果该文件已存在则会报错。

t: 默认为文本模式，如果要以二进制模式打开，加上 b 。
b: 二进制模式。
+: 打开一个文件进行更新(可读可写)。

with open(file, mode='r', encoding='utf-8') as f:
	pass

2、read()

file.read([size])
从文件读取指定的字节数，如果未给定或为负则读取所有。

file.readline([size])
方法用于从文件读取整行，包括 "\n" 字符。如果指定了一个非负数的参数，则返回指定大小的字节数，包括 "\n" 字符。

file.readlines([sizeint])
读取所有行并返回列表，若给定sizeint>0，返回总和大约为sizeint字节的行, 实际读取值可能比 sizeint 较大, 因为需要填充缓冲区。如果碰到结束符 EOF 则返回空字符串。

file.write(str)
方法用于向文件中写入指定字符串，返回的是写入的字符长度。
在文件关闭前或缓冲区刷新前，字符串内容存储在缓冲区中，这时你在文件中是看不到写入的内容的。
如果文件打开模式带 b，那写入文件内容时，str (参数)要用 encode 方法转为 bytes 形式，否则报错。
	
file.writelines(sequence)
方法用于向文件中写入一序列的字符串。
这一序列字符串可以是由迭代对象产生的，如一个字符串列表。
换行需要制定换行符 \n。

二、Python OS

1、os.listdir()

用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。它不包括 . 和 … 即使它在文件夹中。

os.listdir(path)
参数 path -- 需要列出的目录路径
返回值 返回指定路径下的文件和文件夹列表。

2、os.path.exists(path)

3、os.path.isfile(path)

4、os.path.basename(path)

5、os.path.dirname(path)

6、os.path.join(path1[, path2[, …]])

7、os.path.split(path)

把路径分割成 dirname 和 basename，返回一个元组。

8、os.path.splitext(path)

分割路径中的文件名与扩展名。

三、正则表达式

1、手机号码

1）各大运营商手机号码段

中国电信号段

133、153、173、177、180、181、189、190、191、193、199

中国联通号段

130、131、132、145、155、156、166、167、171、175、176、185、186、196

中国移动号段

134(0-8)、135、136、137、138、139、1440、147、148、150、151、152、157、158、159、172、178、182、183、184、187、188、195、197、198

中国广电号段

192

其他号段

14号段部分为上网卡专属号段：中国联通145，中国移动147，中国电信149

虚拟运营商：

电信：1700、1701、1702、162
移动：1703、1705、1706、165
联通：1704、1707、1708、1709、171、167
卫星通信：1349、174
物联网：140、141、144、146、148

手机号码起始1，第二位是3456789中的任意一个，第三位有的是0-9全段，有的只是部分，如下：

13和18开头的手机号是全段
15和19开头的手机号后面除4外都有，无154和194
17开头的手机号后面除9外都有
14开头的手机号除2,3外都有，无142和143
16开头的手机号后面只有2567

2）手机号验证的最新正则表达式：

^(?:13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}$

2、Email地址

似乎没有统一的邮箱账号格式，但是所有邮箱都符合“名称@域名”的规律。对于名称和域名的字符限制，我们可以根据项目的情况定义一个，比如只允许有英文、数字、下划线等组成。

实例1、只允许英文字母、数字、下划线、英文句号、以及中划线组成
举例：zhangsan-001@sina.com

分析邮件名称部分：

26个大小写英文字母表示为a-zA-Z
数字表示为0-9
下划线表示为_
中划线表示为-
由于名称是由若干个字母、数字、下划线和中划线组成，所以需要用到+表示多次出现
根据以上条件得出邮件名称表达式：[a-zA-Z0-9_-]+

分析域名部分：

一般域名的规律为“[N级域名][三级域名.]二级域名.顶级域名”，比如“qq.com”、“www.qq.com”、“mp.weixin.qq.com”、“12-34.com.cn”，分析可得域名类似“** .** .** .**”组成。

“”部分可以表示为[a-zA-Z0-9_-]+
“.”部分可以表示为.[a-zA-Z0-9_-]+
多个“.**”可以表示为(.[a-zA-Z0-9_-]+)+

综上所述，域名部分可以表示为[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+

最终表达式：

由于邮箱的基本格式为“名称@域名”，需要使用“^”匹配邮箱的开始部分，用“$”匹配邮箱结束部分以保证邮箱前后不能有其他字符，所以最终邮箱的正则表达式为：

^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$

实例2、名称允许汉字、字母、数字，域名只允许英文域名
举例：张三001Abc@lenovo.com.cn

分析邮件名称部分：

汉字在正则表示为[\u4e00-\u9fa5]
字母和数字表示为A-Za-z0-9

通过分析得出邮件名称部分表达式为[A-Za-z0-9\u4e00-\u9fa5]+

分析邮件域名部分

邮件部分可以参考实例1中的分析域名部分。
得出域名部分的表达式为[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+。

最终表达式：

我们用@符号将邮箱的名称和域名拼接起来，因此完整的邮箱表达式为
^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$

3、身份证号

15/18位身份证号

xxxxxx yyyy MM dd 375 0 十八位
xxxxxx yy MM dd 75 0 十五位

地区： [1-9]\d{5}
年的前两位： (18|19|([23]\d)) 1800-2399
年的后两位： \d{2}
月份： ((0[1-9])|(10|11|12))
天数： (([0-2][1-9])|10|20|30|31) 闰年不能禁止29+
三位顺序码： \d{3}
两位顺序码： \d{2}
校验码： [0-9Xx]

正则表达式

十八位： ^[1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$

十五位： ^[1-9]\d{5}\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{2}$

总：

( ^[1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$)|(^[1-9]\d{5}\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{2}$)

4、 re

Python 4-01 re

import re

content = 'Citizen wang , always fall in love with neighbour，WANG'
pattern = re.compile(r'wan\w', re.I)  
subStrings = pattern.findall(content)

# subStrings = re.findall(r'wan\w', content, re.I)
# subStrings = re.findall(re.compile(r'wan\w', re.I), content)

# 匹配所有的邮箱
res = re.findall(r'^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$', str)
# 匹配所有的手机号码
res = re.findall(r'^(?:13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}$', str)
注意：| 或规则 表示只要满足其中之一就可以匹配。
它的有效范围是它两边的整条规则，比如‘dog|cat’匹配的是‘dog’和’cat’，而不是’g’和’c’。如果想限定它的有效范围，必需使用一个无捕获组‘(?:)’包起来。比如要匹配‘I have a dog’或’I have a cat’，需要写成r’I have a (?:dog|cat)’，而不能写成r’I have a dog|cat’。

四、opencv

五、hashlib、md5

六、qrcode

七、 imageio

八、translate

九、moviepy

标签：文件,file,python,zA,_-,文本文件,手机号码,path,Z0
From： https://blog.51cto.com/u_1439909/6321594

python 办公常用一：从文本文件中提取手机号码