python 办公常用
一、从文本文件中提取手机号码
给定一个文本文件从中提取所有手机号码
import re
def main():
with open(path, encoding="utf-8") as f:
data = f.read()
res = re.findall(r'(?:13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}',
data)
with open(save_path, 'w') as save_file:
for phone in res:
save_file.write(phone + '\n')
save_file.write('\nTotal numbers: ' + str(len(res)))
print('Number read OK, total number: ' + str(len(res)))
if __name__ == '__main__':
path = input("Please enter the file path: ")
save_path = input("Please enter the file Save Path: ")
main()
2、给图片添加水印
3、删除重复文件
4、创建二维码
5、制作 gif 动画
6、翻译英文
7、从视频文件提取音频
知识点
一、Python File
1、open()
open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
参数说明:
file: 文件路径。
mode: 文件打开模式
buffering: 设置缓冲
encoding: 一般使用utf8
errors: 报错级别
newline: 区分换行符
closefd: 传入的file参数类型
opener: 设置自定义开启器,开启器的返回值必须是一个打开的文件描述符。
mode 参数有:
r: 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。
w: 打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。
a: 打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。
x: 写模式,新建一个文件,如果该文件已存在则会报错。
t: 默认为文本模式,如果要以二进制模式打开,加上 b 。
b: 二进制模式。
+: 打开一个文件进行更新(可读可写)。
with open(file, mode='r', encoding='utf-8') as f:
pass
2、read()
file.read([size])
从文件读取指定的字节数,如果未给定或为负则读取所有。
file.readline([size])
方法用于从文件读取整行,包括 "\n" 字符。如果指定了一个非负数的参数,则返回指定大小的字节数,包括 "\n" 字符。
file.readlines([sizeint])
读取所有行并返回列表,若给定sizeint>0,返回总和大约为sizeint字节的行, 实际读取值可能比 sizeint 较大, 因为需要填充缓冲区。如果碰到结束符 EOF 则返回空字符串。
file.write(str)
方法用于向文件中写入指定字符串,返回的是写入的字符长度。
在文件关闭前或缓冲区刷新前,字符串内容存储在缓冲区中,这时你在文件中是看不到写入的内容的。
如果文件打开模式带 b,那写入文件内容时,str (参数)要用 encode 方法转为 bytes 形式,否则报错。
file.writelines(sequence)
方法用于向文件中写入一序列的字符串。
这一序列字符串可以是由迭代对象产生的,如一个字符串列表。
换行需要制定换行符 \n。
二、Python OS
1、os.listdir()
用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。 它不包括 . 和 … 即使它在文件夹中。
os.listdir(path)
参数 path -- 需要列出的目录路径
返回值 返回指定路径下的文件和文件夹列表。
2、os.path.exists(path)
3、os.path.isfile(path)
4、os.path.basename(path)
5、os.path.dirname(path)
6、os.path.join(path1[, path2[, …]])
7、os.path.split(path)
把路径分割成 dirname 和 basename,返回一个元组。
8、os.path.splitext(path)
分割路径中的文件名与扩展名。
三、正则表达式
1、手机号码
1)各大运营商手机号码段
中国电信号段
133、153、173、177、180、181、189、190、191、193、199
中国联通号段
130、131、132、145、155、156、166、167、171、175、176、185、186、196
中国移动号段
134(0-8)、135、136、137、138、139、1440、147、148、150、151、152、157、158、159、172、178、182、183、184、187、188、195、197、198
中国广电号段
192
其他号段
14号段部分为上网卡专属号段:中国联通145,中国移动147,中国电信149
虚拟运营商:
电信:1700、1701、1702、162
移动:1703、1705、1706、165
联通:1704、1707、1708、1709、171、167
卫星通信:1349、174
物联网:140、141、144、146、148
手机号码起始1,第二位是3456789中的任意一个,第三位有的是0-9全段,有的只是部分,如下:
13和18开头的手机号是全段
15和19开头的手机号后面除4外都有,无154和194
17开头的手机号后面除9外都有
14开头的手机号除2,3外都有,无142和143
16开头的手机号后面只有2567
2)手机号验证的最新正则表达式:
^(?:13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}$
2、Email地址
似乎没有统一的邮箱账号格式,但是所有邮箱都符合“名称@域名”的规律。对于名称和域名的字符限制,我们可以根据项目的情况定义一个,比如只允许有英文、数字、下划线等组成。
实例1、只允许英文字母、数字、下划线、英文句号、以及中划线组成
举例:zhangsan-001@sina.com
分析邮件名称部分:
26个大小写英文字母表示为a-zA-Z
数字表示为0-9
下划线表示为_
中划线表示为-
由于名称是由若干个字母、数字、下划线和中划线组成,所以需要用到+表示多次出现
根据以上条件得出邮件名称表达式:[a-zA-Z0-9_-]+
分析域名部分:
一般域名的规律为“[N级域名][三级域名.]二级域名.顶级域名”,比如“qq.com”、“www.qq.com”、“mp.weixin.qq.com”、“12-34.com.cn”,分析可得域名类似“** .** .** .**”组成。
“”部分可以表示为[a-zA-Z0-9_-]+
“.”部分可以表示为.[a-zA-Z0-9_-]+
多个“.**”可以表示为(.[a-zA-Z0-9_-]+)+
综上所述,域名部分可以表示为[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+
最终表达式:
由于邮箱的基本格式为“名称@域名”,需要使用“^”匹配邮箱的开始部分,用“$”匹配邮箱结束部分以保证邮箱前后不能有其他字符,所以最终邮箱的正则表达式为:
^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$
实例2、名称允许汉字、字母、数字,域名只允许英文域名
举例:张三001Abc@lenovo.com.cn
分析邮件名称部分:
汉字在正则表示为[\u4e00-\u9fa5]
字母和数字表示为A-Za-z0-9
通过分析得出邮件名称部分表达式为[A-Za-z0-9\u4e00-\u9fa5]+
分析邮件域名部分
邮件部分可以参考实例1中的分析域名部分。
得出域名部分的表达式为[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+。
最终表达式:
我们用@符号将邮箱的名称和域名拼接起来,因此完整的邮箱表达式为
^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$
3、身份证号
15/18位身份证号
xxxxxx yyyy MM dd 375 0 十八位
xxxxxx yy MM dd 75 0 十五位
地区: [1-9]\d{5}
年的前两位: (18|19|([23]\d)) 1800-2399
年的后两位: \d{2}
月份: ((0[1-9])|(10|11|12))
天数: (([0-2][1-9])|10|20|30|31) 闰年不能禁止29+
三位顺序码: \d{3}
两位顺序码: \d{2}
校验码: [0-9Xx]
正则表达式
十八位: ^[1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$
十五位: ^[1-9]\d{5}\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{2}$
总:
( ^[1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$)|(^[1-9]\d{5}\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{2}$)
4、 re
Python 4-01 re
import re
content = 'Citizen wang , always fall in love with neighbour,WANG'
pattern = re.compile(r'wan\w', re.I)
subStrings = pattern.findall(content)
# subStrings = re.findall(r'wan\w', content, re.I)
# subStrings = re.findall(re.compile(r'wan\w', re.I), content)
# 匹配所有的邮箱
res = re.findall(r'^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$', str)
# 匹配所有的手机号码
res = re.findall(r'^(?:13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}$', str)
注意:| 或规则 表示只要满足其中之一就可以匹配。
它的有效范围是它两边的整条规则,比如‘dog|cat’匹配的是‘dog’和’cat’,而不是’g’和’c’。如果想限定它的有效范围,必需使用一个无捕获组‘(?:)’包起来。比如要匹配‘I have a dog’或’I have a cat’,需要写成r’I have a (?:dog|cat)’,而不能写成r’I have a dog|cat’。
四、opencv
五、hashlib、md5
六、qrcode
七、 imageio
八、translate
九、moviepy