首页 > 编程语言 >python基础学习8

python基础学习8

时间:2024-12-02 20:55:53浏览次数:6  
标签:python s1 res1 基础 学习 re print com array1

正则表达式&numpy

正则表达式

  • 本身也是一个字符串,其中的字符具有特殊含义,将来我们可以根据这个字符串【正则表达式】去处理其他的字符串,比如可以对其他字符串进行匹配,切分,查找,替换等一系列操作。
  • 是一个独立于任何一门语言的技术,任何一门语言中都可以使用同一个正则表达式去操作
s1 = '博主讲的太好了!已经三连加关注,求课件!我的邮箱是1234214@qq.com, 或者是3255@163.cn 或者是微信手机号 18356781451'

感受正则表达式所带来的方便之处

  • 需求:从上述字符串中,将所有符合邮箱的字符串查找出来。
  • 需求:从上述字符串中,将手机号查找出来
# python内置的一个库 re 这个库中的模块是专门针对正则表达式提供的
# 正则表达式在python中写的时候,在字符串引号前面加上r,表示这是一个正则表达式
import re

s1 = '博主讲的太好了!已经三连加关注,求课件!我的邮箱是 1234214@qq.com, 或者是 3255@163.com 或者是微信手机号 18356781451'
res1 = re.findall(r'^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$', s1)
print(res1)

# ===================================================
import re

s1 = '博主讲的太好了!已经三连加关注,求课件!我的邮箱是 1234214@qq.com, 或者是 3255@163.com 或者是微信手机号 18356781451'
res1 = re.findall(r'\d{11}', s1)
print(res1)

正则表达式编写的步骤

  • 需要大量的文本信息
  • 找规律
  • 使用正则语法编写出正则表达式

正则表达式的语法

  • 字符串本身就是一个正则表达式
import re

s1 = '博主讲的太好了!已经三连xiaohu加关注,求课件!我的邮箱是 1234214@qq.com, 或者xiaohu是 3255@163.com 或者是xiaohu微信手机号 18356781451'
res1 = re.findall('xiaohu', s1)
print(res1)
  • [] 表示可选项
import re

s1 = '博主讲的太好了!已经三连xiaohuq加关注,求课件!我的邮箱是 1234214@qq.com, 或者xiaohuw是 3255@163.com 或者是xiaohup微信手机号 18356781451'
res1 = re.findall('xiaohu[qwp]', s1)
print(res1)
  • 范围

    • [a-z] 表示查找 a-z
    import re
    
    s1 = '博主讲的太好了!已经三连xiaohuq加关注,求课件!我的邮箱是 1234214@qq.com, 或者xiaohu5是 3255@163.com 或xiaohu8者是xiaohuw微信手机号 18356781451'
    res1 = re.findall(r'xiaohu[a-z]', s1)
    print(res1)
    
    • [A-Za-z]

      import re
      
      s1 = '博主讲的太好了!已经三连xiaohuq加关注,求课件!我xiaohuA的邮箱是 1234214@qq.com, 或者xiaohu5是 3255@163.com 或xiaohu8者是xiaohuU微信手机号 18356781451'
      res1 = re.findall(r'xiaohu[A-Za-z]', s1)
      print(res1)
      

      import re
      
      s1 = '博主讲的太好了!已经三连xiaohuq加关注,求课件!我xiaohuA的邮箱是 1234214@qq.com, 或者xiaohu5是 3255@163.com 或xiaohu8者是xiaohuU微信手机号 18356781451'
      res1 = re.findall(r'xiaohu[A-z]', s1)
      print(res1)
      
    • [0-9]

      import re
      
      s1 = '博主讲的太好了!已经三连xiaohuq加关注,求课件!我xiaohuA的邮箱是 1234214@qq.com, 或者xiaohu5是 3255@163.com 或xiaohu8者是xiaohuU微信手机号 18356781451'
      res1 = re.findall(r'xiaohu[0-9]', s1)
      print(res1)
      

      import re
      
      s1 = '博主讲的太好了!已经三连xiaohuq加关注,求课件!我xiaohuA的邮箱是 1234214@qq.com, 或者xiaohu5是 3255@163.com 或xiaohu8者是xiaohuU微信手机号 18356781451'
      res1 = re.findall(r'xiaohu[0-z]', s1)
      print(res1)
      

      注意:开发中尽量不要使用0-z ,因为中间的ASCII码符号,还包含了其他特殊的符号

  • \d 表示数字

import re

s1 = '博主讲的太好了!已经三连xiaohuq加关注,求课件!我xiaohuA的邮箱是 1234214@qq.com, 或者xiaohu5是 3255@163.com 或xiaohu89者是xiaohuU微信手机号 18356781451'
res1 = re.findall(r'xiaohu\d\d', s1)
print(res1)
  • 数量

    • ?表示出现了0次或者1次

      import re
      
      s1 = '博主讲的太好xiaohu了!已经三连xiaohuq加关注,求课件!我xiaohu124453的邮箱是 1234214@qq.com, 或者xiaohu5是 3255@163.com 或xiaohu89者是xiaohuU微信手机号 18356781451'
      res1 = re.findall(r'xiaohu\d?', s1)
      print(res1)
      
    • + 表示出现了1次或者n次

      import re
      
      s1 = '博主讲的太好xiaohu了!已经三连xiaohuq加关注,求课件!我xiaohu124453的邮箱是 1234214@qq.com, 或者xiaohu5是 3255@163.com 或xiaohu89者是xiaohuU微信手机号 18356781451'
      res1 = re.findall(r'xiaohu\d+', s1)
      print(res1)
      
    • * 表示出现了0次或者n次

      import re
      
      s1 = '博主讲的太好xiaohu了!已经三连xiaohuq加关注,求课件!我xiaohu124453的邮箱是 1234214@qq.com, 或者xiaohu5是 3255@163.com 或xiaohu89者是xiaohuU微信手机号 18356781451'
      res1 = re.findall(r'xiaohu\d*', s1)
      print(res1)
      
  • {m,n} 表示出现的次数范围,m表示至少出现的次数,n表述最多出现的次数

import re

s1 = '有一个同学的学号为sj331001, 另一个同学的学号为sj32100, 还有一个同学的学号为sj3101, 还有一个学生:sj322010'
# res1 = re.findall(r'sj32\d+', s1)
res1 = re.findall(r'sj\d{2,6}', s1)
print(res1)
  • {m,} 表示出现的次数,至少为m个,上不封顶
import re

s1 = '有一个同学sj9的学号为sj331001, 另一个同学的学号为sj32100, 还有一个同学的学号为sj3101, 还有一个学生:sj322010, 新来的学生学号为:sj34567809'
# res1 = re.findall(r'sj32\d+', s1)
res1 = re.findall(r'sj\d{2,}', s1)
print(res1)
  • {m} 表示出现了m次
import re

s1 = '有一个同学sj9的学号为sj331001, 另一个同学的学号为sj32100, 还有一个同学的学号为sj3101, 还有一个学生:sj322010, 新来的学生学号为:sj34567809'
# res1 = re.findall(r'sj32\d+', s1)
res1 = re.findall(r'sj\d{6}', s1)
print(res1)
  • 匹配指定手机号
import re

# 183 153 173
# 总共最多是11位
s1 = '我有一个手机号是18347821932,另一个手机号是17386429189,还有一个手机号是15356878621,以前用过一个手机号13987648345'
res1 = re.findall(r'1[857]3\d{8}', s1)
print(res1)
  • \w 表示英文字母大写或者小写,或者下划线,或者是中文汉字
import re

# 183 153 173 
# 总共最多是11位
s1 = '我有一个邮箱是183478@qq.com,另一个邮箱是17386@163.com,还有一个邮箱是78621@gmail.com,以前用过一个邮箱139876@qq.com'
res1 = re.findall(r'\d+@\w+\.com', s1)
print(res1)

import re

# 183 153 173 
# 总共最多是11位
s1 = '我有一个邮箱是hys183478@qq.com,另一个邮箱是17386zcy@163.com,还有一个邮箱是786zrx21@gmail.com,以前用过一个邮箱139876@qq.com'
res1 = re.findall(r'\w+@\w+\.com', s1, re.ASCII)
print(res1)

上述案例中,如果我们没有写re.ASCII参数,那么第一个\w+会将汉字也匹配上,因为\w本身就可以匹配汉字的,但是当我们加上了re.ASCII参数,python正则表达式匹配的时候,\w只会匹配ASCII码上有的字符。

  • \W 表示除了大小写英文字母,数字,汉字,下划线之外,都能匹配
import re

# 183 153 173 
# 总共最多是11位
s1 = '我有一个邮箱是hys183478@###.com,另一个邮箱是17386zcy@163.com,还有一个邮箱是786zrx21@gmail.com,以前用过一个邮箱139876@qq.com'
res1 = re.findall(r'\w+@\W+\.com', s1, re.ASCII)
print(res1)
  • 匹配以某个字符串开头
import re

# 183 153 173 
# 总共最多是11位
s1 = '我有一个邮箱是hys183478@qq.com,另一个邮箱是17386zcy@163.com,还有一个邮箱是zrx78621@gmail.com,以前用过一个邮箱139876@qq.com'
res1 = re.findall(r'[A-z]+\d+@\w+\.com', s1, re.ASCII)
print(res1)

^ 表示以某个字符串开头

s2 = 'hys183478@qq.com'
res2 = re.match(r'^hys', s2, re.ASCII)
print(res2)
  • $ 表示以某个字符串结尾

  • () 分组

import re

# 183 153 173 
# 总共最多是11位
s1 = '有一个学生的身份证号为340123200312075687,另一个学生的身份证号是340122199705035414'
res1 = re.findall(r'(340\d{3}(\d{4})\d{8})', s1)
print(res1) # [('340123200312075687', '2003'), ('340122199705035414', '1997')]

import re

# 183 153 173 
# 总共最多是11位
s1 = '有一个学生的身份证号为340123200312075687,另一个学生的身份证号是340122199705035414'
res1 = re.findall(r'(340\d{3}(\d{4})(\d{2})(\d{2}))', s1)
print(res1) # [('34012320031207', '2003', '12', '07'), ('34012219970503', '1997', '05', '03')]
  • 或 | 多个字符之间的或使用小括号
import re

# 183 153 173 
# 总共最多是11位
s1 = '有一个学生的身份证号为340123200312075687,另一个学生的身份证号是340122199705035414,另一个学生的身份证号是340110199705035414'
res1 = re.findall(r'(340(123|110)(\d{4})(\d{2})(\d{2}))', s1)
print(res1) # [('34012320031207', '123', '2003', '12', '07'), ('34011019970503', '110', '1997', '05', '03')]
  • . 表示任意字符
import re

s1 = '我有一个键盘,键盘的售卖序列号为JP2134WFWFasd##&13, 上一个键盘的序列号为JPIUYT4WFqw34sd##&'
res1 = re.findall(r'JP.{16}', s1)
print(res1) # ['JP2134WFWFasd##&13', 'JPIUYT4WFqw34sd##&']

使用\转义字符,将.变成普通的点字符进行匹配

s1 = '我有shujia#888一个键盘,键盘的售shujia.666卖序列号为JP2134WFW.asd##&13, 上一个键盘的序列号为JPIUYT4WFqw34sd##&'
res1 = re.findall(r'shujia\.\d{3}', s1)
print(res1) # ['shujia.666']

re模块中的常用函数

  • re.findall 在大字符串中查找符合正则表达式特点的式子

  • re.match() 匹配整个字符串是否符合某个正则表达式特点

  • re.search() 从左向右匹配正则表达式,只会匹配一次符合条件, 得到的是一个对象

import re
text = '博主讲的实在是太1165872335@数加.com好了,通俗易懂,已三连,求课件,我的邮箱是1165872335@qq.com或' \
       '者是xiaohu2023666@pronton.com谢谢博主 手xiaohu2机微信号也可以17354074069'

res1 = re.search(r'1\d+@\w+\.com',text)
print(res1) # <re.Match object; span=(8, 25), match='1165872335@数加.com'>
print(res1.group())
  • re.split()
import re
text = '1001,xiaohu#18足$踢球'

res1 = re.split(r'[,#$]',text)
print(res1) # ['1001', 'xiaohu', '18', '踢足球']
  • re.finditer() 在大字符串中查找符合正则表达式特点的式子,得到的是一个迭代器
import re
text = '博主讲的实在是太1165872335@数加$.com好了,通俗易懂,已三连,求课件,我的邮箱是 1165872335@qq.com 或' \
       '者是xiaohu2023666@pronton.com谢谢博主 手xiaohu2机微信号也可以17354074069'

res2 = re.findall('(\w+@(数加\$|qq|pronton)\.com)',text, re.ASCII)
print(res2) # [('1165872335@数加$.com', '数加$'), ('1165872335@qq.com', 'qq'), ('xiaohu2023666@pronton.com', 'pronton')]

res1 = re.finditer('(\w+@(数加\$|qq|pronton)\.com)',text, re.ASCII)
for res in res1:
    print(res.group(1))
    print(res.group(2))
    print("-----------------------")
  • fullmatch() 将字符串整体与正则表达式进行匹配
text = '安徽省-合肥市-蜀山区-浮山路'

res1 = re.fullmatch(f'(\w+)-(\w+)-(\w+)-(\w+)', text)
print(f"省份:{res1.group(1)}")
print(f"市:{res1.group(2)}")
print(f"区:{res1.group(3)}")
print(f"街道:{res1.group(4)}")

numpy模块

做矩阵数据分析时所需要用到的模块

是一个第三方的模块 pip install numpy

  • 在python使用numpy创建一个矩阵
import numpy as np

list1 = [[1,2,3,4],[4,5,6,8],[7,8,9,3]]

array1 = np.array(list1)
print(array1, type(array1))

注意:如果列表中的小列表的列数不一致,那么就会将每一个小列表当作一个矩阵中的元素去存放,这个矩阵只有一行。

矩阵的常见属性

  • ndim 查看矩阵的维度
import numpy as np

list1 = [[1,2,3,4],[4,5,6,8],[7,8,9,3]]

array1 = np.array(list1)
print(array1, type(array1))

print(array1.ndim) # 2
  • shape 查看矩阵的行数和列数
import numpy as np

list1 = [[1,2,3,4],[4,5,6,8],[7,8,9,3]]

array1 = np.array(list1)
print(array1, type(array1))

print(array1.shape) # (3, 4)
  • size 查看矩阵中元素的个数
import numpy as np

list1 = [[1,2,3,4],[4,5,6,8],[7,8,9,3]]

array1 = np.array(list1)
print(array1, type(array1))

print(array1.size) # 12
  • dtype 查看矩阵中的元素类型
import numpy as np

list1 = [[1,2,3,4],[4,5,6,8],[7,8,9,3]]

array1 = np.array(list1)
print(array1, type(array1))

print(array1.dtype) # int32

numpy中矩阵的使用和常用函数

  • numpy 可以使用采用索引进行取值 array1[行的范围, 列的范围]
import numpy as np

list1 = [[1, 2, 3, 4], [4, 5, 6, 8], [7, 8, 9, 3]]

array1 = np.array(list1)
print(array1, type(array1))
print("--------------------")
print(array1[:, :2])
print("--------------------")
print(array1[1, 1:3])
  • astype 将元素转成对应的数据类型
import numpy as np

list1 = [[1, 2, 3, 4], [4, 5, 6, 8], [7, 8, 9, 3]]

array1 = np.array(list1)
print(array1, type(array1))
print(array1.dtype)
print("--------------------")
array1 = array1.astype('float')
print(array1, type(array1))
print(array1.dtype)
  • split 按照指定的方向将矩阵切分

axis: 默认是0,按照的方向切分,可以修改为1,按照进行切分

import numpy as np

list1 = [[1, 2, 3, 4], [4, 5, 6, 8], [7, 8, 9, 3], [11,22,33,44]]

array1 = np.array(list1)
print(array1, type(array1))
print(array1.dtype)
print("--------------------")
res1 =np.split(array1,2, axis=1)
print(res1, type(res1))

指定索引切分若干个部分矩阵

res1 = np.split(array1, [1, -1])
  • reshape 重构矩阵

需要注意:结果矩阵的元素个数和原本的元素个数保持一致

array1 = array1.reshape(4,3)
print(array1)
  • vstack 将两个矩阵上下拼接

  • hstack 将两个矩阵左右拼接

  • dot() 点乘

print(array1.dot(array2))
  • diff() 差分
res1 = np.diff(array1,axis=1)
print(res1, type(res1))
  • 数学计算
print(np.amax(array1))
print(np.amin(array1))
print(np.mean(array1)) # 平均值
print(np.median(array1)) # 中位数
print(np.std(array1)) # 2.48327740429189 标准差
print(np.var(array1)) # 6.166666666666667 方差   比如计算偏科这样的需求

标签:python,s1,res1,基础,学习,re,print,com,array1
From: https://www.cnblogs.com/lanzhi666/p/18582686

相关文章

  • python课后练习(9.4-9.5)
    1点击查看代码import[pandas](https://wenku.csdn.net/doc/6412b725be7fbd1778d4940f?spm=1055.2569.3001.10083)aspdimportstatsmodels.apiassmfromstatsmodels.formula.apiimportolsdata=pd.read_csv('data.csv')[means](https://wenku.csdn.net/doc/......
  • Task1&Task2学习笔记
    Task1&Task2学习笔记一、安装安装Python3.ו进入Python官网下载下载时注意勾选AddPython3.xtoPATH安装conda•官方下载地址DownloadNow|Anaconda二、Python基础数据类型Python内置了多种数据类型,如整数、浮点数、字符串、布尔值和空值等整数(int)-用于表示......
  • 大数据学习记录,Python基础(4)
    函数引言:比如植物大战僵尸,这个游戏本身也是由代码编写,现在假设有一种豌豆射手,每发射一次炮弹会执行100行逻辑代码如果我在程序,每当需要发射炮弹的时候,都要编写100行逻辑代码,就会觉得该程序过于冗余,代码重复度较高。解决方案:如果我将这100行代码放到一个区域中,然后给这个区域......
  • python: Treeview Pagination
     #encoding:utf-8#版權所有2024©塗聚文有限公司#許可資訊查看:言語成了邀功的功臣,還需要行爲每日來值班嗎?#描述:TreeviewPagination#Author:geovindu,GeovinDu塗聚文.#IDE:PyCharm2023.1python3.11#OS:windows10#Datetime:......
  • python如何缩小图像
    PIL是python的一个图像处理库,功能非常强大,可以实现图片的格式转换、旋转、裁剪、改变尺寸、像素处理、图片合并等等操作。PIL已经更名为pillow,所以在终端输入:pip3installpil会报错,而应该输入:pip3installpillow进行安装。源码:from PIL import Image def Image......
  • python如何查看程序运行时间
    1、方法一#python 的标准库手册推荐在任何情况下尽量使用time.clock().#只计算了程序运行CPU的时间,返回值是浮点数import timestart =time.clock()#中间写上代码块end = time.clock()print('Running time: %s Seconds'%(end-start))#运行结果如下#Running......
  • 聪明办法学Python chap 2 chap 3
    Chap2数据类型和操作数据类型基础类型:整型(int)浮点数(float)字符串(str)布尔型(bool)True/False类型Type("类型"也是一种类型)print(type(2))print(type(2.2))print(type(2<2.2))print(type(type(2)))<class'int'><class'float'......
  • 用 PHP 与深度学习模型进行物体检测
    物体检测是计算机视觉中的一个重要任务,涉及识别和定位图像中的多个物体。在本篇文章中,我们将探讨如何在PHP环境中实现物体检测的简单功能,尽管PHP不是深度学习的主流编程语言,我们将通过调用外部Python脚本与深度学习框架(如YOLO)进行集成,实现物体检测。环境准备PHP7.4或更......
  • 自由学习记录(27)
    event委托在类内可完全修改(前提为该event在类中的声明为public,外部可访问,然后外部访问的时候不能直接改)下面这段代码是在类的内部访问事件voidClearAllListeners(){MyEvent=null;}event修饰的委托字段在类内部没有限制直接赋值的权限,所以可以赋值为null,或......
  • java与数据库连接学习,JDBC
    一、JDBC概述JDBC(JavaDataBaseConnectivity)是Java用于数据库访问的应用程序API接口,由一系列Java类和接口构成。它提供了统一的语法来操作多种关系型数据库,屏蔽了不同数据库操作语言的差异。这意味着开发人员无需为每种数据库编写特定的访问程序,大大提高了数据库访问......