首页 > 其他分享 >regular expression

regular expression

时间:2023-09-28 13:31:51浏览次数:38  
标签:字符 匹配 文件 pattern sed awk expression regular

1. 引言

例如使用grep命令查找一个特定模式的字符串。

模式包含

  1. 字符类(Character Class)
  2. 数量限定符(Quantifier)
  3. 各种字符类以及普通字符之间的位置关系

例如email的正则表达式[a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+\.[a-zA-Z0-9_.-]+,IPv4地址的正则表达式[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}【实际上IPv4这个不一定正确,例如999.999.999.999不是IPv4地址,但是符合正则表达式】

egrep命令相当于grep -E,表示采用Extended 正则表达式语法。fgrep相当于grep -F,表示只搜索固定字符串而不搜索正则表达式模式。

注意:grep找的是包含某一模式的行,而不是完全匹配某一模式的行。【也就是要是完全匹配需要加上开头和结尾】

2. 基本语法

2.1 字符类

字符 含义 举例
. 匹配任意一个字符 abc.可以匹配abcdabc9
[] 匹配括号中的任意一个字符 [abc]d可以匹配adbdcd
- []括号内表示字符范围 [0-9a-fA-F]可以匹配一位十六进制数字
^ 位于[]括号内的开头,匹配除括号中的字符之外的任意一个字符 [^xy]匹配除xy之外的任一字符,因此[^xy]1可以匹配a1b1但不匹配x1y1
[[:xxx:]] grep工具预定义的一些命名字符类 [[:alpha:]]匹配一个字母,[[:digit:]]匹配一个数字

2.2 数量限定符

字符 含义 举例
? 紧跟在它前面的单元应匹配零次或一次 [0-9]?\.[0-9]匹配0.02.3.5等,由于.在正则表达式中是一个特殊字符,所以需要用\转义一下,取字面值
+ 紧跟在它前面的单元应匹配一次或多次 [a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+\.[a-zA-Z0-9_.-]+匹配email地址
* 紧跟在它前面的单元应匹配零次或多次 [0-9][0-9]*匹配至少一位数字,等价于[0-9]+[a-zA-Z_]+[a-zA-Z_0-9]*匹配C语言的标识符
{N} 紧跟在它前面的单元应精确匹配N次 [1-9][0-9]{2}匹配从100到999的整数
{N,} 紧跟在它前面的单元应匹配至少N次 [1-9][0-9]{2,}匹配三位以上(含三位)的整数
{,M} 紧跟在它前面的单元应匹配最多M次 [0-9]{,1}相当于[0-9]?
{N,M} 紧跟在它前面的单元应匹配至少N次,最多M次 [0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}匹配IP地址

2.3 位置限定符

字符 含义 举例
^ 匹配行首的位置 ^Content匹配位于一行开头的Content
$ 匹配行末的位置 ;$匹配位于一行结尾的;号,^$匹配空行
\< 匹配单词开头的位置 \<th匹配... this,但不匹配ethernettenth
\> 匹配单词结尾的位置 p\>匹配leap ...,但不匹配parentsleepy
\b 匹配单词开头或结尾的位置 \bat\b匹配... at ...,但不匹配catatexitbatch
\B 匹配非单词开头和结尾的位置 \Bat\B匹配battery,但不匹配... attendhat...

2.4 其它特殊字符

字符 含义 举例
\ 转义字符,普通字符转义为特殊字符,特殊字符转为普通字符 普通字符<写为\<表示单词开头的位置,特殊字符.写成\.以及\写成\\就当作普通字符来匹配
() 将正则表达式的一部分括起来组成一个单元,可以对整个单元使用数量限定符 ([0-9]{1,3}\.){3}[0-9]{1,3}匹配IP地址
| 连接两个子表达式,表示或的关系 n(o|either)匹配noneither

以上介绍的是grep正则表达式的Extended规范,Basic规范也有这些语法,只是字符?+{}|()应解释为普通字符,要表示上述特殊含义则需要加\转义。如果用grep而不是egrep,并且不加-E参数,则应该遵照Basic规范来写正则表达式。

POSIX规定了正则表达式的C语言库函数,详见regex(3)

$ man 3 regex

3. sed

sed意为流编辑器(Stream editor),在Shell脚本和Makefile中作为过滤器使用非常普遍,也就是把前一个程序的输出引入sed的输入,经过一系列编辑命令转换为另一种格式输出。

sedvi都源于早期UNIX的ed工具,所以很多sed命令和vi的末行命令是相同的。

3.1 基本格式

$ sed option 'script' file1 file2 ...
$ sed option -f scriptfile file1 file2 ...

sed处理的文件既可以由标准输入重定向得到,也可以当命令行参数传入,命令行参数可以一次传入多个文件,sed会依次处理。sed的编辑命令可以直接当命令行参数传入,也可以写成一个脚本文件然后用-f参数指定,编辑命令的格式为:/pattern/action。其中pattern是正则表达式,action是编辑操作。sed程序一行一行读出待处理文件,如果某一行与pattern匹配,则执行相应的action,如果一条命令没有pattern而只有action,这个action将作用于待处理文件的每一行。

3.2 常用命令

命令 释义
/patter/p 打印匹配pattern的行
/pattern/d 删除匹配pattern的行
/pattern/s/pattern1/pattern2/ 查找符合pattern的行,将该行第一个匹配pattern1的字符串替换为pattern2
/pattern/s/pattern1/pattern2/g 查找符合pattern的行,将该行所有匹配pattern1的字符串替换为pattern2

sed会把待处理文件的内容连同处理结果一起输出到标准输出,所以/pattern/p会把文件内容打印以及符合pattern的行打印。

sed命令不会修改原文件,删除命令只表示某些行不打印输出,而不是从原文件中删去。

# 文件 testfile 的内容(不包含本行)
123
abc
456

# 打印其中包含 abc 的行
$ sed '/abc/p' testfile
123
abc
abc
456

# 要想只输出处理结果,应加上-n选项,这种用法相当于grep命令
$ sed -n '/abc/p' testfile
abc

# 使用 d 命令就不需要使用 -n 选项了
$ sed '/abc/d' testfile
123
456

# 使用查找替换命令时,可以把匹配pattern1的字符串复制到pattern2中
# pattern2中的&表示原文件的当前行中与pattern1相匹配的字符串
$ sed 's/bc/-&-' testfile
123
a-bc-
456

# pattern2中的\1表示与pattern1的第一个()括号相匹配的内容,\2表示与pattern1的第二个()括号相匹配的内容。
# sed默认使用Basic正则表达式规范,如果指定了-r选项则使用Extended规范,那么()括号就不必转义了。
$ sed 's/\([0-9]\)\([0-9]\)/-\1-~\2~/' testfile
-1-~2~3
abc
-1-~5~6

4. awk

sed以行为单位处理文件,awksed强的地方在于不仅能以行为单位还能以列为单位处理文件。

4.1 基本格式

awk option 'script' file1 file2 ...
awk option -f scriptfile file1 file2 ...

sed一样,awk处理的文件既可以由标准输入重定向得到,也可以当命令行参数传入,编辑命令可以直接当命令行参数传入,也可以用-f参数指定一个脚本文件,编辑命令的格式为:

/pattern/{actions}
condition{actions}

sed类似,pattern是正则表达式,actions是一系列操作。

awk程序一行一行读出待处理文件,如果某一行与pattern匹配,或者满足condition条件,则执行相应的actions,如果一条awk命令只有actions部分,则actions作用于待处理文件的每一行。

# testfile 文件内容
ProductA 30
ProductB 76
ProductC 55

# 打印每一行的第二列,自动变量$1, $2分别表示第一列,第二列等,$0代表当前整行
$ awk '{print $2;}' testfile
30
76
55

# 如果某种产品的库存量低于75则在行末标注需要订货
$ awk '$2<75 {printf "%s\t%s\n", $0, "REORDER";} $2>=75 {print $0;}' testfile

# awk命令可以像C语言一样使用变量(但不需要定义变量),比如统计一个文件中的空行数
$ awk '/^ *$/ {x=x+1;} END {print x;}' testfile

# 打印系统中的用户帐号列表
$ awk 'BEGIN {FS=":"} {print $1;}' /etc/passwd

awk命令的condition部分还可以是两个特殊的conditionBEGINEND,对于每个待处理文件,BEGIN后面的actions在处理整个文件之前执行一次,END后面的actions在整个文件处理完之后执行一次。

4.2 awk常用的内建变量

变量 释义
FILENAME 当前输入文件的文件名,该变量是只读的
NR 当前行的行号,该变量是只读的,R代表Record
NF 当前行所拥有的列数,该变量是只读的,F代表Field
OFS 输出格式的列分割符,缺省是空格
FS 输入文件的列分隔符,缺省是连续的空格和Tab
ORS 输出格式的行分隔符,缺省是换行符
RS 输入文件的行分隔符,缺省是换行符

标签:字符,匹配,文件,pattern,sed,awk,expression,regular
From: https://blog.51cto.com/basilguo/7638635

相关文章

  • AtCoder Regular Contest 127 F ±AB
    洛谷传送门AtCoder传送门非常妙的题。先直观感受一下,显然当\(M\)大到一定程度后,\([0,M]\)的所有数都能被取到。考虑\(V\getsV+Ax+By\),其中\(V+Ax+By\in[0,M]\)。如果\(x,y\)都是正数显然可以取到。如果一正一负,比如\(x>0,y\le0\),那可以先把\(V\)......
  • AtCoder Regular Contest 102
    C-TriangularRelationship枚举\(a\bmodk\)的值,\(b\bmodk,c\bmodk\)的值也就确定了,算下贡献就好了。#include<iostream>#include<cstdio>usingnamespacestd;intn,k;intmain(){ scanf("%d%d",&n,&k); longlongans=0; for(inta=0;......
  • AtCoder Regular Contest 103
    C-////如果奇数和偶数出现的颜色的最大值相同一边取最大值和一边取次大值,否则两边都选最大值即可。#include<iostream>#include<cstdio>#include<algorithm>usingnamespacestd;constintN=100005;intn,m;intv[N];intc[N];intmain(){ scanf("%d",&n); for(in......
  • Lambda expression
    lambdastructure[capturelist](parameterlist)->returntype{functionbody}(parameterlist)andreturntypeareoptionalValueandReferencecaptureThereisanotablequestion:whenlambdausedbetweenCPUandGPU,weneedtonoticethestor......
  • Java中CornExpression说明
    关于cronExpression表达式有至少6个(也可能是7个)由空格分隔的时间元素,从左至右,这些元素约定义如下:1、秒(0~59)2、分(0~59)3、小时(0~23)4、月份中的日期(1-31)5、月份(1-12或JAN-DEC)6、星期中的日期(1-7或SUN-SAT)7、年份(1970-2099)eg:0010,14,16**?每天10点、14点、16点0015,30,45*......
  • AtCoder Regular Contest 165
    Preface这场前三题是上周四写的,今天课有点多本来想着把最近两场CF的博客先写下的但后面发现还有CCLCC的杂谈没写,写完发现由于晚上要上课没时间了,只能先把这场先写一下A-SumequalsLCM设\(n=\prod_{i=1}^kp_i^{c_i}\),不难发现令\(A_1=p_1^{c_1},A_2=p_2^{c_2},\cdots\),然......
  • 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause and contains n
    博客园首页新随笔联系管理订阅随笔-111 文章-1 评论-3 阅读-17万 1055-Expression#1ofORDERBYclauseisnotinGROUPBYclauseandcontainsnonaggregatedcolumn'information_schema.PROFILING.SEQ'whichisnotfunctionally......
  • Expression #1 of SELECT list is not in GROUP BY clause and contains nonaggregate
    MySQL有any_value(field)函数,他主要的作用就是抑制ONLY_FULL_GROUP_BY值被拒绝官方有介绍,地址:https://dev.mysql.com/doc/refman/5.7/en/miscellaneous-functions.html#function_any-value我们可以把select语句中查询的属性(除聚合函数所需的参数外),全部放入any_value(field)函数......
  • Atcoder Regular Contest 165(A~E)
    赛时45min切A~C,降智不会D,罚坐1h,喜提rk70+->rk170+。A-SumequalsLCM可证明结论:若\(N\)只含有一种质因子则无解,否则有解。B-SlidingWindowSort2这么多cornercase的题竟然10min一发入魂,类目了。由于操作是升序排序,且要求最终字典序最大,所以如果存在一个......
  • 【题解】AtCoder Regular Contest 161
    评价:感觉这场题目质量不咋地啊,都是一些乱搞题A.MakeM题目描述:\(N\)是一个正奇数。我们称一个长度为\(N\)的序列\(S\)是M型序列,当前仅当对于所有的\(i=2,4,6,\dots,N-1\)(即偶数位),都有\(S_{i-1}<S_{i}\)且\(S_{i}>S_{i+1}\)。现在给定你一个长度为\(N\)的序列\(A......