首页 > 其他分享 >go正则表达式的使用

go正则表达式的使用

时间:2022-12-07 22:34:35浏览次数:38  
标签:err 正则表达式 fmt re 使用 go regexp main

正则表达式(或 RegEx)是一个特殊的字符序列,它定义了用于匹配特定文本的搜索模式。

在 Golang 中,有一个内置的正则表达式包: regexp 包,其中包含所有操作列表,如过滤、修改、替换、验证或提取。

正则表达式可以用于文本搜索和更高级的文本操作。正则表达式内置于 grep 和 sed 等工具,vi 和 emacs 等文本编辑器,Go、Java 和 Python 等编程语言中。

表达式的语法主要遵循这些流行语言中使用的已建立的 RE2 语法。 RE2 语法是 PCRE 的一个子集,有各种注意事项。

MatchString 函数

MatchString() 函数报告作为参数传递的字符串是否包含正则表达式模式的任何匹配项。

package main

import (
	"fmt"
	"log"
	"regexp"
)

func main() {
	words := [...]string{"Seven", "even", "Maven", "Amen", "eleven"}
	for _, word := range words {
		found, err := regexp.MatchString(".even", word)
		if err != nil {
			log.Fatal(err)
		}
		if found {
			fmt.Printf("%s matches\n", word)
		} else {
			fmt.Printf("%s does not match\n", word)
		}
	}
}

运行该代码:

Seven matches
even does not match
Maven does not match
Amen does not match
eleven matches

但同时我们能看到编辑器有提示:

编译器已经开始提醒我们,MatchString 直接使用性能很差,所以考虑使用 regexp.Compile 函数。

Compile 函数

Compile 函数解析正则表达式,如果成功,则返回可用于匹配文本的 Regexp 对象。编译的正则表达式产生更快的代码。

MustCompile 函数是一个便利函数,它编译正则表达式并在无法解析表达式时发生 panic。

package main

import (
	"fmt"
	"log"
	"regexp"
)

func main() {
	words := []string{"Seven", "even", "Maven", "Amen", "eleven"}
	re, err := regexp.Compile(".even")
	if err != nil {
		log.Fatal(err)
	}
	for _, word := range words {
		found := re.MatchString(word)
		if found {
			fmt.Printf("%s matches\n", word)
		} else {
			fmt.Printf("%s does not match\n", word)
		}
	}
}

在代码示例中,我们使用了编译的正则表达式。

re, err := regexp.Compile(".even")

即使用 Compile 编译正则表达式。然后在返回的正则表达式对象上调用 MatchString 函数:

found := re.MatchString(word)

运行程序,能看到同样的代码:

Seven matches
even does not match
Maven does not match
Amen does not match
eleven matches

MustCompile 函数

MustCompile与Compile类似,区别在于,如果表达式编译失败,MustCompile将会出现异常,而Compile会将错误作为第二个参数返回。

package main

import (
	"fmt"
	"regexp"
)

func main() {
	words := []string{"Seven", "even", "Maven", "Amen", "eleven"}
	re := regexp.MustCompile(".even")
	for _, word := range words {
		found := re.MatchString(word)
		if found {
			fmt.Printf("%s matches\n", word)
		} else {
			fmt.Printf("%s does not match\n", word)
		}
	}
}

FindAllString 函数

FindAllString 函数返回正则表达式的所有连续匹配的切片。

package main

import (
	"fmt"
	"os"
	"regexp"
)

func main() {
	var content = `Foxes are omnivorous mammals belonging to several genera of the family Canidae. Foxes have a flattened skull, upright triangular ears, a pointed, slightly upturned snout, and a long bushy tail. Foxes live on every continent except Antarctica. By far the most common and widespread species of fox is the red fox.`
	re := regexp.MustCompile("(?i)fox(es)?")
	found := re.FindAllString(content, -1)
	fmt.Printf("%q\n", found)
	if found == nil {
		fmt.Printf("no match found\n")
		os.Exit(1)
	}
	for _, word := range found {
		fmt.Printf("%s\n", word)
	}
}

在代码示例中,我们找到了单词 fox 的所有出现,包括它的复数形式。

re := regexp.MustCompile("(?i)fox(es)?")

使用 (?i) 语法,正则表达式不区分大小写。 (es)?表示“es”字符可能包含零次或一次。

found := re.FindAllString(content, -1)

我们使用 FindAllString 查找所有出现的已定义正则表达式。第二个参数是要查找的最大匹配项; -1 表示搜索所有可能的匹配项。

运行结果:

["Foxes" "Foxes" "Foxes" "fox" "fox"]
Foxes
Foxes
Foxes
fox
fox

FindAllStringIndex 函数

package main

import (
	"fmt"
	"regexp"
)

func main() {
	var content = `Foxes are omnivorous mammals belonging to several genera of the family Canidae. Foxes have a flattened skull, upright triangular ears,a pointed, slightly upturned snout, and a long bushy tail. Foxes live on every continent except Antarctica. By far the most common and widespread species of fox is the red fox.`
	re := regexp.MustCompile("(?i)fox(es)?")
	idx := re.FindAllStringIndex(content, -1)
	for _, j := range idx {
		match := content[j[0]:j[1]]
		fmt.Printf("%s at %d:%d\n", match, j[0], j[1])
	}
}

返回的是切片,切片中的每个小切片代表了一个匹配项,小切片的长度为2是匹配到的字符串的开始的下标以及结束的下标

在代码示例中,我们在文本中找到所有出现的 fox 单词及其索引。

Foxes at 0:5
Foxes at 81:86
Foxes at 196:201
fox at 296:299
fox at 311:314

Split 函数

Split 函数将字符串切割成由定义的正则表达式分隔的子字符串。它返回这些表达式匹配之间的子字符串切片。

package main

import (
	"fmt"
	"log"
	"regexp"
	"strconv"
)

func main() {
	var data = `22, 1, 3, 4, 5, 17, 4, 3, 21, 4, 5, 1, 48, 9, 42`
	sum := 0
	re := regexp.MustCompile(`,\s*`)
	vals := re.Split(data, -1)
	for _, val := range vals {
		n, err := strconv.Atoi(val)
		sum += n
		if err != nil {
			log.Fatal(err)
		}
	}
	fmt.Println(sum)
}

在代码示例中,我们有一个逗号分隔的值列表。我们从字符串中截取值并计算它们的总和。

re := regexp.MustCompile(`,\s*`)

正则表达式包括一个逗号字符和任意数量的相邻空格。

vals := re.Split(data, -1)

我们得到了值的一部分。

for _, val := range vals {
	n, err := strconv.Atoi(val)
	sum += n
	if err != nil {
		log.Fatal(err)
	}
}

我们遍历切片并计算总和。切片包含字符串;

因此,我们使用 strconv.Atoi 函数将每个字符串转换为整数。

运行代码:

189

Go 正则表达式捕获组

圆括号 () 用于创建捕获组。

这允许我们将量词应用于整个组或将交替限制为正则表达式的一部分。

为了找到捕获组(Go 使用术语子表达式),我们使用 FindStringSubmatch 函数。

package main

import (
	"fmt"
	"regexp"
)

func main() {
	websites := []string{"webcode.me", "zetcode.com", "freebsd.org", "netbsd.org"}
	re := regexp.MustCompile(`(\w+)\.(\w+)`)
	for _, website := range websites {
		parts := re.FindStringSubmatch(website)
		for i := range parts {
			fmt.Println(parts[i])
		}
		fmt.Println("---------------------")
	}
}

在代码示例中,我们使用组将域名分为两部分。

re := regexp.MustCompile(`(\w+)\.(\w+)`)

我们用括号定义了两个组。

parts := re.FindStringSubmatch(website)

FindStringSubmatch 返回包含匹配项的字符串切片,包括来自捕获组的字符串。

运行代码:

$ go run capturegroups.go
webcode.me
webcode
me
---------------------
zetcode.com
zetcode
com
---------------------
freebsd.org
freebsd
org
---------------------
netbsd.org
netbsd
org
---------------------

正则表达式替换字符串

可以用 ReplaceAllString 替换字符串。该方法返回修改后的字符串。

package main

import (
	"fmt"
	"io/ioutil"
	"log"
	"net/http"
	"regexp"
	"strings"
)

func main() {
	resp, err := http.Get("http://webcode.me")
	if err != nil {
		log.Fatal(err)
	}
	defer resp.Body.Close()
	body, err := ioutil.ReadAll(resp.Body)
	if err != nil {
		log.Fatal(err)
	}
	content := string(body)
	re := regexp.MustCompile("<[^>]*>")
	replaced := re.ReplaceAllString(content, "")
	fmt.Println(strings.TrimSpace(replaced))
}

该示例读取网页的 HTML 数据并使用正则表达式去除其 HTML 标记。

resp, err := http.Get("http://webcode.me")

我们使用 http 包中的 Get 函数创建一个 GET 请求。

body, err := ioutil.ReadAll(resp.Body)

我们读取响应对象的主体。

re := regexp.MustCompile("<[^>]*>")

这个模式定义了一个匹配 HTML 标签的正则表达式。

replaced := re.ReplaceAllString(content, "")

我们使用 ReplaceAllString 方法删除所有标签。

ReplaceAllStringFunc 函数

ReplaceAllStringFunc 返回一个字符串的副本,其中正则表达式的所有匹配项都已替换为指定函数的返回值。

package main

import (
	"fmt"
	"regexp"
	"strings"
)

func main() {
	content := "an old eagle"
	re := regexp.MustCompile(`[^aeiou]`)
	fmt.Println(re.ReplaceAllStringFunc(content, strings.ToUpper))
}

在代码示例中,我们将 strings.ToUpper 函数应用于字符串的所有字符。

aN oLD eaGLe

标签:err,正则表达式,fmt,re,使用,go,regexp,main
From: https://www.cnblogs.com/guangdelw/p/16964746.html

相关文章

  • Go 版本升级(Mac)
    1.官网下载pkg安装包2.直接覆盖安装3.修改配置1#查看go位置2whichgo3/usr/local/bin/go45#进入目录并查看6cd/usr/local/bin7ls89......
  • SSE与AVX指令基础介绍与使用
    SSE与AVX指令基础介绍与使用SSE/AVX指令属于Intrinsics函数,由编译器在编译时直接在调用处插入代码,避免了函数调用的额外开销。但又与inline函数不同,Intrinsics函数的代码......
  • 【Azure 环境】使用 az ad group create 时候遇见 Insufficient privileges to comple
    问题描述使用ChinaAzure,通过AzureCLI创建AAD组报错,提示权限不足 Insufficientprivilegestocompletetheoperation#使用这个登录:azlogin--service-principal......
  • 如何使用indexOf筛选字符串?
    indexOf筛选指定字符indexOf返回-1没有指定筛选字符大于-1说明有指定的筛选字符leta="a48text";if(a.indexOf('text')>-1){console.log("查询到有指定的字符!")}......
  • 前端开发:6、jQuery类库简介与基本使用
    jQuery类库目录jQuery类库一、简介二、jQuery查找对象1、选择器......
  • 使用cxf3.0.4搭建webservice服务需要的最精简jar包
        网上看了百度了好长时间,头都大了,还是没有把想要的最简jar包找到,不是jar仍然很多,就是jar包少了,导致报错。无奈之下,自己花了一个下午,采用用逆推法,总结了下cxf3.0.......
  • JsonIgnoreProperties注解的介绍及使用
    JsonIgnoreProperties注解是Jackson库中的一个注解,用于在序列化和反序列化JSON时忽略一些属性。使用方法:在Java类中的需要忽略的属性上添加@JsonIgnoreProperties注解。例......
  • Go语言进阶-03
    反射静态类型静态类型就是变量声明赋予的类型,比如:typeMyIntinttypeAstruct{Namestring}vari*int动态类型动态类型:运行时给这个变量赋值时,这个值的类型(......
  • 前端开发 6 jQuery使用与Bootstrap
    今日内容详细目录今日内容详细jQuery查找标签1.基本选择器2.组合选择器3.层级选择器4.属性选择器5.基本筛选器6.表单筛选器7.筛选器方法操作标签jQuery事件事件相关补充jQ......
  • 树莓派2b构建golang环境
    前言开始之前,我们先说点题外话。已经好久没有更新过技术内容了(认真脸)。一个原因是很长时间以来,一直感觉不在状态,迷茫、困惑,浑浑噩噩的,也没有分享的动力,虽然偶尔会记录一些......