正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符"),可以用来描述和匹配字符串的特定模式,是一种用于模式匹配和搜索文本的工具,提供了一种灵活且强大的方式来查找、替换、验证和提取文本数据。
概括:正则表达式是制定特定的规则(模式),其中文本(如:字符串)满足了这种规则,表达就匹配了此种正则表达式。
一般用来进行数据校验,数据匹配(爬虫),进而进行数据分析
private void button1_Click(object sender, EventArgs e)
{
//定义正则表达式对象,有对象才能操作
//pattern模式
Regex regex = new Regex("[0-9]+");//查找0-9的数字,+ 是一个量词,表示[0-9]可以出现一次或多次。
int num = 123;
//IsMath判断某个字符串是否匹配某个正则表达式,匹配返回true,否则返回false。
//regex.IsMatch();
bool result =Regex.IsMatch(num.ToString(), "[0-9]+");//返回true
MessageBox.Show(result.ToString());
}
c#正则表达式的API
Regex 类
这是正则表达式的主要类,提供编译正则表达式模式、与字符串进行匹配、替换、拆分等操作的方法。
Regex(string pattern) - 构造函数,用于创建一个新的Regex对象,其中 pattern 是正则表达式的字符串表示。
Matches(string input) - 返回一个包含所有匹配项的 MatchCollection。
Match(string input) - 返回输入字符串中的第一个匹配项。
Replace(string input, string replacement) - 替换字符串中所有匹配正则表达式的子串。
Split(string input) - 根据正则表达式指定的模式拆分字符串。
Match 类表示正则表达式引擎找到的单个匹配项。
Groups - 包含所有捕获组的集合。
Success - 指示匹配是否成功的布尔值。
Value - 匹配的字符串。
MatchCollection 类 - 表示所有匹配项的集合。
Group 类表示正则表达式中的一个捕获组。
Capture 类
表示捕获组中的单个捕获。
RegexOptions
枚举 - 定义了一组选项,可以影响正则表达式的编译和行为。
Compiled - 指示应编译该正则表达式模式以便更快地执行。
IgnoreCase - 指示应忽略模式和输入中的字母大小写差异。
Multiline - 指示. 特殊字符应该匹配每一行的开始和结束,而不仅仅是整个字符串的开始和结束。
使用 Regex.Matches 方法来查找所有连续的数字,并打印它们。每个 Match 对象都包含了一个匹配的数字。
using System;
using System.Text.RegularExpressions;
using System.Windows.Forms;
namespace 正则表达式
{
internal static class Program
{
/// <summary>
/// 应用程序的主入口点。
/// </summary>
[STAThread]
static void Main()
{
string pattern = "[0-9]+";
string input = "有123个苹果, 456 个橙子, 和789根香蕉";
MatchCollection matches = Regex.Matches(input, pattern);
foreach (Match match in matches)
{
Console.WriteLine("数量: " + match.Value);
}
}
}
}
字符转义
正则表达式中的反斜杠字符(\)指示其后跟的字符是特殊字符,或应按原义解释该字符。
(此表来自菜鸟教程)
转义字符 | 描述 | 模式 | 匹配 |
---|---|---|---|
\a | 与报警 (bell) 符 \u0007 匹配。 | \a | "Warning!" + '\u0007' 中的 "\u0007" |
\b | 在字符类中,与退格键 \u0008 匹配。 | [\b]{3,} | "\b\b\b\b" 中的 "\b\b\b\b" |
\t | 与制表符 \u0009 匹配。 | (\w+)\t | "Name\tAddr\t" 中的 "Name\t" 和 "Addr\t" |
\r | 与回车符 \u000D 匹配。(\r 与换行符 \n 不是等效的。) | \r\n(\w+) | "\r\nHello\nWorld." 中的 "\r\nHello" |
\v | 与垂直制表符 \u000B 匹配。 | [\v]{2,} | "\v\v\v" 中的 "\v\v\v" |
\f | 与换页符 \u000C 匹配。 | [\f]{2,} | "\f\f\f" 中的 "\f\f\f" |
\n | 与换行符 \u000A 匹配。 | \r\n(\w+) | "\r\nHello\nWorld." 中的 "\r\nHello" |
\e | 与转义符 \u001B 匹配。 | \e | "\x001B" 中的 "\x001B" |
\ nnn | 使用八进制表示形式指定一个字符(nnn 由二到三位数字组成)。 | \w\040\w | "a bc d" 中的 "a b" 和 "c d" |
\x nn | 使用十六进制表示形式指定字符(nn 恰好由两位数字组成)。 | \w\x20\w | "a bc d" 中的 "a b" 和 "c d" |
\c X \c x | 匹配 X 或 x 指定的 ASCII 控件字符,其中 X 或 x 是控件字符的字母。 | \cC | "\x0003" 中的 "\x0003" (Ctrl-C) |
\u nnnn | 使用十六进制表示形式匹配一个 Unicode 字符(由 nnnn 表示的四位数)。 | \w\u0020\w | "a bc d" 中的 "a b" 和 "c d" |
\ | 在后面带有不识别的转义字符时,与该字符匹配。 | \d+[\+-x\*]\d+\d+[\+-x\*\d+ | "(2+2) * 3*9" 中的 "2+2" 和 "3*9" |
定位点
定位点或原子零宽度断言会使匹配成功或失败,具体取决于字符串中的当前位置,但它们不会使引擎在字符串中前进或使用字符。
(此表来自菜鸟教程)
断言 | 描述 | 模式 | 匹配 |
---|---|---|---|
^ | 匹配必须从字符串或一行的开头开始。 | ^\d{3} | "567-777-" 中的 "567" |
$ | 匹配必须出现在字符串的末尾或出现在行或字符串末尾的 \n 之前。 | -\d{4}$ | "8-12-2012" 中的 "-2012" |
\A | 匹配必须出现在字符串的开头。 | \A\w{4} | "Code-007-" 中的 "Code" |
\Z | 匹配必须出现在字符串的末尾或出现在字符串末尾的 \n 之前。 | -\d{3}\Z | "Bond-901-007" 中的 "-007" |
\z | 匹配必须出现在字符串的末尾。 | -\d{3}\z | "-901-333" 中的 "-333" |
\G | 匹配必须出现在上一个匹配结束的地方。 | \G\(\d\) | "(1)(3)(5)[7](9)" 中的 "(1)"、 "(3)" 和 "(5)" |
\b | 匹配一个单词边界,也就是指单词和空格间的位置。 | er\b | 匹配"never"中的"er",但不能匹配"verb"中的"er"。 |
\B | 匹配非单词边界。 | er\B | 匹配"verb"中的"er",但不能匹配"never"中的"er"。 |
具体查看C# 正则表达式 | 菜鸟教程 (runoob.com)
标签:Regex,字符,匹配,string,正则表达式,Regular,字符串,Expression From: https://blog.csdn.net/2302_77639120/article/details/141571900