深入浅出之正则表达式

weiyingde · 发表于 2020-2-4 12:53

转自：http://blog.sina.com.cn/s/blog_4b4d74040102xf3n.html
深入浅出之正则表达式（一） ——网摘

前言：
半年前我对正则表达式产生了兴趣，在网上查找过不少资料，看过不少的教程，最后在使用一个正则表达式工具RegexBuddy时发现他的教程写的非常好，可以说是我目前见过最好的正则表达式教程。于是一直想把他翻译过来。这个愿望直到这个五一长假才得以实现，结果就有了这篇文章。关于本文的名字，使用“深入浅出”似乎已经太俗。但是通读原文以后，觉得只有用“深入浅出”才能准确的表达出该教程给我的感受，所以也就不能免俗了。
 本文是Jan Goyvaerts为RegexBuddy写的教程的译文，版权归原作者所有，欢迎转载。但是为了尊重原作者和译者的劳动，请注明出处！谢谢！

1. 什么是正则表达式
基本说来，正则表达式是一种用来描述一定数量文本的模式。Regex代表Regular Express。本文将用<<regex>>来表示一段具体的正则表达式。
一段文本就是最基本的模式，简单的匹配相同的文本。

2. 不同的正则表达式引擎
正则表达式引擎是一种可以处理正则表达式的软件。通常，引擎是更大的应用程序的一部分。在软件世界，不同的正则表达式并不互相兼容。本教程会集中讨论Perl 5 类型的引擎，因为这种引擎是应用最广泛的引擎。同时我们也会提到一些和其他引擎的区别。许多近代的引擎都很类似，但不完全一样。例如.NET正则库，JDK正则包。

3. 文字符号
最基本的正则表达式由单个文字符号组成。如<<a>>，它将匹配字符串中第一次出现的字符“a”。如对字符串“Jack is a boy”。“J”后的“a”将被匹配。而第二个“a”将不会被匹配。
正则表达式也可以匹配第二个“a”，这必须是你告诉正则表达式引擎从第一次匹配的地方开始搜索。在文本编辑器中，你可以使用“查找下一个”。在编程语言中，会有一个函数可以使你从前一次匹配的位置开始继续向后搜索。
类似的，<<cat>>会匹配“About cats and dogs”中的“cat”。这等于是告诉正则表达式引擎，找到一个<<c>>，紧跟一个<<a>>，再跟一个<<t>>。
要注意，正则表达式引擎缺省是大小写敏感的。除非你告诉引擎忽略大小写，否则<<cat>>不会匹配“Cat”。

· 特殊字符
对于文字字符，有11个字符被保留作特殊用途。他们是：
[ ] ^ $ . | ? * + ( )
这些特殊字符也被称作元字符。
如果你想在正则表达式中将这些字符用作文本字符，你需要用反斜杠“”对其进行换码 (escape)。例如你想匹配“1+1=2”，正确的表达式为<<1+1=2>>.
需要注意的是，<<1+1=2>>也是有效的正则表达式。但它不会匹配“1+1=2”，而会匹配“123+111=234”中的“111=2”。因为“+”在这里表示特殊含义（重复1次到多次）。
在编程语言中，要注意，一些特殊的字符会先被编译器处理，然后再传递给正则引擎。因此正则表达式<<1+2=2>>在C++中要写成“1\+1=2”。为了匹配“C:temp”，你要用正则表达式<<C:\temp>>。而在C++中，正则表达式则变成了“C:\\temp”。

· 不可显示字符
可以使用特殊字符序列来代表某些不可显示字符：
<<t>>代表Tab(0x09)
<<r>>代表回车符(0x0D)
<<n>>代表换行符(0x0A)
要注意的是Windows中文本文件使用“rn”来结束一行而Unix使用“n”。

4. 正则表达式引擎的内部工作机制
知道正则表达式引擎是如何工作的有助于你很快理解为何某个正则表达式不像你期望的那样工作。
有两种类型的引擎：文本导向(text-directed)的引擎和正则导向(regex-directed)的引擎。Jeffrey Friedl把他们称作DFA和NFA引擎。本文谈到的是正则导向的引擎。这是因为一些非常有用的特性，如“惰性”量词(lazy quantifiers)和反向引用(backreferences)，只能在正则导向的引擎中实现。所以毫不意外这种引擎是目前最流行的引擎。
你可以轻易分辨出所使用的引擎是文本导向还是正则导向。如果反向引用或“惰性”量词被实现，则可以肯定你使用的引擎是正则导向的。你可以作如下测试：将正则表达式<<regex|regex not>>应用到字符串“regex not”。如果匹配的结果是regex，则引擎是正则导向的。如果结果是regex not，则是文本导向的。因为正则导向的引擎是“猴急”的，它会很急切的进行表功，报告它找到的第一个匹配。

· 正则导向的引擎总是返回最左边的匹配
这是需要你理解的很重要的一点：即使以后有可能发现一个“更好”的匹配，正则导向的引擎也总是返回最左边的匹配。
当把<<cat>>应用到“He captured a catfish for his cat”，引擎先比较<<c>>和“H”，结果失败了。于是引擎再比较<<c>>和“e”，也失败了。直到第四个字符，<<c>>匹配了“c”。<<a>>匹配了第五个字符。到第六个字符<<t>>没能匹配“p”，也失败了。引擎再继续从第五个字符重新检查匹配性。直到第十五个字符开始，<<cat>>匹配上了“catfish”中的“cat”，正则表达式引擎急切的返回第一个匹配的结果，而不会再继续查找是否有其他更好的匹配。

5. 字符集
字符集是由一对方括号“[]”括起来的字符集合。使用字符集，你可以告诉正则表达式引擎仅仅匹配多个字符中的一个。如果你想匹配一个“a”或一个“e”，使用<<[ae]>>。你可以使用<<gr[ae]y>>匹配gray或grey。这在你不确定你要搜索的字符是采用美国英语还是英国英语时特别有用。相反，<<gr[ae]y>>将不会匹配graay或graey。字符集中的字符顺序并没有什么关系，结果都是相同的。
你可以使用连字符“-”定义一个字符范围作为字符集。<<[0-9]>>匹配0到9之间的单个数字。你可以使用不止一个范围。<<[0-9a-fA-F] >>匹配单个的十六进制数字，并且大小写不敏感。你也可以结合范围定义与单个字符定义。<<[0-9a-fxA-FX]>>匹配一个十六进制数字或字母X。再次强调一下，字符和范围定义的先后顺序对结果没有影响。

· 字符集的一些应用
查找一个可能有拼写错误的单词，比如<<sep[ae]r[ae]te>> 或 <<li[cs]en[cs]e>>。
查找程序语言的标识符，<<A-Za-z_][A-Za-z_0-9]*>>。(*表示重复0或多次)
查找C风格的十六进制数<<0[xX][A-Fa-f0-9]+>>。(+表示重复一次或多次)

· 取反字符集
在左方括号“[”后面紧跟一个尖括号“^”，将会对字符集取反。结果是字符集将匹配任何不在方括号中的字符。不像“.”，取反字符集是可以匹配回车换行符的。
需要记住的很重要的一点是，取反字符集必须要匹配一个字符。<<q[^u]>>并不意味着：匹配一个q，后面没有u跟着。它意味着：匹配一个q，后面跟着一个不是u的字符。所以它不会匹配“Iraq”中的q，而会匹配“Iraq is a country”中的q和一个空格符。事实上，空格符是匹配中的一部分，因为它是一个“不是u的字符”。
如果你只想匹配一个q，条件是q后面有一个不是u的字符，我们可以用后面将讲到的向前查看来解决。

· 字符集中的元字符
需要注意的是，在字符集中只有4个字符具有特殊含义。它们是：“] ^ -”。“]”代表字符集定义的结束；“”代表转义；“^”代表取反；“-”代表范围定义。其他常见的元字符在字符集定义内部都是正常字符，不需要转义。例如，要搜索星号*或加号+，你可以用<<[+*]>>。当然，如果你对那些通常的元字符进行转义，你的正则表达式一样会工作得很好，但是这会降低可读性。
在字符集定义中为了将反斜杠“”作为一个文字字符而非特殊含义的字符，你需要用另一个反斜杠对它进行转义。<<[\x]>>将会匹配一个反斜杠和一个X。“]^-”都可以用反斜杠进行转义，或者将他们放在一个不可能使用到他们特殊含义的位置。我们推荐后者，因为这样可以增加可读性。比如对于字符“^”，将它放在除了左括号“[”后面的位置，使用的都是文字字符含义而非取反含义。如<<[x^]>>会匹配一个x或^。<<[]x]>>会匹配一个“]”或“x”。<<[-x]>>或<<[x-]>>都会匹配一个“-”或“x”。

· 字符集的简写
因为一些字符集非常常用，所以有一些简写方式。
<<d>>代表<<[0-9]>>;
<<w>>代表单词字符。这个是随正则表达式实现的不同而有些差异。绝大多数的正则表达式实现的单词字符集都包含了<<A-Za-z0-9_]>>。
<<s>>代表“白字符”。这个也是和不同的实现有关的。在绝大多数的实现中，都包含了空格符和Tab符，以及回车换行符<<rn>>。
字符集的缩写形式可以用在方括号之内或之外。<<sd>>匹配一个白字符后面紧跟一个数字。<<[sd]>>匹配单个白字符或数字。<<[da-fA-F]>>将匹配一个十六进制数字。
取反字符集的简写
<<[S]>> = <<[^s]>>
<<[W]>> = <<[^w]>>
<<[D]>> = <<[^d]>>
· 字符集的重复
如果你用“?*+”操作符来重复一个字符集，你将会重复整个字符集。而不仅是它匹配的那个字符。正则表达式<<[0-9]+>>会匹配837以及222。
如果你仅仅想重复被匹配的那个字符，可以用向后引用达到目的。我们以后将讲到向后引用。

weiyingde · 发表于 2020-2-4 12:54

6. 使用?*或+ 进行重复
?：告诉引擎匹配前导字符0次或一次。事实上是表示前导字符是可选的。
+：告诉引擎匹配前导字符1次或多次
*：告诉引擎匹配前导字符0次或多次
<[A-Za-z][A-Za-z0-9]*>匹配没有属性的HTML标签，“<”以及“>”是文字符号。第一个字符集匹配一个字母，第二个字符集匹配一个字母或数字。
我们似乎也可以用<[A-Za-z0-9]+>。但是它会匹配<1>。但是这个正则表达式在你知道你要搜索的字符串不包含类似的无效标签时还是足够有效的。

· 限制性重复
许多现代的正则表达式实现，都允许你定义对一个字符重复多少次。词法是：{min,max}。min和max都是非负整数。如果逗号有而max被忽略了，则max没有限制。如果逗号和max都被忽略了，则重复min次。
因此{0,}和*一样，{1，}和+ 的作用一样。
你可以用<<b[1-9][0-9]{3}b>>匹配1000~9999之间的数字(“b”表示单词边界)。<<b[1-9][0-9]{2,4}b>>匹配一个在100~99999之间的数字。

· 注意贪婪性
假设你想用一个正则表达式匹配一个HTML标签。你知道输入将会是一个有效的HTML文件，因此正则表达式不需要排除那些无效的标签。所以如果是在两个尖括号之间的内容，就应该是一个HTML标签。
许多正则表达式的新手会首先想到用正则表达式<< <.+> >>，他们会很惊讶的发现，对于测试字符串，“This is a first test”，你可能期望会返回，然后继续进行匹配的时候，返回。
但事实是不会。正则表达式将会匹配“first”。很显然这不是我们想要的结果。原因在于“+”是贪婪的。也就是说，“+”会导致正则表达式引擎试图尽可能的重复前导字符。只有当这种重复会引起整个正则表达式匹配失败的情况下，引擎会进行回溯。也就是说，它会放弃最后一次的“重复”，然后处理正则表达式余下的部分。
和“+”类似，“?*”的重复也是贪婪的。

· 深入正则表达式引擎内部
让我们来看看正则引擎如何匹配前面的例子。第一个记号是“<”，这是一个文字符号。第二个符号是“.”，匹配了字符“E”，然后“+”一直可以匹配其余的字符，直到一行的结束。然后到了换行符，匹配失败(“.”不匹配换行符)。于是引擎开始对下一个正则表达式符号进行匹配。也即试图匹配“>”。到目前为止，“<.+”已经匹配了“first test”。引擎会试图将“>”与换行符进行匹配，结果失败了。于是引擎进行回溯。结果是现在“<.+”匹配“first tes”。于是引擎将“>”与“t”进行匹配。显然还是会失败。这个过程继续，直到“<.+”匹配“first</EM”，“>”与“>”匹配。于是引擎找到了一个匹配“first”。记住，正则导向的引擎是“急切的”，所以它会急着报告它找到的第一个匹配。而不是继续回溯，即使可能会有更好的匹配，例如“”。所以我们可以看到，由于“+”的贪婪性，使得正则表达式引擎返回了一个最左边的最长的匹配。

· 用懒惰性取代贪婪性
一个用于修正以上问题的可能方案是用“+”的惰性代替贪婪性。你可以在“+”后面紧跟一个问号“?”来达到这一点。“*”，“{}”和“?”表示的重复也可以用这个方案。因此在上面的例子中我们可以使用“<.+?>”。让我们再来看看正则表达式引擎的处理过程。
再一次，正则表达式记号“<”会匹配字符串的第一个“<”。下一个正则记号是“.”。这次是一个懒惰的“+”来重复上一个字符。这告诉正则引擎，尽可能少的重复上一个字符。因此引擎匹配“.”和字符“E”，然后用“>”匹配“M”，结果失败了。引擎会进行回溯，和上一个例子不同，因为是惰性重复，所以引擎是扩展惰性重复而不是减少，于是“<.+”现在被扩展为“<EM”。引擎继续匹配下一个记号“>”。这次得到了一个成功匹配。引擎于是报告“”是一个成功的匹配。整个过程大致如此。

· 惰性扩展的一个替代方案
我们还有一个更好的替代方案。可以用一个贪婪重复与一个取反字符集：“<[^>]+>”。之所以说这是一个更好的方案在于使用惰性重复时，引擎会在找到一个成功匹配前对每一个字符进行回溯。而使用取反字符集则不需要进行回溯。
最后要记住的是，本教程仅仅谈到的是正则导向的引擎。文本导向的引擎是不回溯的。但是同时他们也不支持惰性重复操作。

7. 使用“.”匹配几乎任意字符
在正则表达式中，“.”是最常用的符号之一。不幸的是，它也是最容易被误用的符号之一。
“.”匹配一个单个的字符而不用关心被匹配的字符是什么。唯一的例外是新行符。在本教程中谈到的引擎，缺省情况下都是不匹配新行符的。因此在缺省情况下，“.”等于是字符集[^nr](Window)或[^n]( Unix)的简写。
这个例外是因为历史的原因。因为早期使用正则表达式的工具是基于行的。它们都是一行一行的读入一个文件，将正则表达式分别应用到每一行上去。在这些工具中，字符串是不包含新行符的。因此“.”也就从不匹配新行符。
现代的工具和语言能够将正则表达式应用到很大的字符串甚至整个文件上去。本教程讨论的所有正则表达式实现都提供一个选项，可以使“.”匹配所有的字符，包括新行符。在RegexBuddy, EditPad Pro或PowerGREP等工具中，你可以简单的选中“点号匹配新行符”。在Perl中，“.”可以匹配新行符的模式被称作“单行模式”。很不幸，这是一个很容易混淆的名词。因为还有所谓“多行模式”。多行模式只影响行首行尾的锚定(anchor)，而单行模式只影响“.”。
其他语言和正则表达式库也采用了Perl的术语定义。当在.NET Framework中使用正则表达式类时，你可以用类似下面的语句来激活单行模式：Regex.Match(“string”,”regex”,RegexOptions.SingleLine)

· 保守的使用点号“.”
点号可以说是最强大的元字符。它允许你偷懒：用一个点号，就能匹配几乎所有的字符。但是问题在于，它也常常会匹配不该匹配的字符。
我会以一个简单的例子来说明。让我们看看如何匹配一个具有“mm/dd/yy”格式的日期，但是我们想允许用户来选择分隔符。很快能想到的一个方案是<<dd.dd.dd>>。看上去它能匹配日期“02/12/03”。问题在于02512703也会被认为是一个有效的日期。
<<dd[-/.]dd[-/.]dd>>看上去是一个好一点的解决方案。记住点号在一个字符集里不是元字符。这个方案远不够完善，它会匹配“99/99/99”。而<<[0-1]d[-/.][0-3]d[-/.]dd>>又更进一步。尽管他也会匹配“19/39/99”。你想要你的正则表达式达到如何完美的程度取决于你想达到什么样的目的。如果你想校验用户输入，则需要尽可能的完美。如果你只是想分析一个已知的源，并且我们知道没有错误的数据，用一个比较好的正则表达式来匹配你想要搜寻的字符就已经足够。

8. 字符串开始和结束的锚定
锚定和一般的正则表达式符号不同，它不匹配任何字符。相反，他们匹配的是字符之前或之后的位置。“^”匹配一行字符串第一个字符前的位置。<<^a>>将会匹配字符串“abc”中的a。<<^b>>将不会匹配“abc”中的任何字符。
类似的，$匹配字符串中最后一个字符的后面的位置。所以<<c$>>匹配“abc”中的c。

· 锚定的应用
在编程语言中校验用户输入时，使用锚定是非常重要的。如果你想校验用户的输入为整数，用<<^d+$>>。
用户输入中，常常会有多余的前导空格或结束空格。你可以用<<^s*>>和<<s*$>>来匹配前导空格或结束空格。

· 使用“^”和“$”作为行的开始和结束锚定
如果你有一个包含了多行的字符串。例如：“first linenrsecond line”(其中nr表示一个新行符)。常常需要对每行分别处理而不是整个字符串。因此，几乎所有的正则表达式引擎都提供一个选项，可以扩展这两种锚定的含义。“^”可以匹配字串的开始位置(在f之前)，以及每一个新行符的后面位置(在nr和s之间)。类似的，$会匹配字串的结束位置(最后一个e之后)，以及每个新行符的前面(在e与nr之间)。
在.NET中，当你使用如下代码时，将会定义锚定匹配每一个新行符的前面和后面位置：Regex.Match("string", "regex", RegexOptions.Multiline)
应用：string str = Regex.Replace(Original, "^", "> ", RegexOptions.Multiline)--将会在每行的行首插入“> ”。

· 绝对锚定
<<A>>只匹配整个字符串的开始位置，<<Z>>只匹配整个字符串的结束位置。即使你使用了“多行模式”，<<A>>和<<Z>>也从不匹配新行符。
即使Z和$只匹配字符串的结束位置，仍然有一个例外的情况。如果字符串以新行符结束，则Z和$将会匹配新行符前面的位置，而不是整个字符串的最后面。这个“改进”是由Perl引进的，然后被许多的正则表达式实现所遵循，包括Java，.NET等。如果应用<<^[a-z]+$>>到“joen”，则匹配结果是“joe”而不是“joen”。

weiyingde · 发表于 2020-2-4 12:54

深入浅出之正则表达式（二）
前言：
 本文是前一片文章《深入浅出之正则表达式（一）》的续篇，在本文中讲述了正则表达式中的组与向后引用，先前向后查看，条件测试，单词边界，选择符等表达式及例子，并分析了正则引擎在执行匹配时的内部机理。
 本文是Jan Goyvaerts为RegexBuddy写的教程的译文，版权归原作者所有，欢迎转载。但是为了尊重原作者和译者的劳动，请注明出处！谢谢！

9. 单词边界

元字符<>也是一种对位置进行匹配的“锚”。这种匹配是0长度匹配。
有4种位置被认为是“单词边界”：
1) 在字符串的第一个字符前的位置(如果字符串的第一个字符是一个“单词字符”)
2) 在字符串的最后一个字符后的位置(如果字符串的最后一个字符是一个“单词字符”)
3) 在一个“单词字符”和“非单词字符”之间，其中“非单词字符”紧跟在“单词字符”之后
4) 在一个“非单词字符”和“单词字符”之间，其中“单词字符”紧跟在“非单词字符”后面
“单词字符”是可以用“w”匹配的字符，“非单词字符”是可以用“W”匹配的字符。在大多数的正则表达式实现中，“单词字符”通常包括<<[a-zA-Z0-9_]>>。
例如：<<b4b>>能够匹配单个的4而不是一个更大数的一部分。这个正则表达式不会匹配“44”中的4。
换种说法，几乎可以说<>匹配一个“字母数字序列”的开始和结束的位置。

“单词边界”的取反集为<>，他要匹配的位置是两个“单词字符”之间或者两个“非单词字符”之间的位置。

· 深入正则表达式引擎内部
让我们看看把正则表达式<<bisb>>应用到字符串“This island is beautiful”。引擎先处理符号<>。因为b是0长度，所以第一个字符T前面的位置会被考察。因为T是一个“单词字符”，而它前面的字符是一个空字符(void)，所以b匹配了单词边界。接着<>和第一个字符“T”匹配失败。匹配过程继续进行，直到第五个空格符，和第四个字符“s”之间又匹配了<>。然而空格符和<>不匹配。继续向后，到了第六个字符“i”，和第五个空格字符之间匹配了<>，然后<<is>>和第六、第七个字符都匹配了。然而第八个字符和第二个“单词边界”不匹配，所以匹配又失败了。到了第13个字符i，因为和前面一个空格符形成“单词边界”，同时<<is>>和“is”匹配。引擎接着尝试匹配第二个<>。因为第15个空格符和“s”形成单词边界，所以匹配成功。引擎“急着”返回成功匹配的结果。

10. 选择符
正则表达式中“|”表示选择。你可以用选择符匹配多个可能的正则表达式中的一个。
如果你想搜索文字“cat”或“dog”，你可以用<<cat|dog>>。如果你想有更多的选择，你只要扩展列表<<cat|dog|mouse|fish>>。
选择符在正则表达式中具有最低的优先级，也就是说，它告诉引擎要么匹配选择符左边的所有表达式，要么匹配右边的所有表达式。你也可以用圆括号来限制选择符的作用范围。如<<b(cat|dog)b>>，这样告诉正则引擎把(cat|dog)当成一个正则表达式单位来处理。
· 注意正则引擎的“急于表功”性
正则引擎是急切的，当它找到一个有效的匹配时，它会停止搜索。因此在一定条件下，选择符两边的表达式的顺序对结果会有影响。假设你想用正则表达式搜索一个编程语言的函数列表：Get，GetValue，Set或SetValue。一个明显的解决方案是<<Get|GetValue|Set|SetValue>>。让我们看看当搜索SetValue时的结果。
因为<<Get>>和<<GetValue>>都失败了，而<<Set>>匹配成功。因为正则导向的引擎都是“急切”的，所以它会返回第一个成功的匹配，就是“Set”，而不去继续搜索是否有其他更好的匹配。
和我们期望的相反，正则表达式并没有匹配整个字符串。有几种可能的解决办法。一是考虑到正则引擎的“急切”性，改变选项的顺序，例如我们使用<<GetValue|Get|SetValue|Set>>，这样我们就可以优先搜索最长的匹配。我们也可以把四个选项结合起来成两个选项：<<Get(Value)?|Set(Value)?>>。因为问号重复符是贪婪的，所以SetValue总会在Set之前被匹配。
一个更好的方案是使用单词边界：<<b(Get|GetValue|Set|SetValue)b>>或<<b(Get(Value)?|Set(Value)?b>>。更进一步，既然所有的选择都有相同的结尾，我们可以把正则表达式优化为<<b(Get|Set)(Value)?b>>。

11. 组与向后引用
把正则表达式的一部分放在圆括号内，你可以将它们形成组。然后你可以对整个组使用一些正则操作，例如重复操作符。
要注意的是，只有圆括号“()”才能用于形成组。“[]”用于定义字符集。“{}”用于定义重复操作。
当用“()”定义了一个正则表达式组后，正则引擎则会把被匹配的组按照顺序编号，存入缓存。当对被匹配的组进行向后引用的时候，可以用“数字”的方式进行引用。<<1>>引用第一个匹配的后向引用组，<<2>>引用第二个组，以此类推，<<n>>引用第n个组。而<<>>则引用整个被匹配的正则表达式本身。我们看一个例子。
假设你想匹配一个HTML标签的开始标签和结束标签，以及标签中间的文本。比如This is a test，我们要匹配和以及中间的文字。我们可以用如下正则表达式：“<([A-Z][A-Z0-9]*)[^>]*>.*?</1>”
首先，“<”将会匹配“”的第一个字符“<”。然后[A-Z]匹配B，[A-Z0-9]*将会匹配0到多次字母数字，后面紧接着0到多个非“>”的字符。最后正则表达式的“>”将会匹配“”的“>”。接下来正则引擎将对结束标签之前的字符进行惰性匹配，直到遇到一个“</”符号。然后正则表达式中的“1”表示对前面匹配的组“([A-Z][A-Z0-9]*)”进行引用，在本例中，被引用的是标签名“B”。所以需要被匹配的结尾标签为“”
你可以对相同的后向引用组进行多次引用，<<([a-c])x1x1>>将匹配“axaxa”、“bxbxb”以及“cxcxc”。如果用数字形式引用的组没有有效的匹配，则引用到的内容简单的为空。
一个后向引用不能用于它自身。<<([abc]1)>>是错误的。因此你不能将<<>>用于一个正则表达式匹配本身，它只能用于替换操作中。
后向引用不能用于字符集内部。<<(a)[1b]>>中的<<1>>并不表示后向引用。在字符集内部，<<1>>可以被解释为八进制形式的转码。
向后引用会降低引擎的速度，因为它需要存储匹配的组。如果你不需要向后引用，你可以告诉引擎对某个组不存储。例如：<<Get(?:Value)>>。其中“(”后面紧跟的“?:”会告诉引擎对于组(Value)，不存储匹配的值以供后向引用。
· 重复操作与后向引用
当对组使用重复操作符时，缓存里后向引用内容会被不断刷新，只保留最后匹配的内容。例如：<<([abc]+)=1>>将匹配“cab=cab”，但是<<([abc])+=1>>却不会。因为([abc])第一次匹配“c”时，“1”代表“c”；然后([abc])会继续匹配“a”和“b”。最后“1”代表“b”，所以它会匹配“cab=b”。
应用：检查重复单词--当编辑文字时，很容易就会输入重复单词，例如“the the”。使用<<b(w+)s+1b>>可以检测到这些重复单词。要删除第二个单词，只要简单的利用替换功能替换掉“1”就可以了。

· 组的命名和引用
在PHP，Python中，可以用<<(?P<name>group)>>来对组进行命名。在本例中，词法?P<name>就是对组(group)进行了命名。其中name是你对组的起的名字。你可以用(?P=name)进行引用。
.NET的命名组
.NET framework也支持命名组。不幸的是，微软的程序员们决定发明他们自己的语法，而不是沿用Perl、Python的规则。目前为止，还没有任何其他的正则表达式实现支持微软发明的语法。
下面是.NET中的例子：
(?<first>group)(?’second’group)
正如你所看到的，.NET提供两种词法来创建命名组：一是用尖括号“<>”，或者用单引号“’’”。尖括号在字符串中使用更方便，单引号在ASP代码中更有用，因为ASP代码中“<>”被用作HTML标签。
要引用一个命名组，使用k<name>或k’name’.
当进行搜索替换时，你可以用“${name}”来引用一个命名组。

12. 正则表达式的匹配模式
本教程所讨论的正则表达式引擎都支持三种匹配模式：
<>使正则表达式对大小写不敏感，
<</s>>开启“单行模式”，即点号“.”匹配新行符
<</m>>开启“多行模式”，即“^”和“$”匹配新行符的前面和后面的位置。

· 在正则表达式内部打开或关闭模式
如果你在正则表达式内部插入修饰符(?ism)，则该修饰符只对其右边的正则表达式起作用。(?-i)是关闭大小写不敏感。你可以很快的进行测试。<<(?i)te(?-i)st>>应该匹配TEst，但是不能匹配teST或TEST.

weiyingde · 发表于 2020-2-4 12:56

13. 原子组与防止回溯
在一些特殊情况下，因为回溯会使得引擎的效率极其低下。
让我们看一个例子：要匹配这样的字串，字串中的每个字段间用逗号做分隔符，第12个字段由P开头。
我们容易想到这样的正则表达式<<^(.*?,){11}P>>。这个正则表达式在正常情况下工作的很好。但是在极端情况下，如果第12个字段不是由P开头，则会发生灾难性的回溯。如要搜索的字串为“1,2,3,4,5,6,7,8,9,10,11,12,13”。首先，正则表达式一直成功匹配直到第12个字符。这时，前面的正则表达式消耗的字串为“1,2,3,4,5,6,7,8,9,10,11,”，到了下一个字符，<>并不匹配“12”。所以引擎进行回溯，这时正则表达式消耗的字串为“1,2,3,4,5,6,7,8,9,10,11”。继续下一次匹配过程，下一个正则符号为点号<<.>>，可以匹配下一个逗号“,”。然而<<，>>并不匹配字符“12”中的“1”。匹配失败，继续回溯。大家可以想象，这样的回溯组合是个非常大的数量。因此可能会造成引擎崩溃。
用于阻止这样巨大的回溯有几种方案：
一种简单的方案是尽可能的使匹配精确。用取反字符集代替点号。例如我们用如下正则表达式<<^([^,rn]*,){11}P>>，这样可以使失败回溯的次数下降到11次。
另一种方案是使用原子组。
原子组的目的是使正则引擎失败的更快一点。因此可以有效的阻止海量回溯。原子组的语法是<<(?>正则表达式)>>。位于(?>)之间的所有正则表达式都会被认为是一个单一的正则符号。一旦匹配失败，引擎将会回溯到原子组前面的正则表达式部分。前面的例子用原子组可以表达成<<^(?>(.*?,){11})P>>。一旦第十二个字段匹配失败，引擎回溯到原子组前面的<<^>>。

14. 向前查看与向后查看
Perl 5 引入了两个强大的正则语法：“向前查看”和“向后查看”。他们也被称作“零长度断言”。他们和锚定一样都是零长度的（所谓零长度即指该正则表达式不消耗被匹配的字符串）。不同之处在于“前后查看”会实际匹配字符，只是他们会抛弃匹配只返回匹配结果：匹配或不匹配。这就是为什么他们被称作“断言”。他们并不实际消耗字符串中的字符，而只是断言一个匹配是否可能。
几乎本文讨论的所有正则表达式的实现都支持“向前向后查看”。唯一的一个例外是Javascript只支持向前查看。
· 肯定和否定式的向前查看
如我们前面提过的一个例子：要查找一个q，后面没有紧跟一个u。也就是说，要么q后面没有字符，要么后面的字符不是u。采用否定式向前查看后的一个解决方案为<<q(?!u)>>。否定式向前查看的语法是<<(?!查看的内容)>>。
肯定式向前查看和否定式向前查看很类似：<<(?=查看的内容)>>。
如果在“查看的内容”部分有组，也会产生一个向后引用。但是向前查看本身并不会产生向后引用，也不会被计入向后引用的编号中。这是因为向前查看本身是会被抛弃掉的，只保留匹配与否的判断结果。如果你想保留匹配的结果作为向后引用，你可以用<<(?=(regex))>>来产生一个向后引用。
· 肯定和否定式的先后查看
向后查看和向前查看有相同的效果，只是方向相反
否定式向后查看的语法是：<<(?<!查看内容)>>
肯定式向后查看的语法是：<<(?<=查看内容)>>
我们可以看到，和向前查看相比，多了一个表示方向的左尖括号。
例：<<(?<!a)b>>将会匹配一个没有“a”作前导字符的“b”。
值得注意的是：向前查看从当前字符串位置开始对“查看”正则表达式进行匹配；向后查看则从当前字符串位置开始先后回溯一个字符，然后再开始对“查看”正则表达式进行匹配。

· 深入正则表达式引擎内部
让我们看一个简单例子。
把正则表达式<<q(?!u)>>应用到字符串“Iraq”。正则表达式的第一个符号是<<q>>。正如我们知道的，引擎在匹配<<q>>以前会扫过整个字符串。当第四个字符“q”被匹配后，“q”后面是空字符(void)。而下一个正则符号是向前查看。引擎注意到已经进入了一个向前查看正则表达式部分。下一个正则符号是<>，和空字符不匹配，从而导致向前查看里的正则表达式匹配失败。因为是一个否定式的向前查看，意味着整个向前查看结果是成功的。于是匹配结果“q”被返回了。
我们在把相同的正则表达式应用到“quit”。<<q>>匹配了“q”。下一个正则符号是向前查看部分的<>，它匹配了字符串中的第二个字符“i”。引擎继续走到下个字符“i”。然而引擎这时注意到向前查看部分已经处理完了，并且向前查看已经成功。于是引擎抛弃被匹配的字符串部分，这将导致引擎回退到字符“u”。
因为向前查看是否定式的，意味着查看部分的成功匹配导致了整个向前查看的失败，因此引擎不得不进行回溯。最后因为再没有其他的“q”和<<q>>匹配，所以整个匹配失败了。
为了确保你能清楚地理解向前查看的实现，让我们把<<q(?=u)i>>应用到“quit”。<<q>>首先匹配“q”。然后向前查看成功匹配“u”，匹配的部分被抛弃，只返回可以匹配的判断结果。引擎从字符“i”回退到“u”。由于向前查看成功了，引擎继续处理下一个正则符号<>。结果发现<>和“u”不匹配。因此匹配失败了。由于后面没有其他的“q”，整个正则表达式的匹配失败了。

· 更进一步理解正则表达式引擎内部机制
让我们把<<(?<=a)b>>应用到“thingamabob”。引擎开始处理向后查看部分的正则符号和字符串中的第一个字符。在这个例子中，向后查看告诉正则表达式引擎回退一个字符，然后查看是否有一个“a”被匹配。因为在“t”前面没有字符，所以引擎不能回退。因此向后查看失败了。引擎继续走到下一个字符“h”。再一次，引擎暂时回退一个字符并检查是否有个“a”被匹配。结果发现了一个“t”。向后查看又失败了。
向后查看继续失败，直到正则表达式到达了字符串中的“m”，于是肯定式的向后查看被匹配了。因为它是零长度的，字符串的当前位置仍然是“m”。下一个正则符号是<>，和“m”匹配失败。下一个字符是字符串中的第二个“a”。引擎向后暂时回退一个字符，并且发现<<a>>不匹配“m”。
在下一个字符是字符串中的第一个“b”。引擎暂时性的向后退一个字符发现向后查看被满足了，同时<>匹配了“b”。因此整个正则表达式被匹配了。作为结果，正则表达式返回字符串中的第一个“b”。
· 向前向后查看的应用
我们来看这样一个例子：查找一个具有6位字符的，含有“cat”的单词。
首先，我们可以不用向前向后查看来解决问题，例如：
<< catw{3}|wcatw{2}|w{2}catw|w{3}cat>>
足够简单吧！但是当需求变成查找一个具有6-12位字符，含有“cat”，“dog”或“mouse”的单词时，这种方法就变得有些笨拙了。
我们来看看使用向前查看的方案。在这个例子中，我们有两个基本需求要满足：一是我们需要一个6位的字符，二是单词含有“cat”。
满足第一个需求的正则表达式为<<bw{6}b>>。满足第二个需求的正则表达式为<<bw*catw*b>>。
把两者结合起来，我们可以得到如下的正则表达式：
 <<(?=bw{6}b)bw*catw*b>>
具体的匹配过程留给读者。但是要注意的一点是，向前查看是不消耗字符的，因此当判断单词满足具有6个字符的条件后，引擎会从开始判断前的位置继续对后面的正则表达式进行匹配。
最后作些优化，可以得到下面的正则表达式：
<<b(?=w{6}b)w{0,3}catw*>>

15. 正则表达式中的条件测试
条件测试的语法为<<(?ifthen|else)>>。“if”部分可以是向前向后查看表达式。如果用向前查看，则语法变为：<<(?(?=regex)then|else)>>，其中else部分是可选的。
如果if部分为true，则正则引擎会试图匹配then部分，否则引擎会试图匹配else部分。
需要记住的是，向前先后查看并不实际消耗任何字符，因此后面的then与else部分的匹配时从if测试前的部分开始进行尝试。

16. 为正则表达式添加注释
在正则表达式中添加注释的语法是：<<(?#comment)>>
例：为用于匹配有效日期的正则表达式添加注释：
(?#year)(19|20)dd[- /.](?#month)(0[1-9]|1[012])[- /.](?#day)(0[1-9]|[12][0-9]|3[01])

weiyingde · 发表于 2020-2-4 15:35

继续分享：
正则表达式
是字符串结构的语法规则，是一个特定的格式化模式，可以匹配、替换、截取匹配的字符串。
正则表达式的语法规则
一个完整的正则表达式有两部分构成，元字符和文本字符。元字符就是具有特殊含义的字符，如前面提到的“*”和“？”。文本字符就是普通的文本。如字母和数字等。PCRE风格的正则表达式一般都放置在定界符定界符“/”中间。
行定位符
^表示行的开始
^tm表示要匹配字串tm的开头是行头，如tm equal tomorrow moon。就可匹配。而 tomorrow moon equal tm就不能。如果写成tm$就可以匹配。$表示从尾部开始。如果匹配字串可以是任意部分。直接写成tm即可。
单词定界符（\b、\B）
继续上面实例，使用tm可以匹配在字符串中出现的任何位置。那么类似html、utmost中的tm也会被查找出来。但现在要匹配的是单词tm而不是单词的一部分。这时可以使用单词分界符\b，表示要查找的字串是一个完整的单词。单词定界符是成对出现的
如：
\btm\b
还有一个大写的\B意思和\b相反。匹配的字串不能是一个完整的单词，而是其他单词或字串的一部分。
如：
\Btm\B
字符类（[]）
正则表达式是区分大小写的，如果要忽略大小写该怎么办呢解决的方法有很多。其中一个方法就是使用[]号表达式。只要匹配的字符出现在[]号内。即可表示匹配成功。注意一个[]只能匹配一个字符。例如：要匹配的字符tm不区分大小写，那么该表达式应该写成如下格式
[Tm][Mm]
这样就可匹配字串tm的所有写法。POSIX和PCRE都使用了一些预定义字符类。但表示方法略有不同。
POSIX风格的预定义字符类如表。
预定义字符类说明
[:digit:] 十进制数字结合。等同于[0-9]
[[:almum:]] 字母和数字的集合。等同于[a-zA-z0-9]
[[:alpha]] 字母集合。等同于[a-zA-Z]
[[:blank:]] 空格和字符表
[[:xdigit:]] 十六进制数字
[[:punct]] 特殊字符集合。包括接（键）盘上的所有特殊字符，，如！@￥等。
[[:print:]] 所有的可打印字符（包括空白字符）
[[:space:]] 空白字符（空格、换行符、换页符、回车符、水平制表符）
[[:graph:]] 所有的可打印字符（不包括空白字符）
[[:upper:]] 所有大写字母[A-Z]
[[:lower:]] 所有小写字母[a-z]
[[:cntrl:]] 控制字符
而PCRE的预定义字符类则使用反斜线来表示。
选择字符（|）
还有一种方法可以实现上面的匹配模式，就是使用选择字符（|）可以理解为或
(T|t)(M|m)
该表达式意为：以字母T或t开头，后面接一个字母M或m
★使用“[]”和使用“|”的区别在于“[]“只能匹配单个字符，而“|”可以匹配任意长度的字串。如果不怕麻烦上例还可以写成TM|tm|Tm|tM.
连字符(-)
变量的命名规则只能是以字母和下划线开头。如果要使用正则表示来匹配变量名的第一个字母，难道要写成[a,b,c,d…A,B,C,D…]这样的格式吗？不用担心正则表达式提供了连字符“-“来解决这个问题。连字符可以表示字符的范围如上可以写成[a-zA-z]。
排除字串（[^]）
上面例子是匹配符合命名规则的变量。现在反过来，匹配不符合命名规则的变量。这是该怎么做呢？正则表达式提供了“^“字符。这个元字符表示行的开始。这里放到方括号中表示排除的意思。
[^a-zA-z]
该表达式匹配的就是不以字母和下划线开头的变量名。（下划线是如何体现的,下划线算是字母组合中？）
限定符
经常使用google的用户可能会发现：在搜索结果页的下方，google中间字母o的个数会随着搜索页的改变而改变。那么要匹配该字串的正则改如何实现呢？
对于这类重复出现的字母或字串，可以使用限定符来实现匹配。限定符主要有6种。
限定符说明和举例
限定符说明举例
匹配前面的字符零次或一次 colou?r，该表达式可以匹配colour和color
+ 匹配前面的字符一次或多次 go+gle，该表达式可以匹配的范围从gogle到goo…gle
* 匹配前面的字符零次或多次 go*gle该表达式可以匹配的范围从gogle到goo…gle
{n} 匹配前面的字符n次 go{2}gle,该表达式只匹配google
{n,} 匹配前面的字符至少n次 go{2,}gle,该表达式可以匹配的范围从google到goo..gle
{n,m} 匹配前面的字符最少n次，最多m次 employe{0,2}该表达式可以匹配employ、employe和employee3种情况

weiyingde · 发表于 2020-2-4 15:36

可以发现实际已经对字符串进行了匹配，只是还不完善。通过观察发现google搜索结果只有一页时，不显示google标识，只有大于等于2时，才显示google说明字母o最少有2个，最多为20个，那么正则表达式为：
go{2,20}gle
点号字符（.）
有这样一种英语题：写出5-10个以s开头、t结尾的单词。有时考题并不告知第一个字母，而是中间任意一个。
在正则表达式中可以通过点字符（.）来实现这样的匹配。点字符（.）可以匹配出换行符外任意一个字符。注意除换行符外。
如匹配以s开头、t结尾、中间包含一个字母的单词。格式如下：
^s.t$（^表示开始，$表示结束）
匹配单词包括：sat、set、sit等。
再举一个实例，匹配一个单词，它的第一个字母为r。第3个字母为s，最后一个字母为t。能匹配该单词的正则表达式为：
^r.s.*t$ （^表示开始，$表示结束）
转义字符（\）
正则表达式中的转移字符（\）和php中的大同小异，如用正则表达式匹配如127.0.0.1这样的IP地址。如果直接使用点字符：
[0-9]{1,3}(.[0-9]{1,3}){3}
这显然不对，因为“.“可以匹配一个任意字符。这时，不仅是127.0.0.1这样的ip，连127101011这样的字串也会被匹配出来。所以在使用“.”时，需要使用转义字符（\）。修改后
[0-9]{1,3}(\.[0-9]{1,3}){3}
★括号在正则表达式中也算是一个元字符。
反斜线（\）
除了可以做转义字符外，反斜线还有其他一些功能。
■反斜线可将一些不可打印字符显示出来，如表
字符说明
\a 报警，即ASCII中的<bel>字符（0x07）
\b 退格即ASCII中的<bs>字符（0x08）。注意，在PHP中只有在中括号（[]）里使用才表示退格
\e Escap，即ASCII中的<esc>字符（0x08）
\f 换页符
\n 换行符
\r 回车符
\t 水平制表符
\xhh 十六进制代码
\ddd 八进制代码
\cx 即control-x的缩写，匹配由X指明的控制字符，其中X是任意字符
反斜杠指定的预定义的字符集
预定义字符集说明
\d 任意一个十进制数字，相当于[0-9]
\D 任意一个非十进制数字
\s 任意一个空白字符（空格、换行符、换页符、回车符、水平制表符）相当于[\f\n\r\t]
\S 任意一个非空白字符
\w 任意一个单词字符，相当于[a-zA-Z0-9_]
\W 任意一个非单词字符
定义断言，其中已经接触过了\b、\B其他如表
限定符说明
\b 单词分界符，用来匹配字符串中某些位置，\b是以统一的分界符来匹配
\B 非单词分界符序列
\A 总是能够匹配带搜索文本的起始位置
\Z 表示在未指定任何模式下匹配的字符，通常是字符串的末尾位置，或者是在字符串末尾的换行符之前的位置
\z 只匹配字符串的末尾，不考虑任何换行符
\G 当前匹配的起始位置
括号字符（()）
小括号字符的第一个作用就是可以改变限定符的作用范围，如“|”、“*”“^“等。看下面的表达式
（thir|four）th
这个表达式的意思是匹配单词thirth或forth如果不使用小括号，那么就变成了匹配单词thir和fourth了。
小括号第二个作用是分组，也就是子表达式。如(\.[0-9]{1,3}){3}，就是对分组（\.[0-9]{1,3}）进行重复操作。后面要学到的反向引用、捕获、断言等都是和分组有着直接关系。
反向引用
就是依靠子表达式的“记忆“功能来匹配连续出现的字串或字母。如匹配连续两个it，首先将单词it作为分组，然后在后面加上“\1”即可。
(it)\1
这就是反向引用最简单的格式。如果要匹配的字串不固定，那么就将括号内的字串写成一个正则表达式。如果使用了多个分组，那么可以用“\1”、“\2”来表示每个分组（顺序是从左至右）。如
([a-z])([A-Z])\1\2
除了可以使用数字来表示分组外，还可以制定分组名称。语法格式
（p<subname>…）

weiyingde · 发表于 2020-2-4 15:37

如果想要反向引用该分组，使用如下语法
（p=subname）
下面来重写一下表达式([a-z])([A-Z])\1\2为这两个分组分别命名，并反向引用他们。正则表达式如下
(?p<fir>[a-z])(?p<sec>[A-Z])(?p=fir)(?p=sec)
反向引用还可以在正则表达式外调用，默认使用$0、$1存储分组，顺序也是从左到右。
捕获
在使用反向引用时,捕获功能就已经开启了.就是将不同的分组自动保存到元字符”\1”、”\2”、中，使用时直接调用即可。上节中使用了两种引用语法（（…）和(?<subname>)），也就是捕获语法。
使用捕获功能很方便，提高了表达式的重复利用率，但也减慢执行速度，占用了更多内存。如不想使用捕获功能，可以使用仅有分组功能的非捕获括号（:…）。以表达式（[a-z]）([A-Z])\1\2为例，使用非捕获括号。
(?:(?:[a-z])(?:[A-Z])){2}
断言（环视）
断言也是用来匹配表达式的一种语法，但它和其他语法的不同之处在于：断言不会去“占有“匹配的字串，而是对当前匹配字串的位置进行匹配。
※虽然断言也是匹配字串，但其匹配的是字串的位置。
其实前面学过的行定位符（^和$）和单词分界符（\b、\B）都属于断言。行定位符的作用就是匹配字串的开始位置（或结束位置），他不去匹配字串。单词分界符也是一样。它只会匹配字串的开始位置（或结束位置）是否在另一个字串当中。其他的反斜线断言和“\b“的用法是一样的。本节学习比较复杂的断言——环视。环视分顺序环视和逆序环视。
1.顺序环视
顺序环视是从左到右查看字符串，匹配字串最左边的位置。
语法：
(?=…)
来看这样两个表达式：\s(?=is)和(?=is)ister在“this is a register book“这句话中，两个表达式匹配的是什么呢？
看图：
图片待补（P121）
通过图很容易就能得出结论，这两个表达式的匹配值一个是空格（），一个是字串（ister）
2.逆序环视
从右到左查看字符串，匹配字串最右边的位置。表达式语法如下：
(?<=…)
仍以“this is a register book“为例来看两个逆序循环表达式（<=is）\sis和regis(?<=is)的匹配结果是什么，
如图（待补P122）
模式修饰符
模式修饰符的作用是设定模式。也就是规定正则表达式应该如何解释和应用。不同的语言都有自己的模式配置，PHP中的主要模式如表
修饰符表达式写法说明
i (?i)…(?-i)、(?i:…) 忽略大小写模式
M (?m)…(?-m)、(?m:…) 多文本模式，即字串内部有多个换行符时，影响”^”和”$”的匹配
S (?s)…(?-s)、(?s:…) 单文本模式。在此模式下，元字符点号(.)可以匹配换行符。其他模式则不能
x (?x)…(?-x)、(?x:…) 忽略空白字符
模式修饰符既可以写在正则表达式的外面，也可以写在表达式内。如忽略大小写模式，可以写为（双引号忽略不计）
“/tm/i”、“(?i)tm(?-i)”和“(?i:tm)”三种格式。

weiyingde · 发表于 2020-2-4 15:38

正则表达式30分钟入门教程
最重要的是——请给我30分钟，如果你没有使用正则表达式的经验，请不要试图在30秒内入门——除非你是超人
别被下面那些复杂的表达式吓倒，只要跟着我一步一步来，你会发现正则表达式其实并没有你想像中的那么困难。当然，如果你看完了这篇教程之后，发现自己明白了很多，却又几乎什么都记不得，那也是很正常的——我认为，没接触过正则表达式的人在看完这篇教程后，能把提到过的语法记住80%以上的可能性为零。这里只是让你明白基本的原理，以后你还需要多练习，多使用，才能熟练掌握正则表达式。
除了作为入门教程之外，本文还试图成为可以在日常工作中使用的正则表达式语法参考手册。就作者本人的经历来说，这个目标还是完成得不错的——你看，我自己也没能把所有的东西记下来，不是吗？
文本格式约定：专业术语元字符/语法格式正则表达式正则表达式中的一部分(用于分析)对其进行匹配的源字符串对正则表达式或其中一部分的说明
注释，主要是用来提供一些相关信息，或者给没有程序员背景的读者解释一些基本概念，通常可以忽略。
正则表达式到底是什么东西？
字符是计算机软件处理文字时最基本的单位，可能是字母，数字，标点符号，空格，换行符，汉字等等。字符串是0个或更多个字符的序列。文本也就是文字，字符串。说某个字符串匹配某个正则表达式，通常是指这个字符串里有一部分（或几部分分别）能满足表达式给出的条件。
在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码。
很可能你使用过Windows/Dos下用于文件查找的通配符(wildcard)，也就是*和。如果你想查找某个目录下的所有的Word文档的话，你会搜索*.doc。在这里，*会被解释成任意的字符串。和通配符类似，正则表达式也是用来进行文本匹配的工具，只不过比起通配符，它能更精确地描述你的需求——当然，代价就是更复杂——比如你可以编写一个正则表达式，用来查找所有以0开头，后面跟着2-3个数字，然后是一个连字号“-”，最后是7或8位数字的字符串(像010-12345678或0376-7654321)。
入门
学习正则表达式的最好方法是从例子开始，理解例子之后再自己对例子进行修改，实验。下面给出了不少简单的例子，并对它们作了详细的说明。
假设你在一篇英文小说里查找hi，你可以使用正则表达式hi。这几乎是最简单的正则表达式了，它可以精确匹配这样的字符串：由两个字符组成，前一个字符是h,后一个是i。通常，处理正则表达式的工具会提供一个忽略大小写的选项，如果选中了这个选项，它可以匹配hi,HI,Hi,hI这四种情况中的任意一种。
不幸的是，很多单词里包含hi这两个连续的字符，比如him,history,high等等。用hi来查找的话，这里边的hi也会被找出来。如果要精确地查找hi这个单词的话，我们应该使用\bhi\b。 \b是正则表达式规定的一个特殊代码（好吧，某些人叫它元字符，metacharacter），代表着单词的开头或结尾，也就是单词的分界处。虽然通常英文的单词是由空格，标点符号或者换行来分隔的，但是\b并不匹配这些单词分隔字符中的任何一个，它只匹配一个位置。
如果需要更精确的说法，\b匹配这样的位置：它的前一个字符和后一个字符不全是(一个是,一个不是或不存在)\w。
假如你要找的是hi后面不远处跟着一个Lucy，你应该用\bhi\b.*\bLucy\b。这里，.是另一个元字符，匹配除了换行符以外的任意字符。*同样是元字符，不过它代表的不是字符，也不是位置，而是数量——它指定*前边的内容可以连续重复出现任意次以使整个表达式得到匹配。因此，.*连在一起就意味着任意数量的不包含换行的字符。现在\bhi\b.*\bLucy\b的意思就很明显了：先是一个单词hi,然后是任意个任意字符(但不能是换行)，最后是Lucy这个单词。
换行符就是'\n',ASCII编码为10(十六进制0x0A)的字符。
如果同时使用其它元字符，我们就能构造出功能更强大的正则表达式。比如下面这个例子：
0\d\d-\d\d\d\d\d\d\d\d匹配这样的字符串：以0开头，然后是两个数字，然后是一个连字号“-”，最后是8个数字(也就是中国的电话号码。当然，这个例子只能匹配区号为3位的情形)。这里的\d是个新的元字符，匹配一位数字(0，或1，或2，或……)。-不是元字符，只匹配它本身——连字符或者减号。为了避免那么多烦人的重复，我们也可以这样写这个表达式：0\d{2}-\d{8}。这里\d后面的{2}({8})的意思是前面\d必须连续重复匹配2次(8次)。
测试正则表达式
其它可用的测试工具:
RegexBuddy
Javascript正则表达式在线测试工具
如果你不觉得正则表达式很难读写的话，要么你是一个天才，要么，你不是地球人。正则表达式的语法很令人头疼，即使对经常使用它的人来说也是如此。由于难于读写，容易出错，所以找一种工具对正则表达式进行测试是很有必要的。
由于在不同的环境下正则表达式的一些细节是不相同的，本教程介绍的是微软 .Net Framework 2.0下正则表达式的行为，所以，我向你介绍一个.Net下的工具Regex Tester。首先你确保已经安装了.Net Framework 2.0，然后下载Regex Tester。这是个绿色软件，下载完后打开压缩包,直接运行RegexTester.exe就可以了。

weiyingde · 发表于 2020-2-4 15:38

下面是Regex Tester运行时的截图：
元字符
现在你已经知道几个很有用的元字符了，如\b,.,*，还有\d.正则表达式里还有更多的元字符，比如\s匹配任意的空白符，包括空格，制表符(Tab)，换行符，中文全角空格等。\w匹配字母或数字或下划线或汉字等。

对中文/汉字的特殊处理是由.Net提供的正则表达式引擎支持的，其它环境下的具体情况请查看相关文档。
下面来看看更多的例子：
\ba\w*\b匹配以字母a开头的单词——先是某个单词开始处(\b)，然后是字母a,然后是任意数量的字母或数字(\w*)，最后是单词结束处(\b)。
好吧，现在我们说说正则表达式里的单词是什么意思吧：就是多于一个的连续的\w。不错，这与学习英文时要背的成千上万个同名的东西的确关系不大 :)
\d+匹配1个或更多连续的数字。这里的+是和*类似的元字符，不同的是*匹配重复任意次(可能是0次)，而+则匹配重复1次或更多次。
\b\w{6}\b 匹配刚好6个字母/数字的单词。
表1.常用的元字符
代码说明
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束
元字符^（和数字6在同一个键位上的符号）和$都匹配一个位置，这和\b有点类似。^匹配你要用来查找的字符串的开头，$匹配结尾。这两个代码在验证输入的内容时非常有用，比如一个网站如果要求你填写的QQ号必须为5位到12位数字时，可以使用：^\d{5,12}$。
这里的{5,12}和前面介绍过的{2}是类似的，只不过{2}匹配只能不多不少重复2次，{5,12}则是重复的次数不能少于5次，不能多于12次，否则都不匹配。
因为使用了^和$，所以输入的整个字符串都要用来和\d{5,12}来匹配，也就是说整个输入必须是5到12个数字，因此如果输入的QQ号能匹配这个正则表达式的话，那就符合要求了。
和忽略大小写的选项类似，有些正则表达式处理工具还有一个处理多行的选项。如果选中了这个选项，^和$的意义就变成了匹配行的开始处和结束处。
字符转义
如果你想查找元字符本身的话，比如你查找.,或者*,就出现了问题：你没办法指定它们，因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此，你应该使用\.和\*。当然，要查找\本身，你也得用\\.
例如：unibetter\.com匹配unibetter.com，C:\\Windows匹配C:\Windows。
重复
你已经看过了前面的*,+,{2},{5,12}这几个匹配重复的方式了。下面是正则表达式中所有的限定符(指定数量的代码，例如*,{5,12}等)：
表2.常用的限定符
代码/语法说明
* 重复零次或更多次
+ 重复一次或更多次
重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

weiyingde · 发表于 2020-2-4 15:39

下面是一些使用重复的例子：
Windows\d+匹配Windows后面跟1个或更多数字
^\w+匹配一行的第一个单词(或整个字符串的第一个单词，具体匹配哪个意思得看选项设置)
字符类
要想查找数字，字母或数字，空白是很简单的，因为已经有了对应这些字符集合的元字符，但是如果你想匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u),应该怎么办？
很简单，你只需要在方括号里列出它们就行了，像[aeiou]就匹配任何一个英文元音字母，[.?!]匹配标点符号(.或或!)。
我们也可以轻松地指定一个字符范围，像[0-9]代表的含意与\d就是完全一致的：一位数字；同理[a-z0-9A-Z_]也完全等同于\w（如果只考虑英文的话）。
下面是一个更复杂的表达式：\(?0\d{2}[) -]?\d{8}。
“(”和“)”也是元字符，后面的分组节里会提到，所以在这里需要使用转义。
这个表达式可以匹配几种格式的电话号码，像(010)88886666，或022-22334455，或02912345678等。我们对它进行一些分析吧：首先是一个转义字符$,它能出现0次或1次(),然后是一个0，后面跟着2个数字(\d{2})，然后是)或-或空格中的一个，它出现1次或不出现()，最后是8个数字(\d{8})。
分枝条件
不幸的是，刚才那个表达式也能匹配010)12345678或(022-87654321这样的“不正确”的格式。要解决这个问题，我们需要用到分枝条件。正则表达式里的分枝条件指的是有几种规则，如果满足其中任意一种规则都应该当成匹配，具体方法是用|把不同的规则分隔开。听不明白？没关系，看例子：
0\d{2}-\d{8}|0\d{3}-\d{7}这个表达式能匹配两种以连字号分隔的电话号码：一种是三位区号，8位本地号(如010-12345678)，一种是4位区号，7位本地号(0376-2233445)。
\(0\d{2}$[- ]?\d{8}|0\d{2}[- ]?\d{8}这个表达式匹配3位区号的电话号码，其中区号可以用小括号括起来，也可以不用，区号与本地号间可以用连字号或空格间隔，也可以没有间隔。你可以试试用分枝条件把这个表达式扩展成也支持4位区号的。
\d{5}-\d{4}|\d{5}这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字，或者用连字号间隔的9位数字。之所以要给出这个例子是因为它能说明一个问题：使用分枝条件时，要注意各个条件的顺序。如果你把它改成\d{5}|\d{5}-\d{4}的话，那么就只会匹配5位的邮编(以及9位邮编的前5位)。原因是匹配分枝条件时，将会从左到右地测试每个条件，如果满足了某个分枝的话，就不会去再管其它的条件了。
分组
我们已经提到了怎么重复单个字符（直接在字符后面加上限定符就行了）；但如果想要重复多个字符又该怎么办？你可以用小括号来指定子表达式(也叫做分组)，然后你就可以指定这个子表达式的重复次数了，你也可以对子表达式进行其它一些操作(后面会有介绍)。
(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式，请按下列顺序分析它：\d{1,3}匹配1到3位的数字，(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次，最后再加上一个一到三位的数字(\d{1,3})。
IP地址中每个数字都不能大于255，大家千万不要被《24》第三季的编剧给忽悠了...
不幸的是，它也将匹配256.300.888.999这种不可能存在的IP地址。如果能使用算术比较的话，或许能简单地解决这个问题，但是正则表达式中并不提供关于数学的任何功能，所以只能使用冗长的分组，选择，字符类来描述一个正确的IP地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。
理解这个表达式的关键是理解2[0-4]\d|25[0-5]|[01]?\d\d?，这里我就不细说了，你自己应该能分析得出来它的意义。
反义
有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外，其它任意字符都行的情况，这时需要用到反义：
表3.常用的反义代码
代码/语法说明
\W 匹配任意不是字母，数字，下划线，汉字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符

		自动登录	找回密码
密码			免费注册

[转帖] 深入浅出之正则表达式