Regular Expressions (1) ---- What is Regular Expressions?
正则表达式是常见常忘,所以还是记下来比较保险,于是就有了这篇笔记。
希望对大家会有所帮助。 J
1 . 什 么 是正 则 表达式 .............................................................................................................................................................. 2
2 . 正 则 表达式的起源 ............................................................................................................................................................. 2
3. 正 则 表达式使用 祥 解 ........................................................................................................................................................ 3
3.1 基本 语 法 .............................................................................................................................................................................. 3
3.1.1 普通字符 ..................................................................................................................................................................... 3
3.1.2 非打印字符 ................................................................................................................................................................. 3
3.1. 3 特殊字符 ..................................................................................................................................................................... 3
3.1.4 字符集 ........................................................................................................................................................................... 4
3.1.5 在字符集中使用元字符 ............................................................................................................................................. 5
3.1.6 预定义字符集 .............................................................................................................................................................. 5
3.1.7 限定符 ........................................................................................................................................................................... 6
3.1.8 定位符 ........................................................................................................................................................................... 6
3.1. 9 “.” 元字符 ...................................................................................................................................................................... 7
3.1.10 用 “|” 表示选择 .......................................................................................................................................................... 8
3.1.11 用 “ () ” 表示分组 .................................................................................................................................................. 8
3.1.12 “ ? ” 的补充说明 .......................................................................................................................................................... 8
3.1.13 给正则表达式 添加注 释 ......................................................................................................................................... 8
3.1.1 4 操作符的运算优先级 ............................................................................................................................................... 8
3.2 高 级话题 ............................................................................................................................................................................... 9
3. 2 . 1 反向引用 ..................................................................................................................................................................... 9
3. 2 . 2 在正则表达式中指定 模式 option ........................................................................................................................... 9
3.2.3 Lookaround 断言 ..................................................................................................................................................... 10
4. 正 则 表达式基本 语 法索引 ............................................................................................................................................ 11
5. 正 则 表达式高 级语 法索引 .............................................................................................................................................. 15
6 . 参考资料 ................................................................................................................................................................................. 17
7 . 推荐工具 ................................................................................................................................................................................. 17
1 . 什 么 是正 则 表达式
简单的说,正则表达式是一种可以用于文字模式匹配和替换的强有力的工具。是由一系列普通字符和特殊字符组成的能明确描述文本字符串的文字匹配模式。
正则表达式并非一门专用语言,但也可以看作是一种语言,它可以让用户通过使用一系列普通字符和特殊字符构建能明确描述文本字符串的匹配模式。除了简单描述这些模式之外,正则表达式解释引擎通常可用于遍历匹配,并使用模式作为分隔符来将字符串解析为子字符串,或以智能方式替换文本或重新设置文本格式。正则表达式为解决与文本处理有关的许多常见任务提供了有效而简捷的方式。
正则表达式具有两种标准:
· 基本的正则表达式 (BRE – Basic Regular Expressions)
· 扩展的正则表达式 (ERE – Extended Regular Expressions) 。
ERE 包括 BRE 功能和另外其它的概念。
正则表达式目前有两种解释引擎:
· 基于字符驱动 (text-directed engine)
· 基于正则表达式驱动 (regex-directed engine)
Jeffery Friedl 把它们称作 DFA 和 NFA 解释引擎。
** 约定: ** ** **
为了描述起来方便,在本文中做一些约定:
1. 本文所举例的所有表达时都是基于 NFA 解释引擎的。
2. 正则表达式,也就是匹配模式,会简写为 Regex 。
3. Regex 的匹配目标,也就是目标字符串,会简写为 String 。
4. 匹配结果用会用黄色底色标识。
5. 用 1\+1=2 括起来的表示这是一个 regex 。
6. 举例会用以下格式:
Regex
|
Target String
|
Description
---|---|---
test
|
This is a test
|
会匹配 test , test case 等
2 . 正 则 表达式的起源
正则表达式的 “ 祖先 ” 可以一直上溯至对人类神经系统如何工作的早期研究。 Warren McCulloch 和 Walter Pitts 这两位神经生理学家研究出一种数学方式来描述这些神经网络。
1956 年 , 一位叫 Stephen Kleene 的美国数学家在 McCulloch 和 Pitts 早期工作的基础上,发表了一篇标题为 “ 神经网事件的表示法 ” 的论文,引入了正则表达式的概念。正则表达式就是用来描述他称为 “ ** 正则集的代数 ** ” 的表达式,因此采用 “ 正则表达式 ” 这个术语。
随后,发现可以将这一工作应用于使用 Ken Thompson 的计算搜索算法的一些早期研究, Ken Thompson 是 Unix 的主要发明人。正则表达式的第一个实用应用程序就是 Unix 中的 qed 编辑器。从那时起直至现在正则表达式都是基于文本的编辑器和搜索工具中的一个重要部分。具有完整语法的正则表达式使用在字符的格式匹配方面上,后来被应用到熔融信息技术领域。自从那时起,正则表达式经过几个时期的发展,现在的标准已经被 ISO( 国际标准组织 ) 批准和被 Open Group 组织认定。
3. 正 则 表达式使用 祥 解
最简单的正则表达式相信大家都已熟悉并且经常使用,那就是文字字符串。特定的字符串可通过文字本身加以描述;像 test 这样的 <SPAN style="FONT-SIZE: 11pt; FONT-FAMILY: Arial; mso-fareast-font-family: SimSun; mso