正则表达式作为特定领域里的一门编程语言,在字符串处理领域有着不可撼动的地位。通过使用正则表达式我们可以使用简单的语法实现字符串格式校验、字符串分割、字符串替换、字符串查找等复杂功能。正则表达式的出现极大的简化了对字符串复杂处理的流程。
这里对正则表达式的基本语法知识进行总结,方便大家快速掌握正则表达式。学了这些基本语法知识,99%的字符串复杂处理都不在话下,为什么不试试呢。
正则表达式的基本语法主要分为以下几个部分
1.元字符,类似于编程语言中的关键字
2.正则表达式的匹配模式
3.分组与引用
4.各种功能模式
5.各种定位锚点
6.各种元字符的转义使用
1.元字符
元字符就是指那些在正则表达式中具有特殊意义的专用字符,有点类似于编程语言中的关键字,是必须要要记住的。
1.用于匹配单个字符的元字符
. 匹配任意字符(换行除外)
\d 匹配任意数字 \D匹配任意非数字
\w 匹配任意字母数字下划线 \W 匹配任意非字母数字下划线
\s 匹配任意空白 \S匹配任意非空白符
2.用于匹配空白符的元字符
\r 回车符
\n 换行符
\f 换页符
\t 制表位
\v 垂直制表位
\s 任意空白符
3.表示数量的元字符
* 匹配0到多次
+ 匹配1到多次
? 匹配0到1次
{m} 出现m次
{m,} 至少出现m次
{m,n} 出现m到n次
4.表示匹配范围的元字符
| 或,如ab|bc 代表 ab或者bc
[...]多选一,括号中的任意单个元素
[a-z]匹配a到z之间的任意单个元素,包含a,z
[^...]取反,不能是括号中的任意单个元素
2.正则表达式的匹配模式
正则表达式主要有三种匹配模式:1.贪婪模式2.非贪婪模式3.独占模式。
贪婪模式就是尽可能的进行最长的匹配,非贪婪模式则会尽可能短的进行匹配,默认启动的是贪婪模式,要启动非贪婪模式需要在对应的量词后面加上修饰词?
ceshi* 贪婪匹配
ceshi*? 非贪婪匹配
不管是贪婪模式,还是非贪婪模式,都需要发生回溯才能完成相应的功能。但是在一些场景下,我们不需要回溯,匹配不上返回失败就好了,因此正则中还有另外一种模式,独占模式它类似贪婪匹配,但匹配过程不会发生回溯,因此在一些场合下性能会更好。
独占模式和贪婪模式很像,独占模式会尽可能多地去匹配,如果匹配失败就结束,不会进行回溯,这样的话就比较节省时间。具体的方法就是在量词后面加上加号(+)。python和Go目前不支持独占模式。
量词元字符后加+(英文加号)满足要求情况下,尽可能按照最长取匹配,不会发生回溯,匹配不上就失败。
^代表以正则开头
$代表以正则结尾
abb{1,3}ab贪婪模式
abb{1,3}?ab非贪婪模式
abb{1,3}+ab独占模式
3.分组和引用
正则表达式中通过()将一部分匹配内容整体视为一个分组,将其当成一个整体进行处理。在后续的匹配或者替换中对其进行引用。括号在正则表达式中最大的用途就是分组。
分组分为不保存子组和保存子组,保存子组是为了复用,而不保存子组只是单纯的被视为一个整体,可以提高程序的性能。括号里面使用?:来定义不保存子组
保存子组 (正则) \d{8}(\d{3})?
不保存子组 (?:正则) \d{8}(?:\d{3})?
正则表达式是通过括号的次序来对表达式进行分组的,在括号嵌套的情况下,我们可以通过左括号是第几个,来判定当前分组是第几个分组。
很多时候改变了括号的数量会影响分组的编号,因此我们可以使用命名分组对分组起一个名字,这样更容易查找,不容易出错。命名分组的格式如下
(?P<分组名>正则)
需要注意的是,刚刚提到的方式命名分组和前面一样,给这个分组分配一个编号,不过你可以使用名称,不用编号,实际上命名分组的编号已经分配好了。不过命名分组并不是所有语言都支持的。
在大部分场景下我们使用反斜杠+编号来进行分组的引用,但在部分场景下也可以使用$+编号来进行引用
\1 引用第一个分组
$1 引用第一个分组,notepad++H和JavaScript里面就是这种引用方式
正则表达式命名分组在不同语言下的引用记法不相同
查找时 替换时
.NET \k<name> ${name}
PHP (?P=name) 不支持
Python (?P=name) \g<name>
Ruby \k<name> \k<name>
4.各种功能模式
这里介绍的功能模式和匹配模式不同,针对的领域不同,这里面介绍的模式类似于正则表达式的一个个功能开关,开启了这种功能模式,正则表达式能做更多的事情。主要分为:1.不区分大小写模式2.单行匹配模式3.多行匹配模式4.注释模式。
1.不区分大小写模式
当我们把模式修饰符(?i)放在整个正则表达式前面时,就表示整个正则表达式都是不区分大小写的。
(?i)正则表达式
(?i)(dog) \1 匹配重复的dog不区分字母大小写(第一个和第二个大小写不一致也能匹配上)
((?i)dog) \1 匹配不区分大小写(第一个和第二个大小写一致)
修饰符如果在括号内,作用范围是这个括号内的正则,而不是整个正则表达式;
2.单行匹配模式
单行匹配模式,在这种模式下(.)可以匹配包括换行符的任意字符。模式修饰符为(?s)
(?s).+
需要注意的是,JavasScript不支持此模式。
3.多行模式
多行模式的作用在于,使用^和$能匹配上每行的开头或者结尾,模式修饰符号为(?m)
(?m)^the | cat$
正则中还有\A和\z(Python中是\Z)这两个元字符容易混淆,\A仅匹配整个字符串的开始,\z仅匹配整个字符串的结束。
4.注释模式
注释模式的修饰符号是(?#comment),注释模式用来注释复杂的正则表达式方便大家的理解。
(\w+)(?#word) \1(?#word show again)
5.各种定位锚点
正则表达式中的锚点用于匹配位置,而不是文本内容本身
1.单词边界
在正则表达式中我们以\b来表示单词的边界。
\bdog 以dog开头的单词
dog\b 以dog结尾的单词
\bdog\b只能是dog的单词
常用单词匹配\b\w+\b
2.行的开始和结束
通过^和$来进行行位置界定^匹配行开头,$匹配行结尾
3.环视
环视就是要求匹配部分的前面或者后面满足(或不满足)某种规则.
(?<=Y) 左边是正则表达式Y对应的字符串
(?<!=Y) 左边不是正则表达式Y对应的字符串
(?=Y) 右边是正则表达式Y对应的字符串
(?!Y) 右边不是正则表示Y对应的字符串
尖括号代表左边,没有尖括号代表右边,感叹号是非的意思。
(?<!\d)[1-9]\d{5}(?!\d)左边非数字,右边非数字,中间是以1~9开头的数字(邮政编码)
(?<=\W)\w+(?=\W)左边非字符,右边也非字符的单词
环视中虽然也有括号,但不会保存成子组。保存成子组的一般是匹配到的文本内容,后续用于替换等操作,而环视是表示对文本左右环境的要求,即环视只匹配位置,不匹配文本内容。
6.各种元字符的转义使用
在编程过程中使用字符串的时候,当转义字符放在字符序列中,它将对它后续的几个字符进行替代并解释。通常,判定某字符是否为转义字符由上下文确定。转义字符即标志着转义序列开始的那个字符。
正则表达式也是通过反斜杠进行转义的
//元字符的转义
\* \+ \? \( \) \[ \] \{ \}
字符组中需要转义的三种情况
1.脱字符在中括号中,且在第一个位置需要转义
[^ab] 转义前代表非
[\^ab] 转义后代表普通字符
2.中划线在中括号中,且不在首尾位置
[a-z]代表范围
[-ac] 开头不需要转义
[ac-]结尾不需要转义
[a\-z]中间需要转义
3.右括号在中括号中,且不在首位
[]ab] 右括号不转义,在首位
[a]b]右括号不转义,不在首位
[a\]b] 转义后代表普通字符
一般来说如果我们要想将元字符表示成它字面上本来的意思,是需要对其进行转义的,但如果它们现在字符组中栝号里,可以不转义。
在字符数组中一般单字符的元字符比如,. * + ? ( )等, 它们都不再具有特殊含义,而是代表字符本身。但如果在中括号中出现\d或\w等双符号元字符时,他们还是元字符本身的含义。
上面这六点掌握了之后,正则表达式的基本内容就掌握的差不多了。剩下的就是多多练习了,和其它编程语言的使用相同,正则表达式的学习也是熟能生巧.
下面总结了一下字符串匹配常用的正则表达式供大家参考和使用
匹配各种类型
[-+]?\d+(?:\.\d+)? 匹配正数、负数和小数
[1-9]\d*|0 匹配非负整数
-[1-9]\d*|0 匹配非正负数
-?\d+(?:\.\d+)?|\+?(?:\d+(?:\.\d+)? | \.\d+匹配浮点数
身份证号码
[1-9]\d{14}(\d\d[0-9Xx])?
邮政编码
(?<!\d)[1-9]\d{5}(?!\d)
中文字符
[\u4E00-\u9FFF]
匹配IPV4的地址
(?:1\d\d|2[0-4]\d|25[0-5]|0{0,2}\d)(?:\.(?:\.1\d\d|
|2[0-4]\d|25[0-5]|0?[1-9]\d|0{0,2}\d)){3}
匹配时间
2021-06-25
\d{4}-(?:1[0-2]|0?[1-9])-(?:[12]\d|3[01]|0?[1-9])
23:30
(?:2[0-3]|1\d|0?\d):(?:[1-5]\d|0?\d)
邮箱
[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+
很多不太懂正则的朋友,在遇到需要用正则校验数据时,往往是在网上去找很久,结果找来的还是不很符合要求。所以我最近把开发中常用的一些正则表达式整理了一下,包括校验数字、字符、一些特殊的需求等等。给自己留个底,也给朋友们做个参考。
一、校验数字的表达式
- 数字:^[0-9]*$
- n位的数字:^\d{n}$
- 至少n位的数字:^\d{n,}$
- m-n位的数字:^\d{m,n}$
- 零和非零开头的数字:^(0|[1-9][0-9]*)$
- 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$
- 带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})?$
- 正数、负数、和小数:^(\-|\+)?\d+(\.\d+)?$
- 有两位小数的正实数:^[0-9]+(.[0-9]{2})?$
- 有1~3位小数的正实数:^[0-9]+(.[0-9]{1,3})?$
- 非零的正整数:^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$
- 非零的负整数:^\-[1-9][]0-9″*$ 或 ^-[1-9]\d*$
- 非负整数:^\d+$ 或 ^[1-9]\d*|0$
- 非正整数:^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
- 非负浮点数:^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
- 非正浮点数:^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
- 正浮点数:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
- 负浮点数:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
- 浮点数:^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
二、校验字符的表达式
- 汉字:^[\u4e00-\u9fa5]{0,}$
- 英文和数字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
- 长度为3-20的所有字符:^.{3,20}$
- 由26个英文字母组成的字符串:^[A-Za-z]+$
- 由26个大写英文字母组成的字符串:^[A-Z]+$
- 由26个小写英文字母组成的字符串:^[a-z]+$
- 由数字和26个英文字母组成的字符串:^[A-Za-z0-9]+$
- 由数字、26个英文字母或者下划线组成的字符串:^\w+$ 或 ^\w{3,20}$
- 中文、英文、数字包括下划线:^[\u4E00-\u9FA5A-Za-z0-9_]+$
- 中文、英文、数字但不包括下划线等符号:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
- 可以输入含有^%&’,;=?$\”等字符:[^%&’,;=?$\x22]+
- 禁止输入含有~的字符:[^~\x22]+
三、特殊需求表达式
- Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
- 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
- InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
- 手机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
- 电话号码(“XXX-XXXXXXX”、”XXXX-XXXXXXXX”、”XXX-XXXXXXX”、”XXX-XXXXXXXX”、”XXXXXXX”和”XXXXXXXX):^($$\d{3,4}-)|\d{3.4}-)?\d{7,8}$
- 国内电话号码(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
- 身份证号(15位、18位数字):^\d{15}|\d{18}$
- 短身份证号码(数字、字母x结尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
- 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
- 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$
- 强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
- 日期格式:^\d{4}-\d{1,2}-\d{1,2}
- 一年的12个月(01~09和1~12):^(0?[1-9]|1[0-2])$
- 一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
- 钱的输入格式:
- 有四种钱的表示形式我们可以接受:”10000.00″ 和 “10,000.00″, 和没有 “分” 的 “10000″ 和 “10,000″:^[1-9][0-9]*$
- 这表示任意一个不以0开头的数字,但是,这也意味着一个字符”0″不通过,所以我们采用下面的形式:^(0|[1-9][0-9]*)$
- 一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:^(0|-?[1-9][0-9]*)$
- 这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分:^[0-9]+(.[0-9]+)?$
- 必须说明的是,小数点后面至少应该有1位数,所以”10.”是不通过的,但是 “10″ 和 “10.2″ 是通过的:^[0-9]+(.[0-9]{2})?$
- 这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$
- 这样就允许用户只写一位小数。下面我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$
- 1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$
- 备注:这就是最终结果了,别忘了”+”可以用”*”替代。如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在用函数时去掉去掉那个反斜杠,一般的错误都在这里
- xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
- 中文字符的正则表达式:[\u4e00-\u9fa5]
- 双字节字符:[^\x00-\xff] (包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))
- 空白行的正则表达式:\n\s*\r (可以用来删除空白行)
- HTML标记的正则表达式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力)
- 首尾空白字符的正则表达式:^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)
- 腾讯QQ号:[1-9][0-9]{4,} (腾讯QQ号从10000开始)
- 中国邮政编码:[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)
- IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址时有用)
- IP地址:((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)) (由@飞龙三少 提供,感谢共享)
谢谢分享
??