正则表达式最少必要知识一文搞定

正则表达式作为特定领域里的一门编程语言,在字符串处理领域有着不可撼动的地位。通过使用正则表达式我们可以使用简单的语法实现字符串格式校验、字符串分割、字符串替换、字符串查找等复杂功能。正则表达式的出现极大的简化了对字符串复杂处理的流程。

这里对正则表达式的基本语法知识进行总结,方便大家快速掌握正则表达式。学了这些基本语法知识,99%的字符串复杂处理都不在话下,为什么不试试呢。

正则表达式的基本语法主要分为以下几个部分
1.元字符,类似于编程语言中的关键字
2.正则表达式的匹配模式
3.分组与引用
4.各种功能模式
5.各种定位锚点
6.各种元字符的转义使用

1.元字符

元字符就是指那些在正则表达式中具有特殊意义的专用字符,有点类似于编程语言中的关键字,是必须要要记住的。

1.用于匹配单个字符的元字符

. 匹配任意字符(换行除外)
\d 匹配任意数字  \D匹配任意非数字
\w 匹配任意字母数字下划线 \W 匹配任意非字母数字下划线
\s 匹配任意空白   \S匹配任意非空白符

2.用于匹配空白符的元字符

\r 回车符
\n 换行符
\f 换页符
\t 制表位
\v 垂直制表位
\s 任意空白符

3.表示数量的元字符

* 匹配0到多次
+ 匹配1到多次
? 匹配0到1次
{m} 出现m次
{m,} 至少出现m次
{m,n} 出现m到n次

4.表示匹配范围的元字符

| 或,如ab|bc 代表 ab或者bc
[...]多选一,括号中的任意单个元素
[a-z]匹配a到z之间的任意单个元素,包含a,z
[^...]取反,不能是括号中的任意单个元素

2.正则表达式的匹配模式

正则表达式主要有三种匹配模式:1.贪婪模式2.非贪婪模式3.独占模式。
贪婪模式就是尽可能的进行最长的匹配,非贪婪模式则会尽可能短的进行匹配,默认启动的是贪婪模式,要启动非贪婪模式需要在对应的量词后面加上修饰词?

ceshi*    贪婪匹配
ceshi*?   非贪婪匹配

不管是贪婪模式,还是非贪婪模式,都需要发生回溯才能完成相应的功能。但是在一些场景下,我们不需要回溯,匹配不上返回失败就好了,因此正则中还有另外一种模式,独占模式它类似贪婪匹配,但匹配过程不会发生回溯,因此在一些场合下性能会更好。

独占模式和贪婪模式很像,独占模式会尽可能多地去匹配,如果匹配失败就结束,不会进行回溯,这样的话就比较节省时间。具体的方法就是在量词后面加上加号(+)。python和Go目前不支持独占模式。

量词元字符后加+(英文加号)满足要求情况下,尽可能按照最长取匹配,不会发生回溯,匹配不上就失败。

^代表以正则开头
$代表以正则结尾

abb{1,3}ab贪婪模式
abb{1,3}?ab非贪婪模式
abb{1,3}+ab独占模式

3.分组和引用

正则表达式中通过()将一部分匹配内容整体视为一个分组,将其当成一个整体进行处理。在后续的匹配或者替换中对其进行引用。括号在正则表达式中最大的用途就是分组。

分组分为不保存子组和保存子组,保存子组是为了复用,而不保存子组只是单纯的被视为一个整体,可以提高程序的性能。括号里面使用?:来定义不保存子组

保存子组  (正则)        \d{8}(\d{3})?
不保存子组 (?:正则)     \d{8}(?:\d{3})?

正则表达式是通过括号的次序来对表达式进行分组的,在括号嵌套的情况下,我们可以通过左括号是第几个,来判定当前分组是第几个分组。

很多时候改变了括号的数量会影响分组的编号,因此我们可以使用命名分组对分组起一个名字,这样更容易查找,不容易出错。命名分组的格式如下

(?P<分组名>正则)

需要注意的是,刚刚提到的方式命名分组和前面一样,给这个分组分配一个编号,不过你可以使用名称,不用编号,实际上命名分组的编号已经分配好了。不过命名分组并不是所有语言都支持的。

在大部分场景下我们使用反斜杠+编号来进行分组的引用,但在部分场景下也可以使用$+编号来进行引用

\1 引用第一个分组
$1 引用第一个分组,notepad++H和JavaScript里面就是这种引用方式

正则表达式命名分组在不同语言下的引用记法不相同

        查找时         替换时
.NET   \k<name>      ${name}
PHP    (?P=name)      不支持
Python (?P=name)     \g<name>
Ruby   \k<name>      \k<name>

4.各种功能模式

这里介绍的功能模式和匹配模式不同,针对的领域不同,这里面介绍的模式类似于正则表达式的一个个功能开关,开启了这种功能模式,正则表达式能做更多的事情。主要分为:1.不区分大小写模式2.单行匹配模式3.多行匹配模式4.注释模式。

1.不区分大小写模式
当我们把模式修饰符(?i)放在整个正则表达式前面时,就表示整个正则表达式都是不区分大小写的。

(?i)正则表达式

(?i)(dog) \1  匹配重复的dog不区分字母大小写(第一个和第二个大小写不一致也能匹配上)
((?i)dog) \1 匹配不区分大小写(第一个和第二个大小写一致)

修饰符如果在括号内,作用范围是这个括号内的正则,而不是整个正则表达式;

2.单行匹配模式
单行匹配模式,在这种模式下(.)可以匹配包括换行符的任意字符。模式修饰符为(?s)

(?s).+

需要注意的是,JavasScript不支持此模式。

3.多行模式
多行模式的作用在于,使用^和$能匹配上每行的开头或者结尾,模式修饰符号为(?m)

(?m)^the | cat$

正则中还有\A和\z(Python中是\Z)这两个元字符容易混淆,\A仅匹配整个字符串的开始,\z仅匹配整个字符串的结束。

4.注释模式
注释模式的修饰符号是(?#comment),注释模式用来注释复杂的正则表达式方便大家的理解。

(\w+)(?#word) \1(?#word show again)

5.各种定位锚点

正则表达式中的锚点用于匹配位置,而不是文本内容本身

1.单词边界
在正则表达式中我们以\b来表示单词的边界。

\bdog 以dog开头的单词
dog\b 以dog结尾的单词
\bdog\b只能是dog的单词
常用单词匹配\b\w+\b

2.行的开始和结束
通过^和$来进行行位置界定^匹配行开头,$匹配行结尾

3.环视
环视就是要求匹配部分的前面或者后面满足(或不满足)某种规则.

(?<=Y)   左边是正则表达式Y对应的字符串
(?<!=Y)  左边不是正则表达式Y对应的字符串
(?=Y)    右边是正则表达式Y对应的字符串
(?!Y)    右边不是正则表示Y对应的字符串

尖括号代表左边,没有尖括号代表右边,感叹号是非的意思。

(?<!\d)[1-9]\d{5}(?!\d)左边非数字,右边非数字,中间是以1~9开头的数字(邮政编码)
(?<=\W)\w+(?=\W)左边非字符,右边也非字符的单词

环视中虽然也有括号,但不会保存成子组。保存成子组的一般是匹配到的文本内容,后续用于替换等操作,而环视是表示对文本左右环境的要求,即环视只匹配位置,不匹配文本内容。

6.各种元字符的转义使用

在编程过程中使用字符串的时候,当转义字符放在字符序列中,它将对它后续的几个字符进行替代并解释。通常,判定某字符是否为转义字符由上下文确定。转义字符即标志着转义序列开始的那个字符。

正则表达式也是通过反斜杠进行转义的

//元字符的转义
\*  \+  \?  \(  \)  \[ \] \{ \}

字符组中需要转义的三种情况
1.脱字符在中括号中,且在第一个位置需要转义

[^ab] 转义前代表非
[\^ab] 转义后代表普通字符

2.中划线在中括号中,且不在首尾位置

[a-z]代表范围
[-ac] 开头不需要转义
[ac-]结尾不需要转义
[a\-z]中间需要转义

3.右括号在中括号中,且不在首位

[]ab] 右括号不转义,在首位
[a]b]右括号不转义,不在首位
[a\]b] 转义后代表普通字符

一般来说如果我们要想将元字符表示成它字面上本来的意思,是需要对其进行转义的,但如果它们现在字符组中栝号里,可以不转义。

在字符数组中一般单字符的元字符比如,. * + ? ( )等, 它们都不再具有特殊含义,而是代表字符本身。但如果在中括号中出现\d或\w等双符号元字符时,他们还是元字符本身的含义。

上面这六点掌握了之后,正则表达式的基本内容就掌握的差不多了。剩下的就是多多练习了,和其它编程语言的使用相同,正则表达式的学习也是熟能生巧.

下面总结了一下字符串匹配常用的正则表达式供大家参考和使用

匹配各种类型

[-+]?\d+(?:\.\d+)?   匹配正数、负数和小数
[1-9]\d*|0  匹配非负整数
-[1-9]\d*|0 匹配非正负数
-?\d+(?:\.\d+)?|\+?(?:\d+(?:\.\d+)? | \.\d+匹配浮点数

身份证号码

[1-9]\d{14}(\d\d[0-9Xx])?

邮政编码

(?<!\d)[1-9]\d{5}(?!\d)

中文字符

[\u4E00-\u9FFF]

匹配IPV4的地址

(?:1\d\d|2[0-4]\d|25[0-5]|0{0,2}\d)(?:\.(?:\.1\d\d|
|2[0-4]\d|25[0-5]|0?[1-9]\d|0{0,2}\d)){3}

匹配时间

2021-06-25
\d{4}-(?:1[0-2]|0?[1-9])-(?:[12]\d|3[01]|0?[1-9])
23:30
(?:2[0-3]|1\d|0?\d):(?:[1-5]\d|0?\d)

邮箱

[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+

 

很多不太懂正则的朋友,在遇到需要用正则校验数据时,往往是在网上去找很久,结果找来的还是不很符合要求。所以我最近把开发中常用的一些正则表达式整理了一下,包括校验数字、字符、一些特殊的需求等等。给自己留个底,也给朋友们做个参考。

一、校验数字的表达式

  • 数字:^[0-9]*$
  • n位的数字:^\d{n}$
  • 至少n位的数字:^\d{n,}$
  • m-n位的数字:^\d{m,n}$
  • 零和非零开头的数字:^(0|[1-9][0-9]*)$
  • 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$
  • 带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})?$
  • 正数、负数、和小数:^(\-|\+)?\d+(\.\d+)?$
  • 有两位小数的正实数:^[0-9]+(.[0-9]{2})?$
  • 有1~3位小数的正实数:^[0-9]+(.[0-9]{1,3})?$
  • 非零的正整数:^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$
  • 非零的负整数:^\-[1-9][]0-9″*$ 或 ^-[1-9]\d*$
  • 非负整数:^\d+$ 或 ^[1-9]\d*|0$
  • 非正整数:^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
  • 非负浮点数:^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
  • 非正浮点数:^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
  • 正浮点数:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
  • 负浮点数:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
  • 浮点数:^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$

二、校验字符的表达式

  • 汉字:^[\u4e00-\u9fa5]{0,}$
  • 英文和数字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
  • 长度为3-20的所有字符:^.{3,20}$
  • 由26个英文字母组成的字符串:^[A-Za-z]+$
  • 由26个大写英文字母组成的字符串:^[A-Z]+$
  • 由26个小写英文字母组成的字符串:^[a-z]+$
  • 由数字和26个英文字母组成的字符串:^[A-Za-z0-9]+$
  • 由数字、26个英文字母或者下划线组成的字符串:^\w+$ 或 ^\w{3,20}$
  • 中文、英文、数字包括下划线:^[\u4E00-\u9FA5A-Za-z0-9_]+$
  • 中文、英文、数字但不包括下划线等符号:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
  • 可以输入含有^%&’,;=?$\”等字符:[^%&’,;=?$\x22]+
  • 禁止输入含有~的字符:[^~\x22]+

三、特殊需求表达式

  • Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
  • 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
  • InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
  • 手机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
  • 电话号码(“XXX-XXXXXXX”、”XXXX-XXXXXXXX”、”XXX-XXXXXXX”、”XXX-XXXXXXXX”、”XXXXXXX”和”XXXXXXXX):^($$\d{3,4}-)|\d{3.4}-)?\d{7,8}$
  • 国内电话号码(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
  • 身份证号(15位、18位数字):^\d{15}|\d{18}$
  • 短身份证号码(数字、字母x结尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
  • 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
  • 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$
  • 强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
  • 日期格式:^\d{4}-\d{1,2}-\d{1,2}
  • 一年的12个月(01~09和1~12):^(0?[1-9]|1[0-2])$
  • 一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
  • 钱的输入格式:
    • 有四种钱的表示形式我们可以接受:”10000.00″ 和 “10,000.00″, 和没有 “分” 的 “10000″ 和 “10,000″:^[1-9][0-9]*$
    • 这表示任意一个不以0开头的数字,但是,这也意味着一个字符”0″不通过,所以我们采用下面的形式:^(0|[1-9][0-9]*)$
    • 一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:^(0|-?[1-9][0-9]*)$
    • 这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分:^[0-9]+(.[0-9]+)?$
    • 必须说明的是,小数点后面至少应该有1位数,所以”10.”是不通过的,但是 “10″ 和 “10.2″ 是通过的:^[0-9]+(.[0-9]{2})?$
    • 这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$
    • 这样就允许用户只写一位小数。下面我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$
    • 1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$
    • 备注:这就是最终结果了,别忘了”+”可以用”*”替代。如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在用函数时去掉去掉那个反斜杠,一般的错误都在这里
  • xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
  • 中文字符的正则表达式:[\u4e00-\u9fa5]
  • 双字节字符:[^\x00-\xff] (包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))
  • 空白行的正则表达式:\n\s*\r (可以用来删除空白行)
  • HTML标记的正则表达式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力)
  • 首尾空白字符的正则表达式:^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)
  • 腾讯QQ号:[1-9][0-9]{4,} (腾讯QQ号从10000开始)
  • 中国邮政编码:[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)
  • IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址时有用)
  • IP地址:((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)) (由@飞龙三少 提供,感谢共享)

 

 

给TA捐赠
共{{data.count}}人
人已捐赠
其他教程

【学习】V1类demo

2021-11-14 16:05:35

其他教程

指定窗口不会被最小化和窗口坐标归位

2021-11-24 8:58:45

2 条回复 A文章作者 M管理员
  1. 你好肠粉

    ??

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索