正则表达式在线转换,正则表达式在线校验
看完就懂系列之正则表达式(值得收藏)
正则表达式是很多程序员,甚至是一些有了多年经验的开发者薄弱的一项技能。大家都很多时候都会觉得正则表达式难记、难学、难用,但不可否认的是正则表达式是一项很重要的技能,所有我将学习和使用正则表达式时的关键点整理如下,供大家参考。
正则表达式(Regular Expression 或 Regex),是用于定义某种特定搜索模式的字符组合。正则表达式可用于匹配、查找和替换文本中的字符,进行输入数据的验证,查找英文单词的拼写错误等。
调试工具
下面列出了几款优秀的在线调试工具,如果你想创建或者调试正则表达式可能会需要。个人比较偏好Regex101,regex101 支持在正则表达式的不同 flavor 之间切换、解释你的正则表达式、显示匹配信息、提供常用语法参考等功能,非常强大。
Regex101
Regexr
Regexpal
在 Javascript 中,一个正则表达式以 / 开头和结尾,所以简单至 /hello regexp/ 就是一个正则表达式。
Flags(标志符或修饰符)
Flags 写在结束的/之后,可以影响整个正则表达式的匹配行为。常见的 flags 有:
Flags 可以组合使用,如:
Character Sets(字符集合)
用于匹配字符集合中的任意一个字符,常见的字符集有:
比如匹配所有的字母和数字可以写成:/[a-zA-Z0-9]/ 或者 /[a-z0-9]/i。
Quantifiers (量词)
在实际使用中,我们常常需要匹配同一类型的字符多次,比如匹配 11 位的手机号,我们不可能将 [0-9] 写 11 遍,此时我们可以使用 Quantifiers 来实现重复匹配。
Metacharacters(元字符)
在正则表达式中有一些具有特殊含义的字母,被称为元字符,简言之,元字符就是描述字符的字符,它用于对字符表达式的内容、转换及各种操作信息进行描述。
常见的元字符有:
Special Characters (特殊字符)
正则中存在一些特殊字符,它们不会按照字面意思进行匹配,而有特殊的意义,比如前文讲过用于量词的?、*、+。其他常见的特殊字符有:
Groups(分组)
Assertion(断言)
最后,推荐大家使用Fundebug,一款很好用的 BUG 监控工具~
上面罗列出了这么多正则表达式的语法和规则,可以在一定程度上帮助我们分析和理解一段正则表达式的作用,但是如何将这些规则组合并创造出有特定作用的表达式还需要我们自己多加练习,下面举几个例子来说明运用这些规则。
1. 匹配手机号码
我们先从比较简单的匹配手机号码开始。目前国内的手机号码是1(3/4/5/7/8)开头的 11 位数字,因此手机号码的正则可以分解为以下几部分:
组合起来即为 /^1[34578]\d{9}$/ 或 /^1(3|4|5|7|8)\d{9}$/,因为使用捕获括号存在性能损失,所以推荐使用第一种写法。
2. 匹配电子邮件
标准的电子邮件组成为 yourname@domain.extensionoptional-extension,
每部分的格式标准为(进行了相应的简化,主要为展示如何书写正则):
每部分的正则表达式为:
组合起来形成最后的正则表达式:/^([a-z\d._-]+)@([a-z\d-]+)\.([a-z]{2,8})(\.[a-z]{2,8})?$/;为了增加可读性可以将每部分用"()"包起来,并不要忘记起始和结束符 ^$。
有生成正则表达式的工具吗?
正则表达式可以让开放人员更加有效的操纵文本内容,在各种各样的开发中经常会遇到需要正则表达式解决的问题,比如验证邮箱,验证网址,一些小偷程序的批量替换等等。熟练的应用正则表达式可以方便于很多文本的操作,加快开发的进度。 但是正则表达式并不是一个非常简单的东西,很多时候在应用的过程中会出现一些逻辑或者非逻辑上的错误和疏漏,那么我们正式需要一些工具来辅助我们验证正则表达式的正确性。
1、txt2re (如果你不会写正则,用它可以生成你想要的正则表达式)。txt2re是一款在在线生成正则表达式的工具,你要输入你想匹配的文字,他就会将这些文字拆分到那些色块里面,然后你要进行相应的选择,其中c表示任意字符,int表示整数,year表示年等等。
2、The Regulator 是其中的佼佼者。The Regulator窗口主要分为六部分:Web Search、Regex Analyzer、SnippetsControl、表达式输入区、Match结果区、待解析文本区。比较重要的是Regex Analyzer、表达式输入区、Match结果区、待解析文本区。在默认情况下,Web Search区占了很大位置,可能需要调整一下。
3、在线测正则表达式。在线测正则表达式国内的正则表达式在线工具,界面简单,在这个页面的下面还有各式各样的正则表达式参考大全,和这则表达式实例库的链接。
4、在线正则表达式工具。在线正则表达式工具是国内另一个原创的正则表达式工具,实现了文本匹配,和替换等功能,界面简单实用,由于是中文的,所以很容易明白使用方法。
在这里推荐大家学习一下人工编写,书籍的话推荐:《正则表达式教程chm完整版》是一本详细介绍了正则表达式的电子书教程,全书共分为8个小节,详细的讲述了正则表达式的定义,各种操作符的运算优先级,全部符号解释,正则表达式匹配规则,参考文献以及相关实例等,全书简明扼要,能够很好的帮助读者们正确掌握学习好正则表达式,从而在软件编程中得到更好发挥。
正则表达式日期格式转换?
(?![0-9])([1-9])([日月])
0\1\2
分两次替换就行了,第一次都改成00月00日这种格式的,然后再进行一次替换
详解正则表达式与 NFA 的转换
NFA 是 Non-deterministic Finite state Automata 的缩写。所以先理解 NFA 之前我们先理解 DFA,也就是 deterministic Finite state Automata。
通俗的说, DFA 就是一系列状态的合集 ,关键词是 状态 !
我们先写一个关于灯泡的 DFA:
(两个圈是终态,我们把「灯泡关闭」的状态当做终态)
简单来说,NFA 就是存在着不确定状态转换的 DFA。
我们还拿灯泡的例子:
(灯泡打开的时候还有可能会坏掉)
先列出三种基本正则表达式的 NFA 图:
表示 A 与 B 的连接,NFA 图如下:
我们来画一个复杂的正则表达式与 NFA 的转换
1)首先把 a 看成 A,把 (b|c)* 看成 B就有:
2)再拆解 (b|c)*
3)最后拆解 b|c
好!我们继续学习编译原理!
正则表达式
main role="main" class="App-main" style="padding-bottom: 46px;"
首发于 Python办公自动化
无障碍 写文章
登录
article class="Post-Main Post-NormalMain" tabindex="-1" style="box-sizing: border-box; outline: none;"
header class="Post-Header" style="margin: 0px auto; width: 690px;"
第一小乔乔
进一步,是一步。一起工作进步,厨艺精进,生活美满。
22 人赞同了该文章
/header
[图片上传失败...(image-f7fc00-1650193970962)]
match()和search()都只匹配出一个符合条件的字符串,若想要所有,可以使用re.findall()
# 用[]{}判断密码是否符合要求 :密码是由数字和字母组成,并且位数是6-16位
##用split按-或者空白格分割字段
结果:['ahsb1sssa8', 'jjhd7nhs', '90nsjhf3', '4hh', 'h7', '8kjj', 'sfav']
#用sub替换符合条件的关键词, 试试马赛克脏话(想起农药不能痛骂队友的愤怒)
##练练转义
## findall返回符合表达式的子串
一、正则表达式语法
正则表达式是用匹配或者描述字符串的工具。
用处:
a.判断字符串是否满足某个条件---判断输入的字符串是否是邮箱/手机号码。是否是ip地址
b.提取满足条件的字符串
c.字符串替换
Python中通过re模块中相应的方法来支持正则表达式的匹配、查找和替换等功能
fullmatch(正则表达式字符串, 字符串) --- 判断正则表达式和字符串是否完全匹配
正则表达式字符串: 就是一个字符串,字符串中是正则表达式语法。r'正则表达式'
正则表达式中包含两个部分,一个是正则语法对应的字符,二个是普通字符
1 .(点)(匹配任意字符)
一个.只匹配一个任意字符
2 \w(匹配字母数字下划线)
一个\w匹配一个字符
3 \s(匹配任意空白字符)
空白字符: 空格、制表符(\t)、回车(换行\n)等,都输入空白字符
一个\s匹配一个空白字符
4 \d(匹配数字字符)
一个\b不会去匹配一个字符,而是单纯的检测\b出现的位置是否是单词边界
单词边界: 字符串开始和结尾、空格、换行、标点符号等,可以将两个单词隔开的字符都单词边界
6 ^(检测是否是字符串开头)
re_str = r'^\d\d\d' # 判断一个字符串是否是三个数字开头
7 $(检测是否是字符串结尾)
8 \W(匹配非字母、数字下划线)
9 \S(匹配非空白字符)
10 \D(匹配非数字字符)
11 \B(检测是否不是单词边界)
12 [] (匹配中括号中出现的任意一个字符)
一个[]匹配一个字符
[字符集] -- 匹配一个字符,这字符是字符集中的任意一个字符
例如:[abc], [\d+]
[字符1-字符2] -- 匹配一个字符,这个字符是Unicode编码值在字符1到字符2中的任意一个字符;要求字符1的编码值要小于字符2
例如:[1-9] -- 数字1到9 [a-z] -- 小写字母 [A-Z] -- 大写字母
[\u0031-\u0039] -- 数字1到9
[\u4E00-\u9fa5] -- 匹配所有的汉字
注意:-在中括号中,如果放在两个字符之间表示范围。
13 [^字符集] (匹配一个不在字符集中的任意字符)
注意:^必须放在中括号中的最前面才有效
二、正则表达式次数相关符号
from re import fullmatch
1. *(匹配0次或者多次)
字符* -- 字符出现0次或者多次
2. +(匹配一次或者多次)
3. ?(匹配0次或者1一次)
练习:写一个正则表达式,匹配所有的整数(123, -2334, +9...可以匹配的,012, -023,+0122不能匹配)
{N} -- 匹配N次
{M,N} -- 匹配M到N次
{M,} -- 至少匹配M次
{,N} -- 最多匹配N次
三、分之和分组
import re
1. |(分之)
条件1|条件2 -- 先用条件1去匹配,如果匹配成功就匹配成功。如果条件1匹配失败,用条件2去匹配。
注意:如果条件1匹配成功就不会用条件2再去匹配
能匹配成功时abc,d和aaa
'abc'+W/H/Y
2. ()(分组)
a.组合(将括号中的内容作为一个整体进行操作)
b.捕获 -- 使用带括号的正则表达式匹配成功后,只获取括号中的内容
c.重复 -- 在正则表达式中可以通过\数字来重复前面()中匹配到的结果。数字代表前第几个分组
a.组合
匹配一个字符串,以数字字母的组合出现3次
b.捕获
c.重复
3.转义符号
正则表达式中可以通过在特殊的符号前加\,来让特殊的符号没有意义
. -- 任意字符 . -- 字符.
注意:在中括号有特殊功能的符号,只代表符号本身
\不管在哪儿都需要转义
-在[]外面没有特殊功能,在[]中要表示-本身,就不要放在两个字符之间
()需要转义
四、re模块中的函数
import re
1. compile
compile(正则表达式字符串) -- 将正则表达式字符串转换成正则表达式对象
2. fullmatch和match
fullmatch(正则表达式字符串, 字符串)
-- 用正则表达式去完全匹配字符串(匹配整个字符串),返回匹配对象(SRE_Match)或者None
match(正则表达式字符串, 字符串)
-- 匹配字符串开头,返回匹配对象或者None
1.span(group=0) -- 获取匹配成功的区间(左闭右开区间)
print(result.span(0))
print(result.start(1)) # 获取匹配到的开始下标
print(result.end(1)) # 获取匹配到的结束下标后的下标
2.group(group = 0) -- 获取匹配结果
group()/group(0) -- 获取正则表达式完全匹配的结果
group(index0) -- 获取正则表达式中第group个分组匹配到的结果
3.string -- 获取被匹配的原字符串
3.search
search(正则表达式, 字符串)
-- 查找字符串中满足正则表达式的第一个字符串。返回值是匹配对象或者None
练习:使用search匹配出一个字符串中所有的数字字符串'abc34jshd8923jkshd9lkkk890k' -- 34,8923,9,890
4.findall
findall(正则表达式, 字符串) -- 获取字符串中满足正则表达式的所有的子串,返回一个列表
注意:如果正在表达式中有分组,取值的时候只取分组中匹配到的结果;
如果有多个分组,会将每个分组匹配到的结果作为一个元祖的元素
5.finditer
finditer(正则表达式, 字符串)
-- 查找所有满足正则条件的子串,返回值是迭代器,迭代器中的元素是匹配对象
6. split
split(正则表达式,字符串) -- 将字符串按照满足正则表达式条件的子串进行分割
"""
str1 = 'ahsb1sssa8-jjhd7nhs+90nsjhf3-4hhh7+8kjj-'
result = re.split(r'[-+]', str1)
print(result)
7.sub
sub(正则表达式,repl,字符串) -- 将字符串中满足正则表达式条件的子串替换成repl。返回替换后的字符串
作业
1. 写一个正则表达式判断一个字符串是否是ip地址
规则:一个ip地址由4个数字组成,每个数字之间用.连接。每个数字的大小是0-255 例如:255.189.10.37 正确 256.189.89.9 错误
2. 计算一个字符串中所有的数字的和
例如:字符串是:‘hello90abc 78sjh12.5’ 结果是90+78+12.5 = 180.5
3. 验证输入的内容只能是汉字
4. 电话号码的验证
二、不定项选择题
编辑于 2020-12-21 17:02
Python
正则表达式
赞同 22
3 条评论
分享
/article
[图片上传失败...(image-b1d3-1650193970960)]
懒人必备
[[图片上传失败...(image-645a0f-1650193970961)]
裸睡的猪发表于猪哥的Py...]( )
[# 【Python】正则表达式基础知识
正则表达式(regular expression)是一种处理字符串的工具,功能十分强大。正则表达式使用预定义的特定模式去匹配一类具有共同特征的字符串,主要用于字符串处理,可以快速,准确地完成复杂…
长弓瑾瑜]( )
[[图片上传失败...(image-c617e9-1650193970961)]
123456]( )
[# Python之正则表达式入门
前言:此文实际上是本人在慕课学习北京理工大学课程:Python网络爬虫与信息提取 一课所做的一部分笔记,是作为初学者的入门笔记,自然有许多遗漏或者疏忽,欢迎大家指出。一、正则表达式基…
热水]( )
切换为时间排序
写下你的评论...
label class="UploadPicture-wrapper" style="cursor: pointer;"/label
发布
/main
label class="Editable-languageSuggestionsInput Input-wrapper" style="position: relative; display: flex; -webkit-box-align: center; align-items: center; width: 180px; height: 34px; padding: 4px 10px; font-size: 14px; background: rgb(255, 255, 255); border: 1px solid rgb(235, 235, 235); border-radius: 3px; box-sizing: border-box; transition: background 0.2s ease 0s, border 0.2s ease 0s; cursor: pointer;"input autocomplete="off" role="combobox" aria-expanded="false" aria-autocomplete="list" aria-activedescendant="AutoComplete17-0" id="Popover16-toggle" aria-haspopup="true" aria-owns="Popover16-content" class="Input" placeholder="选择语言" value="" style="-webkit-box-flex: 1; flex: 1 1 0%; padding: 0px; overflow: hidden; font-family: inherit; font-size: inherit; font-weight: inherit; background: transparent; border: none; resize: none; color: rgb(18, 18, 18); height: 24px; line-height: 24px; cursor: inherit;"/label
如何将正则表达式转换为NFA
正则表达式转换NFA算法
基础的正则表达式:
对于正则表达式应用运算符部分构造方法:
1.符号栈,即运算的符号,其存储的为wchar_t类型,为连接,左括号,选择3种运算符。
2.NFA栈,即保存的NFA,这里因为整个计算过程都是更新一个Graph结构,所以这里的NFA栈保留的其实是当前NFA的开始和结束信息,即start和end。
3.具体的主要算法执行流程:
1.遍历输入的正则表达式,这里正则表达式的保存在CString变量中,可以通过下标访问;
2.首先初始化一张保存NFA的Graph结构,算法过程中的节点的数量不会超过正则表达式长度的2倍,所以这里直接开辟一个大小为正则表达式长度为2倍的Graph结构;
3.遇到非运算符,及正则表达式里面的转移符号的时候,这里就需要构造一个基本的NFA, 一个初始状态,一个终止状态,然后由初始状态至终止状态有一条为该转移符号的边,此时仍然需要检查正则表达式的下一个符号,如果不是运算符或者为左括号,此时应该运算栈中添加一个连接运算符,然后将构造的基本NFA添加入NFA栈中,方便以后将基本的NFA进行其他选择,重复,连接运算;
4.遇到非运算符时,需要分一下四种运算符的情况;
5.如果是运算符“)”,即右括号,此符号属于运算级最高的符号了,所以它要在符号栈中弹出所有符号运算,直到遇到“)”匹配,运算过程中根据符号栈中弹出的符号计算;
6.如果是运算符“(”,即左括号,此符号只是用来和右括号结合的,所以直接将该运算符压入符号栈中即可;
7.如果是运算符“*”,即重复符号,这个在正则表达式中运算级最高,直接进行计算,计算方法就是从NFA栈中弹出一张图,然后得到两个未分配的新节点,添加4条上面图表示的那样的边,然后重新设定NFA的start和end之后将新的NFA压入NFA栈中即可,运算后检查其后跟随的元素,如果是转移符号或者左括号,则必须要向符号栈中添加连接符号;
8.如果是运算符“+”,即选择符号,由于此符号的优先级没有连接符号高,所以此时应该弹出符号栈中优先级高于它的符号,但是“(”不参与弹出,所以这里只是弹出连接符号和自身“+”符号运算,然后将该符号压入符号栈等候计算;
9.正则表达式遍历完毕之后,需要弹出所有的符号栈进行计算,最后NFA栈中的唯一NFA就是所求的NFA;
接下来就是具体的运算的算法,这里点与点的连接通过更新Graph中相应的点的邻接链表即可;
10.连接运算,此时需要弹出NFA栈中的两个NFA,然后将其中一个的end连接至另一个的start,然后更新新的NFA的start和end,压入NFA栈中。
11.选择运算,此时需要弹出NFA栈中的两个NFA,然后Graph重新分配两个节点,作为新的NFA的start和end,然后新的start分别连接弹出的两个NFA的start,弹出的两个NFA的end分别连接新的end即构成新的NFA,压入NFA栈中。
12.闭包运算,此时需要弹出NFA栈中的一个NFA,然后Graph重新分配两个节点,作为新的NFA的start和end,然后新的start连接弹出NFA的start,弹出NFA的end连接新的end,然后添加一条新的start到新的end的一条空边和一条旧的end到旧的start的一条空边,将新的NFA压入NFA栈中。
最终的运行Graph的结果输出样式:
NFA的显示是根据上面算法生成的Graph的结构进行显示结果: