正则表达式中的*,+,?以及\w和\W的区别等常见问题的总结 您所在的位置:网站首页 php表达式的定义是什么意思 正则表达式中的*,+,?以及\w和\W的区别等常见问题的总结

正则表达式中的*,+,?以及\w和\W的区别等常见问题的总结

2024-07-14 01:24| 来源: 网络整理| 查看: 265

在学习《机器学习实战》时,遇到书中第64页的切分文本部分,涉及到利用正则表达式切分句子的函数split(),刚开始的时候把\w和\W弄混了,所以有点不太理解。通过一些资料了查询,总结一下关于*,+,?的用法,以及\w和\W的区别等问题。

一、切分字符串 (1)用字符串切分: >>> 'a b   c'.split(' ')            ['a', 'b', '', '', 'c'] (2)用正则表达式试试: >>> re.split(r'\s+', 'a b   c') ['a', 'b', 'c'] 无论多少个空格都可以正常分割。加入,试试: >>> re.split(r'[\s\,]+', 'a,b, c  d') ['a', 'b', 'c', 'd'] 再加入;试试: >>> re.split(r'[\s\,\;]+', 'a,b;; c  d') ['a', 'b', 'c', 'd']

二、compile()和split()的合用

1、re.compile(pattern, flags=0)

编译正则表达式,返回RegexObject对象,然后可以通过RegexObject对象调用match()和search()方法。 prog = re.compile(pattern)   ,result = prog.match(string)

和 result = re.match(pattern, string)是等价的。

其中第一种方法能实现正则表达式的重用。

2、re.split(pattern, string, maxsplit=0)

通过正则表达式将字符串分离。如果用括号将正则表达式括起来,那么匹配的字符串也会被列入到list中返回。maxsplit是分离的次数,maxsplit=1分离一次,默认为0,不限制次数。

>>> re.split('\W+', 'Words, words, words.')  ['Words', 'words', 'words', '']  >>> re.split('(\W+)', 'Words, words, words.')  ['Words', ', ', 'words', ', ', 'words', '.', '']  >>> re.split('\W+', 'Words, words, words.', 1)  ['Words', 'words, words.']  >>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)

三、正则表达式中的*,+,?以及\w和\W的区别等问题

正则表达式的形式一般如下:

/love/ 其中位于“/”定界符之间的部分就是将要在目标对象中进行匹配的模式。用户只要把希望查找匹配对象的模式内容放入“/”定界符之间即可。为了能够使用户更加灵活的定制模式内容,正则表达式提供了专门的“元字符”。所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。 

较为常用的元字符包括: “+”, “*”,以及 “?”。 

“+”元字符规定其前导字符必须在目标对象中连续出现一次或多次。 

“*”元字符规定其前导字符必须在目标对象中出现零次或连续多次。

  “?”元字符规定其前导对象必须在目标对象中连续出现零次或一次。

 下面,就让我们来看一下正则表达式元字符的具体应用:

/fo+/ 因为上述正则表达式中包含“+”元字符,表示可以与目标对象中的 “fool”, “fo”, 或者 “football”等在字母f后面连续出现一个或多个字母o的字符串相匹配。 

/eg*/ 因为上述正则表达式中包含“*”元字符,表示可以与目标对象中的 “easy”, “ego”, 或者 “egg”等在字母e后面连续出现零个或多个字母g的字符串相匹配。 

/Wil?/ 因为上述正则表达式中包含“?”元字符,表示可以与目标对象中的 “Win”, 或者“Wilson”,等在字母i后面连续出现零个或一个字母l的字符串相匹配。

有时候不知道要匹配多少字符。为了能适应这种不确定性,正则表达式支持限定符的概念。这些限定符可以指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。

{n} n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。 

{n,} n 是一个非负整数。至少匹配 n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。 

{n,m} m 和 n 均为非负整数,其中n



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有