Python字符串处理：过滤字符串中的英文与符号，保留汉字

2023-09-30 20:00| 来源: 网络整理| 查看: 265

使用Python 的re模块，re模块提供了re.sub用于替换字符串中的匹配项。

1 re.sub(pattern, repl, string, count=0)

参数说明：

pattern：正则重的模式字符串

repl：被拿来替换的字符串

string：要被用于替换的原始字符串

count：模式匹配后替换的最大次数，省略则默认为0，表示替换所有的匹配

例如

import re str = "hello,world!!%[545]你好234世界。。。" str = re.sub("[A-Za-z0-9\!\%\[\]\,\。]", "", str) print(str) 输出结果：你好世界

======================================================================================================

Python正则表达式 .,[],\d,\w,\s,\S,\D,\W的用法

转自：https://blog.csdn.net/qq_34776336/article/details/81416232

下列这些都是一个代码匹配一个字符（即代码，字符一一对应才能匹配成功）

代码功能 . 匹配任意1个字符（除了\n） [ ] 匹配[ ]中列举的字符 \d 匹配数字，即0-9 \D 匹配非数字，即不是数字 \s 匹配空白，即空格，tab键 \S 匹配非空白 \w 匹配非特殊字符，即a-z、A-Z、0-9、_、汉字 \W 匹配特殊字符，即非字母、非数字、非汉字、非_

re.match是用来进行正则匹配检查的方法，若字符串匹配正则表达式，则match方法返回匹配对象（Match Object），否则返回None（注意不是空字符串""）。

匹配对象Macth Object具有group方法，用来返回字符串的匹配部分。

例子：

# 01：“.”匹配任意1个字符 result=re.match(".....","baaop") a=result.group() print(a) 结果：baaop # 02:“[]”匹配[]中列举的字符 # 字符串第一个字符只要存在于[]中就能成功匹配， # [a-zA-Z0-9_]表示可以匹配"a-z","A-Z","0-9"和"_"区间内的所有元素 result=re.match("[Aa]","Aaaaaaabbba") a=result.group() print(a) 结果：A #03:"\d"匹配数字，即0-9 result=re.match("嫦娥\d号","嫦娥9号") a=result.group() print(a) 结果：嫦娥9号 #04：“\D”匹配非数字，即不是数字 result=re.match("嫦娥\D号","嫦娥a号") a=result.group() print(a) 结果：嫦娥a号 # 05：“\s”匹配空白，即空格，tab键 result=re.match("嫦娥\s号","嫦娥号") a=result.group() print(a) 结果：嫦娥号 # 06：“\S”匹配非空白 result=re.match("嫦娥\S号","嫦娥1号") a=result.group() print(a) 结果：嫦娥1号 # 07："\w"匹配单词字符，即a-z，A-Z，0-9、_ result=re.match("嫦娥\w号","嫦娥_号") a=result.group() print(a) 结果：嫦娥_号 # 08："\W"匹配单词字符，即匹配非单词字符 result=re.match("嫦娥\W号","嫦娥￥号") a=result.group() print(a) 结果：嫦娥￥号 --------------------- 作者：LiuHuaJ 来源：CSDN 原文：https://blog.csdn.net/qq_34776336/article/details/81416232 版权声明：本文为博主原创文章，转载请附上博文链接！

【本文地址】

公司简介

联系我们