R语言正则表达式：提取括号中的内容

2024-07-13 00:48| 来源: 网络整理| 查看: 265

如果需要使用R语言进行文本挖掘和自然语言处理，那么字符串的操作时必不可少的，而其中一个重要内容就是使用正则表达式来匹配字符串中相应的内容，从而进行提取。在R语言中，能够完成这项工作的有基本包中的grep，stringr的str_extract等。这里首推stringr包，因为它具有更加直观的语法结构。下面给出两个较为好的资料的链接：

https://github.com/rstudio/cheatsheets/blob/master/regex.pdf github.com/rstudio/cheatsheets/blob/master/regex.pdf https://github.com/rstudio/cheatsheets/blob/master/strings.pdf github.com/rstudio/cheatsheets/blob/master/strings.pdf 这两份资料基本涵盖了大部分的应用，不过很多时候如果不够熟练，还是要经常查表才能够知道怎么做。这里就提一个实际例子：如何提取文本中括号中的字符串信息呢？

例子：字符串为"hello world (lalala)"，现在想要得到里面的“lalala”。

传统思维（注意括号是保留字符，因此需要双反斜杠，即“\(”和“\)”。此外，因为要临近括号的内容，因此不能贪婪，要懒惰，所以要用“.+?”，之所以用了加号“+”（而非乘号“*”），是因为如果里面没有东西就不要提取其中的空字符“”了）：

library(stringr)

string1 = “hello world (lalala)” str_extract(string1,"\(.+?\)")

[1] “(lalala)” 但是我并不想要括号，以前对正则表达式不熟悉的我，一般只能再次使用定位的方法去掉括号，也就是说：

library(tidyverse)

string1 = “hello world (lalala)”

string1 %>% str_extract("\(.+?\)") %>% str_sub(2,-2)

[1] “lalala” 嗯，这个方法用了很久了已经。感觉问题也不大，即从所得结果中再提取第二个字符到倒数第二个字符的内容，就把括号去掉了。

但事实上，本来是可以一步到位的，即：

str_extract(string1,"(?

【本文地址】

公司简介

联系我们