R语言正则表达式:提取括号中的内容

您所在的位置:网站首页 文件里括号里的内容怎么理解出来呢 R语言正则表达式:提取括号中的内容

R语言正则表达式:提取括号中的内容

2024-07-15 08:21:26| 来源: 网络整理| 查看: 265

如果需要使用R语言进行文本挖掘和自然语言处理,那么字符串的操作时必不可少的,而其中一个重要内容就是使用正则表达式来匹配字符串中相应的内容,从而进行提取。在R语言中,能够完成这项工作的有基本包中的grep,stringr的str_extract等。这里首推stringr包,因为它具有更加直观的语法结构。下面给出两个较为好的资料的链接:

https://github.com/rstudio/cheatsheets/blob/master/regex.pdf ​github.com/rstudio/cheatsheets/blob/master/regex.pdf https://github.com/rstudio/cheatsheets/blob/master/strings.pdf ​github.com/rstudio/cheatsheets/blob/master/strings.pdf 这两份资料基本涵盖了大部分的应用,不过很多时候如果不够熟练,还是要经常查表才能够知道怎么做。这里就提一个实际例子:如何提取文本中括号中的字符串信息呢?

例子:字符串为"hello world (lalala)",现在想要得到里面的“lalala”。

传统思维(注意括号是保留字符,因此需要双反斜杠,即“\(”和“\)”。此外,因为要临近括号的内容,因此不能贪婪,要懒惰,所以要用“.+?”,之所以用了加号“+”(而非乘号“*”),是因为如果里面没有东西就不要提取其中的空字符“”了):

library(stringr)

string1 = “hello world (lalala)” str_extract(string1,"\(.+?\)")

[1] “(lalala)” 但是我并不想要括号,以前对正则表达式不熟悉的我,一般只能再次使用定位的方法去掉括号,也就是说:

library(tidyverse)

string1 = “hello world (lalala)”

string1 %>% str_extract("\(.+?\)") %>% str_sub(2,-2)

[1] “lalala” 嗯,这个方法用了很久了已经。感觉问题也不大,即从所得结果中再提取第二个字符到倒数第二个字符的内容,就把括号去掉了。

但事实上,本来是可以一步到位的,即:

str_extract(string1,"(?



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭