原文地址:http://jliblog.com/archives/28
R 中的grep、grepl、sub、gsub、regexpr、gregexpr
等函数都使用正则表达式的规则进行匹配。默认是egrep
的规则,也可以选用 Perl 语言的规则。在这里,我们以 R 中的sub
函数为例(因为该函数可以返回替换字符串后的具体内容)介绍正则表达式的用法。
对该函数的逻辑参数都使用默认值(ignore.case = FALSE
,表示大小写敏感;extended = TRUE
,表示使用egrep规则;perl
= FALSE
,表示不使用Perl规则;fixed = FALSE
,表示不使用精确匹配;useBytes = FALSE
,表示按字符匹配)。另外三个中,pattern
为字符串表示正则表达式,replacement
也是字符串表示替换的内容,x
为字符型向量表示被替换的字符向量。该函数会根据pattern
的规则对x
中各元素进行搜索,遇到符合条件的第一个子字符串的位置(gsub
是替换所有符合条件的),用replacement
替换该子字符串,返回替换后的结果,和x
的结构相同。为了清晰地介绍例子,我们对replacement
统一赋值为“”
,相当于去掉搜寻出来的子字符串。例如sub("a","",c("abcd","dcba"))
,将向量中的两个字符串中的a
都去掉了,返回[1]
"bcd" "dcb"
。该例中的"a"
只是一个字符,并不是正则表达式,真正的正则表达式依靠元字符进行灵活的匹配。
“^”
匹配一个字符串的开始,比如sub("^a","",c("abcd","dcba"))
,表示将开头为a
的字符串中的a
替换成空,在返回值中可以发现后面出现的a
并没有被替换。如果要将开头的一个字符串替换,简单地写成“^ab”
就行。
“$”
匹配一个字符串的结尾,比如sub("a$","",c("abcd","dcba"))
表示将以a
结尾的字符串中的a
替换成空
。"."
表示除了换行符以外的任一字符,比如sub("a.c","",c("abcd","sdacd"))
。“*”
表示将其前的字符进行0个或多个的匹配,比如sub("a*b","",c("aabcd","dcaaaba"))
。类似地,“?”
匹配0或1个正好在它之前的那个字符,“+”
匹配1或多个正好在它之前的那个字符。“.*”
可以匹配任意字符,比如sub("a.*e","",c("abcde","edcba"))
。
“|”
表示逻辑的或,比如sub("ab|ba","",c("abcd","dcba"))
,可以替换ab
或者ba
。“^”
还可以表示逻辑的补集,需要写在“[]”
中,比如sub("[^ab]","",c("abcd","dcba"))
,由于sub
只替换搜寻到的第一个,因此这个例子中用gsub
效果更好。
“[]”
还可以用来匹配多个字符,如果不使用任何分隔符号,则搜寻这个集合,比如在sub("[ab]","",c("abcd","dcba"))
中,和"a|b"
效果一样。“[-]”
的形式可以匹配一个范围,比如sub("[a-c]","",c("abcde","edcba"))
匹配从a
到c
的字符,sub("[1-9]","",c("ab001","001ab"))
匹配从1
到9
的数字。
以上是最基础的正则表达式元字符,在一些正则表达式的书籍和资料中有非常详细的介绍。最后需要提一下的是“贪婪”和“懒惰”的匹配规则。默认情况下是匹配尽可能多的字符,是为贪婪匹配,比如sub("a.*b","",c("aabab","eabbe"))
,默认匹配最长的a
开头b
结尾的字串,也就是整个字符串。如果要进行懒惰匹配,也就是匹配最短的字串,只需要在后面加个“?”
,比如sub("a.*?b","",c("aabab","eabbe"))
,就会匹配最开始找到的最短的a
开头b
结尾的字串。