Home
>
云生信学生物信息学
>
师妹带学R语言之正则表达式

师妹带学R语言之正则表达式

2024-06-16

师妹带学R语言之正则表达式

小师妹生信果 2023-09-27 19:00:07

转自公众号：R语言学徒
http://mp.weixin.qq.com/s?__biz=Mzg5MDk3Mzg4OA==&mid=2247486583&idx=2&sn=12df1789623e461aded585efb764565f

❤️点击蓝字关注我们

大家好，很高兴和大家见面啦！今天小师妹向大家介绍R语言正则表达式的相关内容，一起来学习吧！

R语言中的正则表达式是一种强大的文本处理工具，用于匹配和操作字符串。它可以通过一系列的符号和特殊字符来定义模式，从而实现对文本的搜索、替换和提取。R语言中常用的正则表达式函数有grep、grepl、sub和gsub等。正则表达式的基本匹配符号包括`.`、`^`和`$`，字符类包括`[]`，限定符包括`*`、`+`和`?`等。此外，R语言支持特殊字符和元字符的使用，如`d`、`w`和`s`等。正则表达式在R语言中广泛应用于数据清洗、文本分析和模式匹配等任务。

正则表达式中一个重要的元字符是方括号[]。两个方括号[]标定出来的由一系列

字符组成的列表叫做字符组。

正则表达式“[Tt]he”表示无论是The还是the都符合搜索要求，举个栗子：

正则表达式”[a-z]at”表示aat、bat、cat…zat都符合搜索要求。例如：

注意：[a-z]用连字符-把a和z连起来，说的是该字符组中包含了a到z的所有小写字母，一系列字符串可以通过给出第一个字符、最后一个字符

^开头表示否定

正则表达式”at.”则表示所有长度为三个字母，前面两个字母是at的字符串都符合要求。而”at[.]”则表示只有当一个长度为三的字符串为”at.”才符合要求。比较一下这两个栗子：

大部分字符在字符组中都丧失了其特殊意义，其中只有三个元字符是例外，即^ – ]。在一个字符组中，元字符^只要不在最左边的位置，它就没有特殊意义；元字符}只要在最左边就没有特殊意义；而元字符-无论是在最左边还是在最右面都没有特殊意义。

序列符号

01

\d数字型字符 \D非数字型字符

02

\s间隔字符 \S非间隔字符

03

\w单词型字符 \W非单词型字符

“\<” 用于匹配单词左侧边界的长度为零的字符串；\> 用于匹配单词右侧边界的长度为零的字符串；\b 用于匹配单词左右两侧长度为零的字符串；\B 用于匹配不出与单词边界的长度为零的字符串；

^用于匹配每一行开头的空白字符。

$用于匹配每一行结尾的空白字符。

|表示”或”的意思

?表示其前面项目不存在或只能存在一次。例如”at[.]?”表示字符串要包含两个字母at，其后可以包含一个英文句号.。

*表示其前面的项目可以被匹配零次或更多次。

+表示其前面的项目将被匹配一次或更多次。

{n}表示其前面的项目将仅被匹配n次

{n,}表示其前面的项目将被匹配n次或更多次

以上就是本期关于正则表达式的内容了，喜欢的话记得给小师妹点个赞哦。这里小师妹还想推荐一个小工具：单细胞数据绘制小提琴图（http://www.biocloudservice.com/788/788.php），在线运行，可以使用加载的数据来实践哦。

—————–⭐️—————-

推荐阅读

R4.4.1 已安装R包列表

2024-12-31

Read More

☆☆slurm必读☆☆

2024-12-24

Read More

还在为基因组组装发愁？用MEGAHIT，只需简单几步，让你的基因组组装速度和效率成倍提升！

2024-11-21

Read More