利用R语言进行Ensembl ID转换为Gene name

今天在做ssGESA分析的时候发现,TCGA下载的基因ID为Ensembl ID,下载的基因集为Gene name,在做分析之前要做一下基因ID转化,代码如下:

  1. 安装需要的R包

install.packages(“tidyverse”)

  1. 导入需要的R包

library(tidyverse)

  1. 数据下载

在Xena数据库下载表达矩阵和ID对应表格

#表达矩阵下载

wget https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-KIRC.htseq_fpkm.tsv.gz

#基因ID转化列表

wget https://gdc-hub.s3.us-east-1.amazonaws.com/download/gencode.v22.annotation.gene.probeMap

4.代码展示

#表达矩阵

expr<-read.table(“TCGA-KIRC.tsv”,header=T,sep=”\t”,row.names=1)

Dingtalk_20230227122737

#ID和Gene symbol对应列表

geneann<-read.table(“gencode.v22.annotation.gene.probeMap”,header=T,sep=”\t”,row.names=1)

Dingtalk_20230227122946

#二者ID进行匹配,并添加一列gsym

expr$gsym <- geneann[rownames(expr),]$gene

#去除重复的Gene name

expr<-distinct(expr,gsym,.keep_all=T)

#将行名改为Gene name

row.names(expr)<-expr$gsym

#将添加的gsym这一列删除

expr<-slect(expr,-gsym)

#将修改的结果文件保存

write.table(expr,”TCGA-KIRC-expr.txt”,col.names=T,row.names=T,sep=”\t”)

Dingtalk_20230227123726

最终将Ensembl ID转化为gene name,有需要的可以借鉴学习,在这里需要注意的是多个Ensembl ID对应一个Gene name,小果今天的分享就到这里。