暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

TCGAplot在线版:输入基因,一键绘制TCGA泛癌肿瘤vs正常box图

原创 微生信 2024-07-18
276
  1. TCGA简介

TCGA(The Cancer Genome Atlas)收集了大量癌症样本的数据,涉及33种不同癌症、超过 20000个样本,包括外显子组测序、RNA 测序、microRNA 测序、拷贝数变异、蛋白质组和甲基化组,临床信息等数据,研究者可以利用各种生物信息学工具和统计方法来挖掘数据中的有用信息,推动癌症研究的进展。

2. TCGAplot简介

华科同济医院的王雄老师课题组利用TCGA数据库,开发了一个TCGA多组学数据泛癌分析和可视化R包TCGAplot[1]。用于泛癌表达以及基因表达与 TMB、MSI、TIME 和启动子甲基化之间相关性等分析。

该包整合了配对和未配对的TPM矩阵,Meta、TMB、MSI、启动子甲基化、免疫细胞比率和免疫评分等数据,极大地方便了我们进行泛癌分析,堪称泛癌分析的“神器”。

3.一键在线泛癌肿瘤vs正常box图

然而,由于R包安装与使用需要相关专业知识,受众有限。为了更好地帮助大家挖掘TCGA,我们与王老师沟通后,决定将TCGAplot R包的强大功能逐步做成在线版供大家免费使用。

今天,给大家带来的第一个函数:某个基因在肿瘤和正常样品中的表达box图。

3.1 打开作图URL

https://www.bioinformatics.com.cn/plot_tcgaplot_pan_cancer_gene_expression_tumor_vs_normal_boxplot_300

3.2 填写感兴趣的基因,选择参数并提交

将感兴趣的基因symbol粘贴到输入框,由于基因名会更新(见:坑你没商量的微信公众号文章),所以提交的基因symbol必需在所提供的genelist里边。例如这里填写基因KLF7,即Kruppel-like factor 7,它是一种转录因子,在生物体内各组织中广泛表达,并参与调控细胞的增殖、分化、再生以及肿瘤发生等重要的生理功能。

我们提供了肿瘤组的颜色和正常组的颜色,legend的位置,统计方法,字体等参数供大家选择使用。选择好参数后,点击提交按钮。

3.3 下载图片及数据

由于需要从上万个样品中调取数据并绘图,约30秒后,会出来box图和对应的数据。我们提供了pdf、svg两种矢量图,png、tiff两种标量图供大家下载使用。同时也提供了图片对应的数据供下载。

图片说明:

X轴是33种癌症,按照字母顺序排列。Y轴为log2(TPM+1)表达值。图中红色表示癌症,绿色表示正常。若某癌种没有正常样品则仅显示肿瘤样品(例如ACC)。图片最上面的一排星号表示显著性水平:*表示p<0.05, **表示p<0.01, ***表示p<0.001, ****表示p<0.0001。

这个表能放则放,不好放的话删了

缩写

英文名

中文翻译

ACC

Adrenocortical carcinoma

肾上腺皮质癌

BLCA

Bladder Urothelial Carcinoma

膀胱尿路上皮癌

BRCA

Breast invasive carcinoma

乳腺浸润癌

CESC

Cervical squamous cell carcinoma and endocervical adenocarcinoma

宫颈鳞癌和腺癌

CHOL

Cholangiocarcinoma

胆管癌

COAD

Colon adenocarcinoma

结肠癌

DLBC

Lymphoid Neoplasm Diffuse Large B-cell Lymphoma

弥漫性大B细胞淋巴瘤

ESCA

Esophageal carcinoma

食管癌

GBM

Glioblastoma multiforme

多形成性胶质细胞瘤

HNSC

Head and Neck squamous cell carcinoma

头颈鳞状细胞癌

KICH

Kidney Chromophobe

肾嫌色细胞癌

KIRC

Kidney renal clear cell carcinoma

肾透明细胞癌

KIRP

Kidney renal papillary cell carcinoma

肾乳头状细胞癌

LAML

Acute Myeloid Leukemia

急性髓细胞样白血病

LGG

Brain Lower Grade Glioma

脑低级别胶质瘤

LIHC

Liver hepatocellular carcinoma

肝细胞肝癌

LUAD

Lung adenocarcinoma

肺腺癌

LUSC

Lung squamous cell carcinoma

肺鳞癌

MESO

Mesothelioma

间皮瘤

OV

Ovarian serous cystadenocarcinoma

卵巢浆液性囊腺癌

PAAD

Pancreatic adenocarcinoma

胰腺癌

PCPG

Pheochromocytoma and Paraganglioma

嗜铬细胞瘤和副神经节瘤

PRAD

Prostate adenocarcinoma

前列腺癌

READ

Rectum adenocarcinoma

直肠腺癌

SARC

Sarcoma

肉瘤

SKCM

Skin Cutaneous Melanoma

皮肤黑色素瘤

STAD

Stomach adenocarcinoma

胃癌

TGCT

Testicular Germ Cell Tumors

睾丸癌

THCA

Thyroid carcinoma

甲状腺癌

THYM

Thymoma

胸腺癌

UCEC

Uterine Corpus Endometrial Carcinoma

子宫内膜癌

UCS

Uterine Carcinosarcoma

子宫肉瘤

UVM

Uveal Melanoma

葡萄膜黑色素瘤

数据说明:

数据包括4列:

Caseid:TCGA数据库的ID,由-分割,其中最后一个为01-09的是癌症样品,其他数字为正常样品

Cancer:肿瘤类型

Group:癌症或正常

KLF7:该基因的log2(TPM+1)值,由于存储空间及精度原因,这里仅保留了2位小数。

与其他数据库相比,TCGAplot数据库使用的数据是比较新的,在日常工作中,可以快速查看某基因在癌症中的表达情况。例如比较下NOP2基因在gepia2[2]和TCGAplot上的表达值,并通过人工下载TCGA数据,我们发现gepia2的肿瘤数据针对这个基因似乎有一定的偏差,gepia2的LAML肿瘤样品表达中位值约5.8,TCGAplot和我们自己下载的数据算出来的都约是1.7的样子,差异明显。然而针对FUCA2基因在STAD中,两者结果几乎无差异。感兴趣的小伙伴可以自己试试看。所以,我们在做科研的时候,要多方印证,做出自己的判断,尽信书则不如无书。

NOP2比较(差异明显)

FUCA2比较(几乎无差异)

参考文献:

[1] Liao C, Wang X. TCGAplot: an R package for integrative pan-cancer analysis and visualization of TCGA multi-omics data. BMC Bioinformatics. 2023 Dec 17;24(1):483. doi: 10.1186/s12859-023-05615-3. PMID: 38105215; PMCID: PMC10726608

[2] Tang Z, Li C, Kang B, Gao G, Li C, Zhang Z. GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses. Nucleic Acids Res. 2017 Jul 3;45(W1):W98-W102. doi: 10.1093/nar/gkx247. PMID: 28407145; PMCID: PMC5570223.

微生信助力高分文章,用户195000,引用3500

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论