Fusion-判断下游基因是否发生移码

罗大黑学生信 2021-10-28

2051

1. 转录本的结构

2.融合表达式的内容

3.refGene.txt 每一列解读

4.如何判断下游基因是否移码

转录本的结构

Flanking Region --- 5'-UTR --- AUG 起始密码子 --- EXON --- ...... ---  EXON ---（UAG、UGA、UAA）终止密码子 --- 3'-UTR --- Flanking Region
Flanking Region (侧翼序列) --- UTR (非编码区) --- CDS （编码区） --- UTR  (非编码区)--- Flanking Region (侧翼序列)

ORF [open reading frame]（开放阅读框）：理论上的蛋白编码区，一般是先在DNA序列中寻找起始密码子（AUG）对应的序列ATG，然后按每3个碱基一组向后延伸，一直到出现终止密码子（UAG、UGA、UAA）对应的序列。

CDS [coding sequences] （编码区）：与蛋白序列一一对应的DNA序列，并且序列中间不存在其他与蛋白无关的序列，和真实情况最接近。

CDS 与 UTR：A typical CDS starts with ATG and ends with a stop codon, it doesn't have any introns, 5'- and 3'-UTR

CDS与ORF：CDS can be a subset of an open reading frame (ORF).

UTR （Untranslated Regions）：非翻译区，是信使RNA（mRNA）分子两端的非编码片段。

5'-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至AUG起始密码子
3'-UTR从编码区末端的终止密码子延伸至多聚A尾巴（Poly-A）的前端

融合表达式的内容

ETV6:NM_001987.4:exon4-NTRK3:NM_001012338.2:exon12

基因融合的基本描述方式为：

Gene name 1 {Accession number 1 }: r. _ Gene name 2{ Accession number 2 } : r.

Gene name：基因

Accession number：Genebank对应的转录本编号

:：冒号用于区分基因ID和位置信息

r.：基于RNA水平的位置描述

-：区分前后两个断点

详细参照：https://cancer.sanger.ac.uk/cosmic/help#types_tab_content

refGene.txt 每一列解读

'bin' '''name', 'chrom', 'strand', 'txStart', 'txEnd', 'cdsStart', 'cdsEnd', 'exonCount', 'exonStarts', 'exonEnds', 'score', 'name2', 'cdsStartStat', 'cdsEndStat', 'exonFrames'
666 NM_001385641.1  chr1    +       859302  879954  859811  879533  14      859302,861301,865534,866418,871151,874419,874654,876523,877515,877789,877938,878632,879077,879287,      860328,861393,865716,866469,871276,874509,874792,876686,877631,877868,878438,878757,879188,879954,      0       SAMD11  cmpl    cmpl    0,1,0,2,2,1,1,1,2,1,2,1,0,0,
## bin  转录本  染色体  链（+/-） 转录本起始位置 转录本终止位置 cds编码区起始位置 cds编码区的终止位置 外显子个数 外显子起始位置，外显子终止位置

field	example	SQL type	info	description
bin	585	smallint(5) unsigned	range	Indexing field to speed chromosome range queries.
name	NR_046018.2	varchar(255)	values	Name of gene (usually transcript_id from GTF)
chrom	chr1	varchar(255)	values	Reference sequence chromosome or scaffold
strand	+	char(1)	values	+ or - for strand
txStart	11873	int(10) unsigned	range	Transcription start position (or end position for minus strand item)
txEnd	14409	int(10) unsigned	range	Transcription end position (or start position for minus strand item)
cdsStart	14409	int(10) unsigned	range	Coding region start (or end position for minus strand item)
cdsEnd	14409	int(10) unsigned	range	Coding region end (or start position for minus strand item)
exonCount	3	int(10) unsigned	range	Number of exons
exonStarts	11873,12612,13220,	longblob		Exon start positions (or end positions for minus strand item)
exonEnds	12227,12721,14409,	longblob		Exon end positions (or start positions for minus strand item)
score	0	int(11)	range	score
name2	DDX11L1	varchar(255)	values	Alternate name (e.g. gene_id from GTF)
cdsStartStat	none	enum('none', 'unk', 'incmpl', 'cmpl')	values	Status of CDS start annotation (none, unknown, incomplete, or complete)
cdsEndStat	none	enum('none', 'unk', 'incmpl', 'cmpl')	values	Status of CDS end annotation (none, unknown, incomplete, or complete)
exonFrames	-1,-1,-1,	longblob		Exon frame {0,1,2}, or -1 if no frame for exon

如何判断下游基因是否移码

问题：基因融合判断下游基因是否移码？

解决思路：cds 长度求余 - 能被3整除为inframe 。

分两步：

第一步，对上游融合基因进行分析（注意断裂点在3’端） --- ETV6:NM_001987.4:exon4

a. 明确基因外显子在基因组的方向；

+ ：5‘ -> 3' exon1 - exon2 -... exonN

- : 3' <- 5' exonN - ... -exon2 - exon1

b. 计算转录本对应的exon 的csd 长度，并除以3,求余。（3个相邻的核苷酸组成的信使核糖核酸(mRNA)基本编码单位）；

如上计算：（ exon1 cds 长度 + exon2 cds 长度）/3

c. 求余结果的解释。

0：刚形成密码子，完整的阅读框（ORF）；

1：多余1个碱基，需要再补充2个碱基才能形成完整的阅读框（ORF）

2：多余2个碱基，需要再补充1个碱基才能形成完整的阅读框（ORF）

第二步，对下游融合基因进行分析（注意断裂点在5’端）---NTRK3:NM_001012338.2:exon12

a. 明确基因外显子在基因组的方向；

+ ：5‘ -> 3' exon1 - exon2 -... exonN

- : 3' <- 5' exonN - ... -exon2 - exon1

b. 计算转录本对应的exon 的csd 长度，并除以3,求余。（3个相邻的核苷酸组成的信使核糖核酸(mRNA)基本编码单位）；

如上计算：（exon5 cds 长度 + exon6 cds 长度 + exon7 cds 长度 + exon8 cds 长度）/3

c. 求余结果的解释。

0：刚形成密码子，完整的阅读框（ORF）；

1：多余1个碱基，需要再补充2个碱基才能形成完整的阅读框（ORF）

2：多余2个碱基，需要再补充1个碱基才能形成完整的阅读框（ORF）

第三步，合并上下游的求余结果，再求余。

实现（代码内容比较多，上传至github）：

( isFrameshift ) github : https://github.com/JinYang-Law/bioScript.git

参考：

一文教你找启动子：http://www.360doc.com/content/17/0729/19/45873761_675181072.shtml

refGene 格式说明: http://genome.ucsc.edu/cgi-bin/hgTables

数据库

文章转载自罗大黑学生信，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

Fusion-判断下游基因是否发生移码

评论