目录
1. 转录本的结构
2.融合表达式的内容
3.refGene.txt 每一列解读
4.如何判断下游基因是否移码
转录本的结构
Flanking Region --- 5'-UTR --- AUG 起始密码子 --- EXON --- ...... --- EXON ---(UAG、UGA、UAA)终止密码子 --- 3'-UTR --- Flanking RegionFlanking Region (侧翼序列) --- UTR (非编码区) --- CDS (编码区) --- UTR (非编码区)--- Flanking Region (侧翼序列)

ORF [open reading frame](开放阅读框):理论上的蛋白编码区,一般是先在DNA序列中寻找起始密码子(AUG)对应的序列ATG,然后按每3个碱基一组向后延伸,一直到出现终止密码子(UAG、UGA、UAA)对应的序列。
CDS [coding sequences] (编码区):与蛋白序列一一对应的DNA序列,并且序列中间不存在其他与蛋白无关的序列,和真实情况最接近。
CDS 与 UTR:A typical CDS starts with ATG and ends with a stop codon, it doesn't have any introns, 5'- and 3'-UTR
CDS与ORF:CDS can be a subset of an open reading frame (ORF).
UTR (Untranslated Regions):非翻译区,是信使RNA(mRNA)分子两端的非编码片段。
5'-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至AUG起始密码子
3'-UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)的前端
融合表达式的内容
ETV6:NM_001987.4:exon4-NTRK3:NM_001012338.2:exon12
基因融合的基本描述方式为:
Gene name 1 {Accession number 1 }: r. _ Gene name 2{ Accession number 2 } : r.
Gene name:基因
Accession number:Genebank对应的转录本编号
::冒号用于区分基因ID和位置信息
r.:基于RNA水平的位置描述
-:区分前后两个断点
详细参照 :https://cancer.sanger.ac.uk/cosmic/help#types_tab_content
refGene.txt 每一列解读
'bin' '''name', 'chrom', 'strand', 'txStart', 'txEnd', 'cdsStart', 'cdsEnd', 'exonCount', 'exonStarts', 'exonEnds', 'score', 'name2', 'cdsStartStat', 'cdsEndStat', 'exonFrames'666 NM_001385641.1 chr1 + 859302 879954 859811 879533 14 859302,861301,865534,866418,871151,874419,874654,876523,877515,877789,877938,878632,879077,879287, 860328,861393,865716,866469,871276,874509,874792,876686,877631,877868,878438,878757,879188,879954, 0 SAMD11 cmpl cmpl 0,1,0,2,2,1,1,1,2,1,2,1,0,0,## bin 转录本 染色体 链(+/-) 转录本起始位置 转录本终止位置 cds编码区起始位置 cds编码区的终止位置 外显子个数 外显子起始位置,外显子终止位置
如何判断下游基因是否移码
问题:基因融合判断下游基因是否移码?
解决思路:cds 长度求余 - 能被3整除为inframe 。
分两步:
第一步,对上游融合基因进行分析(注意断裂点在3’端) --- ETV6:NM_001987.4:exon4
a. 明确基因外显子在基因组的方向;
+ :5‘ -> 3' exon1 - exon2 -... exonN
- : 3' <- 5' exonN - ... -exon2 - exon1
b. 计算 转录本对应的exon 的csd 长度,并除以3,求余。(3个相邻的核苷酸组成的信使核糖核酸(mRNA)基本编码单位);
如上计算:( exon1 cds 长度 + exon2 cds 长度)/3
c. 求余结果的解释。
0:刚形成密码子,完整的阅读框(ORF);
1:多余1个碱基 , 需要再补充2个碱基才能形成完整的阅读框(ORF)
2:多余2个碱基 , 需要再补充1个碱基才能形成完整的阅读框(ORF)
第二步,对下游融合基因进行分析(注意断裂点在5’端)---NTRK3:NM_001012338.2:exon12
a. 明确基因外显子在基因组的方向;
+ :5‘ -> 3' exon1 - exon2 -... exonN
- : 3' <- 5' exonN - ... -exon2 - exon1
b. 计算 转录本对应的exon 的csd 长度,并除以3,求余。(3个相邻的核苷酸组成的信使核糖核酸(mRNA)基本编码单位);
如上计算:(exon5 cds 长度 + exon6 cds 长度 + exon7 cds 长度 + exon8 cds 长度)/3
c. 求余结果的解释。
0:刚形成密码子,完整的阅读框(ORF);
1:多余1个碱基 , 需要再补充2个碱基才能形成完整的阅读框(ORF)
2:多余2个碱基 , 需要再补充1个碱基才能形成完整的阅读框(ORF)
第三步, 合并上下游的求余结果,再求余。
实现(代码内容比较多,上传至github):
( isFrameshift ) github : https://github.com/JinYang-Law/bioScript.git
参考:
一文教你找启动子:http://www.360doc.com/content/17/0729/19/45873761_675181072.shtml
refGene 格式说明: http://genome.ucsc.edu/cgi-bin/hgTables




