暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Fusion-判断下游基因是否发生移码

罗大黑学生信 2021-10-28
2047


目录


1. 转录本的结构

2.融合表达式的内容

3.refGene.txt 每一列解读

4.如何判断下游基因是否移码



转录本的结构

Flanking Region --- 5'-UTR --- AUG 起始密码子 --- EXON --- ...... ---  EXON ---(UAG、UGA、UAA)终止密码子 --- 3'-UTR --- Flanking Region
Flanking Region (侧翼序列) --- UTR (非编码区) --- CDS (编码区) --- UTR (非编码区)--- Flanking Region (侧翼序列)


ORF [open reading frame](开放阅读框):理论上的蛋白编码区,一般是先在DNA序列中寻找起始密码子(AUG)对应的序列ATG,然后按每3个碱基一组向后延伸,一直到出现终止密码子(UAG、UGA、UAA)对应的序列。


CDS [coding sequences] (编码区):与蛋白序列一一对应的DNA序列,并且序列中间不存在其他与蛋白无关的序列,和真实情况最接近。


CDS 与 UTR:A typical CDS starts with ATG and ends with a stop codon, it doesn't have any introns, 5'- and 3'-UTR

CDS与ORF:CDS can be a subset of an open reading frame (ORF).

UTR (Untranslated Regions):非翻译区,是信使RNA(mRNA)分子两端的非编码片段。

  • 5'-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至AUG起始密码子

  • 3'-UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)的前端


融合表达式的内容

ETV6:NM_001987.4:exon4-NTRK3:NM_001012338.2:exon12


基因融合的基本描述方式为:

Gene name 1 {Accession number 1 }: r. _ Gene name 2{ Accession number 2 } : r.

Gene name:基因

Accession number:Genebank对应的转录本编号

::冒号用于区分基因ID和位置信息

r.:基于RNA水平的位置描述

-:区分前后两个断点

详细参照 :https://cancer.sanger.ac.uk/cosmic/help#types_tab_content


refGene.txt 每一列解读

'bin' '''name', 'chrom', 'strand', 'txStart', 'txEnd', 'cdsStart', 'cdsEnd', 'exonCount', 'exonStarts', 'exonEnds', 'score', 'name2', 'cdsStartStat', 'cdsEndStat', 'exonFrames'
666 NM_001385641.1 chr1 + 859302 879954 859811 879533 14 859302,861301,865534,866418,871151,874419,874654,876523,877515,877789,877938,878632,879077,879287, 860328,861393,865716,866469,871276,874509,874792,876686,877631,877868,878438,878757,879188,879954, 0 SAMD11 cmpl cmpl 0,1,0,2,2,1,1,1,2,1,2,1,0,0,
## bin 转录本 染色体 链(+/-) 转录本起始位置 转录本终止位置 cds编码区起始位置 cds编码区的终止位置 外显子个数 外显子起始位置,外显子终止位置


field

example

SQL type

info

description

bin

585

smallint(5) unsigned

range

Indexing field to speed chromosome range queries.

name

NR_046018.2

varchar(255)

values

Name of gene (usually transcript_id from GTF)

chrom

chr1

varchar(255)

values

Reference sequence chromosome or scaffold

strand

+

char(1)

values

+ or - for strand

txStart

11873

int(10) unsigned

range

Transcription start position (or end position for minus strand item)

txEnd

14409

int(10) unsigned

range

Transcription end position (or start position for minus strand item)

cdsStart

14409

int(10) unsigned

range

Coding region start (or end position for minus strand item)

cdsEnd

14409

int(10) unsigned

range

Coding region end (or start position for minus strand item)

exonCount

3

int(10) unsigned

range

Number of exons

exonStarts

11873,12612,13220,

longblob


Exon start positions (or end positions for minus strand item)

exonEnds

12227,12721,14409,

longblob


Exon end positions (or start positions for minus strand item)

score

0

int(11)

range

score

name2

DDX11L1

varchar(255)

values

Alternate name (e.g. gene_id from GTF)

cdsStartStat

none

enum('none', 'unk', 'incmpl', 'cmpl')

values

Status of CDS start annotation (none, unknown, incomplete, or complete)

cdsEndStat

none

enum('none', 'unk', 'incmpl', 'cmpl')

values

Status of CDS end annotation (none, unknown, incomplete, or complete)

exonFrames

-1,-1,-1,

longblob


Exon frame {0,1,2}, or -1 if no frame for exon


如何判断下游基因是否移码

问题:基因融合判断下游基因是否移码?

解决思路:cds 长度求余  -  能被3整除为inframe 。

分两步:

    第一步,对上游融合基因进行分析注意断裂点在3’端) --- ETV6:NM_001987.4:exon4

        a.  明确基因外显子在基因组的方向;

            + :5‘  -> 3'   exon1 - exon2 -... exonN

            -  : 3' <- 5' exonN - ... -exon2 - exon1

        b.  计算 转录本对应的exon 的csd  长度,并除以3,求余。(3个相邻的核苷酸组成的信使核糖核酸(mRNA)基本编码单位);

如上计算:( exon1 cds 长度 + exon2 cds 长度)/3

c. 求余结果的解释。

    0:刚形成密码子,完整的阅读框(ORF);

    1:多余1个碱基 , 需要再补充2个碱基才能形成完整的阅读框(ORF)

    2:多余2个碱基 , 需要再补充1个碱基才能形成完整的阅读框(ORF)


第二步,对下游融合基因进行分析注意断裂点在5’端)---NTRK3:NM_001012338.2:exon12

    a.  明确基因外显子在基因组的方向;

        + :5‘  -> 3'   exon1 - exon2 -... exonN

        -  : 3' <- 5' exonN - ... -exon2 - exon1

   b.  计算 转录本对应的exon 的csd  长度,并除以3,求余。(3个相邻的核苷酸组成的信使核糖核酸(mRNA)基本编码单位);

如上计算:(exon5 cds 长度 + exon6 cds 长度  + exon7 cds 长度 + exon8 cds 长度)/3

c. 求余结果的解释。

    0:刚形成密码子,完整的阅读框(ORF);

    1:多余1个碱基 , 需要再补充2个碱基才能形成完整的阅读框(ORF)

    2:多余2个碱基 , 需要再补充1个碱基才能形成完整的阅读框(ORF)


第三步, 合并上下游的求余结果,再求余。


实现(代码内容比较多,上传至github):

( isFrameshift )  github :  https://github.com/JinYang-Law/bioScript.git




参考:

一文教你找启动子:http://www.360doc.com/content/17/0729/19/45873761_675181072.shtml

refGene 格式说明: http://genome.ucsc.edu/cgi-bin/hgTables


文章转载自罗大黑学生信,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论