目录
1. 示例
2.字段解释
示例
VCF == Variant Call Format##fileformat=VCFv4.1##source=VarScan2##INFO=<ID=ADP,Number=1,Type=Integer,Description="Average per-sample depth of bases with Phred score >= 15">##INFO=<ID=WT,Number=1,Type=Integer,Description="Number of samples called reference (wild-type)">##INFO=<ID=HET,Number=1,Type=Integer,Description="Number of samples called heterozygous-variant">##INFO=<ID=HOM,Number=1,Type=Integer,Description="Number of samples called homozygous-variant">##INFO=<ID=NC,Number=1,Type=Integer,Description="Number of samples not called">##FILTER=<ID=str10,Description="Less than 10% or more than 90% of variant supporting reads on one strand">##FILTER=<ID=indelError,Description="Likely artifact due to indel reads at this position">##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">##FORMAT=<ID=SDP,Number=1,Type=Integer,Description="Raw Read Depth as reported by SAMtools">##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Quality Read Depth of bases with Phred score >= 15">##FORMAT=<ID=RD,Number=1,Type=Integer,Description="Depth of reference-supporting bases (reads1)">##FORMAT=<ID=AD,Number=1,Type=Integer,Description="Depth of variant-supporting bases (reads2)">##FORMAT=<ID=FREQ,Number=1,Type=String,Description="Variant allele frequency">##FORMAT=<ID=PVAL,Number=1,Type=String,Description="P-value from Fisher's Exact Test">##FORMAT=<ID=RBQ,Number=1,Type=Integer,Description="Average quality of reference-supporting bases (qual1)">##FORMAT=<ID=ABQ,Number=1,Type=Integer,Description="Average quality of variant-supporting bases (qual2)">##FORMAT=<ID=RDF,Number=1,Type=Integer,Description="Depth of reference-supporting bases on forward strand (reads1plus)">##FORMAT=<ID=RDR,Number=1,Type=Integer,Description="Depth of reference-supporting bases on reverse strand (reads1minus)">##FORMAT=<ID=ADF,Number=1,Type=Integer,Description="Depth of variant-supporting bases on forward strand (reads2plus)">##FORMAT=<ID=ADR,Number=1,Type=Integer,Description="Depth of variant-supporting bases on reverse strand (reads2minus)">#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample11 115258743 115258744 1 115258744 . C T . PASS ADP=633;WT=0;HET=1;HOM=0;NC=0 GT:GQ:SDP:DP:RD:AD:FREQ:PVAL:RBQ:ABQ:RDF:RDR:ADF:ADR 0/1:255:633:633:372:261:41.23%:4.0519E-94:51:45:110:262:127:134
字段解释
vcf有两部分内容,包括表头部分和正文部分,其中表头部分是对正文部分中出现的缩写的解释。
vcf的正文部分,必须要有前8列,一般有10列,详细如下:
CHROM :参考序列名;
POS:突变的位置, 如果是indel 突变,则是INDEL的第一个碱基位置;
ID:变异位点名称(对应dbSNP数据库中的ID);
REF:参考序列的碱基;
ALT: 突变的碱基
QUAL:变异位点质量值,计算方法:Phred值 = -10 * log (1-p)。表 示在该位点存在variant的可能性;该值越高,则variant的可能性越大;
FILTER:过滤信息, PASS 该位点通过过滤,该位点有更大可能性为变异位点;
INFO:有关该位点的详细信息【形式为Tag=Value, 分号分隔】;
FORMAT:变异位点格式;
SMAPLE:样本名称,由bam文件中@RG的SM标签决定;
前面7列阐明变异位点位于参考基因组的哪条染色体,哪个位置,是否被数据库给标记了ID(通常说的是dbSNP),该位置的参考基因组是什么碱基,这个变异位点变异成了什么碱基。找到这个变异的软件给它的质量值是多少,是否合格。
第8列 INFO 信息比较复杂,主要以 “TAG=Value”的形式,并使用”;”分隔。其中TAG含义在VCF文件的头部注释信息##INFO中已给出。
第9列 位点的基因型,测序深度的描述。
详细描述如下:
ADP=633; 该变异位点,Phred 评分>= 15 碱基平均深度( 支持该变异位点的深度);
WT=0; 野生型变异数目;
HET=0; 杂合变异数目;
HOM=1; 纯合变异数目;
NC=0:未检测到数目;
GT: 基因型 ;
1/1 纯合子,等位基因数为2,等位基因的频率为1,总的等位基因为2。
0/1 杂合子,等位基因数为1(双倍体的sample在该位点只有1个等位基因发生了突变),等位基因的频率为0.5(双倍体的 sample在该位点只有50%的等位基因发生了突变),总的等位基因为2;
GQ: 基因型质量;
SDP: 由SAMtools给出的Raw reads 深度;
DP: Phred score >= 15 碱基 深度;
RD: 支持ref 碱基深度(reads1);比如:1 115258744 C > T 总深度:633x,与ref 一致的碱基(C)RD:372 ;
AD: 支持alt 碱基深度(reads2);比如:1 115258744 C > T 总深度:633x,与alt 一致的碱基(T)AD:372 ;
FREQ: 变异的等位基因频率VAF;
PVAL: P-value;
RBQ: 支持ref 碱基平均质量(qual1);
ABQ: 支持alt 碱基平均质量(qual2);
RDF: 支持ref 正链 碱基深度 (reads1plus);
RDR: 支持ref 反链 碱基深度 (reads1plus);
ADF: 支持alt 正链 碱基深度 (reads2plus);
ADR:支持alt 正链 碱基深度 (reads2minus);
参考
https://blog.csdn.net/oxygenjing/article/details/77747159
https://www.jianshu.com/p/957efb50108f
http://www.360doc.com/content/19/1225/20/68068867_882179876.shtml




