摸爬滚打的第11天--质量控制

生信工具人 2020-05-08

859

昨天转载了一篇公众号推文，简单粗暴的了解测序技术。目前使用最为广泛的还是二代测序技术。如果有小伙伴提前了解过这方面的知识的话，你刚开始是不是会好奇(为什么一个个体为什么会有两个文件呢，xxx.fastq1、xxx.fastq2?)当时我也不是很懂测序的原理，就去问了我的同门，他说:测序的时候一个片段，正向测一次，反向再次一起，当时说我的一脸懵逼，后来看了 Illumina 公司的测序原理我才恍然大悟。

B 站Illumina 测序原理视频:https://www.bilibili.com/video/BV1ht411q7Wh?from=search&seid=9937739623014885354

了解质控

当我们拿到数据后，需要对数据进行质量控制(质控)，这是因为一般测序下机数据会存在含N比例过大、测序质量较低的碱基数占比过高、含有duplication、序列污染等低质量reads,这些不合格的reads会影响后续的分析。对于质控我们主要了解的内容包括含N比例、GC含量、duplication情况、序列长度分布情况、碱基平衡情况等。今天，我们将一起通过数据格式和质量体系、数据质控步骤、Fastqc结果解读及异常处理三大模块进行学习。

Fastq文件格式说明

FASTQ文件每个序列通常为4行，分别为：
Line 1 begins with a '@' character and is followed by a sequence identifier and an optional description (like a FASTA title line).
Line 2 is the raw sequence letters.
Line 3 begins with a '+' character and is optionally followed by the same sequence identifier (and any description) again.
Line 4 encodes the quality values for the sequence in Line 2, and must contain the same number of symbols as letters in the sequence.

FASTQ的文件示例：

@DJB775P1:248:D0MDGACXX:7:1202:12362:49613 1:Y:18:ATCACG
TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA
+
JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA

Fastq数据中的质量字符并不是和质量值Q值直接对应起来的，fastq数据格式中的质量字符是ASCII值，在Phred+64体系中，ASCII值-64的结果就是Q值，在Phred+33体系中，ASCII值-33的结果就是Q值。在Phred+33体系中，Q = -10log10(P), 碱基质量值与误率的对应关系表如下所示：

即，Q10准确率为90%，Q20准确率为99%，Q30准确率为99.9%，Q40准确率为99.99%，Q50准确率为99.999%。

FastQC质量报告

质量控制的软件很多，但是目前主要以fastqc为主。常见的用法：

fastqc seqfile1 seqfile2 .. seqfileN
常用参数：
-o：输出路径
-f fastq|bam|sam指定输入文件格式，若无此项，则会自动检测
--extract: 输出文件是否需要自动解压 默认是--noextract
-t: 线程， 和电脑配置有关，每个线程需要250MB的内存
-c: 测序中可能会有污染， 比如说混入其他物种
-a: 接头
-q: 安静模式

FastQC分析压缩的fastq文件

fastqc -o xx/yy --noextract -f fastq -t 4 Pseudosciaena-A987-T01_good_1.fq.gz Pseudosciaena-A987-T01_good_2.fq.gz

开始分析:

结果会得到一个html文件和一个zip压缩包

其中html文件用浏览器打开就能直观看到数据。

报告图

第一张图的左侧显示了一个 fastq 文件的质控目录第二张图为基本统计，第三张图为每个碱基的质量。箱线图中，红色表示中位数，黄色是25%-75%区间，触须是10%-90%区间，蓝线是平均数。若任一位置的下四分位数低于10或中位数低于25，报"WARN"；若任一位置的下四分位数低于5或中位数低于20，报"FAIL"。当出现任一位置的下四分位数低于10或中位数低于25或任一位置的下四分位数低于5或中位数低于20时，表示测序数据存在质量不合格的情况，这时我们可以继续观察Sequence Content 图、GC Content 图、N Content 图、Sequences Duplication level 图，这几个图进一步判断测序数据的不合格之处具体在哪。观察Sequence Content图和GC Contenta图的GC含量的线是否平行于X轴，若不平行，则该位置往往有over represented sequence的污染，可能原因建库过程的误差、测序的系统误差或者文库本身特点。由N Content 图可知reads中含N碱基的情况，理想状况下是含N量越少越好，在微生物多样性分析中一般是去除含N碱基比例>5%的序列。观察Sequences Duplication level 图，横坐标是duplication的次数，纵坐标是duplicated reads的数目，若duplication的程度偏高，则可能存在PCR duplication。去除duplication可以通过Samtools、Picard或Iontorrent，其中Samtools只看5’端的起始位置不考虑reads突变；Picard不仅考虑起始位点也会考虑突变情况和质量值，即reads完全一样的才会被当成duplication被去除；Iontorrent则是看5’端的起始位置和3’端adaptor的比对情况，不考虑reads突变。最后，在进行去低质量reads和接头等预处理步骤后，再次进行fastqc质控。

结束语

今天主要讲的质控的步骤和图的简单理解，搜狐有一篇比较详细的 fastqc 结果的解读(网址:https://www.sohu.com/a/316999025_769248)。关于质控文件出现问题时如何解决，且看下回分解！我还是那个在生信路上摸爬滚打的工具人。一起加油吧！如果需要提供帮助或者是反馈意见，可以发送邮件到 liwei12306@163.com

数据库

文章转载自生信工具人，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

摸爬滚打的第11天--质量控制

了解质控

Fastq文件格式说明

FastQC质量报告

报告图

结束语

评论