谷禾信息宏基因组测序分析帮助文档

实验及分析流程

实验流程

根据土壤、肠道、水体等不同样本特性提取DNA，然后利用琼脂糖凝胶等方法检测DNA质量。检测合格的 DNA 样品用 Covaris 超声波破碎仪随机打断成长度约为 350bp 的片段，经末端修复、加 A尾、加测序接头、纯化、PCR 扩增等步骤完成整个文库制备。文库构建后，用QuantiFluorTM荧光计进行定量以及检验，检验及格的文库进行Hiseq上机测序。

数据处理

数据过滤统计表

表头属性	说明
Sample	样本ID
Clean reads	下机reads数目
HQ clean reads	高质量reads数目
Adapter	含有adapter的reads数目
Low quality	低质量reads，即单端read中50%以上碱基质量值Q≤20的reads数目
N	单端read中含有N碱基比例大于10%的reads数目
HQ clean reads（%）	高质量reads占clean reads百分比
Adapter（%）	含有adapter的reads占clean reads百分比
Low quality（%）	低质量reads，即单端read中50%以上碱基质量值Q≤20的reads占clean reads百分比
N（%）	单端read中含有N碱基比例大于10%的reads占clean reads百分比

数据预处理分布图（百分比）

特征	含义
Adapter remain	含有adapter的reads
N containing	单端read中含有N碱基比例大于10%的reads
Low quality	低质量reads，即单端read中50%以上碱基质量值Q≤10的reads
HQ clean	高质量reads，即根据以上标准过滤后所剩下的reads

数据预处理分布图（数值）

特征	含义
Adapter remain	含有adapter的reads
N containing	单端read中含有N碱基比例大于10%的reads
Low quality	低质量reads，即单端read中50%以上碱基质量值Q≤10的reads
HQ clean	高质量reads，即根据以上标准过滤后所剩下的reads

碱基信息统计表

表头属性	说明
Sample	样本名称
Before filter	过滤前样本碱基信息
After filter	过滤后样本碱基信息
Clean data	下机数据碱基总数（单位bp）及百分比
HQ clean data	过滤后有效碱基总数（单位bp）及占clean data百分比
Q20（%）	测序碱基质量值达到Q20以上水平的碱基数目及占clean data（或HQ clean data）的百分比
Q30（%）	测序碱基质量值达到Q30以上水平的碱基数目及占clean data（或HQ clean data）的百分比
N（%）	单端read中含有N碱基的数目及占clean data（或HQ clean data）的百分比
GC（%）	过滤前（后）的序列碱基GC比例

碱基组成分布图

X轴上，1-150bp 代表 read1 的碱基位置，150-300bp 代表 read2 的碱基位置。A、T、C、G曲线各代表每个位置A、T、C、G碱基的比例，碱基组成平衡的情况下，A、T 曲线重合，G、C 曲线重合。如果测序中出现不正常的情况，碱基组成就可能不平衡。N 曲线代表每个位置未被测到的碱基的比例，比例越低，质量越好。mean 曲线表示碱基测序平均质量（Phred值），质量值越接近40质量越好，质量值的换算如下表所示。Q20和Q30曲线分别代表碱基在每个位置的质量值>=Q20或者>=Q30的碱基比例。

Phred值	碱基正确识别率	Q-sorce
10	90%	Q10
20	99%	Q20
30	99.90%	Q30
40	99.99%	Q40

宿主信息过滤统计

表头属性	说明
Sample	样本名称
HQ clean reads	高质量reads数目
Host reads	比对到宿主的reads数目
Effective reads	有效reads（用于后续分析reads）数目
HQ clean reads（%）	高质量reads占clean reads百分比
Host reads（%）	比对到宿主的reads百分比
Effective reads（%）	有效reads（用于后续分析reads）百分比

序列组装

各样本组装统计结果

表头属性	说明
Sample	样本名称
Contigs Num	Contigs的数量
Total length(bp)	所有Contigs的总长
Max Len	表示得到的最长Contigs长度
Min Len	表示得到的最短Contigs长度
N50	把所有Contigs按照长度进行排序，然后由长到短加和，当加和值达到Congitgs总长的 50%时的 Contigs的长度值
N90	把所有Contigs按照长度进行排序，然后由长到短加和，当加和值达到Congitgs总长的90%时的 Contigs的长度值

基因预测

丰度计算公式

$$G_{k}=\frac{r_{k}}{L_{k}}\ast \frac{1}{\sum_{i=1}^{n}\frac{r_{i}}{L_{i}}}$$
r 为比对上基因的 reads 数目，L 为基因的长度

基因功能注释

物种注释

物种注释总表

表头属性	说明
Sample	样本名称
Kingdom	注释到界水平的reads数目
Phylum	注释到门水平的reads数目
Class	注释到纲水平的reads数目
Order	注释到目水平的reads数目
Family	注释到科水平的reads数目
Genus	注释到属水平的reads数目
Species	注释到种水平的reads数目

物种丰度表

表头属性	说明
Level	为分类水平次序(门的次序为2)
第二列	对应水平(门)的分类

其余列为各样品中在该分类水平的丰度信息

组间多元统计比较

此部分分析要求分组≥2，且每组重复≥3，否则无此分析。

Anosim差异检验

R值表示差异程度，一般介于（0，1）之间，R>0，说明组间存在差异，一般R>0.75：大差异；>0.5：中等差异，>0.25：小差异。R等于0或在0附近（因为R偶尔也会<0，但一般认为是无效数据），说明组间没有差异。统计分析的可信度用 P-value 表示，P< 0.05 表示统计具有显著性。

Adonis分析

Df 表示自由度；Sums Sq：总方差，又称离差平方和；Mean Sq ：均方（差），即Sums Of Sqs/Df；F Value ：F 检验值；R2 表示不同分组对样品差异的解释度，即分组方差与总方差的比值，R2 越大表示分组对差异的解释度越高；Pr表示P值，数值小于0.05 说明本次检验的可信度高。

Metastats物种差异分析表

第一列为分类的水平，为了避免数据量带来的误差，mean(平均值)、variance(方差)、std.err(标准误差)均使用百分比(即该物种tag数除以总tag数)来计算，最后三列分别是差异的P-value及FDR(矫正后的P-value)，log2FC(平均物种丰度的差异倍数取log2的值)。

LefSe分析

利用LEFse软件对差异组间进行分析，LEFse先对所有组样品间进行kruskal-Wallis秩和检验（一种多样本比较时常用的检验方法），将筛选出的差异再通过wilcoxon秩和检验（一种两样本成组比较常用的检验方法）进行两两组间比较，最后筛选出的差异使用LDA（Linear Discriminant Analysis）得出的结果进行排序得到左图，左图展示了不同组中丰度差异显著的物种，柱状图的长度代表差异物种的影响大小（即为LDA Score）。随后通过将差异映射到已知层级结构的分类树上方式得到进化分支图(右图)。在进化分支图中，由内至外辐射的圆圈代表了由门至属（或种）的分类级别。在不同分类级别上的每一个小圆圈代表该水平下的一个分类，小圆圈直径大小与相对丰度大小呈正比。着色原则：无显著差异的物种统一着色为黄色。

环境关系分析

箭头表示环境因子；图中三角表示不同样本；样本与环境因子之间的夹角代表样本与环境因子间的正、负相关关系（锐角：正相关；钝角：负相关；直角：无相关性）；由不同的样本向各环境因子做垂线，投影点越相近说明样本间该环境因子属性值越相似，即环境因子对样品的影响程度相当。

问题解答

对于小型动物，采样的时候如果不能分离肠道和肠道内容物的话，那么宿主的影响还是蛮大的。如果是这样的话，我们高通量测序的有效数据是很小的，面对这样的问题怎么解决呢？
处理这种问题有几个方面可以考虑：1.可以参用实验方法去除宿主污染（例如宏转录组中用去polyA法去宿主mRNA），2.更直接的方法，加大数据量，通过比对去除宿主污染。3，如果宿主没有参考基因组，在污染大的情况下，几乎没办法。
宏基因组能不能不设生物学重复啊？
可以，但这类型的比较少。这类型的文章一般有其他分析加以辅助的。如果只是单纯做宏基因组研究，建议设重复。因为本身细菌的波动性很大。
宏基因组的功能分析与宿主转录组关联吗？
理论上可行，但实际操作当中，这种关联距离会有点远，最好除非有明确宿主与微生物的功能关系，例如一些代谢物或表型作为中间过渡，不然因为功能对应关系太复杂，后期研究会难以开展分析。
肠道微生物宏基因组NGS中，食物来源、肠道脱落物来源的基因会不会干扰物种分析？
除非吃的食物有大量微生物污染，或者宿主处于极端疾病状态，不然基本上来说其他因素的污染很少，一般不会超过reads总数的20%。同时，在采集样本的时候，极端个体应该被排除。
16S和宏基因组对微生物组成的分析结果差异会很大吗？
总体结果一致。也不排除研究中两者差异很大的情况出现。在细节上可能会有部分差异，大趋势来说，一般80%左右的结果是一致的。

参考文献

附录

软件下载

MEGAHIT（v1.1.2）
MetaGeneMark（Version2.10）
CD-HIT（Version：4.5.8)
DIAMOND（v0.9.12.113）
metaOthello

谷禾信息 宏基因组测序 分析 帮助文档