二代测序技术中生物信息学的应用

二代测序技术中生物信息学的应用

谷禾健康

随着科学技术的巨大进步,产生了大量的“组学”数据。理解生物系统各个层次产生的大量序列和结构数据是关键,由此产生了“生物信息学”。

“生物信息学”是一个跨学科领域,主要是用计算算法来组装、评估、理解、可视化和归档与生物分子相关的数据。

从基因组测序、基因及其功能预测到蛋白质分析,如蛋白质结构和功能预测、系统发育研究、药物和疫苗设计、生物体鉴定,以及支持和推进生物技术领域的研究,都需要用到生物信息学。

今天给大家推荐一本书《Advances in Bioinformatics》,帮助广大科研工作者更容易进行研究,从而对生物学有新的见解。

该书共23个章节。涵盖了蛋白质组学、代谢组学、DNA测序和NGS技术、基因组分析、生物计算、神经网络分析、大数据分析、软计算、人工智能到进化生物学、疫苗和药物设计、生物合成学和癌症生物学应用等,从这些领域出发,综述了生物信息学在其中的应用、发展、帮助和已经获得的成果,并探讨了未来的发展方向。

目录及简介

1. 生物信息学简介及其应用

生物信息学在DNA测序与分析、基因组测序及其注释分析、进化生物学的计算、比较基因组学、基因和蛋白表达分析、蛋白质和DNA、RNA的结构分析、免疫信息和药物设计的技术应用。

2. 生物信息学工具和软件

重点介绍了Banqit、Spin、WEBIN、Sequin、Sakura等序列提交软件;ADIT、PDB_Extract等分子结构提交软件;SRS、Entrez、Getentry等序列检索工具。此外,还详细讨论了BLAST、CLUSTALW/X等序列比对工具,以及Swiss-Model、Modeller、JPred、3D-Jigsaw和ModBase等结构预测工具。

3. 生物信息学在生物科学中起到的作用

重点介绍了生物信息学在基因组学、转录组学、蛋白质组学和代谢组学等主要“组学”领域的作用,以及在其它领域,营养基因组学、化学信息学、分子系统发生学、系统学和合成生物学的应用。还讨论了生物信息学在这些领域的多样化发展。

4. 蛋白质分析:从序列到结构

介绍与蛋白质序列和结构分析相关的各种数据库和方法。这类研究的主要应用之一是在药物发现和开发方面。

5. 进化生物学

进化是一个物种或种群经历遗传特征变化的动态过程。对进化的研究被称为进化生物学。进化生物学研究的关键是序列变异,这是通过比较DNA或蛋白质序列来检测的。迄今以及开发了不同的计算工具来比对所获得的序列和识别序列变异。进化基因组学的应用正在从研究人类进化到研究各种病毒的进化。许多病毒对人类健康具有严重威胁。本章介绍了PAML、PhyML、MrBayes、RAxML、MSA、MUSCLE 、MAFFT 等用于系统发育分析的计算工具。并详细讨论了进化的计算原理。

6. 基于web页面的调控序列分析的生物信息学方法

本章主要概述了在线分析哺乳动物基因组中调控序列方法,以及用于调控序列分析的在线生物信息学工具。

7. 用于SNP分析的生物信息学资源综述

基因变异是导致生物物种内多样性的关键。单核苷酸多态性(SNPs)是遗传变异的主要形式。单核苷酸多态性在理解生物表型差异的进化过程中至关重要,而且还被用于各种疾病的诊断和治疗。本章详细介绍了用于人类和其他非人类基因组的SNP分析。此外,还讨论了在生物信息学领域需要解决的挑战和差距,以便在未来有效地研究SNPs。

8. 疫苗设计与免疫信息学

随着多肽疫苗概念的发展,免疫信息学方法已经被证明是针对未知抗原蛋白、复杂的传染病生命周期、免疫系统应答的可变性和长期保护的有效方法。本章概述了用于构建基于表位的疫苗设计的综合数据库分析方法,该方法已被证明是一种非常稳健的方法,用于表征疫苗系统模型的疫苗靶标。

9. 计算机辅助药物设计

一种新的用于新药发现和开发的先进方法,称为计算机辅助药物设计(CADD)。随着计算工具和方法的进步,CADD加速了整个传统的耗时的新药实体开发过程。本章主要是说明一些关键的CADD技术,通常指在药物发现的不同领域中的硅方法,并聚焦于一些现代的进步。

10. 化学信息学和QSAR

QSAR,定量构效关系分析。该技术被广泛应用于通过参考生物活性来预测药物动力学性质,是药物化学中一种可靠的技术。本章讨论了基于QSAR模型的计算方法的基本原理、分子描述符和统计现象。同时,还重点介绍了描述铅分子分子结构的QSAR模型的重要组成部分和类型,并讨论了其局限性和前景,以指导QSAR领域在未来的研究。

11. 基因组学

本章介绍DNA序列是如何解码的,如何通过比对来比较序列,组装基因组的主要方法是什么,以及如何通过基因预测技术来评估它们的质量,最后,通过这里给出的步骤处理后,如何从基因组数据中实现相互作用网络。

12. 使用生物信息学方法进行RNAseq数据分析的指南

RNAseq可以探索全基因组水平的基因表达谱,并量化生物样本中存在的RNA含量。此外,RNAseq还提供选择性剪接变体、新基因鉴定、差异表达基因等信息。RNAseq数据分析的工作流程要求对数据进行质量检查、映射到参考基因组/转录组、读取量化、差异表达分析和功能注释。为了提供对数据的生物学理解并满足分析人员的需求,已经开发了具有不同算法的各种工具和软件。本章概述了可用于分析不同研究数据的工具和软件。此外,还简要介绍了其他RNAseq技术,如单细胞RNAseq和small RNA测序,作为对较新形式的RNA测序的介绍。

13. 代谢组学

代谢组学是从任何生物系统中称为代谢组的一整套小分子中,对不同代谢物的水平、相互作用和动力学进行全面、系统的测定。基于核磁共振(NMR)的方法、质谱(MS)和能够处理大数据集的计算机软件和硬件的快速发展导致了高通量代谢组学方法的发展。本章节讨论了代谢组学数据处理的工作流程。

14. 二代测序(NGS)技术

介绍了NGS技术,以及NGS的不同类型和应用的要点。随着NGS数据分析的进步,为疾病诊断创造了新的疗法,最后补充了一些关于机器学习算法在NGS技术应用的讨论。

15. 个性化医学与生物信息学

定制化用药可以消除目前与标准化用药相关的大量可怕的药物副作用,减少或消除过敏反应,减少医疗费用,减轻患者的痛苦。然而要真正做到定制化用药,首先要把每个患者的基因组转化成可处理的信息,然后进行处理、保存和恢复。因此,基因组学、生物信息学和定制药物三者的结合至关重要。本章介绍了生物信息学在定制化药物和疫苗中的应用、个性化医疗设计中涉及的前沿方法,以及个性化医疗的优缺点。

16. 在合成生物学和癌症生物学中用于微生物的基因和基因组注释分析的生物信息学工具

本章节重点介绍了基因组注释和微生物分析在合成生物学和癌症生物学研究中的应用。以及简要介绍了原核生物基因组结构和最近发展起来的生物信息学工具,这些工具对研究、鉴定和注释原核生物基因组的各种特征非常有用。最后,展望了微生物基因组注释和微生物基因组分析的前景和可能的发展方向,文章表示未来我们应该把重点放在改进癌症治疗和在癌症精确医学中的应用。

17. 人类微生物组与生物信息学

本章系统地讨论了16S rRNA、宏基因组学和宏转录组学的方法、工作流程和推荐的工具。此外,还讨论了最新的下游分析技术和可视化工具。目的是为了帮助研究人员思考与人类微生物组有关的生物学问题,并进行计算分析。

18. 神经网络分析

本章讨论和总结了神经网络在生物信息学中的应用,特别是在蛋白质和核酸生物信息学中的应用。最后,总结了神经网络在多个生命科学领域的基本见解,如基因预测、蛋白质结构预测、表位预测、表达、共表达、蛋白质相互作用等许多领域。

19. microRNA分析与生物信息学

本章重点介绍了不同的miRNA数据库和mircoRNA预测工具,如psRNATarget、RNAhybrid、miRcan、Miranda、TargetScan、PicTar和Diana-MicroT,它们正在被用于miRNA的机制分析。

20. 图像处理与生物信息学

这一新兴的生物信息学领域被称为“生物图像计算”。本章从不同的角度讨论了这一领域的发展,包括实现、主要方法、工具和可用的资源。文中还概述了在与新冠肺炎的战斗中使用到的关键图像处理技术,如识别生物图像特征、可视化、挖掘、注册、图像数据管理和注释,以及可访问的分析资源、生物图像数据库和其他设施的简要说明。

21. 人工智能与生物信息学

生物信息学是生物学与信息系统(智能系统)的结合。人工智能可以在短时间内对生物数据进行检测、处理和分类。各种人工智能算法已被开发并用于生物信息学分析。本章总结了人工智能在生物信息学中的应用。

22. 大数据分析与生物信息学

本章重点介绍了大数据工具和技术在生物信息学中的应用。

23. 生物信息学中的软计算

本章探讨了基于软计算的生物信息学技术。综述了软计算技术及其兼容性对解决广泛的生物信息学相关问题的必要性、软计算技术的基础知识,并阐述了它们在解决许多基于生物信息学的问题中的相关性。

以下内容来自书中第16章节和第17章节。主要介绍生物信息学技术在人类微生物群研究中的应用,以16S rRNA和宏基因组为例,最后补充关于肠道微生物群在癌症治疗中的应用的一些内容。

下一代测序的不同应用

01. 基于高通量测序的人类微生物组研究可以大致被分为三种不同的测序方法

图中的Metataxonomics指16S rRNA,Metagenomics指宏基因组,Metatranscriptomics指宏转录组。箭头下方分别列举了用于物种分类、进化枝图展示、功能分析的主流软件。

微生物组数据分析的主要困难是在保持标准的同时,从一些列计算工具中选择合适的工具实验方法的设计、环境因素和分析流程都会影响最终结果。

02. 测序数据的预处理

预处理的步骤主要是为了对原始序列进行质检、识别和去除低质量碱基和reads、低复杂性reads、引物、接头或barcodes等人工制品,以及去除宿主污染。

FastQC是目前最流行的提供质检报告的预处理工具,MultiQC用于将多个样品的质检报告合并成一个报告,便于比较。去除低质量数据的工具,如Trimomatic,Trim Galore和Cutadapt被广泛用于DNA或RNA 数据。

还有一些如FASTX-Toolkit、BBTools,整合了以上这些预处理步骤。宏基因组数据中有很大一部分宿主核苷酸污染,通常使用KneadData进行去除宿主污染。预处理是关键的一步,需要在序列质量和极大地保留微生物信息量之间进行权衡。

03. 16S rRNA

16S rRNA是基于保守标记基因的扩增子测序。16S rRNA基因在细菌和古菌中高度保守,有9个高变区(V1-V9),可在属水平上进行区分,因此易于靶向扩增,可用于鉴定任何微生物组样品的细菌组成。而18S rRNA基因和rRNA基因非转录区ITS 可用于鉴定微生物组样品中的真菌组成。

16S rRNA数据在经过预处理后,通过将扩增子序列变体(ASV)去噪或将读数聚类成可操作分类单元(OTU)来挑选代表性序列,最后对ASV/OTU进行物种分类。通常使用VSEARCH或USEARCH去除嵌合体,再使用QIIME或QIIME2获得OTU或ASV的特征表以及每个样本中特征的量化值。比较新的算法还有Deblur和DADA2。

04. 宏基因组

宏基因组主要是对微生物样本的所有DNA进行全基因组鸟枪式测序。它并不局限于单个基因,它提供了所有基因的信息,这些基因有助于识别种水平或株水平的微生物,以及了解该样本中核心微生物途径和代谢物。这种方法涵盖了所有的微生物,包括细菌、古菌、真菌和病毒,虽然丰度很低。它还能识别新的和未培养的物种。

宏基因组比16S rRNA测序成本更高。根据测序平台的不同,鸟枪测序大致分为两种方法;Illumina测序仪生产的短读序列使用参考基因组进行组装和进一步分析,另一个由Oxford Nanopore MinION或Pacific Biosciences生产的长读序列可用于从头组装,以识别新的基因组。

05. 微生物物种分类数据库

微生物组数据分析的核心是为读数分配正确的物种。16S rRNA测序和鸟枪法宏基因组测序都利用公共数据库获得微生物物种组成的信息。例如,16S rRNA常使用SILVA, RDP, Greengenes和UNITE等数据库,宏基因组通常使用NCBI中的nr数据库,或者使用MetaPhlAn2工具包,这是一款正在被普遍使用的工具,它拥有自己的从细菌、古菌、病毒和真核生物中鉴定的分枝特异性标记基因数据库。

06. 微生物物种分析

物种注释后的下游分析必须包括的就是α和β多样性,并在样本组之间进行比较,找出具有差异丰度的物种,以及物种与元数据之间的相关性

α多样性是使用Shannon多样性指数和Shannon均匀度指数来衡量的,Shannon均匀度指数定义了样本中的物种丰富度、多样性和均匀度。用方差分析、Mann-Whitney U检验和Kruskal-Wallis检验对组内或组间α多样性的比较进行统计学分析,然后用盒图、维恩图和稀疏曲线可视化。

β多样性利用Bray-Curtis、Jaccard距离和加权、未加权UniFrac发现样本之间物种组成的差异。它与PCoA、NMDS和约束PCoA(CPCoA)相结合输出分析结果,使用散点图和树状图在样本或组间进行比较并可视化。

可用于计算α和β多样性的软件有QIIME、Phyloseq、VEGAN和USEARCH。利用相关系数曲线、线性拟合曲线和热图分析了个分类水平物种与元数据之间的相关性。

系统发育树和分支图被用来了解系统发育和物种分类水平层次。

GraPhlAn是一款提供美化后的可供发表的系统发育树图制作的软件。与其类似的还有Krona。

07. 微生物功能分析

16S rRNA分析虽然只能观察到物种组成,但是有PICRUST和Tax4Fun这样的工具,可以通过将16S rRNA读数映射到注释的基因组来获得功能代谢途径。如果需要更详细和准确的功能图谱,建议使用宏基因组和宏转录组测序。

用于预测基因功能、途径或功能结构域的数据库有PFAM、COG、SEED、EGNOG、KEGG和TIGRFAM。一些工具可以将注释的功能基因信息可视化,并在样本组之间进行比较,如HUMANN2、LEfSe和Short BRED。

08. 人类微生物组研究在人类疾病中的应用

对人类微生物组的研究表明,健康个体的微生物与非健康个体或患病个体的微生物有很大的不同。因此,根据微生物群的不同特征对其进行表征可以作为一种潜在的工具,用于识别疾病风险、预后、表型和治疗反应。比如肠道菌群失调与多种病理疾病有关,益生菌补充剂通过产生一定的代谢物,恢复了微生物群落的平衡,提高了机体的免疫能力。

近年来,肠道微生物群也开始应用于癌症治疗。比如药物代谢,因为肠道菌群能影响药物的作用方式、疗效和抗体治疗。这在一些研究肠道菌群对癌症治疗(如化疗、放疗和免疫治疗)的影响文章中被证实。另一个例子则是开发用于癌症治疗的益生菌。因此,将微生物群信息应用于癌症精准医学是一条潜在的路径。

Kumar A , Singh V . Advances in Bioinformatics[M]. 2021

DOI:10.1007/978-981-33-6191-1

Leave a Reply