16s 测序
几十年来,16S rRNA基因一直是基于序列的细菌分析的基石。
16S rRNA 基因是识别复杂群落中微生物的快速有效标记,因此已被用于人类微生物组计划 (HMP) 、地球微生物组计划 (EMP) 和人类肠道宏基因组学 (MetaHIT) 等研究。
该基因的一大优势在于,其分析方法不依赖于样本中细菌的可培养性,可以确定样本中所有细菌的相对丰度。此外,它能够同时对数百至数千样本进行并行测序,并在采样后最短两天内即可获得结果。
基于二代测序的16S可变区域和基于纳米孔测序的全长的16S核糖体RNA (rRNA)测序,是微生物基因组学的核心技术,广泛应用于针对16S rRNA基因特定区域的细菌和古细菌群落分析。
二代测序平台和华大DNBSEQ测序平台(特别关注V4或V3V4区域),以及基于纳米孔技术的全长16S测序,是该领域的两种主要方法。这些方法在功能、应用和局限性上存在显著差异,为微生物多样性和分类学提供了互补的见解。
二代测序平台以其高通量和高碱基准确性闻名,能够高效生成约300至500个碱基对(bp)的短读段,通常覆盖16S rRNA基因的1-2个区域。这种读段长度和分类分辨率之间的平衡使其成为土壤、水体及人类微生物组等多种环境和临床研究的可靠选择。
基于二代测序的16S 可变区具备更低的成本,更高的通量,但因其序列较短,在种水平的分辨率并不高。不过由于其已应用于大量的研究,因此有着广泛的研究样本数据和队列积累,对于基于16S菌群数据的疾病和代谢机器学习和模型更为适合。
同时,改善引物的通用性和减少单分子错误提升16S rRNA测序效率。以人体肠道菌群应用为例,谷禾结合宏基因组数据和已有的菌群组成数据,通过算法大幅提高了V4区数据的物种分辨率,达到约70%的种注释比例。此外,谷禾还通过增加靶向引物,针对病毒、真菌、寄生虫及部分难以区分的16S病原菌开发tNGS方法,从而显著扩展了二代测序在微生物多样性检测领域的应用范围。
基于纳米孔测序的全长16S rRNA基因测序,尤其是采用牛津纳米孔技术(Oxford Nanopore Technology, ONT)进行的测序,能够覆盖所有高变区(V1-V9)。该技术在物种层面上提供了更高的分类学分辨率,适用于病原体的快速诊断和鉴别。然而,这一技术同样面临序列准确性较低的挑战,并且需要为长读段数据分析量身定制先进的生物信息学工具。此外,由于全长扩增对样本质量的要求较高,该方法可能不适合某些低丰度或高度污染的样本。
当前,高通量测序数据的爆炸式增长,促使对新的生物信息学工具及数据管理和分析策略的开发。这种快速扩展推动了分类学方法和下游分析技术的改进,进一步巩固了测序技术在现代微生物学研究中的核心地位。随着人工智能(AI)技术的发展以及大量微生物测序数据的积累,结合特定领域的菌群数据与AI可为微生物群落外的疾病和代谢等问题提供新的见解。长期以来,通过二代测序积累的大量样本和数据,已成为其重要的应用优势。
细胞中有三种重要的 RNA:
核糖体RNA 是细胞中发现的分子,参与细胞器蛋白质的合成,扩散到细胞质中。这有助于将 mRNA中包含的信息翻译成蛋白质。
编辑
这些分子是在核仁中产生的,核仁看起来像是细胞核中一个密集的区域,其中包含编码 rRNA 的基因。这些编码的 rRNA 大小不一。至少每个核糖体包含一个大 rRNA 和一个小 rRNA。
核仁中的这两个 rRNA 与核糖体蛋白结合,形成核糖体的大亚基和小亚基。要知道,核糖体蛋白是在细胞质里合成的,然后一路移动到细胞核,就在核仁里进行亚组装。紧接着这些亚基又被送回细胞质去完成最终的组装。
注:-50S是核糖体中较大的亚基,-30S是核糖体中较小的亚基。S是用来描述核糖体亚基的相对大小和沉降速度的单位。
古细菌和细菌中发现的 rRNA 有所不同,因为古细菌和细菌在真核细胞发育之前,就已从共同的前体中分离出来。
16S rRNA 是编码细菌核糖体小亚基 RNA 的 DNA 序列。
16S rRNA 的功能
16S rRNA 是一种参与制造原核核糖体小亚基的 rRNA;它们是 30S 亚基(原核核糖体)的组成部分。
一般来说,它具有与较大亚基中的 rRNA 类似的结构功能,将核糖体的蛋白质保持在固定位置。它们还参与通过与较大亚基中的 23s rRNA 相互作用来促进小亚基与较大亚基的融合。古细菌、细菌、叶绿体和细菌中的小核糖体单元含有 16S。
关于 16S 中的“S”
16S 中的“S”是沉降系数,该指数表示大分子在离心场中的下沉速度。
16S rRNA的基因特性
16S rRNA 基因是与细菌基因组中看到的 rRNA 编码细菌相对应的 DNA 序列。
这些是特异性的,高度保守的;它们的基因序列足够长。
细菌包含大约 1 到 几十个16S rRNA 拷贝,因此检测极其敏感。16S rRNA编码基因的大小接近1500bp,包含50个功能结构域。
在原核生物中,核糖体 RNA 如下:
16S rRNA 基因的内部结构
16S rRNA基因内部结构包括保守区和可变区,不同细菌的通用引物可按保守区制定,特定细菌的特定引物可按可变区制定,16S rRNA不同区域的信息在种间存在变异,使得识别具有特异性。
16S rRNA 在蛋白质合成中的作用
它们与 23S 相互作用,帮助整合两个核糖体亚基 (50S+30S)。3’端包含一个反向 SD 序列,用于结合 mRNA 的 AUG 密码子(起始)。16S rRNA 的 3′ 末端与 S1 和 S21 的组合被认为与蛋白质合成的起始有关。
核糖体蛋白的固定可作为支架。因此,它们在确定核糖体蛋白的位置方面具有结构作用。
它稳定 A 位上准确的密码子-反密码子配对,从而在腺嘌呤残基的 N1 原子和 mRNA 骨架的 2′OH 基团之间形成氢键。
随着PCR技术的进步和核酸研究技术的持续进步,16S rRNA基因检测技术已成为最广泛使用的菌群丰度识别和检测工具。
该技术可用于更快更准确地识别、分类和发现病原体。
一般rRNA基因测序涉及以下步骤:
在分子技术中使用核糖体RNA的一些好处是:
16S rRNA 扩增子测序能够区分细菌或古细菌微生物物种,已成为研究微生物组结构和多样性的“指纹”。
海量数据集表明,不同类型的栖息地中微生物组结构存在很大差异,导致微生物分布不均。例如,厚壁菌门和拟杆菌门在人类肠道菌群中占主导地位,而变形菌门和蓝藻则在自然环境中普遍存在。不同的微生物在16S可变区上对扩增灵敏度和核苷酸序列可识别性有各自的偏好。因此可以通过优化变异区选择、测序策略和读长等配置来进一步改进基于16S的分析。
WGS、三代全长测序
近年来,鸟枪法全基因组测序(WGS)和第三代全长16S rRNA扩增子测序技术使得在物种和菌株水平上对微生物组进行注释成为可能,同时对生物量、测序成本、分析时间和存储空间的要求也提高了1到2个数量级。
更重要的是,由于大量的微生物组已通过16S扩增子测序进行调查(数千项研究产生了超过500,000个样本,存储在Qiita、MSE和NCBI等开放存储库中),其中一些难以重新取样或重新测序(例如纵向队列样本或从深海沉积物中收集的样本)。因此,对16S扩增子短读序列在分析中的应用进行全面评估以及不断更新和优化,对于先前数据的可重复使用具有重要意义。
16S rRNA扩增子在微生物组研究中的独特价值与再利用潜力
2023年,有研究模拟扩增子产生和密切参考分类注释的整个计算机模拟过程,以衡量使用 16S rRNA 基因进行微生物组分析的性能。研究超过 35,000 个物种的基因组和相应的 16S 片段,研究发现扩增后的短读测序可以接近全长 16S rRNA 基因,与参考数据库进行序列比对,在物种水平分类中达到 73% 的准确率。
DOI: 10.1128/spectrum.00563-23
而且,发现16S V4区515F/806R引物组扩增效率最高,为81.72%(511,460个引物中有417,965个引物,如上)。
数据库方面
RefSeq表现出比其他两个数据库更好的比对率和精确度(在物种水平上)。而Greengenes和Silva的精度低主要是因为参考数据库中的注释不一致、不完整,例如一些分类单元与国际原核生物命名法规(ICNP)不匹配,大量序列缺少种甚至属级别的注释。此外,研究发现16S较长序列测序虽具有精度优势,但也存在因末端合并失败和测序错误率较高而导致的灵敏度损失。
最佳扩增区域
此外,以厚壁菌门和拟杆菌门为主的人类肠道微生物组的最佳扩增区域是V4,但对于富含变形菌门和酸杆菌门的河流样本,V3区域效果更好。下面列表还包含只考虑性能而不考虑每个生境测序成本的替代方案,例如对于土壤,V4-V5 PE 250 bp序列在物种水平上的精度比V4 SE 150 bp序列更高,但也使成本更高(下表)。
DOI: 10.1128/spectrum.00563-23
扩增子可变区对β多样性模式的影响最大
详细的 alpha 和 beta 多样性分析还展示了从多种方法中得出的分类学概况。16S V1、V3、V4 和 V5 区域的组成与实验设计和 WGS 相似,而 V6 和 V7 与其他配置表现出巨大的差异。
结果表明,扩增子可变区对β多样性模式的影响最大(Adonis R2 = 0.69,P < 0.01),其次是拷贝数校正(Adonis R2 = 0.15,P < 0.01),序列读长(Adonis R2 = 0.14,P < 0.01)和测序类型(Adonis R2 = 0.12,P < 0.01)。
编辑
Zhang W et al.,2023 Microbiol Spectr.
因此,通过合适的测序策略,扩增子可以在物种水平上以低成本提供接近WGS的可靠微生物组分析。
扩增子二代测序
二代测序,尤其是使用 Illumina 的 Novaseq 或华大基因的DNBseq 系统,由于其高碱基调用准确性和吞吐量,已成为微生物分析的基石。
二代测序系统产生的300~500bp读长,足以覆盖 V4 区域的 515-806 片段,该区域以其可重复性和分类准确性而闻名。尽管有这些优势,V4 区域的长度有限也可能是一个缺点。
为了缓解这种情况,测序方法通常采用经过修改的定制引物或增加测序深度等方法来提高保真度,此外新的靶向测序方案也使得二代测序平台成为更具成本效益的方案。
优化和减少偏差
尽管有这些优点,二代测序和纳米孔测序技术都有其局限性,包括由不同的引物组和测序平台引入的偏差。例如,研究表明,纳米孔平台上的 V3-V4 区域引物可能表现出物种依赖性偏差,这可能并不适合所有类型的微生物群落。针对这些问题,研究人员通过调整PCR循环次数、引物组和生物信息学工作流程来优化测序方案,从而提高微生物群落分析的可靠性和准确性。
16S全长测序
相比之下,纳米孔测序,尤其是使用牛津纳米孔技术 Oxford Nanopore Technologies (ONT) 平台,可以对全长 16S rRNA 基因进行测序,涵盖所有高变区 (V1–V9)。虽然单碱基准确度较低,但综合来看物种分辨率更高。ONT MinION 等设备的便携性、成本效益和实时测序功能使其成为快速现场应用的理想选择,例如诊断细菌感染和监测传染病爆发。
尽管纳米孔测序具有这些优势,但它也面临挑战:相对测序和建库成本更高,通量较二代测序更低,尾端数据质量的下降以及缺乏专门用于分析纳米孔 16S 序列的生物信息学工具和方案。对样本要求更高,可能不适合部分低丰度或较多污染的样本。
多项比较研究表明,纳米孔技术可以在物种水平上识别微生物组成,其结果与二代测序等其他测序技术的结果非常相似,同时还可以识别出更多的细菌种类。
总体而言,在实际应用中,选择二代测序还是纳米孔测序取决于具体的研究和应用目标。
克服挑战和限制
16S rRNA 测序虽然功能强大,但也存在一些固有的挑战和局限性。一个主要问题是由于细菌和古细菌 DNA 从极少量扩增而导致的污染,使其容易受到有害环境细菌的影响。此外,与宏基因组测序方法相比,16S rRNA 测序的成本效益和可及性是以数据较少为代价的。为解决这些问题而做出的努力促成了新技术和新策略的开发。引入唯一分子标识符 (UMI) 为测序深度问题提供了潜在的解决方案。解决引物通用性和减少单分子错误也是提高 16S rRNA 测序效率的关键。
针对人体肠道菌群应用
谷禾结合宏基因组数据和已有的菌群构成数据,通过算法可以大大提高扩增子数据的物种分辨率。此外病毒、真菌、寄生虫和部分16S难区分的病原菌目前通过增加靶向引物进行tNGS的方式来实现,大大拓展了二代测序微生物多样性检测领域的涵盖范围。
高通量测序数据的爆炸式增长,要求开发新的生物信息学工具和数据管理和分析策略。这种快速扩展导致了分类学方法和测序数据下游分析的改进,进一步巩固了测序技术在现代微生物学研究中的作用。随着AI和大量微生物测序数据的积累,特定领域的菌群数据结合AI可以提供菌群之外的疾病和代谢等问题的答案,长久以来二代测序积累的大量样本和数据变成一种重要的应用优势。
主要参考文献:
Zhang W, Fan X, Shi H, Li J, Zhang M, Zhao J, Su X. Comprehensive Assessment of 16S rRNA Gene Amplicon Sequencing for Microbiome Profiling across Multiple Habitats. Microbiol Spectr. 2023 Jun 15;11(3):e0056323.
Bel Mokhtar N, Catalá-Oltra M, Stathopoulou P, Asimakis E, Remmal I, Remmas N, Maurady A, Britel MR, García de Oteyza J, Tsiamis G, Dembilio Ó. Dynamics of the Gut Bacteriome During a Laboratory Adaptation Process of the Mediterranean Fruit Fly, Ceratitis capitata. Front Microbiol. 2022 Jul 1;13:919760.
Pichler M, Coskun ÖK, Ortega-Arbulú AS, Conci N, Wörheide G, Vargas S, Orsi WD. A 16S rRNA gene sequencing and analysis protocol for the Illumina MiniSeq platform. Microbiologyopen. 2018 Dec;7(6):e00611.
Yeo K, Connell J, Bouras G, Smith E, Murphy W, Hodge JC, Krishnan S, Wormald PJ, Valentine R, Psaltis AJ, Vreugde S, Fenix KA. A comparison between full-length 16S rRNA Oxford nanopore sequencing and Illumina V3-V4 16S rRNA sequencing in head and neck cancer tissues. Arch Microbiol. 2024 May 7;206(6):248.