Tag Archive 基因

不同人类种群肠道微生物群的基本驱动因素

谷禾健康

肠道微生物群与人类宿主共同进化,对于我们的消化、代谢、神经、免疫等系统具有重要贡献,影响着人类身体和心理健康。

肠道微生物群从出生时就开始形成。生命早期的多种因素,如分娩方式、婴儿喂养方式以及母体微生物群等,都会影响肠道微生物群的初期定植。早期微生物群的组成和功能可能对宿主长期健康产生影响

人类肠道微生物群的变化与人类生存策略的演变密切相关,随着人类从狩猎采集社群向农耕与城市生活方式的转变,肠道微生物群的多样性经历了一系列的变化。而种族、地理、文化行为特征等宿主因素,也会对全球范围内人类肠道微生物群的多样性和组成产生影响。

近日,来自《Trends in Molecular Medicine》杂志发表的文章,从生态学的角度探讨影响不同人类种群肠道微生物群的基本驱动因素,并考察生活方式、社会经济地位人类迁移等因素,如何通过影响肠道微生物群而对不同人群的健康产生差异。

人类肠道中有高度多样的微生物群落,最显著的变化与工业化水平有关。

城市化、西方化的生活方式与细菌多样性减少、本地菌群(如普雷沃氏菌)和纤维降解功能丧失有关。这些差异可能导致非传染性免疫、代谢和神经系统疾病的发病率增加

在所研究的许多生活方式和遗传因素(地理位置、遗传相关性、饮食、种族、内在环境、家庭组成等)中,饮食和生活方式实践对肠道微生物群落的形成最具影响力

人类迁移可以揭示肠道微生物群在不同生活方式下对健康的影响。

这些信息的重要性在于,健康的或不健康的肠道微生物群不能简单适用于所有人,而应当根据特定的微生物组特征来设计适应各种人类群体的菌群失调策略。进一步了解和应对微生物组变化的探索,将成为未来疾病预防和治疗的重要方向。

01
生 态 过 程

通过研究微生物群落的组成,我们可以更好地了解微生物组的形成过程。这里面我们来了解几个概念:

微生物传播、环境选择、生态漂移

微生物物种在不同地点之间的传播能力,解释了微生物在人类和身体部位之间的垂直和水平传播

另一种机制被称为环境选择,解释了微生物群落之间的适应度差异或基于生态位的相互作用,这有利于某些物种在特定环境中生存。例如,双歧杆菌属(Bifidobacterium)具有代谢母乳的能力,因此在婴儿的肠道中非常常见。

生态漂移是指人类微生物组中微生物物种丰度的随机变化。生态漂移可以减少群落内殖民化和竞争互动的作用,增加群落之间的差异。

注:扩散和环境选择在生态选择和形成微生物相互作用中发挥着更强的作用,克服了人类肠道微生物组中生态漂移的影响。

微生物之间的相互作用影响肠道微生物组的组成

有些微生物物种依赖于与其他物种的共生互利关系。例如:

  • Dorea属、Coprococcus属、普雷沃菌属和Roseburia属之间存在正相关性
  • 而念珠菌与乳杆菌之间存在负相互作用

这表明在肠道微生物组中存在着合作竞争的相互作用。

炎症性肠病肥胖等疾病中,已经确定了一些关键细菌物种的共存或其作用途径,这表明它们在调节疾病相关的微生物组中发挥着重要作用。

真菌在微生物组成和共生中起着重要作用

例如,肠道-真菌-细菌的相互作用有助于在生命早期形成微生物组组成,细菌和真菌α多样性之间的负相关性表明,抑制机制限制了许多真菌物种在人类肠道中的生长。

肠道中的原生动物捕食细菌

肠道中的原生动物与细菌多样性和群落组成变化有关,这表明原生动物可能通过捕食细菌产生自上而下的影响,从而增加细菌多样性

来自不同国家的肠道微生物群研究也表明,人芽囊原虫(Blastcystis)是一种在人体肠道中常见的原生动物,与史密斯甲烷杆菌Methanobrevibacter smithii)以及肠道优势细菌普雷沃菌Prevotella copri)和瘤胃球菌Ruminococcus gnavus)的丰度有关。史密斯甲烷杆菌的丰度与产短链脂肪酸菌(如Collinsella aeroffaciens、P.copri、Roseburia fadis)呈正相关

扩展阅读:

瘤胃球菌属——消化降解关键菌?炎症标志菌?

这些研究结果强调了理解控制肠道微生物组成的生态过程和相互作用的重要性,因为我们的饮食习惯、生活方式、社会地理和其他环境因素会影响人体肠道微生物组。

02
宿 主 遗 传 学

人类肠道微生物组已经通过遗传相关性同居关系的梯度进行了研究,揭示了宿主遗传和肠道微生物组成之间有趣的联系。

宿主遗传学影响特定肠道微生物类群的丰度

家庭成员拥有相似的肠道微生物组,特别是,基因相同的双胞胎表现出最高水平的相似性。为了研究宿主遗传学对肠道微生物群落的影响,研究人员分析了来自以下群体的单卵和双卵双胞胎的几个粪便样本数据集:

i)TwinsUK群体,由977个个体组成的数据集,包括1081个单卵和二卵双胞胎、具有未知结合度的双胞胎和无关个体的粪便样本

ii)Yatsunenko数据集,包括来自委内瑞拉亚马逊地区的531名美洲印第安人、马拉维农村社区居民和美国大都市地区居民的粪便样本

iii)密苏里双胞胎数据集,包括54对双胞胎

这些研究表明:宿主遗传学影响特定肠道微生物类群的丰度。

宿主遗传学的影响因类群和种群而异,例如,Christensenellaceae是TwinsUK和Yatsunenko种群中最具遗传性的细菌科,瘤胃球菌科和毛螺菌科是TwinsUK和密苏里种群中最具有遗传性的操作分类学单元。

宿主环境超过了宿主基因对肠道微生物组成的影响

相比之下,这项研究以及芬兰的一项单卵双胞胎研究都表明,拟杆菌属是一个包括主要肠道微生物物种的分类单元,是不可遗传的,其存在主要由饮食来解释。因此,虽然某些分类群受到宿主遗传学的影响,但同卵双胞胎的高度同质环境可能比遗传学更能推动其肠道微生物组成之间的相似性。这得到了几项研究的支持,这些研究表明,与非共享家庭双胞胎相比,共享家庭和饮食的非遗传相关个体之间的微生物组具有显著的相似性,这表明宿主环境超过了宿主基因对肠道微生物组成的影响。

尽管如此,人类的遗传多样性导致了与常驻微生物物种直接相关的人类种群之间的生理差异。

基因 & 肠道菌群 & 症状或饮食方式

全基因组关联研究报告了:某些宿主数量性状基因座与一些可遗传细菌类群的相对丰度和功能之间的显著联系。LCT基因座双歧杆菌属之间的相关性在这些研究中最强,其随乳制品摄入量的变化而变化

其他发现包括:

i)与缺血性中风相关的人类甲酸盐氧化基因乙醛脱氢酶1家族成员A1(ALDH1L1)与细菌SHA-98之间的相关性;

ii)PLD1基因Akkermansia,其与降低肥胖风险有关;

iii)ABO血型基因和乳杆菌。

基因拷贝数的变化也与人类微生物组成有关。已知在富含淀粉的饮食人群中,负责消化过程中可消化淀粉水解的淀粉酶基因AMY1的拷贝数更高。AMY1拷贝数还与普雷沃氏菌卟啉单胞菌、瘤胃球菌科分类群的增加有关,所有这些都可以降解耐膳食淀粉,AMY1的低拷贝数可能导致未消化的淀粉到达大肠,增加下肠道的简单淀粉发酵,并调节肠道微生物群落。

分析和制定标准化方法的重要性,尤其是在处理地理或种族分布的乳糖不耐受等特征时。值得注意的是,组成肠道微生物组的大多数微生物物种似乎不受宿主基因的影响,这表明它们大多是环境获得的。

doi.org/10.1016/j.molmed.2023.07.002

03
环 境 暴 露

人类历史上的生活方式转变伴随着饮食、社会人口特征以及其他环境和文化因素的变化,这些因素反映在人类群体中肠道微生物多样性和组成的显著变化中。

城市环境的饮食、生活方式

如今,世界上一半以上的人口生活在城市环境中,据估计,到2050年,这一比例将增至约70%。向城市生活方式的转变带来了膳食蛋白质和脂肪摄入的增加,以及卫生条件的变化和药物负担的增加。相比之下,目前的现代狩猎采集人群以淀粉为基础纤维摄入量要高得多,并且经常被真正的胃肠道病原体或寄生虫定植。

人类肠道微生物群随着对这些饮食变化的反应和对宿主代谢需求的适应而发生了变化。

不同人群的肠道菌群特征

狩猎采集者的肠道菌群

例如,一组与西方生活方式接触有限的南美洲亚诺马米狩猎采集者的肠道微生物组在其他研究人群中显示出组成和功能多样性较高

哈扎狩猎采集者的微生物多样性也高于西方城市人口。它们独特的肠道微生物组成,包括参与支链氨基酸广谱碳水化合物代谢的基因,表明它们适应了饮食习惯和传统的觅食生活方式。狩猎采集群体表现出更高丰度的梭状芽孢杆菌、变形杆菌、螺旋体和其他与纤维降解有关的分类群,如丁酸弧菌、乳杆菌、普雷沃氏菌、瘤胃杆菌、琥珀酸弧菌和密螺旋体,以及氨基酸、毒力和维生素代谢功能。

扩展阅读:

认识变形菌门,变形菌门扩张的原因和健康风险

工业化城市人群的肠道菌群

工业化城市人群的特点是以拟杆菌属、双歧杆菌属、厚壁菌门成员和将纤维发酵成短链脂肪酸的细菌为主,包括BlautiaFaecalibacterium。工业化还与更高的水平基因转移率抗生素抗性基因的增加以及碳水化合物和外源代谢的预测代谢途径有关,这表明城市化导致了许多微生物功能和性状的消失和替代。

偏远、非工业化地区介于狩猎采集和西方生活方式之间

从生态学的角度来看,狩猎采集者的生活习惯以及这些种群与环境的接触有利于更高的微生物传播率,这是一种受西方生活方式限制的机制。微生物之间对生态位空间的竞争性相互作用也通过选择使宿主能够降解新底物的特殊类群来塑造肠道微生物多样性。其他在偏远、非工业化地区从事自给农业的非游牧传统社会,如非洲的农业学家班图人,表现出与坦桑尼亚的哈扎人相似的饮食习惯,在狩猎采集和西方生活方式之间,微生物α多样性和丰富性处于中间状态

社会经济地位的影响

社会经济地位显著影响健康差异,包括肠道菌群

除了与偏远或农村地区传统生活方式的差距拉开之外,人口的社会经济地位(SES)也会显著影响健康差异和不平等,推动各种因素当然也会影响微生物组的组成。其中包括食物供应和营养状况、体育活动、饮用水、空气污染、卫生和药物、寄生虫、分娩和婴儿喂养法。

影响婴儿肠道微生物组的因素

通过影响拓荒者和早期殖民者,对该生态系统产生了重要的生态影响。与母乳喂养的婴儿相比,配方奶粉喂养加速了婴儿肠道微生物组的成熟剖腹产分娩围产期抗生素暴露是关键因素,它们会在出生时中断初级微生物的继承和定植。

由于社会经济和文化因素,全球剖腹产出生率估计将从2018年的21.1%增加到2030年的28.5%,其中近80%的病例发生在中低收入国家

  • 在多米尼加共和国、巴西、塞浦路斯、埃及和土耳其等国家,超过50%的婴儿是通过剖腹产出生的。
  • 在美国、加拿大和丹麦等高收入国家,30-40%的阴道分娩婴儿在产时或产后接触抗生素,以防止新生儿感染,从而进一步改变自然的原发性定植事件。
  • 在印度和越南等中低收入国家,这一比例上升到90%以上。

围产期和婴儿微生物组的改变导致双歧杆菌减少、病原体增加和微生物组成熟加速,这可能导致肠道微生物失衡(微生态失调),从而导致随后的疾病,如哮喘、过敏和1型糖尿病。

扩展阅读:

微生物群在婴儿健康中的作用:从早期到成年

社会经济地位通过饮食影响菌群

社会经济地位的影响不能与饮食实践的影响脱节,因为不良的社会经济条低多样性饮食有关,这可能导致肠道微生物多样性低。社会经济地位、妇女教育和产假时间也与母乳喂养的开始率和持续时间有关。有趣的是,较低社会经济地位对微生物多样性的影响在普雷沃氏菌丰度较高的个体中更为明显。普雷沃氏菌是一种工业化程度较低的细菌群。

这些发现将饮食视为人类社会中人类肠道微生物组差异的决定性媒介,与社会经济地位等社会人口学特征健康差异密切相关。

扩展阅读:

肠道重要基石菌属——普雷沃氏菌属 Prevotella

非细菌微生物(真菌、病毒)

肠道真菌群的差异也与生活方式、社会人口和环境因素有关

这些差异从早期就可以识别,例如真菌属曲霉属毕赤酵母属念珠菌属和马拉色菌属在非工业化和工业化城市人群中的优势。先前的研究也表明,原生芽囊虫在非工业化城市人群的微生物群中更为丰富。

此外,城市生活方式与个体间和个体内古菌多样性以及古菌与细菌比率的降低有关。农村的饮食习惯史密斯分枝杆菌数量的增加有关,史密斯分枝杆菌是一种在农村人群中更常见的古菌。

肠道病毒群之间的个体差异增加

某些肠道病毒物种与地理位置、生活方式、种族特定饮食和其他环境因素、一些药物以及传染病和慢性病有关。研究表明,随着城市化的发展,肠道病毒群之间的个体差异增加长期城市生活与几种噬菌体(如乳酸杆菌和乳球菌噬菌体)以及一些细菌病原体相关噬菌体(包括沙门氏菌和志贺氏菌噬菌体)之间存在明显关联

在其中一项研究中,从中国两个地区(香港和云南)的城市和农村地区收集了来自六个不同种族(白人、傣族、汉族、哈尼族、苗族和藏族)的930名健康成年人的粪便DNA病毒群。他们的研究结果表明,肠道病毒组α的多样性在不同种族之间存在显著差异。与云南居民相比,香港居民的肠道病毒组含有更多的微小病毒科噬菌体,而较少的Myoviridae、Podoviridae和Siphoviridae噬菌体。在所有城市居民中富集的病毒在汉族、苗族和藏族城市居民中也比农村居民更丰富,而在傣族和哈尼族城市居民中比农村居民不那么丰富。

对非细菌微生物在人类肠道微生物组生态学中的作用的探索才刚刚开始,但新出现的证据表明,它可以极大地塑造细菌群落。因此,非细菌微生物很可能有助于解释人类种群之间的组成和功能微生物组差异。最近的报告也将真菌在疾病发病机制中与已知的微生物组贡献联系起来,包括癌症和IBD,这表明人类社会中非细菌微生物的差异应纳入微生物组和宿主疾病范式。

04
种 族 渊 源

人种是指定义人类群体的社会学和文化因素。微生物组成变化的种族相关模式可以用许多与宿主祖先、种族、生活方式、饮食习惯、医疗保健以及社会文化社会经济因素相关的协变量来解释,这些协变量很难相互脱节。

种族与微生物组成的相关性

人类对几个分类群的丰度和存在与否进行了显著的选择。一项针对新加坡106名婴儿在出生前两年的多民族人群的纵向队列研究报告称,从三个月大开始,在给婴儿介绍固体食物之前,种族对个体间微生物组差异的显著影响。

在本研究的三个种族(中国人、印度人和马来人)中,印度婴儿双歧杆菌属乳酸杆菌属丰度较高。相比之下,中国婴儿阿克曼菌属和拟杆菌属的丰度更高。这些发现受到母亲饮食摄入缺乏和母乳成分信息的限制,这些信息可以解释研究人群之间的种族差异。

扩展阅读:

肠道核心菌属——双歧杆菌,你最好拥有它

另一项比较阿姆斯特丹六个不同种族2084人微生物组成的研究表明,某些肠道微生物类群在不同种族之间存在差异。例如,拟杆菌在苏里南更为丰富,在荷兰的梭状芽孢杆菌和在加纳人、摩洛哥人和土耳其人的普雷沃特拉属更为丰富。荷兰和南亚苏里南的参与者分别表现出最高最低的微生物α多样性。

移民对肠道微生物组的影响与种族相关的饮食和生活方式等多因素都有关

研究的一个重要因素是移民的影响。在这项研究中,94%的非荷兰人在成年后移民到荷兰迁移时的年龄停留时间与它们的肠道微生物群没有显著相关性。相反,种族与所有这些因素相结合,对肠道微生物多样性和组成的影响比单独或结合但不包括种族的这些因素更强。尽管长期生活在同一环境中,但与种族相关的协变量反映了这些参与者肠道微生物组的组成,这表明移民后保持与种族有关的饮食和生活方式因素,有助于保持与荷兰居民群体的肠道微生物组差异。

种族与相似起源的人群的基因模式之间的联系

有趣的是,一些与种族密切相关的分类群也属于可遗传和/或遗传相关的微生物分类群,如Christensenellaceae、Odoribacteriaceae、Rikenellaceae,强调了种族与具有相同或类似地理和祖先起源的人群的基因模式之间的联系。微生物类群共现的模式也与人类宿主种族有关。TwinsUK群体显示,Christensenellaceae与其他可遗传细菌(Dehalobacteriaceae,RF39和SHA-98)和古菌(甲烷杆菌科)共存

共现模式也与宿主功能调节相关

另一项针对美国1673人的多民族群体的研究也显示,Christensenellaceae12个属不同种族(非裔美国人、亚洲或太平洋岛民、高加索人和西班牙裔)中的共现模式与人类ALDH1L1基因的遗传变异有关。Christensenellaceae相关微生物中心的共有性可遗传性,以及它们与ALDH1L1基因(叶酸代谢和细胞增殖)表达调节的重要宿主功能的关联,可能构成了宏生物(metaorganism)水平上的共同进化策略。然而,也有可能某些分类群与宿主遗传学有关,只是因为它们与其他可遗传分类群共存,如Christensenellaceae。目前,这些有趣的发现仍然只是联系在一起,需要检验因果关系。

种族是人类社会健康差异的一个重要决定因素,可能会导致种族对肠道菌群多样性和组成的影响

例如,在一项针对80名生活在英国的黑人和白人女性的研究中,双歧杆菌白人女性中更为丰富,这一发现与压力增加有关。相比之下,尽管饮食习惯没有显著差异,但黑人女性的微生物β多样性拟杆菌属丰度更高

微生物组与种族相关的结直肠癌风险

这些模式可能具有临床相关性,因为此前已经发现低丰度双歧杆菌属以及高丰度的拟杆菌属瘤胃球菌属结直肠癌(CRC)有关。

在一项将该人群与美国非裔美国人进行比较的研究中,在非洲农村地区也发现了较低丰度的拟杆菌属。然而,在引入西方饮食后,该人群的结直肠癌风险才有所增加。即使将压力作为一个风险因素加以控制,非洲裔美国女性的低拟杆菌属与结直肠癌之间的关联仍然显著,这表明微生物组在种族相关因素结直肠癌风险之间的既定联系中发挥了作用。

在非裔美国人人群中,微生物组是否可能起到中介、调节或仅仅与结直肠癌风险增加相关的作用,在人类研究中仍未得到解决。然而,脆弱拟杆菌在结肠炎相关结直肠癌小鼠模型中具有抑制肿瘤形成的作用,这表明该分类单元可能按种族依赖的方式对结直肠癌风险有因果性贡献

扩展阅读:

结直肠癌防治新策略——微生物群

05
地 理 位 置 与 人 类 迁 徙

从出生到成年,地理位置一直被认为是与微生物组成变化有关的因素。然而,很难将其影响与宿主的特定特征和当地环境因素脱钩

地 理 位 置

地理位置与生活方式、饮食等变量相关

一项研究比较了20个不同变量(包括人口统计、生活方式和饮食)对中国63个城市8个民族2678人肠道微生物组成的影响。这一比较表明,生活在同一地理位置的汉族和其他不同少数民族(白族、回族、苗族、蒙古族、纳西族、藏族和维吾尔族)具有相似的肠道微生物组成,这与其他城市的群体不同。虽然地理位置是个体间微生物组成变化的最强驱动因素,但作者将这一发现与生活方式和饮食等其他变量联系起来。

环境可以影响与遗传和种族有关的人类微生物群落的形成

在更精细的范围内,一项针对居住在同一省份14个区的7000多名来自同一种族(中国少数民族,包括99%的汉族)的中国人的肠道微生物组研究也显示,在享相同地理位置的个体中,微生物组相似,这表明环境也可以塑造共享遗传种族相关因素的人类微生物群落。需要在这些因素不同的地方进行额外的微生物组研究,以进一步了解地理位置本身的影响。

人 类 迁 徙

地理位置对肠道微生物组组成的作用也可以从人类迁移的角度进行研究

人们永久半永久地迁移到一个新的地方,可能会在一代或几代人的时间内对人类的生物学和健康产生深远影响。

根据《世界移民报告》,自1970年以来,移民人数增加了三倍多。2020年,全球约有2.81亿国际移民,这意味着每30人中就有一人生活在出生国以外的国家。近几十年来,由于冲突、战争和侵犯人权而被迫流离失所的人数也有所增加。截至2022年5月,联合国难民事务高级专员报告称,全球有1亿被迫旅行者和难民。

旅行和移民会改变食物供应、饮食习惯、生活方式、抗生素和抗寄生虫药物的使用、饮用水、文化和社会经济条件、心理创伤和压力、获得医疗服务的机会、气候、空气污染、环境过敏原等。

移民对藏族肠道菌群影响:微生物群的恢复力

一项研究评估了移民对30名移民咸阳的藏族妇女的影响。西藏人的微生物群汉族人不同,这可能是由于两个群体在环境、文化、饮食和基因构成方面存在巨大差异。这项研究调查了从迁移到10个月后的微生物组,发现尽管他们的饮食发生了变化,但迁移对肠道微生物多样性、组成和基因途径没有显著影响,这表明微生物组对这些变化有较高的恢复能力

爱尔兰旅行者饮食接近西方化,肠道菌群仍然保持着类似非工业化群体的特征

第二项研究评估了爱尔兰旅行者的微生物组,爱尔兰流浪者是爱尔兰本土的少数民族。虽然与其他欧洲游牧民族相比,他们在基因上更像爱尔兰人,但他们作为一个独特的民族生活,拥有自己的游牧文化和语言。然而,爱尔兰政府的持续压力导致2022年立法限制他们获得土地临时生活,并强制停止他们的游牧生活

这项研究比较了118名爱尔兰旅行者的肠道微生物组,他们在游牧生活中长大,但现在永久居住在科克附近,而非爱尔兰旅行者则生活在同一地理位置。两组之间存在重要的微生物组差异爱尔兰游民的微生物组类似于非工业化的微生物组,但主要是那些留在原地的游民(与居住在社会住房中的游民相比),有更多的兄弟姐妹,并且与动物生活在一起。

虽然是横断面的,但这项研究揭示了从小生活方式的改变,特别是与家庭条件有关的生活方式的变化,对肠道微生物组的影响。重要的是,爱尔兰旅行者的饮食转变为类似西方的饮食,但他们的微生物组仍然更接近非工业化成分

来自爱尔兰旅行者和西藏妇女的研究表明,工业化程度较低的微生物组的保留与人口采用新生活方式的程度呈负相关,这种影响可能比饮食的变化更强烈。从生态学的角度来看,大家庭靠近动物有助于微生物的水平扩散和增加微生物多样性

移民的生活方式对微生物组有何影响?

专注于人类迁移模式的微生物组研究也表明,更高程度地采用新的生活方式和随后的微生物组变化可能会导致适应不良的健康后果。

例如,过渡到社会住房而不是停留在原地的爱尔兰游民群体显示出与工业化国家更常见的慢性病相关的功能性微生物组变化,尽管目前尚不清楚这些变化是否导致了爱尔兰游民与非游民爱尔兰人之间的健康差异。

移民定居后微生物多样性和功能丧失,肥胖风险增加

另一项研究检查了514名苗族和克伦族个体(包括来自泰国的第一代和第二代移民)以及19名移居美国前后的克伦族个体的肠道微生物组。移民在美国定居后,经历了微生物多样性和功能的丧失,以及微生物组成的变化。

在移民前,个体原生的普雷沃氏菌菌株以及与植物纤维降解相关的细菌酶迅速消失,与之交替出现的是拟杆菌属。同时,该研究报告称,患肥胖症的风险增加移民时的年龄,尤其是儿童早期的年龄,以及作为第二代移民等因素增加了肥胖风险,这表明移民后代谢程序的跨代失调可能至少部分由微生物组的变化介导。

移民带来的肥胖危机:可能与饮食相关

西班牙裔/拉丁裔也描述了美国移民肥胖风险增加之间的关系,这一群体的肥胖率非常高,而且随着移民或儿童早期移民的持续时间而增加。一项针对美国西班牙裔/拉丁裔人群的肠道微生物组研究表明,与肥胖风险显著相关的细菌属也与美国接触有关,并可能与西方饮食有关。

研究还表明,一些微生物类群的共存可能解释了个体肠道微生物分类组成与环境因素的关系,如暴露于美国、饮食和肥胖。这些研究提供了证据,证明新移民获得的生活方式后肠道微生物的变化可能会加剧已知风险因素(即西方饮食)对肥胖的有害影响。

从生态学的角度来看,普雷沃氏菌等主要本土物种的丧失可能会导致人类肠道微生物群的广泛组成和功能差异,从而降低生态系统对干扰的抵御能力。当这种情况发生在生命早期,宿主发育途径更容易接受微生物组信号时,这种微生态失调可能会对宿主发育稳态造成更严重的损害,从而增加免疫和代谢性慢性疾病的风险

doi.org/10.1016/j.molmed.2023.07.002

06
结 语 和 未 来 展 望

基于人群的微生物组研究为微生物群落如何适应人类生活方式和遗传因素的梯度提供了一个窗口。从这些研究中,生活方式饮食因素成为塑造肠道微生物群落的最具影响力的变量,尽管宿主基因地理位置也发挥着重要作用。这些发现有力地证明了健康或失调肠道微生物群的普遍规模。

需要进行更多的微生物组研究,以特定人群的方式进一步调查人类微生物组组成的变化,特别是关于疾病的微生物组特征和研究不足人群中基于微生物组的治疗。这对于设计临床策略,预防或治疗世界不同地区的传染病和非传染病至关重要。

到目前为止,研究工作主要局限于更富裕的国家,忽略了社会不平等在人类微生物组中的大部分作用。将这项研究扩大到更大规模的人群的初步努力表明,工业化的城市生活方式西方饮食个体间细菌多样性的增加和个体内细菌多样性下降有关。换句话说,城市肠道微生物群更加个体化每个宿主的物种数量减少。了解和解释这些差异对于定义每个群体的微生态失调基于微生物组的诊断以及群体内的个性化药物至关重要。

生态学理论人类微生物组研究相结合,可以帮助人们了解更多关于早期微生物建立、对扰动的恢复力和功能多样性的生态驱动因素。通过观察早期生态系统建立过程中的微生物-微生物相互作用、人类迁徙研究中观察到的物种的损失和入侵,以及人们对非细菌微生物(古细菌组、病毒组和真菌生物组)的作用,可以更好地了解微生态失调的发展和解决。了解微生物变异的驱动因素对微生物共存的影响,可以为未来的微生物研究和治疗提供深刻的见解。

最后,对迁徙前后个体微生物组成的差异进行更多的研究,可以更深入地了解种群和人类各代肠道微生物组的稳定性或变化。移民往往发生在工业化、城市化地区,以寻求更好的生活条件。比较大型多民族和多文化社会中肠道微生物在迁移时间梯度上的变化,将有助于了解种群之间的微生物交换及其对健康或疾病轨迹的影响。

主要参考文献:

Parizadeh M, Arrieta MC. The global human gut microbiome: genes, lifestyles, and diet. Trends Mol Med. 2023 Jul 27:S1471-4914(23)00152-1. doi: 10.1016/j.molmed.2023.07.002. Epub ahead of print. PMID: 37516570.

生物系统和疾病的多组学数据整合考虑和研究设计

谷禾健康

1 生物系统

生物系统——组成

生物系统很复杂,具有许多调节功能,例如DNA,mRNA,蛋白质,代谢物,以及表观遗传功能(例如DNA甲基化和组蛋白翻译后修饰(PTM))。 这些特征中的每一个都可能受到疾病的影响,并引起细胞信号传导级联和表型的改变。 除了宿主对疾病的反应调节机制外,微生物组还可以改变宿主特征的表达,例如它们的基因,蛋白质和/或PTM。

生物系统——疾病

为了深入了解疾病的机制,我们需要研究这些特征及其相互作用。例如,黑色素瘤、肺癌和甲状腺癌等癌症是由BRAF癌基因驱动的。然而,当患者接受抑制BRAF的治疗时,往往会产生耐药性。最近的多组学研究揭示了肿瘤特征的异质性和复杂性,如基因突变、转录组、蛋白质和信号通路。现在人们认识到肿瘤可以绕开治疗而产生耐药性。

生物系统——技术

随着下一代测序和质谱技术的发展,人们越来越需要融合生物特征的能力来研究整个系统。转录组、甲基组、蛋白质组、组蛋白翻译后修饰和微生物组等特征都影响宿主对各种疾病和癌症的反应。由于样品制备步骤、测序所需的材料量和测序深度要求,每个平台都有技术限制。近年来,数据集成方法的发展受到了推动。每种方法都使用诸如概念整合、统计整合、基于模型的整合、网络和路径数据整合等方法来具体整合组学数据的子集。

生物系统——多组学

多组学方法的整合使得对疾病病因学有了更深入的了解,例如:揭示微生物组在减轻或增加疾病风险方面发挥作用的各种方式。双酚A(BPA)是一种大规模生产的化学品,广泛应用于食品包装、塑料和树脂中,双酚A的不完全分解就是一个例子。由于双酚a是一种内分泌干扰物,双酚A已成为日益增长的公共卫生问题。因此,利用微生物手段快速、完全降解双酚A等化合物的研究具有重要意义。

本文讨论每个数据特征的研究设计考虑,基因和蛋白质丰度及其表达率的限制,当前的数据整合方法,以及微生物对基因和蛋白质表达的影响。在开发整合多组学数据的新算法时应考虑的因素。

2

从“组学”的角度理解生物细胞过程

不同生物基因数量

生物系统是具有多种调控功能的复杂生物。 例如,人类基因组由大约32亿个核苷酸组成,可产生20 000至25 000个蛋白质编码基因,并且通过选择性剪接事件可产生超过100万种蛋白质(下图)。

不同的生物不同数量的基因和蛋白质。例如,在大肠杆菌、酿酒酵母和智人基因组中分别有大约4300、6000和25 000个基因。这导致大肠杆菌、酿酒酵母和智人的每个细胞中分别有大约2400到7800、15 000和300 000个mRNA分子。线粒体转录物约占多聚腺苷酸化RNA的20%。其他高丰度的转录物包括编码核糖体蛋白质和参与能量代谢的蛋白质的转录物。下图概述了人类DNA、DNA甲基化、组蛋白翻译后修饰、mRNA和蛋白质的复杂性。

Graw et al., 2020 Molecular Omics

染色质结构和基因/蛋白质调控的概述。 DNA通路受DNA甲基化和组蛋白翻译后修饰(PTM)的调控。调节的每一层也可以通过环境和宿主生物中存在的微生物进行修饰。 可以通过使用各种核苷酸和蛋白质/肽测序技术对生物调节的每个水平进行测序。

细胞中蛋白质含量

一个细胞中蛋白质的估计数量约为2.36×106(在大肠杆菌中),约为2.3×109(在晚期智人细胞中)。在一个细胞的全部蛋白质总数中,最丰富的蛋白质可占蛋白质含量的5-10%,由核糖体蛋白、酰基载体蛋白(ACP)(在脂肪酸生物合成中的功能)组成,分子伴侣和折叠催化剂、糖酵解蛋白质(能量和碳代谢的主干)和肌动蛋白等结构蛋白质

转录因子是一种低丰度的蛋白质,在细菌中每个细胞的拷贝数为1-103,在哺乳动物细胞中为103-106。

最丰富的蛋白质通常在细菌中有数千个拷贝,在哺乳动物细胞中有数百万个拷贝。由转录因子调控的基因数量取决于其浓度蛋白质含量取决于生长条件和基因诱导。最后,考虑到微生物与宿主细胞数量的比例(取决于宿主细胞类型)和其他因素,这可能会变得更加复杂

mRNA 和蛋白质寿命以及差异

由于仪器检测,动态范围和分子寿命表达的限制,用于各种组学平台的测序技术只能捕获某一时刻某个细胞群体中发生的情况的快照。 例如,mRNA转录本和蛋白质的终生表达差异很大。 在大肠杆菌中,mRNA的中位寿命为5分钟,在发芽酵母中为20分钟,而对于人参则为600分钟。然而,蛋白质的寿命约为1-2天

转录和翻译的速率因生物体的不同而不同(大肠杆菌:每秒10-100个核苷酸(nt)和10-20个氨基酸(aa)/ s。智人:6-70 nt / s和2  aa per s;分别为转录和翻译速率)。 

对于大肠杆菌来说,一个单一的mRNA转录本在被降解之前可以产生10-100个蛋白质。鉴于这一信息,我们可以看到,将我们对组学平台的选择和由此产生的对细胞过程的解释相结合,检测具有更长寿命的蛋白质的机会将增加

在考虑数据整合研究设计、开发新算法和解释结果时,认识生物体的生物复杂性、分子的动态范围、测序限制以及这些分子的表达寿命非常重要。

3

微生物对基因和蛋白质的影响

近年来,微生物组学在宿主健康中的重要性已得到公认。全生物和全基因组的概念对我们如何看待微生物组有着深远的影响,尤其是在治疗方面。这种微生物-宿主相互作用的密切关系可以更明确地称为“微生物群-营养代谢-宿主表观遗传轴”。微生物与宿主相互作用的紧密关系可以更明确地称为“微生物群-营养代谢-宿主表观遗传轴”。

微生物群及其代谢产物可以通过直接修饰组蛋白,改变DNA甲基化谱图和影响而影响宿主表观遗传。 非编码RNA的性质(上图)。 例如,可以通过改变组蛋白修饰酶的活性和酶底物的水平,通过微生物群来修饰组蛋白。

微生物影响药效

微生物群也可以影响药物的治疗性质。 许多前药,即必须进行代谢转化才能在药理上有用的药物,可能会保持无活性(即不存在介导前药向其活性形式转化的微生物群),或者该药物/前药可能无法生物利用。此外,服用NSAIDs(非甾体类抗炎药)的患者可能会促进抗生素耐药菌的优势,因为24%的非处方非处方NSAIDs被抑制。

这些代谢组学效应引起人们对旨在用于人类和农业系统的治疗药物或其他饮食和治疗方案的潜在副作用的担忧。 例如,抗生素可以消除产生组蛋白脱乙酰基酶(HDAC)抑制剂的微生物。 这些微生物(如果存在)可以增强调节性T(Treg)细胞,从而有助于抗炎过程。

微生物代谢途径的多样性及其对药物药代动力学和药效学的影响可能部分解释了个体和人群之间药物反应的变化。 因此,涉及微生物组的治疗方法可能必须因地制宜。组蛋白可以同时进行变体置换和翻译后修饰(PTM),这些共同构成了“组蛋白密码”。 这些局部排列可以影响染色质结构,从而导致转录活性的激活或抑制。

通过饮食,微生物有能力改变宿主的甲基化和PTM谱,并且还可以通过膳食碳水化合物的发酵影响短链脂肪酸(SCFA)的生成。丁酸盐和乙酸盐等SCFAs可抑制脱乙酰酶水平。这意味着由于乙酰化促进转录活性的增加,染色质结构变得越来越松弛。事实上,已经证明微生物可以以位点特异性和组合方式影响宿主组织乙酰化和甲基化染色质状态,甚至影响宿主发育和代谢表型

微生物参与干预

未来关注健康医疗策略时,越来越多地考虑对微生物组的发展及其相应的宿主个体发育变化进行建模。考虑到宿主免疫系统不仅必须能够识别“自身”抗原,而且还必须能够识别共生微生物的抗原,这些变化可以通过宿主免疫成熟来证明。

微生物如何影响主要组织相容性复合体(MHC)的表达,或者宿主杂合度如何通过MHC影响微生物群的多样性,这在很大程度上是未知的,也是一个活跃的研究领域。微生物在癌症和免疫治疗中的作用正日益成为治疗策略发展的目标。蛋白质组学与其他组学策略相结合已被用于研究疾病过程。如果我们不考虑微生物群的影响,那么我们可能会错过开发潜在治疗方法的有意义的见解。尤其是那些与代谢紊乱(如肥胖)或代谢物(如胆汁酸)对器官系统的全身影响有关的疾病。

4

微生物生态学进展

微生物生态学的历史围绕着适当的系统发生标记基因的测序和比对。  WoSes and Fox(1977)首先将16S rRNA基因用作标记基因,是迄今为止最常用的标记基因,其大规模数据库包含从环境和培养来源(例如SILVA,RDP,Greengenes)获得的全长基因分离株 )(表1)。 新的微生物分类数据库,例如基因组分类数据库(GTDB),不仅建立了16S rRNA基因参考数据库,而且还利用系统基因组学信息提供了一个一致的框架,用于确定从元基因组获得的系统发育背景部分或完整基因组 。

大数据集的可用资源列表

选择合适的引物和平台

除了选择标记基因和合适的数据库外,研究人员还可以在测序方法和平台之间进行选择。 由于Illumina和Ion Torrent等短读平台的局限性,研究人员必须在〜1500 bp的16S rRNA基因的可变区之间进行选择。 取决于微生物群落组成,每个可变区提供不同水平的敏感性和特异性。 然后选择在研究中最能区分普通分类群的引物组和扩增子区域的组合

目前针对扩增子测序可选择的测序平台和方案很多,不同平台的读长和适用的测序区段以及优势各有不同。16s测序主要的测序区段包括v4、v3v4,v1v2,v6,此外还有全长等不同的区段选择,不同可变区或全长由于引物的不同以及不同种属相应区段内的变异多样性差异,对菌属的丰度评估会有一定的差异。

从长度来看,全长16s长度为1.5kb左右,单菌落的16s全长sanger一代测序仍然是菌种鉴定的主要手段,纳米孔和pacbio的三代测序可以高通量的获得全长序列,对于希望更高分辨率的分析菌种的研究有一定优势。三代的测序准确度目前逐渐改进,直接测序准确度可以在90%以上,纠错后可以提高到97~99%以上,已足够提供高精度的分类。三代目前主要问题在于建库成本相对较高,通过使用barcode可以降低部分但仍然偏高,此外普遍测序深度相对于二代测序要低许多。

目前最主要的可变区选择是v4区和v3v4区,v4区长度为256bp左右,加上两侧引物长度为290bp左右,使用双端2x250bp或2x150bp可以测通,此外如454、life、illumina的测序平台读长也可以主要涵盖该区段读长。例如采用illumina Novaseq测序平台对该项目进行双端测序(paired-end),测序得到了fastq格式的原始数据(样本对应一对序列s_1.fastq和s_2.fastq)。再配对拼接成单条序列。其引物通用性相对是所有可变区中最高的,大量的大规模菌群调查研究都采用v4区作为检测区域,包括人体菌群研究如:hmp,肠道菌群如美国肠道计划agp,欧洲的fgfp等,以及全球土壤菌群调查,目前仍然是国际研究中使用最广泛和认可的检测区域。

illumina的miseq提供了长达2x300bp以及hiseq2500和最近的novoseq提供有2x250bp的测序方案,为进一步利用读长,目前有相当一部分研究选择v3v4区,该区段长度在460bp左右,相较于v4度多出了v3区段约100bp左右的片段,在少部分菌属中可以增加一定分辨率。经过对比,v3v4区的检测结果和v4区在绝大部分菌属中的丰度一致,但由于引物不同,在少量菌属中丰度会有不同偏向,v3v4从otu层面上并未发现较v4区有明显增加。引物的选择和提取、储存方法是影响菌群检测丰度构成的主要因素,不同研究之间的比较需要考虑到实验方案的一致,相同的方案可以直接比较。

当前的宏基因组分析技术已使研究人员能够从环境/宿主来源的样品中获得足够的序列覆盖率,从而获得部分和完整的基因组草图。 该覆盖因子高度取决于物种的均匀度和丰富度。 还可以通过拼接组装元基因组组。 但是,由于难以组装和正确分装高度保守的基因(如核糖体亚基基因),因此它们通常必须使用浓缩的通用蛋白将这些基因组置于系统发育背景中

组合的通用标记基因被用来构建由环境和寄主衍生序列组成的基因组以及来自培养物收集的少数常见微生物基因组的系统发育。微生物基因组测序的热潮使得有必要构建易于使用的软件包以及分析工具,以帮助生物学家学习如何对其全部或部分的元基因组数据进行分析。这类工具的例子如,QIIME 2、metaWRAP、 Sunbeam、SqueezeMeta、metAMOS、 mg RAST、IMG/M、 Anvi’o、MicrobiomeAnalyst、以及biobakery集合中的各种工具(例如MetaPhlan2、PhyloPhlan、HUMAnN、LEfSe)等。

此外,如果深入研究,还需要望整合疾病指标、宿主蛋白质组学和微生物多样性多组学的联合分析。

5

测序技术

根据生物学问题的不同,有许多类型的组学技术,针对DNA、总RNA、mRNA、miRNA、DNA甲基化、蛋白质、蛋白质修饰、组蛋白翻译后修饰、宏基因组学、宏蛋白质组学,测序平台经过多年的改进,现在可以在几天内从少量材料中对大型复杂人体样本进行测序(表2)。已经开发了几种工作流程来对整个基因组、整个外显子组(DNA的蛋白质编码部分)和转录组(mRNA)进行排序,并对特定的癌症或免疫相关基因进行排列。此外,还可以利用亚硫酸氢盐全基因组测序或Illumina的甲基化珠芯片阵列分析修饰,如DNA甲基化。 还可以通过牛津纳米孔技术(ONT)MinION平台和PacBio仪器对长读的DNA和RNA进行直接测序来确定此类修饰的检测。

推荐覆盖率和读数

基因组测序

DNA测序技术的错误率和读取长度各不相同。Illumina短读测序(即Hiseq、Miniseq等)通常具有非常低的错误率,约为每碱基0.25%,但对低多样性文库敏感,如16S宏基因组学和靶向基因方法等应用。长读取技术的错误率较高,PacBio为13–15%,Oxford Nanopore instruments为5–20%。Illumina平台的读取长度最大为600个碱基,但长读取技术通常一次读取可达到10–30 kb。最佳读取长度也取决于应用程序。

大多数测序实验可以收集150-300碱基对读取长度的合适信息,但也有例外。对于全基因组测序(WGS),最长的读取可能是最佳的,但是对于长读取技术,错误率随着长度的增加而增加。有许多研究者把“短读”和“长读”结合起来。由于最近长读取排序技术的出现,关于WGS以外应用程序的最佳长读取长度的信息非常缺乏,但Illumina short read sequencing提供了丰富的最佳读取长度建议。

蛋白质测序

在过去5-10年中,质谱仪通过增加测序深度能力也得到了改进。这项技术已经从使用旧的LTQ质谱仪在细胞系实验中对大约3000个蛋白质进行测序,发展到使用新的Orbitrap Lumos和Orbitrap Eclipse质谱仪对8000-10000个蛋白质进行常规测序。大多数蛋白质组学实验都是采用数据相关采集(DDA)模式进行的。在该方法中,选择从液相色谱(LC)柱洗脱的MS1扫描中最丰富的前20个肽在orbitrap中进行裂解,以产生肽序列MS2扫描。样品混合物的复杂性极大地影响了测序深度和将鉴定多少蛋白质。了解样品的蛋白质丰度和组成是至关重要的。如果转录因子是目标分子,那么在质谱分析之前去除高丰度蛋白质的方法可能是必要的。这对于含有大量分子(如白蛋白和血红蛋白)的血清和血浆样品尤其重要。否则,质谱仪将测序数千个白蛋白分子,并错过最有趣的低丰度蛋白质。

最新的质谱技术利用数据独立采集(DIA)来对MS1扫描中所有肽从LC色谱柱洗脱时的序列进行测序,这与仅对最丰富的峰进行测序的DDA方法相反。

对于复杂的混合物,例如上面的血清示例,DIA方法优于DDA。 这种方法有助于克服受高丰度蛋白质高度影响的复杂混合物。

除了对宿主基因和/或蛋白质进行鸟枪法测序外,我们还可以对微生物组利用鸟枪法测序。 

当测序深度很浅时,弹枪宏基因组学/元代谢组学只能采样优势菌群。shot弹枪对微生物组测序的主要挑战是由于采样不足而难以组装基因组片段,将肽组装在一起以进行可靠的蛋白质和生物分类鉴定也同样困难。

尽管存在这些潜在问题,但从各种人体部位和疾病(如唾液、肠道/粪便、颈阴道疾病或慢性肾脏疾病)中对微生物蛋白质组进行深度取样是可能的。然而,每个研究必须考虑的研究/取样设计和分析方法可能有很大差异。

从差速离心到双过滤差速分离,几种样品制备方法已被证明能富集微生物生物量。这些方法通常遵循各种优化的微生物裂解方案,通常涉及机械破坏(如打珠、超声波),辅以酶(如胰蛋白酶)和洗涤剂。在成功溶解后,同样重要的是去除残留的酶、洗涤剂和盐。

元蛋白质组学实验的另一个复杂性是由于同一生物体内的蛋白质具有共享的肽序列这一事实。 为了对蛋白质鉴定有信心,应以高可信度鉴定蛋白质的独特肽段匹配。 当将肽序列映射到数百个具有保守蛋白序列的不同物种时,这变得更加复杂。 质谱法不对蛋白质进行测序,而是测量肽的电荷,并依靠与蛋白质序列数据库匹配的质谱进行蛋白质鉴定。

精心挑选的数据库对于正确分析从这些各种测序平台生成的核苷酸和蛋白质测序数据至关重要。 使读数与参考基因组比对的能力仅与参考基因组中存在的序列和注释信息一样好。 有几种资源可以不断地整理和更新核苷酸序列信息和注释,包括加利福尼亚大学圣克鲁斯分校(UCSC)基因组学研究所基因组,美国国家生物技术信息中心(NCBI)GenBank和RefSeq,DNA元素百科全书(ENCODE)和Ensembl 仅举几例。 通用蛋白质资源(UniProt)包含Swiss-Prot(手动注释和审阅)和TrEMBL(自动注释且未审阅)数据库,以获取蛋白质序列信息。

6

数据集成和当前方法

已经开发了几种数据集成方法来集成某些类型的组学数据。 另外,已经创建了大数据存储库来存储来自各种疾病的测序实验的数据。 这些资源提供了有价值的构建基块和大量生物样本,可用于推动数据集成方法的发展。 当前,数据集成工具实现了多种方法,但通常分为两类:多阶段分析和元维度分析

多阶段集成模型仅使用数据的两个数字或分类特征构建。 例如,将来自RNA-seq实验的基因计数与来自质谱运行的蛋白质信息相结合。元维度分析试图通过级联或转换将所有感兴趣的数据类型合并到可以同时分析的同时矩阵或“元数据”集中。

 后一种方法具有更大的统计能力,但在尝试合并来自不同类型数据集的数据时可能会具有挑战性。 但是,研究人员如何确定最合适的工具或方法? 

如上所述,生物学问题是选择的分析方法类型的驱动力,诸如采样,平台类型和数据质量等因素很重要。 样品如何收集和准备?

如果测序深度或质量较低,是否可以有效分析数据? 数据类型兼容吗? 

归一化和滤波后损失了多少信号?

这些都是在选择适当工具之前应考虑的所有问题。

不幸的是,数据集成和分析非常复杂,并且对于具有有限生物信息学背景的研究人员而言,目前还没有许多用户友好的工具。 许多工具使用统计语言R,除了强大的生物统计知识外,它还需要专业编程知识。 例如,将蛋白质组学,转录组学和途径分析结合到两个数据集上的R包积分学使用了相关分析和偏最小二乘回归。R包mixOmics使用多元分析进行数据探索,降维和可视化。 通过途径分析,iClusterplus和LRACluster进行的miRNA和基因表达使用聚类来整合甲基化和基因表达数据。

多组学数据集成工具

对于多状态和多维方法,都使用了许多不同的算法,但最常见的算法是聚类,网络分析,数据约简(PCA)和贝叶斯分析。Ray等2014年使用贝叶斯分析,使用从癌症基因组图谱项目收集的数据分析卵巢癌中的基因表达和甲基化数据,并检测到一个基因SPON1,该基因似乎受其CpG位点的甲基化调控。当缺乏生化相互作用的先验知识时,基于相关性的分析是有用的。无论采用何种方法,适当的规范化和数据过滤是非常重要的,因为数据来自多个来源。

还有一些基于网络的工具,如Paintomics,试图使数据分析更容易,但对于缺乏经验的用户来说仍然很困难,研究人员必须对他们的数据有很好的工作知识。此外,还有一些数据库常用于综合组学分析,如癌症细胞系百科全书(CCLE)、癌症基因组图谱计划(TCGA)、与基因组学驱动治疗相关的肿瘤改变(TARGET)和组学发现指数(OmicsDI)。CCLE和TCGA已经描述了数以千计的癌症数据集,可以用于数据挖掘和可视化。TARGET利用临床信息并在其网站上提供分析工具的资源。omicdi提供了一个平台,用于搜索各种生物的公共和受保护数据。

7

研究设计和效力评估的注意事项

对于任何高质量的研究,进行多组学研究应该首先确定研究的范围和限制。仔细的计划和执行将提高研究的稳健性和可重复性,在多组学研究中尤其重要,因为它们涉及大量的比较、定制的统计分析、大量的财力,时间和精力。一旦研究假设被明确定义,选择一个合适的研究设计,最好地解决研究假设。因此,有几个问题需要评估

例如:是否有一个或多个干预组与对照组(或其自身)进行比较,或者是否在干预前后对同一样本的效果进行评估?

干预效应是在一段时间内产生的,还是在几个不同的时间点测量样本?

生物样本是否会被单独收集或分析?它的科学依据是什么?

哪些类型的组学平台将提供最有价值的以及如何整合多组学数据?

来自同一生物来源的样本是否可用于所有感兴趣的多组学平台?

理想情况下,所有omic平台的样本将从同一来源收集。

然而,由于样品的特殊限制或材料的可及性和数量,这并不总是可能的,从福尔马林固定石蜡包埋(FFPE)组织生成多组学数据对于某些组学平台可能是不可能的。虽然在选择实验设计时有许多问题需要考虑,但选择研究设计的决定因素通常是其可行性和经费限制。

样品和数据的收集应以数据分析为指导,以减少混淆和技术因素,例如批量效应。这些效应可以在样品收集,制备和存储的步骤中引入。

由于与多组学研究相关的数据的复杂性和大量数据,因此针对特定的研究项目量身定制统计分析至关重要。已提出了多种集成多组学数据的方法,并将其归类为受监督的, 半监督或非监督; 以及基于概念,统计,相关性,网络和模型的集成。

一项研究的统计能力取决于几个因素(下图),其中一些因素可以控制,而另一些因素由于研究及其设计而固定。首先,选择了用于分析的统计方法。虽然有些测试比其他测试更强大,但重要的是验证和满足他们的假设

影响研究统计能力的另一个因素是单个组学平台测量的变量数量,通常由组学平台决定。例如,基因组学通常测量数百万个变体,转录组学量化了成千上万个分子,和蛋白质组学和代谢组学分析了数千个分子。此外,统计效力受表型或处理效应的大小和差异程度(效应大小)的影响。效果有多明显?组间的信号差异有多大?有多少被测变量受到影响?关于效应大小的信息可以从以前的文献或专家知识中获得,但通常是未知的。

这种情况下,初步研究可以帮助估计效应大小,但由于不稳定,这些估计需要谨慎处理。另一个效力影响因素是测量值的均匀性,描述了样品的自然方差、测量仪器的精度和检测限。随着方差的增大,统计效力将减小。样本的方差可能是多方面的结果,例如样本群体的选择、组织类型的选择或混杂因素。

除了样本方差膨胀外,混杂因素也会在数据中引入偏差,因此,收集样本元数据以减轻某些混淆的影响是很重要的。由于影响研究统计能力的大多数因素是固定的或由研究设计决定的,因此最常用于调整研究统计能力的因素是样本量

多组学研究中影响统计功效的因素 

Graw et al., 2020 Molecular Omics

8

结论和未来方向

研究的首要考虑正在调查的疾病或研究问题的背景,以及整合在一起时,什么类型的数据将提供有价值的见解。根据生物学问题、材料类型(新鲜组织、FFPE组织、血清/血浆和细胞系)、DNA/RNA/蛋白质的数量、生物复制的数量以及研究中混杂效应的数量,这些因素将决定数据采集所需的最佳样品制备和测序方法。

样品制备方法,包括每个样品制备的日期、提取的DNA、RNA和/或蛋白质的类型、基因组学的文库生成、质谱分析的蛋白质消化和肽标记方法以及测序平台/仪器,都是研究设计和最终结果解释的关键因素结果。

如果一个样本是在不同的日期制备的,而不是其他生物复制品,这将引入方差和/或偏差,并降低分析的统计能力。如果蛋白质组样品使用多个TMT-10plex批次进行复合,这将在整个测序过程中引入批次效应。这些因素应在样品制备前进行讨论。

同样重要的是要知道什么样的调控特征被捕获用于测序和整合。例如,如果在进行质谱分析之前在样品制备过程中膜蛋白没有溶解那么膜结合蛋白就不能与基因表达数据整合。质谱数据的一个警告是,缺失值并不一定意味着蛋白质没有表达,只是蛋白质低于质谱仪的检测限。生物学问题应该成为多组学数据整合方法的驱动力。

在大多数情况下,当前的工具利用聚类、网络、数据简化和贝叶斯分析。随着数据获取量的不断增加,产生了大量的数据集,使得机器学习对于有效的分析和数据挖掘变得越来越必要。有必要使用易于获取和记录良好的方法、工具和算法。

机器学习在允许科学家集成多组学数据集方面发挥了越来越重要的作用。通过利用机器在大量生物数据中比较和识别模式的能力,可以用更加准确和有效的方法来阐明复杂的细胞机制,在某些情况下还可以预测临床结果。这是通过计算机独特的能力来实现的,它可以同时观察多个层次的组学数据,从而提供一个更全面的系统视图。

尽管多组学数据集可以为个体提供更深入的理解,但这并非没有成本。组学研究通常依赖于大量的比较、正确的数据类型、适当的统计分析以及大量的时间、技术人员和金钱投入。在构建一个实验时,人们必须清楚什么类型的组学数据可以而且应该被整合以获得对所研究系统的最大理解。

高通量的组学平台并不总是回答研究问题所必需的。传统技术:如酶联免疫吸附试验(ELISA)、免疫组织化学(IHC)和定量聚合酶链反应(qPCR),也是验证特定生物学机制所必需的。事实上,为了验证从组学数据中鉴定出的重要分子是一个真正的阳性结果,通常需要这些技术来验证一个更大的组学研究的结果。

但是每种方法都受到其统计能力、样本量、技术变量、批次效应、测序深度、样本制备和许多其他因素的限制。在设计、进行和分析研究以及解释研究结果时,必须牢记这些因素。因此,如果允许,建议研究设计一开始就让生物统计学家/生物信息学家参与进来。

参考文献:

Graw S, Chappell K, Washam CL, Gies A, Bird J, Robeson MS 2nd, Byrum SD. Multi-omics data integration considerations and study design for biological systems and disease. Mol Omics. 2020 Dec 21. doi: 10.1039/d0mo00041h. Epub ahead of print. PMID: 33347526.

A. Zaman , W. Wu and T. G. Bivona , Targeting Oncogenic BRAF: Past, Present, and Future, Cancers, 2019, 11 , 1197

A. Alvarez-Arenas et al., Interplay of Darwinian Selection, Lamarckian Induction and Microvesicle Transfer on Drug Resistance in Cancer, Sci. Rep., 2019, 9 , 9332  .

K. Yu et al., An integrated meta-omics approach reveals substrates involved in synergistic interactions in a bisphenol A (BPA)-degrading microbial community, Microbiome, 2019, 7 , 16.

G. D. Poore et al., Microbiome analyses of blood and tissues suggest cancer diagnostic approach, Nature, 2020, 579 , 567 —574  .

A. Gonzalez et al., Characterizing microbial communities through space and time, Curr. Opin. Biotechnol., 2012, 23 , 431 —436 Search PubMed .

D. Gurwitz The Gut Microbiome: Insights for Personalized Medicine, Drug Dev. Res., 2013, 74 , 341 —343  .

N. Issa Isaac et al., Metaproteomics of the human gut microbiota: Challenges and contributions to other OMICS, Clin. Mass Spectrom., 2019, 14 , 18 —30

1
客服