谁了解宏病毒组测序方法和原理?

高通量测序技术的发展衍生出一系列微生物组(microbiome)研究技术,如扩增子、宏基因组、宏转录组等,快速推动了微生物组领域的发展。微生物组数据分析涉及的基础知识、软件和数据库较多,对于同领域研究者开展学习和选择合适的分析方法具有一定困难。本文系统概述了微生物组数据分析的基本思想和基础知识,详细总结比较了扩增子和宏基因组分析中的常用软件和数据库,并对高通量数据下游分析中常用的几种方法,包括统计和可视化、网络分析、进化分析、机器学习和关联分析等,从可用性、软件选择以及应用等几个方面进行了概述。本文拟通过对当前微生物组主流分析方法的整理和总结,为同领域研究者更方便、灵活的开展数据分析,快速选择研究分析工具,高效挖掘数据背后的生物学意义提供参考,进一步推动微生物组研究在生物学领域的发展。
新一代扩增子分析流程,分析过程封装为压缩格式,支持分析过程全记录的可重现分析,开发并整合许多新算法处理大数据更快,可扩展性强和中文帮助文档
比对工具,现发展为拥有200多个命令的扩增子分析流程,体积小巧、跨平台、计算速度快,但64位版收费,提供中文帮助文档(/torognes/vsearch 扩增子分析流程,实现了USEARCH大部分的功能,喜欢USEARCH分析流程风格的替代软件,支持在QIIME 2中使用
基于Greengenes 16S rRNA基因预测宏基因组基因功能信息。现发布第2版实现对任意16S序列功能预测且数据库增大10倍
原核分类学功能注释,获得元素循环相关文献挖掘的物种功能注释,适合于农业、环境相关研究菌种功能描述
多样本质控和分析结果汇总
序列比对工具,短读长序列快速比对至参考序列,结果为SAM/BAM格式
宏基因组拼接软件,内存消耗低,计算速度快、嵌合体率较低、N50偏低
拼接结果评估,输出拼接指标和可视化图形的PDF和交互式网页版报告
比BLAST更快的蛋白比对工具
蛋白功能注释:毒力因子数据库
分箱流程,依赖140余款工具,可实现conda快速安装,默认对3种主流分箱结果提纯,提供多种可视化方案
基于10×建库宏基因组测序的组装软件
分箱结果下游比较基因组分析流程
微生物组分析中常用格式转换工具集,方便分析和流程搭建

宏基因组测序除了可以揭研究对象的物种和功能组成外,还可能通过分箱(binning)方法组装出单菌基因组。近年来分箱软件快速发展,使获得不可培养微生物的基因组成为可能。目前常用的分箱工具有MetaBAT 2[]、MaxBin 2[]和CONCOCT[]等,但结果差别较大。去年发表了两款分箱提纯工具metaWRAP[]和DAS_Tool[]解决了分箱工具选择难、结果差异大的问题,他们通常整合3~5款分箱工具的结果,进一步筛选和综合利用,获得更高质量的单菌基因组,同时提供分箱的定量、注释等一系列常用分析功能。值得注意的是,分箱获得的单菌基因组存在着不完整和高污染等问题,因此想要提高宏基因组中单菌组装的完整性,从实验手段进行改进并采用配套专用分析方法是未来的发展方向,如采用流式细胞术单细胞分选[]、10×建库[]、二三代混合测序[,]等新方法在宏基因组拼接和分箱中取得了较好的效果。宏基因组分析中常用的软件和数据库简介详见。

/mgoeker/ table2itol)格式化为iTOL的输入文件。此外,R语言中的ggtree包也可以实现进化树的注释和美化[]。展示物种注释层级结构的进化分枝图,推荐使用GraPhlAn进行可视化[]。宏基因组测序是鸟枪法 随机片段测序,进化分析需要采用OrthoFinder[]基于分箱结果鉴定单拷贝同源基因,并构建多基因进化树。

拟合线性和广义线性混合效应模型,可结合已知影响因素数据校正的差异比较
多序列对齐软件,序列对齐速度快
美国北卡罗来纳大学教堂山分校
中国科学院遗传与发育生物学研究所

近10年来,第二代测序技术通量的提高和价格的下降,极大地推动了微生物组领域的发展,使得研究者拓宽了微生物组研究对象的深度和广度,揭示了极端环境、植物、动物、人类肠道、海洋、土壤等领域的微生物组成和功能[]。目前宏基因组研究主要以短读长的Illumina Seq/Nova系列或华大基因的BGI (ONT)等三代测序技术快速发展,虽然受到测序错误率高和配套软件缺乏的困扰,但在读长、测序速度等方面的优势正在逐渐突显。Charalampou等[]应用ONT技术对患者呼吸道细菌宏基因组进行测序,实现了6 h内快速诊断致病菌。

目前微生物组研究中应用最广泛的是扩增子测序技术,该技术可以快速地揭示群落的微生物组成,而且具有操作简单、成本低、有效避免宿主污染、方便开展大规模研究等优势。但扩增子的研究范围仅限引物可扩增部分DNA的物种组成,而且受扩增基因拷贝数和多态性的影响,如果想进一步了解微生物组的全貌和功能基因,宏基因组是更有效的研究方法。宏基因组不仅可以无偏的获得研究对象中细菌、真菌、古菌、病毒和原生动物等一切以DNA为遗传物种的物种序列信息、确定其物种和功能组成,更有潜力获得未培养物种的功能基因,甚至是基因组草图。目前虽然已经有一些宏基因组分箱、分箱提纯的工具,但仍处于发展的初级阶段,还有很多有待改进的方向,如计算不同长度K-mer频率、比对参考数据库去除已知物种降低复杂度和/或结合三代长读长的测序数据等[,]

提高微生物组数据分析的效率,高质量的参考数据库是基础,而这一领域的发展依赖于大规模培养组学的应用和更多高质量参考基因组的公布。同时,对发表数据的分类整理、提高可用性以及进一步挖掘也十分必要。例如,R包curatedMetagenomicData整理了46个研究中的8184个宏基因组样本,对超100 TB的原始数据采取了严格质控进而获得了相关物种和功能组成表,方便同领域研究者对数据进一步挖掘和查询[];ML Repo数据库整理来自15篇文章中的33个人类微生物组IBD、糖尿病、肥胖和癌症等分类和年龄回归数据集,研究者可按类浏览下载这些数据,用于进一步挖掘和方法评估[];意大利特伦托大学Nicola Segata团队利用来自不同地理位置、生活方式和年龄人群的9428个宏基因组,突破性地重建了15万个人体微生物基因组草图[]。以上对发表数据整理和再利用的例子,为今后开发更多基于发表数据的数据库和分析工具提供了借鉴和参考。

白洋, 钱景美, 周俭民, 钱韦 . 农作物微生物组:跨越转化临界点的现代生物技术
谢建平, 韩玉波, 刘钢, 白林泉 . 2015年中国微生物遗传学研究领域若干重要进展
杨超, 杨瑞馥, 崔玉军 . 细菌全基因组关联研究的方法与应用

本期《精准前沿》栏目分享美国劳伦斯伯克利国家实验室、基因组研究所Nikos C. Kyrpides团队发表于Nature Microbiology(IF = 14.30)上的一篇研究[1],该研究使用公共数据集,构建人类肠道宏病毒数据库,并对构建的肠道宏病毒数据库进行了一系列评估。

肠道微生物组是一个复杂的微生物生态系统,在人类健康和发育中发挥着重要作用。病毒在微生物中含量丰富,且与人类疾病有关。噬菌体(感染细菌的病毒)构成了大多数病毒颗粒,可以通过噬菌体捕食、溶原性和水平基因转移影响微生物生态系统过程。尽管它们无处不在,但我们对微生物组中病毒基因组多样性的了解却很有限,大多数病毒序列无法匹配现有的基因组数据库,这给肠道病毒研究带来了不少困难和挑战。

通常,对微生物组中病毒基因组进行测序有两种主要方法:病毒富集宏基因组测序和宏基因组测序。病毒富集宏基因组学使用片段长度过滤,来富集病毒序列,然后是病毒 DNA 提取、全基因组扩增、鸟枪测序和宏基因组组装 。片段长度过滤用于富集细胞外病毒,不会去除所有细胞的序列,但会排除一些基因组较大的病毒。由于样本生物量低,全基因组扩增通常是必要的,但会扭曲病毒丰度并过度扩增小环状单链 DNA

另一种方法是宏基因组测序,无需片段长度过滤或全基因组扩增,直接分离病毒和细胞序列统计。这种方法捕获细胞外和细胞内病毒的序列,包括整合的原噬菌体,并且不受全基因组扩增的影响。缺点在于病毒数据量较低,组装低丰度病毒比较困难。此外,没有针对病毒进行DNA提取优化,某些病毒序列可能来自细菌染色体中降解前的噬菌体。

目前已有一些研究者尝试构建人类肠道宏病毒数据库,已发布的包括人类病毒组数据库(HuVirDB),肠道病毒数据库(GVD),IMG/VR数据库等。

收集先前发表的 61 项研究相关的人类粪便样本,共计11,810 个宏基因组测序数据,之后对病毒基因组进行大规模鉴定。使用这些数据形成宏基因组肠道病毒 (MGV) 目录,其中包含 189,680 个病毒基因组草图,估计完整度超过 50%,代表 54,118 个候选病毒物种。这些基因组极大地扩展了肠道微生物组中 DNA 病毒的已知多样性,并提高了对宿主-病毒关联的了解。

首先根据现有的一系列方法和体系建立一个标准的病毒检测流程,之后建立一个标准的模拟数据集进行性能评估。模拟数据集应用于性能评估,以确定本研究开发的病毒检测流程性能是否达到,甚至超过VirFinder/Virsorter等工具。之后再收集此前的肠道宏基因组测序数据,使用本文开发的病毒检测流程进行分析,整体的数据库建立方法如图1所示。

图1. MGV数据库建立方法

对本数据库收录的189,680个病毒序列进行了各项统计,包括基因组完整度,序列地域来源统计(以欧洲和亚洲为主),序列所属的生物学分类比例统计,预测宿主比例统计,含有宿主整合序列的比例等,见图1d。

为了量化 MGV目录中基因组的多样性,首先使用 MIUViG 推荐的标准,确定了物种水平的病毒操作分类单元 (vOTU)。总体而言,确定了 54,118 个 vOTU,其中 8,086 个至少来自两个样本(图2a)。为了识别更高级别的病毒进化枝,在成对平均氨基酸均一性 (AAI) 和基因共享的基础上,将基因组聚类成接近属和家族水平的组,发现了5,800个属水平vOTU和1,434个家族水平vOTU(图 2a)。vOTU 的累积曲线在科和属等级上趋于渐近线,但物种水平上尚未达到(图 2b)。

之后根据四个基因组数据库和genbank构建比对数据库,使用测试数据集来比较它们的病毒覆盖度差异(图 2c)。为了防止自我匹配,放弃了来自同一原始研究的测序reads和病毒基因组之间的比对。MGV基因组覆盖了 8.6% 的全宏基因组读数,比其他数据库高4倍,以及 40.1% 的病毒组读数,与 HuVirDB 的 42.3% 相当。还比较了 CRISPR 间隔区与每个病毒数据库的匹配情况,作为量化宿主-病毒连接的一种方式。总体而言,来自 UHGG 基因组的 1.8 M 间隔区中有 37.5% 与来自 MGV目录的基因组匹配,比其他数据库高 3.25 倍(图 2c)。总之,这些结果表明 MGV目录大大增加了已知的病毒多样性,改进了整个宏基因组中病毒读数的检测,并扩大了宿主-病毒连接的覆盖范围。

图2. 病毒多样性评估结果

3.  宿主预测和拓扑结构注释

从UHGG数据库选择了286,997个人类肠道细菌和古菌基因组,代表4,644个原核生物物种,从中提取了1,846,441个CRISPR,通过寻找精确匹配,MGV病毒与宿主关联的比例为81%。之后又进行了2个数据库的全基因组比对,通过精确匹配(96%的同源性,且比对读长超过1kb),得到了关联的宿主基因组占96%,病毒基因组占比90%,病毒和宿主的CRISPR分布具体如图3所示。

4.  肠道尾病毒目的系统基因组学

尾病毒目是一类广泛存在于环境中的有尾双链DNA噬菌体(dsDNA),且在肠道宏基因组中具有很高的代表性,为了探索该目在肠道微生物组的进化,基于77个蛋白质编码标记基因的串联比对,构建了物种水平的系统发育树(图4a)。在删除数据不足的基因组(少于三个标记或在比对中< 5 %)后,最终的树包含来自四个未培养肠道病毒数据库(MGV、IMG/VR、HuVirDB 和GVD)。

基于累积分支长度,MGV目录覆盖了总系统发育多样性(PD) 的 95.7%,并包含代表整个树的所有主要谱系的基因组(图4b)。这部分也比较了MGV和其他数据(IMG/VR、HuVirDB 和GVD)的差别,与其他三个数据库的组合相比,MGV基因组导致PD 增加了 287%,并且均匀分布在病毒和宿主分类组中。由于这些 vOTU 数量众多且系统发育分布广泛,梭菌噬菌体是迄今为止最多样化的群体(占 PD 的41.8%)。相比之下,拟杆菌噬菌体仅占 PD 的 11.1%,大多数 vOTU 分为四个主要簇(图4a),其中一个以 crAss 样噬菌体为主(占 PD 的2.17%)。

图4.  肠尾病毒目系统进化树结果

5.  基因功能预测和耐药性分析

尽管人类肠道细菌和古细菌的功能潜力已被广泛研究,但肠道噬菌体的功能潜力却鲜为人知。为了探索这一点,在本研究的 189,680 个病毒基因组中鉴定了 11,837,198 个蛋白质编码基因,每个基因至少有 20 个氨基酸(98.4% 具有起始和终止密码子),并将这些基因与 HMM 数据库进行比较,包括 KEGG55、TIGRFAM56、Pfam57、VOGDB(http://vogdb.org/)和地球病毒组数据库。总体而言,45% 的病毒基因与任何数据库都没有确切匹配,75% 没有分配任何生物学功能(图5 a, b),这表明对人类肠道病毒的功能潜力知之甚少。

为了确定肠道噬菌体中最常见的功能,使用 MMseqs2以30% AAI作为选取标准,将鉴定出的1180 万个病毒基因进一步聚类为 459,375 个从头病毒蛋白簇(图5c),其中 61% 至少有两个成员(图5d)。积累曲线没有显示平台,表明肠道噬菌体具有大量功能多样性库,但本研究未完全捕获(图5e)。梭菌噬菌体的功能多样性最多,有 173,187 个蛋白质簇,反映了这些噬菌体的系统发育多样性。几个最大的蛋白质簇没有预测的功能,包括第四大的 8,319 个基因,因此可能是未来实验表征的良好候选者(图5f)。其他大簇用典型的病毒功能进行注释,包括衣壳形成、包装、裂解、溶原性、复制和转录调节(图5f)。

尽管列举所有病毒功能和辅助代谢基因超出了本研究的范围,但有两个特别不寻常的发现。通过对 Pfam 的 HMM 搜索,我们发现了 11,496 个推测的病毒 β-内酰胺酶(PF12706),包括具有 5,832 个成员的单个蛋白质簇中的大多数序列(图5f)。β-内酰胺酶是能够对青霉素、头孢菌素和头霉素等 β-内酰胺抗生素产生抗性的酶,并且会造成重大的全球健康问题。为了验证这一结果,我们使用 Resfams、NCBI AMRFinder和RGI对抗菌抗性基因的精选数据库进行了同源性搜索。这些工具显示总共只有 88 个抗性基因(使用 Resfams发现63 个,使用 AMRFinder 发现56 个,使用 RGI 发现30 个),表明 11,496 个推测的病毒β-内酰胺酶和验证的抗性基因之间的相似性较低。尽管功能宏基因组分析可能会发现肠道微生物组中真正的病毒 β-内酰胺酶,但这些结果似乎支持噬菌体很少编码抗生素抗性基因的结论。

另一个有趣的发现是大量的噬菌体逆转录酶(RT)(图5f)。RT 域 (PF00078) 是第三个最常见的功能注释,仅次于螺旋-转角-螺旋 DNA 结合域 (PF01381) 和噬菌体整合酶家族(PF00589)。已知逆转录病毒发生在逆转录病毒、靶向 RNA 的 CRISPR-Cas 系统和产生多样性的逆转录元件(DGR)中。DGRs 利用容易出错的逆转录在模板区(TR)的转录本中产生随机突变,然后将其插入到可变区 (VR) 的基因组中,从而在一个特定基因中产生群体水平的高度变异。

为了确定病毒 RT 是否是 DGR 系统的一部分,使用 DGRscan67 在 79,250 个高质量病毒基因组中识别 TR-VR 对,估计完整性> 90%。证实了该假设,与少数没有 RT 的基因组(53,630 的 6.5%)相比,绝大多数具有 RT 的基因组也包含 TR-VR(25,620 的 85.7%)(图5g)。DGR 在某些尾状病毒科(例如,6,616 种肌病毒科的 84%)和溶原病毒(18,187 种的 50.1%)中非常常见,而它们在其他尾状病毒科、ssDNA 病毒和真核病毒中很少见或完全不存在(图5h)。尽管绝大多数 DGR 基因靶标没有进行功能注释,但观察到几个Pfam域中的高度显着富集。总之,这些结果表明 DGR 在肠道噬菌体中很常见,并且可能是参与分子噬菌体-宿主相互作用的病毒蛋白。

在这项研究中,对公开可用的宏基因组进行了大规模数据挖掘,识别出189,680 个符合质量病毒基因组,代表54,118 个物种、5,800 个属和 1,434 个科级别的 vOTU。这个庞大的资源包含其他数据库中没有的广泛的病毒基因组多样性,改进了微生物组中病毒读数的检测,并代表了许多以前未发现的病毒基因组。

通过多种方法的组合,我们能够预测肠道微生物组中大部分病毒和原核生物多样性的宿主-病毒联系。这些宿主-病毒联系在未来对于理解疾病过程、设计噬菌体疗法或理解宿主-病毒共同进化动力学可能很重要。尽管进行了大规模的注释工作,但只能为 25% 的病毒基因分配初步的生物学功能,这表明需要更多的工作和新方法来预测病毒基因组中的蛋白质功能,例如深度学习和功能宏基因组分析。虽然目前的研究只关注 DNA 病毒,但未来的研究可以使用元转录组学数据来研究 RNA 病毒或基因表达模式。

本研究使用大规模公开的人类肠道宏基因组测序数据,通过构建规范严谨的病毒检测流程,在此前的肠道宏病毒数据库基础上,对肠道宏病毒组(主要是噬菌体)进行了较大规模的扩展,扩大了肠道宏病毒组的范围。此外,本研究还建立了一套数据库评估的方法,这些方法除了评估数据库之外,对以后的肠道宏病毒组功能研究也给出了一定的参考价值。总之,本研究是一次有意义的探索,对推动人类肠道宏病毒组研究有重要意义。 

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界()处理。

宏病毒组得到的contig如何做系统发育分析,包括如何选取合适的序列?contig是否需要截取相应的基因片段?如何截取?

擅长:重测序,遗传进化,转录组,GWAS

可以预测里面的基因,然后把基因截取出来,不同的样品按照基因的顺序链接成一个supergene,然后做多序列比对(clustalw),之后做进化树(MEGA)。

序列的批量截取合并,建议学习perl,或者python

生物信息入门到精通必修基础课:

如果觉得我的回答对您有用,请随意打赏。你的支持将鼓励我继续创作!


您需要登录后才可以回答问题, 或者 

我要回帖

更多关于 微生物宏基因组测序 的文章

 

随机推荐