机器学习精确预测植物抗病性,包括水稻稻瘟病、纹枯病以及小麦条绣病

今天分享的文献是发表在Engineering期刊的《Development of Machine Learning Methods for Accurate Prediction of Plant Disease Resistance》,该研究通过优化多种机器学习流程,开发了基于高通量基因型数据的作物抗病表型精准预测方法,实现了对水稻稻瘟病、纹枯病、黑条矮缩病,以及小麦麦瘟病、条绣病抗性的精准预测。

背景介绍

由真菌、细菌、病毒和其他微生物等各种病原体引起的严重疾病是导致作物减产的主要因素之一,对全球粮食作物生产构成重大威胁。防治水稻和小麦病害最友好有效的方法是使用含有抗性基因(R基因)的抗性品种。然而,R基因介导的抗性往往在多年的大规模种植后失效,因此发掘作物抗病基因非常关键。

前人研究使用全基因组标记位点数据开发了基于GWAS的GS工具。例如,使用适当的基于统计和机器学习的模型来搜索最佳标记数量并选择最佳预测模型。以水稻和玉米为例,育种家成功地将GWAS结果的相关位点整合到GS模型中,大大提高了其重要农艺性状的预测精度。

本研究利用水稻、小麦自然品种资源的高通量基因型数据、表型数据、通过全基因组关联分析挖掘抗病关联位点信息,通过多种机器学习方法对抗病关联位点基因型和表型进行训练以构建预测模型。

基于该模型实现了基于个体基因型精准预测其抗病性水平,解决了传统抗病育种中通常仅依赖少数抗病基因而不能精准选择抗病新材料的问题。

研究方法

由于科技进步推动生物学数据的数量级和复杂度不断攀升,迫切需要采用新的机器学习技术来有效的分析和管理数据,并从中了解生物学知识。本研究采用ML机器学习的方法构建算法模型,提供了更加低成本和高效率的育种辅助策略。

首先收集了水稻和小麦的基因型和表型数据。然后采用全基因组关联研究(Genome-wide association study, GWAS)来识别与病害抗性相关的标记性状关联(Marker trait associations, MTAs)。

接着,研究者整合了GWAS结果、病害抗性表型和群体亲缘关系(kinship)信息,开发了三种新型机器学习(Machine learning, ML)模型,分别是随机森林分类加亲缘关系(RFC_K)、支持向量分类加亲缘关系(SVC_K)和轻量梯度提升机加亲缘关系(lightGBM_K)。

数据收集与预处理:

研究涉及水稻多样性面板I(RDPI)和II(RDPII)以及CIMMYT的小麦种群,小麦和水稻核心群体(各包含超过300个代表性品种)进行多种病害抗性鉴定,对不同病害的抗性分为R(抗病)和S(感病)两种类型(去除部分抗感不确定品种),将复杂的群体数量抗性问题简化为二分类问题。

GWAS分析:

利用Tassel 5.0软件和混合线性模型(MLM)进行GWAS,筛选与病害抗性相关的SNPs,

ML模型开发:

开发了五种ML方法,包括RFC、SVC、lightGBM、DNNGP和DenseNet,并结合亲缘关系信息对模型进行改进。在机器学习训练过程中,对取样过程进行干预,将亲缘关系(K)加入到取样过程,使其每次取样在群体中的分布由随机改为均匀,避免训练过程中的取样不均。

研究结果

在适当P阈值范围内(P值代表全基因组关联分析获得的抗病关联SNP标记的关联值),随机森林分类(RFC)、支持向量机分类(SVC)、以及轻量级梯度提升机器学习(lightGBM)、深度神经网络(DNNGP)、稠密连接卷积网络(DenseNet)等机器学习算法均能实现较高准确性预测。

其中,当RFC、SVC、以及lightGBM结合亲缘关系均匀取样训练情况下,即RFC_K、SVC_K、以及lightGBM_K方法(与未结合K取样方法相比较)均能显著提高预测准确性,本研究对水稻稻瘟病抗性的预测准确性最高达95%,跨群体预测结合人工接种鉴定确定的准确性也高达91%。

另外,对小麦麦瘟病和条锈病的预测准确性分别达到90%和94%。对水稻纹枯病和水稻黑条矮缩病两种公认难以准确鉴定抗病性的病害,其预测准确性都达到85%。

泛化能力:

将训练好的加亲缘关系模型应用于独立的水稻群体(RDPII),与实际喷灌接种结果相比,预测准确度达到了91%。

模型解释性:

RFC_K模型在预测稻瘟病抗性方面不仅表现出高预测准确度,而且具有很高的可靠性,其平均AUC值达到了0.9975和0.9966。

上述结果说明本研究开发的基于基因型精准筛选表型的机器学习方法对于作物多种病害抗性表型预测具有广适性,未来合理利用可显著提高作物抗病育种效率。

结语

本研究将小麦和水稻核心群体(各包含超过300个代表性品种)进行多种病害抗性鉴定,对不同病害的抗性分为R(抗病)和S(感病)两种类型(去除部分抗感不确定品种),将复杂的群体数量抗性问题简化为二分类问题。

在机器学习训练过程中,对取样过程进行干预,将亲缘关系(K)加入到取样过程,使其每次取样在群体中的分布由随机改为均匀,避免训练过程中的取样不均。

这项研究开发的ML方法不仅为预测植物病害抗性提供了有价值的策略,而且为使用机器学习简化基于基因组的作物育种铺平了道路。

研究结果强调了将亲缘关系信息纳入分类器可以显著提高预测准确性,并展示了ML在GS中的潜力,有助于加速识别新的抗性资源或品种,降低表型鉴定的时间和成本。

LICENSED UNDER CC BY-NC-SA 4.0 素材来源于互联网公开资料,如有侵权请联系后台删除
Comment