1月28日,華中農(nóng)業(yè)大學(xué)玉米團(tuán)隊在Molecular Plant上發(fā)表了題為“GEFormer: a Genomic Prediction Method of Genotype-Environment Interaction in Maize by Integrating Gating Mechanism MLP and Linear Attention Mechanism”的研究論文。該研究開發(fā)了一種融合門控機(jī)制MLP與線性注意力機(jī)制的玉米基因型與環(huán)境互作的基因組預(yù)測方法GEFormer。
眾所周知,玉米、水稻等作物的田間表型是由基因型與環(huán)境共同作用的結(jié)果。基因組預(yù)測算法研究有助于縮短育種周期和提高田間育種效率。然而,現(xiàn)有的方法并未考慮環(huán)境對作物生長的影響,導(dǎo)致在多環(huán)境實驗中基因組預(yù)測的效果有待于提升。因此,有必要在基因組預(yù)測中考慮基因型與環(huán)境的相互作用,進(jìn)而提高作物田間表型預(yù)測的準(zhǔn)確率。
我校玉米團(tuán)隊研究開發(fā)的GEFormer方法包括三個功能模塊,其中,門控機(jī)制MLP模塊(gMLP)用于局部和全局兩個維度提取基因型(SNP)數(shù)據(jù)特征,進(jìn)而捕獲SNP位點(diǎn)間的長距離依賴關(guān)系。時序特征模塊(TimeFeatureBlock)通過完全動態(tài)卷積(ODconv)融合每天內(nèi)不同環(huán)境因子間的特征,并采用線性注意力機(jī)制提取作物生育期內(nèi)每天之間環(huán)境因子的時序性特征。交互門控多層感知器(CrossGatedMLP)用于融合提取的基因型特征與環(huán)境特征,進(jìn)而捕獲不同組學(xué)數(shù)據(jù)間隱藏的復(fù)雜非線性關(guān)系。
結(jié)果表明,GEFormer在未測試基因型在測試環(huán)境(M1)、未測試環(huán)境下測試基因型(M2)和未測試環(huán)境下未測試基因型(M3)三種實驗方案的多個物種(玉米、水稻、小麥)多套群體的預(yù)測準(zhǔn)確率優(yōu)于現(xiàn)有的基因組預(yù)測方法。GEFormer可以捕獲影響玉米復(fù)雜性狀的基因型和環(huán)境因子特征,在不同環(huán)境的預(yù)測性能較為穩(wěn)定,且在不同環(huán)境和不同材料的預(yù)測中有較好的泛化能力。研究人員利用三個應(yīng)用場景剖析了GEFormer在真實作物育種中的應(yīng)用潛力。第一,提出了一種優(yōu)化訓(xùn)練群體的最優(yōu)環(huán)境組合策略,進(jìn)而較精準(zhǔn)的預(yù)測未知環(huán)境的表型。基于預(yù)測的多環(huán)境中的表型值,進(jìn)而輔助篩選在多環(huán)境中高產(chǎn)且穩(wěn)產(chǎn)的玉米材料。實驗結(jié)果表明,GEFormer模型篩選高產(chǎn)材料的準(zhǔn)確率遠(yuǎn)高于隨機(jī)篩選結(jié)果。
第二,在玉米自交系預(yù)測雜交種表型方面具有潛力。研究人員基于玉米親本材料構(gòu)建訓(xùn)練群體,以及利用雜交F1材料構(gòu)建測試群體,并將訓(xùn)練群體分為僅用母本材料和父母本材料兩種情況進(jìn)行實驗。結(jié)果表明,基于父母本材料構(gòu)建的模型預(yù)測雜交種F1群體(6210)株高(PH)、產(chǎn)量(EW)和開花期(DTA)的平均準(zhǔn)確率高于僅用母本材料訓(xùn)練的模型。研究人員通過t-SNE將GEFormer不同特征提取層捕獲的特征降為2維平面特征,解析不同材料的特征在空間距離中的復(fù)雜變化。此外,通過t-test檢驗解析不同特征提取層捕獲的特征對玉米表型影響的顯著性進(jìn)行分析。結(jié)果表明通過使用母本和父本數(shù)據(jù)訓(xùn)練的模型能夠捕獲基因型、環(huán)境因子和基因型-環(huán)境交互更復(fù)雜的非線性特征,因此預(yù)測準(zhǔn)確率更高。最后,通過GEFormer模型實現(xiàn)跨群體預(yù)測雜交種的表型,結(jié)果表明結(jié)合自交系和雜交種材料可以顯著提高自交系或雜交種材料的表型預(yù)測準(zhǔn)確率。
綜上,該研究從基因型與環(huán)境互作的角度,提出了一種融合門控機(jī)制MLP與線性注意力機(jī)制的基因組預(yù)測方法GEFormer。與現(xiàn)有的基因組預(yù)測方法相比,GEFormer在不同表型的預(yù)測中具有更高的準(zhǔn)確性,且在不同環(huán)境和材料的預(yù)測中具有較好的泛化能力。同時,該研究開展了GEFormer預(yù)測未知環(huán)境表型的準(zhǔn)確率、基于自交系預(yù)測雜交種的表型、跨群體表型預(yù)測三個場景中的應(yīng)用,并對預(yù)測模型捕獲的生物學(xué)特征進(jìn)行了分析。未來可以集成更多群體的數(shù)據(jù)集,有望突破不同遺傳背景群體間的瓶頸。
該研究得到了華中農(nóng)業(yè)大學(xué)作物遺傳改良全國重點(diǎn)實驗室嚴(yán)建兵教授和肖英杰教授的支持、指導(dǎo)和幫助。博士研究生姚州、本科生姚夢婷為論文的共同第一作者,劉建曉副教授為論文通訊作者。課題組王創(chuàng)、李可、郭竣豪等參與了該研究。課題組朱力、丁新茹、謝傲、李全等同學(xué)為研究提供了幫助。該研究得到了農(nóng)業(yè)生物育種國家科技重大專項等項目的資助。
