3月6日,中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所作物智能設(shè)計算法模型創(chuàng)新研究組成功研發(fā)了一套自動化機器學(xué)習(xí)框架,通過將氣象環(huán)境大數(shù)據(jù)與基因組信息深度融合,實現(xiàn)了作物精準(zhǔn)遺傳分析與基因組預(yù)測,為作物智能設(shè)計育種提供有效工具。相關(guān)研究成果發(fā)表在《先進(jìn)科學(xué)(Advanced Science)》上。
作物的田間表型是由基因型、環(huán)境以及基因型與環(huán)境的互作共同決定的。在實際育種過程中,準(zhǔn)確預(yù)測作物表型對于提高育種效率、縮短育種周期至關(guān)重要。然而,傳統(tǒng)的基因組預(yù)測方法往往忽略了環(huán)境因素對表型的影響,導(dǎo)致在多環(huán)境試驗中表型預(yù)測精度有限。因此,將環(huán)境數(shù)據(jù)納入基因組預(yù)測模型,考慮基因型與環(huán)境的相互作用,成為提升預(yù)測精度的關(guān)鍵。
研究團(tuán)隊利用大規(guī)模多環(huán)境玉米雜交種數(shù)據(jù)集,開發(fā)了一套自動化機器學(xué)習(xí)框架,將環(huán)境數(shù)據(jù)與基因組信息深度融合開展遺傳分析與基因組預(yù)測。該框架較傳統(tǒng)基因組預(yù)測方法有3大亮點。一是集成了遺傳和環(huán)境特征處理功能。基于玉米發(fā)育階段分割降維環(huán)境參數(shù),計算性狀的表型可塑性參數(shù),結(jié)合GWAS挖掘性狀穩(wěn)定遺傳位點和環(huán)境響應(yīng)位點,并將降維后的環(huán)境參數(shù)和GWAS位點作為輸入進(jìn)行基因組預(yù)測;二是集成多種先進(jìn)技術(shù)進(jìn)行模型訓(xùn)練。利用Optuna驅(qū)動的自動化超參數(shù)優(yōu)化技術(shù)來提升模型訓(xùn)練和預(yù)測效率,利用模型集成技術(shù)來提升最終預(yù)測模型的精度。與傳統(tǒng)統(tǒng)計模型相比,計算時間縮短可達(dá)290倍,且能保持較高的預(yù)測精度;三是利用SHAP可解釋技術(shù)進(jìn)行模型解釋。采用源于博弈論的SHAP可解釋技術(shù)對模型進(jìn)行事后解釋以量化遺傳和環(huán)境特征對表型變異及模型性能的貢獻(xiàn)。該研究可為解析基因型與環(huán)境互作的生物學(xué)機制提供重要參考,同時為作物育種提供了新的工具。
作科所與國家南繁研究院聯(lián)合培養(yǎng)的博士后何坤輝、博士研究生余廷熙為論文共同第一作者,李慧慧研究員為論文的通訊作者。該研究得到比爾及梅琳達(dá)·蓋茨基金會可持續(xù)發(fā)展國際合作項目、國家自然科學(xué)基金、中國農(nóng)業(yè)科學(xué)院科技創(chuàng)新工程等項目的資助。
文章鏈接:https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202412423
