近日,中國農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所微生物與酶工程創(chuàng)新團(tuán)隊(duì)和生物技術(shù)研究所微生物蛋白設(shè)計(jì)與智造創(chuàng)新團(tuán)隊(duì)合作,開發(fā)了基于預(yù)訓(xùn)練蛋白語言大模型的蛋白高表達(dá)預(yù)測與設(shè)計(jì)新策略,實(shí)現(xiàn)蛋白質(zhì)語言大模型與基因表達(dá)深度融合,為高效創(chuàng)制高性能蛋白產(chǎn)品提供了新的思路與工具。相關(guān)研究成果發(fā)表在《先進(jìn)科學(xué)(Advanced Science)》。
蛋白質(zhì)的高效、可溶性異源表達(dá)是酶蛋白變成酶產(chǎn)品的關(guān)鍵核心環(huán)節(jié)。傳統(tǒng)的策略包括更換表達(dá)宿主、表達(dá)載體或添加分子伴侶等,但這些策略很大程度上依賴研究人員的經(jīng)驗(yàn)并且需要大量的實(shí)驗(yàn)驗(yàn)證,缺乏對蛋白質(zhì)序列與其表達(dá)之間關(guān)系的認(rèn)識(shí)。
本研究基于遷移學(xué)習(xí)理論,開發(fā)了國產(chǎn)化的預(yù)訓(xùn)練蛋白質(zhì)語言模型MP-TRANS,該模型架構(gòu)包含8層Transformer模塊,總計(jì)擁有87,164,000個(gè)參數(shù),預(yù)訓(xùn)練階段高效利用了8張國產(chǎn)NPU計(jì)算卡。通過進(jìn)一步對MP-TRANS模型進(jìn)行下游任務(wù)的微調(diào),構(gòu)建了蛋白質(zhì)表達(dá)量預(yù)測與分子設(shè)計(jì)平臺(tái)。該平臺(tái)包括88種不同宿主的表達(dá)量預(yù)測模型MPB-EXP,平均準(zhǔn)確率為0.78,超越了傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù),成為當(dāng)前支持最多表達(dá)宿主的預(yù)測模型,可廣泛適用于多類表達(dá)宿主。此外,本研究創(chuàng)新性地提出了氨基酸表達(dá)指數(shù)(AEI)概念,并據(jù)此開發(fā)了相對氨基酸偏好強(qiáng)度(SRAB)評估工具,為蛋白質(zhì)表達(dá)提供了精確的量化工具。在此基礎(chǔ)上,我們進(jìn)一步開發(fā)了突變體生成模型MPB-MUT,通過智能重構(gòu)目標(biāo)蛋白序列,有效提升了其在特定宿主中的表達(dá)效率。最終,借助該平臺(tái),實(shí)現(xiàn)了木聚糖酶、纖維素酶及PET塑料降解酶在大腸桿菌中可溶性表達(dá)量的顯著提升。
該研究得到國家重點(diǎn)研發(fā)計(jì)劃、國家自然科學(xué)基金、中國農(nóng)業(yè)科學(xué)院創(chuàng)新工程項(xiàng)目的資助。模型構(gòu)建過程中,得到河北人工智能計(jì)算中心提供的計(jì)算資源支持。中國農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所田健研究員、黃火清研究員和中國農(nóng)業(yè)科學(xué)院生物技術(shù)研究所關(guān)菲菲副研究員、劉波研究員為論文共同通訊作者,碩士研究生劉拓宇和張銥洋為論文共同第一作者。
原文地址:
https://onlinelibrary.wiley.com/doi/10.1002/advs.202407664