產(chǎn)品分類導(dǎo)航
CPHI制藥在線 資訊 Science封面:華人學者開發(fā)AI模型,學會生命的語言,生成新型CRISPR系統(tǒng)乃至整個基因組

Science封面:華人學者開發(fā)AI模型,學會生命的語言,生成新型CRISPR系統(tǒng)乃至整個基因組

熱門推薦: CRISPR系統(tǒng) AI模型 DNA序列
作者:王聰  來源:生物世界
  2024-11-15
生命的基本指令都包含在所有生物體的DNA序列中。理解這些指令可以幫助我們更深入地了解生物學過程,并開辟新途徑,將生物學轉(zhuǎn)化為有用的技術(shù)。

       眾所周知,生命的基本指令都包含在所有生物體的DNA序列中。理解這些指令可以幫助我們更深入地了解生物學過程,并開辟新途徑,將生物學轉(zhuǎn)化為有用的技術(shù)。然而,即便是最簡單的微生物基因組也極其復(fù)雜,例如被人類研究的最為透徹的大腸桿菌,其基因組包含數(shù)百萬堿基對,用于編碼DNA、RNA和蛋白質(zhì)之間的相互作用,而這三者是細胞功能的關(guān)鍵參與者,它們之間的信息流動構(gòu)成了生命的“中心法則”?;蚪M的這種復(fù)雜性存在于多個尺度上,從單個分子到整個基因組,代表著在進化過程中經(jīng)過功能選擇的龐大的遺傳信息景觀。

       人工智能(AI)的快速發(fā)展使得大語言模型(large language model,LLM)能夠在大量數(shù)據(jù)的訓練下展現(xiàn)出越來越先進的多任務(wù)推理和生成能力。如果開發(fā)出一種能夠在大基因序列上保持單核苷酸分辨率的模型,就可能提取出關(guān)于嵌入在自然進化變異模式中的復(fù)雜分子相互作用的功能信息。

       2024年11月15日,Arc研究所的 Patrick D. HsuBrian L. Hie 團隊在國際頂尖學術(shù)期刊 Sciencce 上發(fā)表了題為:Sequence modeling and design from molecular to genome scale with Evo 的研究論文【1】,該論文還被選為當期的封面論文。

       該研究開發(fā)了從分子到基因組尺度都能進行預(yù)測和生成任務(wù)的基因組基礎(chǔ)模型——Evo模型。這是第一個在全基因組規(guī)模上以單核苷酸分辨率預(yù)測和生成DNA序列的模型。

       通過對整個基因組信息進行學習,Evo模型能夠?qū)W習微小的核苷酸序列變化如何影響整個生物體的適應(yīng)性,從而預(yù)測哪些基因?qū)τ谏矬w至關(guān)重要,還能夠生成長度超過百萬堿基對的具有合理基因組結(jié)構(gòu)的DNA序列。研究團隊還使用Evo模型生成了CRISPR-Cas分子復(fù)合物和IS200/IS605轉(zhuǎn)座子,并驗證了它們的功能活性,這也是首次通過語言模型實現(xiàn)蛋白質(zhì)-RNA和蛋白質(zhì)-DNA協(xié)同設(shè)計的實例。

       在生物中,一切都從DNA開始,基因組攜帶構(gòu)成完整生命體的一整套DNA(遺傳密碼),這是世代進化的結(jié)果,反映了生命對不斷變化的環(huán)境的適應(yīng)。其他復(fù)雜的生物語言則是從DNA衍生而來,包括蛋白質(zhì)和RNA,蛋白質(zhì)負責執(zhí)行生命功能,RNA幫助DNA傳遞信息并幫助蛋白質(zhì)執(zhí)行功能。盡管這三者看起來是多層次的,但它們都被“中心法則”統(tǒng)一在基因組中。

       人工智能基礎(chǔ)模型的出現(xiàn),為生物序列建模指明了一條有前景的道路,但尚未實現(xiàn)全基因組水平的建模。DNA序列非常長,例如我們?nèi)祟愑兄?0億堿基對,簡單如大腸桿菌也有這數(shù)百萬堿基對。要想充分理解進化的影響,需要具有單個核苷酸分辨率的分辨率,這些問題使得大規(guī)模預(yù)訓練特別具有挑戰(zhàn)性。

       到目前為止,還不清楚人工智能(AI)模型是否能夠在這么長的基因組序列中有效地學習其復(fù)雜模式。因此,現(xiàn)有的利用AI建模生物序列的突破主要集中在短上下文、特定任務(wù)和單模態(tài)能力,例如AlphaFold、ESMFold、Nucleotide Transformer。

       因此,我們需要一個基礎(chǔ)模型(Foundation Model),該模型可以整合長基因組序列上的信息,同時保持對單核苷酸變化的敏感性。一個有效地學習基因組的模型不僅可以理解個體的DNA、RNA和蛋白質(zhì)組分,還可以理解這些成分如何通過相互作用來創(chuàng)建復(fù)雜系統(tǒng)。這有助于加速我們對生物學機制的理解,以及設(shè)計生命的能力。

Brian L. Hie(左)和Patrick D. Hsu(右)

       在這項研究中,研究團隊開發(fā)了一個DNA基礎(chǔ)模型——Evo模型,旨在捕捉生物的兩個基本方面:中心法則的多模態(tài)性和進化的多尺度特性。中心法則(Central Dogma)將DNA、RNA和蛋白質(zhì)統(tǒng)一在一個編碼體系和可預(yù)測的信息流中,而進化(Evolution)則將分子、通路、細胞和生物體這些在功能上極為不同的尺度統(tǒng)一起來。

       研究團隊使用主流架構(gòu)進行DNA預(yù)訓練后發(fā)現(xiàn),Transformer模型在以單核苷酸、字節(jié)級分辨率進行訓練時,可擴展性不太好,這表明自然語言中的主要架構(gòu)不一定能遷移到DNA語言中。為了克服與長序列和字節(jié)級分辨率的基因組序列建模相關(guān)挑戰(zhàn),研究團隊使用了基于深度信號處理技術(shù)的最新架構(gòu)——StripedHyena,相比Transformer,StripedHyena架構(gòu)將Evo的參數(shù)數(shù)量擴大到了70億,同時在131千堿基(131kb)的上下文長度中保持了單核苷酸分辨率。

       Evo模型是在270萬種原核生物噬菌體的基因組上進行訓練的,它能夠在DNA、RNA和蛋白質(zhì)模式下實現(xiàn)零樣本功能預(yù)測,其性能與或優(yōu)于特定領(lǐng)域的語言模型。

基于原核生物基因組預(yù)訓練的長文本基因組基礎(chǔ)模型

基于StripedHyena的Evo模型架構(gòu)

       通過對整個基因組的信息進行學習,Evo能夠理解微小的核苷酸序列變化(基因突變)如何影響整個生物體的適應(yīng)性,從而預(yù)測哪些基因?qū)τ谏矬w至關(guān)重要。而在實驗室中進行基因必要性研究,通常需要6個月到1年時間。

       由于Evo模型是在包含蛋白質(zhì)編碼序列的長基因組序列上訓練的,因此研究團隊測試了該模型是否也能很好地學習蛋白質(zhì)語言,從而執(zhí)行零樣本(Zero-shot)蛋白質(zhì)功能預(yù)測。結(jié)果顯示,Evo模型優(yōu)于所有其他已測試的核苷酸模型,包括僅在蛋白質(zhì)編碼序列上明確訓練的模型,甚至可以與最先進的蛋白質(zhì)語言模型競爭(例如ESM或ProGen)。值得注意的是,Evo模型能夠?qū)崿F(xiàn)非編碼RNA(ncRNA)和調(diào)節(jié)性DNA的零樣本功能預(yù)測,從而跨越“中心法則”的所有三種成分——DNA、RNA和蛋白質(zhì)。

Evo模型的學習能力橫跨蛋白質(zhì)、RNA和DNA

       目前,生物學的生成模型通常只關(guān)注一種模式——例如只生成蛋白質(zhì)或只生成RNA。而Evo模型的一個關(guān)鍵突破之處在于可執(zhí)行多模態(tài)生成任務(wù),研究團隊使用Evo模型生成了全新的CRISPR系統(tǒng),這種由蛋白質(zhì)和RNA組成的大型蛋白復(fù)合體,是現(xiàn)有的生成模型無法做到的。

       CRISPR系統(tǒng)是原核生物中天然存在的免疫系統(tǒng),被改造用于基因編輯。通常情況下,我們需要從自然界基因組中搜尋以發(fā)現(xiàn)新的CRISPR系統(tǒng)。而現(xiàn)在,Evo模型能夠直接生成一個全新的CRISPR系統(tǒng),讓我們擁有了創(chuàng)造新型基因組編輯工具的能力。

設(shè)計生成新型CRISPR-Cas分子復(fù)合物

       研究團隊將Evo模型設(shè)計生成的EvoCas9-1與sgRNA進行重組表達和純化,其在體外的基因編輯效率與spCas9-sgRNA相當。

Evo模型設(shè)計生成的CRISPR-Cas9系統(tǒng)及功能驗證

       此外,研究團隊還使用Evo模型設(shè)計生成了IS200/IS605轉(zhuǎn)座子系統(tǒng),并實驗驗證了其功能活性。

       據(jù)悉,這也是首次通過語言模型實現(xiàn)蛋白質(zhì)-RNA和蛋白質(zhì)-DNA協(xié)同設(shè)計的實例。

       并能夠生成長度超過百萬堿基對的具有合理基因組結(jié)構(gòu)的DNA序列。像Evo這樣的大規(guī)模生物序列模型的進一步發(fā)展,結(jié)合DNA合成技術(shù)以及基因組工程技術(shù)的進步,將加快我們對生命進行工程化的能力。

       除了在多分子(蛋白質(zhì)和ncRNA)規(guī)模上生成序列,Evo模型還能夠生成長度超過百萬堿基對的具有合理基因組結(jié)構(gòu)的DNA序列,且生成的序列中包含了數(shù)千個潛在的蛋白質(zhì)編碼序列,從而讓我們擁有了全基因組規(guī)模序列生成的潛力。這種大規(guī)模的序列生成是由Evo模型的長上下文功能和高效的推理模式實現(xiàn)的。

Evo模型,能夠從單個核苷酸到整個基因組學習生物復(fù)雜性

       研究團隊表示,Evo模型標志著我們在模擬生物序列的一個轉(zhuǎn)折點,相信這項技術(shù)有潛力加速我們科學(包括生物學、化學或材料科學)的發(fā)現(xiàn)和理解,以及應(yīng)用于現(xiàn)實世界的問題(包括藥物發(fā)現(xiàn)、農(nóng)業(yè)和可持續(xù)性)?;A(chǔ)模型將成為越來越重要的科學工具,期待訓練更大的模型,提高它們的生成能力,并將Evo預(yù)訓練擴展到人類基因組。通過增強這些模型學習的生物復(fù)雜性,相信我們可以在對抗復(fù)雜疾病和改善人類健康方面取得重大進展。

       最后,研究團隊表示即將開源更大規(guī)模的3000億token的訓練數(shù)據(jù)集——OpenGenome,由270萬個公開可用的原核基因組和噬菌體基因組組成,這是公開可用的最大的DNA預(yù)訓練數(shù)據(jù)集,希望它將有助于加速DNA語言模型這個令人興奮和有影響的領(lǐng)域的研究。

       相關(guān)閱讀:

       2024年10月30日,北京理工大學邵斌教授課題組在 Nature Communications 期刊發(fā)表了題為:A long-context language model for deciphering and generating bacteriophage genomes 的研究論文【2】。詳情:邵斌團隊實現(xiàn)首個生成式DNA大語言模型——破譯并生成病毒基因組

       該研究實現(xiàn)了首個生成式DNA大語言模型——megaDNA。該模型利用無標注的噬菌體基因組數(shù)據(jù)進行預(yù)訓練,不僅能準確預(yù)測噬菌體的必需基因,更能夠生成長達10萬堿基對的嶄新基因組片段,也就是能夠像寫作自然語言一樣生成DNA序列。另外,該模型在學習過程中獲得的深層信息(embedding),還能應(yīng)用于蛋白質(zhì)突變效果預(yù)測、基因調(diào)控研究,以及無標注DNA片段分類等多個下游任務(wù),展現(xiàn)出良好的泛化能力。

       論文鏈接:

       1. https://www.science.org/doi/10.1126/science.ado9336

       2. https://www.nature.com/articles/s41467-024-53759-4

相關(guān)文章

合作咨詢

   肖女士    021-33392297    Kelly.Xiao@imsinoexpo.com

2006-2025 上海博華國際展覽有限公司版權(quán)所有(保留一切權(quán)利) 滬ICP備05034851號-57