近年來,單細胞組學技術的快速發(fā)展為描繪細胞的復雜狀態(tài)提供了前所未有的海量數據,深刻推動生命科學研究進入精細解析基因調控機制的新階段。與此同時,深度學習和大規(guī)模預訓練基礎模型(Foundation Models)在自然語言處理和計算機視覺領域的成功,為生命科學提供了強有力的技術支持。
近期,中國科學院多學科交叉研究團隊"指南針聯(lián)盟"(Xcompass Consortium)開發(fā)了Cell-GraphCompass(CGCompass)。該模型創(chuàng)新性地采用了圖神經網絡融入豐富生物學知識并基于5000萬人類單細胞數據集訓練從而構建了新型人類單細胞基礎模型。CGCompass采用圖結構算法建模單個細胞,將基因視為圖中的節(jié)點,基因之間的相互關系作為圖的邊,通過圖神經網絡深入挖掘基因間的復雜聯(lián)系及其在細胞中的動態(tài)表達特征。該模型利用數千萬高質量單細胞轉錄組數據進行大規(guī)模預訓練,不僅提升了對基因調控機制的理解能力,還為細胞類型鑒定、基因擾動預測等多種生命科學任務提供了強大技術支持,為構建更加全面仿真的人類AI虛擬細胞邁出了重要一步。
CGCompass模型架構:圖神經網絡驅動的知識融合
CGCompass基于單細胞RNA測序數據構建細胞的圖結構,將細胞和基因分別視作圖中的節(jié)點,利用圖神經網絡(GNN)結合基因表達信息、調控網絡、基因共表達關系、基因位置關系以及文獻挖掘的生物先驗知識,形成多層嵌入表達。預訓練采用自監(jiān)督學習策略,隨機遮蔽基因表達信息,促使模型在豐富細胞背景下準確恢復掩碼表達值,捕獲復雜的基因間長程動態(tài)關系。該模型能夠生成高維且生物學意義深厚的基因和細胞表征,為下游多樣化任務提供堅實基礎。
CGCompass模型架構
優(yōu)異的聚類和細胞類型注釋表現(xiàn)
依托細胞圖結構,CGCompass在多批次、多平臺的單細胞數據上實現(xiàn)了出色的批次效應消除。通過無監(jiān)督聚類,模型成功區(qū)分出多種細胞類型,充分展現(xiàn)了其對生物信號的深刻感知能力。在細胞類型注釋任務中,CGCompass基于reference集對query集進行了高精度預測。盡管兩者存在顯著的數據分布差異,CGCompass憑借大規(guī)模預訓練與深度融合的生物學先驗,有效規(guī)避了對reference集的過擬合,展現(xiàn)出強大的泛化與遷移能力,注釋準確率持續(xù)領先。
CGCompass的聚類(左)和注釋(右)結果
強大的Zero-shot能力,支持多樣化應用場景
預訓練基礎模型具備直接遷移到新任務的能力,CGCompass的zero-shot推理表現(xiàn)尤為突出。在不同實驗室、物種、疾病狀態(tài)下,模型均能生成高質量細胞和基因嵌入,顯著提升多種生物學任務的執(zhí)行效率。無須額外標注數據,即可為新數據提供細胞類型注釋、基因功能識別等支持,極大降低了生命科學研究中數據標注的門檻。
CGCompass的zero-shot測試結果
細胞基因擾動模擬,推動基因調控機制解析
CGCompass在基因擾動響應預測中表現(xiàn)優(yōu)異。通過在單細胞基因擾動(Perturb-seq)數據上微調預訓練模型,CGCompass能準確新的擾動條件下基因表達的變化。與現(xiàn)有先進模型相比,CGCompass在單基因及雙基因擾動的表達預測均有明顯提升,且能區(qū)分基因表達的上調、下調及不變狀態(tài)。此能力不僅助力基因調控網絡的推斷,還可用于藥物作用機制分析和精準治療靶點篩選。
CGCompass模擬單細胞基因擾動響應
拓展至體細胞基因敲除預測,實現(xiàn)多尺度生物學建模
在單細胞擾動實驗的基礎上,CGCompass進一步拓展至體(bulk)細胞的基因敲除預測任務。體細胞測序數據反映的是細胞的局部群體行為,具有顯著的數據分布不平衡特征:多數基因在敲除前后表達量變化不大,容易導致深度學習模型"偷懶"--將所有基因預測為不變,從而獲得看似較高的準確率。為解決這一挑戰(zhàn),CGCompass引入兩階段遷移學習策略:模型首先在大規(guī)模單細胞數據上完成預訓練,再在體細胞數據上進行二次預訓練,最后在基因敲除數據上進行精調。該策略有效增強了模型對表達變化的敏感性,實現(xiàn)了對基因上調、下調及不變狀態(tài)的精準分類。相較傳統(tǒng)方法,CGCompass不僅保持整體預測準確率,更顯著提升了對差異表達基因的識別能力,展現(xiàn)出強大的泛化性能和在真實應用中的巨大潛力。
CGCompass預測bulk層面的基因敲除結果
展望未來:多組學融合與精準生命科學新時代
CGCompass標志著圖神經網絡與生命科學大數據融合的新突破,未來團隊計劃進一步整合ATAC-seq、蛋白質組學及表觀遺傳數據,打造更全面的多組學基礎模型。同時,將探索先進生命科學文本大模型及半監(jiān)督、長尾學習方法,進一步提升模型對稀缺數據和復雜生物現(xiàn)象的適應力。CGCompass有望助力細胞命運重編程、腫瘤精準治療、類器官培養(yǎng)等前沿領域,開啟智能生命科學研究新時代。
關于團隊
CGCompass模型由中國科學院大學前沿交叉科學學院、中國科學院動物研究所李鑫團隊聯(lián)合中國科學院計算機網絡信息中心、科大訊飛等多學科團隊共同研發(fā),該團隊致力于構建數智驅動的生命科學研究新范式,深度解析生命本質規(guī)律。中國科學院動物所李鑫研究員、馮桂海研究員,計算機網絡信息中心周園春研究員、孟珍研究員、科大訊飛陳凌輝為論文共同通訊作者,房晨、崔文韜、胡智龍為共同第一作者。
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com