2023-06-15 00:00:00來源:Nature瀏覽量:166
自Open AI推出Chat GPT以后,人工智能領域迅速“引爆”全球,成為熱議話題。無論是在娛樂媒體、代碼軟件,還是生物醫藥領域都能窺見其身影。
?
ChatGPT 聊天機器人實現的原理是基于遷移學習(Transfer learning)的Transformer模型,這個模型同樣也適用于生物醫藥的相關研究。
?
近日,格拉德斯通研究所(Gladstone Institute)的Christina Theodoris博士團隊就基于遷移學習的Transformer模型開發了一個理解基因相互作用的基礎模型,相關研究成果已發表于Nature,題為Transfer learning enables predictions in network biology。
?
?
這個新模型被稱為 Geneformer,它從大量人體組織的基因相互作用數據中進行遷移學習,并將這些知識用于預測疾病中可能出現的問題,以幫助我們了解相互連接的人類基因的大型網絡如何控制細胞功能,以及這些網絡的破壞如何導致疾病的發生。
?
什么是遷移學習(Transfer learning),它如何應用于網絡生物學?
遷移學習是指 將已經在一個任務上訓練好的模型應用于另一個任務上的一種機器學習方法。在網絡生物學中,基因網絡需要大量的轉錄組數據來學習基因之間的聯系,但是在數據有限的情況下,這種方法會受到限制。
?
利用遷移學習,我們可以通過已經在大規模通用數據集上預訓練好的深度學習模型,在有限的任務特定數據上進行微調,從而實現對基因網絡中特定問題的預測。這種方法可以加速發現關鍵網絡調節因子和候選治療靶點,并且可以應用于罕見疾病或臨床無法接觸的組織等情況。
▲遷移學習策略示意圖
?
?
Geneformer模型如何工作,相比其它深度學習模型有哪些優勢?
Geneformer 模型利用開放數據構建了一個基因表達數據庫(Genecorpus-30M),其中包括來自人體的 3,000 萬個單細胞的基因表達譜。然后,研究人員使用該數據庫對 Geneformer 進行訓練。通過訓練,Geneformer 學會了關注細胞中具有關鍵作用的基因,例如編碼轉錄因子和中心調節節點的基因。Geneformer 還具有環境感知能力,使其 能夠根據每個細胞的環境做出特定的預測,這對于研究多種受到影響的細胞類型的疾病和治療靶點的可能因疾病階段而異的進行性疾病尤其有用。
▲Genecorpus-30M組成
?
此外,Geneformer 可以通過遷移學習在有限的數據集上進行微調,以實現對基因網絡中特定問題的預測。相比其他深度學習模型,Geneformer 具有多種優勢:
?
1.?????? 可以更好地捕捉基因之間的關系和網絡動態。
2.?????? 可以根據不同任務和數據集自適應地調整其預測能力。
3.?????? Geneformer 是在大規模轉錄組數據上進行預訓練的,因此具有更好的泛化能力和更高的預測準確性。
4.?????? Geneformer 可以加速發現關鍵網絡調節因子和候選治療靶點,并且可以應用于罕見疾病或臨床無法接觸的組織等情況。
?
特別值得注意的是,當 Geneformer 針對與基因網絡動態或 DNA-蛋白質復合染色質修飾相關的各種任務進行微調時,其結果比傳統方法更具準確性。
?
心臟病案例驗證
在一個心臟病的案例中,研究人員使用心肌細胞模型進行了測試,以區分正常心臟和受肥厚性或擴張性心肌病影響的心臟。具體而言,他們對有限數量的患者樣本進行了疾病建模,并利用 Geneformer 模型預測候選治療靶點。結果發現,在 iPSC(誘導多能干細胞)疾病模型中,實驗性地針對這些候選治療靶點進行治療可以顯著改善其功能,為 Geneformer 作為發現人類疾病候選治療靶點的工具的實用性提供了實驗驗證。
?
此外,通過對基因網絡的學習,Geneformer 可以應用于更多的場景,加速發現關鍵的基因網絡調節因子和候選治療靶點。隨著數據的不斷開放,未來可能會開發出能夠聯合處理多種數據類型的模型,并明確推斷特定細胞類型和疾病之間的聯系。
▲預訓練的Geneformer架構
?
總結
通過繪制驅動人類疾病的基因調控網絡,我們能夠設計針對核心疾病機制而不僅僅是控制癥狀的治療方法。Geneformer 也不僅僅是一種預測基因表達和細胞狀態變化的工具,更是數字化探測生物系統的重要一步。
?
隨著人工智能在生物醫藥領域的應用不斷發展,我們可以期待更多類似 Geneformer 的模型的出現。這些模型將進一步加速疾病的診斷、預測和治療的進程,為醫學研究和臨床實踐帶來巨大的潛力。
?
無論進行何種研究,數據的獲取都是必不可少的先決條件。對于那些具有突破性的研究尤其如此,因為它們通常需要更多的基礎數據支持。在這方面,陶術生物可以提供免費的開源數據庫,其中包含了數千萬條商業化小分子結構數據。同時,我們還可以提供對應的實體化合物,以滿足不同科研工作者的需求。如果您對此感興趣,歡迎私信咨詢,我們將提供詳細信息!
?
參考文獻:
[1] Theodoris, C.V., Xiao, L., Chopra, A. et al. Transfer learning enables predictions in network biology. Nature (2023). https://doi.org/10.1038/s41586-023-06139-9
[2] Petri? Howe, Nick, and Benjamin Thompson. “AI identifies gene interactions to speed up search for treatment targets.” Nature, 10.1038/d41586-023-01803-6. 31 May. 2023, doi:10.1038/d41586-023-01803-6
?
?