2021年8 月 26 日——一種名為 Atomic Rotationally Equivariant Scorer (ARES) 的新深度學習系統(tǒng)顯著改善了對 RNA 結構的預測,而不是以前的人工智能 (AI) 模型。斯坦福大學研究人員在8 月 26 日發(fā)表在《科學》雜志上的一篇論文中描述了這一進展,它可能有助于科學家們發(fā)現(xiàn) RNA 的生物學功能,并為發(fā)現(xiàn)新型 RNA 靶向藥物鋪平道路。
像蛋白質一樣,RNA 分子扭曲并折疊成復雜的 3D 形狀,使它們能夠執(zhí)行廣泛的細胞功能,包括催化反應、調節(jié)基因表達、調節(jié)先天免疫和感知小分子。
然而,盡管科學家對蛋白質結構的理解在過去十年中取得了長足的進步,但他們對 RNA 結構的了解卻遠遠落后,盡管人類基因組中轉錄成 RNA 的部分大約是轉錄成 RNA 的部分的 30 倍。蛋白質的代碼。
理解蛋白質折疊的進展反映在預測模型的成功上,例如由谷歌 AI 分支 DeepMind 開發(fā)的AlphaFold。該模型通過利用數千種已知蛋白質結構中的序列-結構關系,學會了如何根據氨基酸序列準確預測蛋白質結構。
然而,在 RNA 的情況下,可用的訓練數據要少得多。這部分是因為 RNA 結構目前還沒有被很好地理解,并且因為 RNA 序列信息提供的關于 3D RNA 結構的信息比蛋白質的情況少。
為了解決這個問題,由斯坦福大學博士研究生、Atomic AI 創(chuàng)始人兼首席執(zhí)行官 Raphael Townshend 領導的研究人員設計了 ARES,以根據最小假設進行 RNA 結構預測。ARES 深度神經網絡接受每個原子的 3D 坐標和化學元素類型的結構模型作為輸入,然后預測模型與未知真實 3D RNA 結構的均方根偏差。
ARES 不包含關于結構模型的哪些特征與評估其準確性相關的任何假設。即使是雙螺旋、堿基對、核苷酸和氫鍵等基本結構概念也沒有預先編程到系統(tǒng)中。
與在數千種已知蛋白質結構上訓練的 AlphaFold 不同,ARES 訓練數據僅限于 18 個 RNA 分子,這些分子在 1994 年至 2006 年間發(fā)表了實驗確定的結構。
為了評估 ARES 識別以前未見過的 RNA 的準確結構模型的能力,斯坦福大學的研究人員編制了一個基準數據集,其中包含七年來在 RNA-Puzzles 競賽中獲勝的參賽作品,這是由 RNA 科學界組織的一項長期挑戰(zhàn). 根據 RNA-Puzzles 的規(guī)則,當社區(qū)科學家通過實驗發(fā)現(xiàn)新的 RNA 結構時,他們不會公布細節(jié),直到其他 RNA-Puzzles 參與者提交了他們的結構預測,然后根據他們與該結構的匹配程度進行判斷。實驗確定的結構。
對于 RNA-Puzzles 數據集中的每個 RNA 結構,研究人員使用 Rosetta FARFAR2 采樣軟件生成了至少 1,500 個結構模型。然后,他們應用經過訓練的 ARES 神經網絡為每個模型生成一個分數。其他三種評分方法也用于比較。
使用 ARES,10 個得分最高的結構模型包括 81% 的基準 RNA 的實驗正確模型。相比之下,其他三種評分方法在不到 50% 的時間內包含正確的結構。
接下來,研究人員將 ARES 的預測輸入到四輪新的 RNA-Puzzles 盲結構預測挑戰(zhàn)賽中。四個實驗確定但未發(fā)表的待預測 RNA 結構包括腺病毒 VA-I RNA、嗜熱地芽孢桿菌T-box 鑒別器 tRNAGly、枯草芽孢桿菌T-box tRNAGly 和諾卡氏菌T-box tRNAIIe(蛋白質數據庫 ID) 6OL3、6PMO、6POM 和 6UFM)。對于所有四種 RNA,ARES“贏得”了挑戰(zhàn),產生了任何方法中最準確的結構模型。
在未來的工作中,研究人員計劃為 ARES 提供除原子坐標和每個原子的化學元素類型之外的更多信息,以查看這種額外的輸入是否會提高性能。
標簽:
免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!