微生物序列數據庫包含有關酶和其他可適用于生物技術的分子的大量信息。但近年來這些數據庫變得如此之大,以至于很難有效地搜索感興趣的酶。
現在,麻省理工學院和哈佛大學布羅德研究所、麻省理工學院麥戈文腦研究所和美國國立衛(wèi)生研究院國家生物技術信息中心(NCBI)的科學家們開發(fā)了一種新的搜索算法,已識別出188種新的細菌基因組中罕見的CRISPR系統(tǒng),包含數千個單獨的系統(tǒng)。該作品發(fā)表在《科學》雜志上。
該算法來自CRISPR先驅張鋒的實驗室,使用大數據聚類方法快速搜索大量基因組數據。該團隊使用他們的算法,稱為基于快速局部敏感散列的聚類(FLSHclust)來挖掘三個主要公共數據庫,其中包含來自各種不尋常細菌的數據,包括在煤礦、啤酒廠、南極湖泊和狗唾液中發(fā)現的細菌。
科學家們發(fā)現了令人驚訝的數量和多樣性的CRISPR系統(tǒng),包括可以編輯人類細胞DNA的系統(tǒng),其他可以靶向RNA的系統(tǒng),以及許多具有多種其他功能的系統(tǒng)。
新系統(tǒng)有可能用于編輯哺乳動物細胞,并且與當前的Cas9系統(tǒng)相比,脫靶效應更少。它們有一天也可以用作診斷或作為細胞內活動的分子記錄。
研究人員表示,他們的研究突顯了CRISPR前所未有的多樣性和靈活性水平,并且隨著數據庫的不斷增長,可能還有更多罕見的系統(tǒng)有待發(fā)現。
“生物多樣性是一個寶庫,隨著我們繼續(xù)對更多基因組和宏基因組樣本進行測序,越來越需要更好的工具,例如FLSHclust,來搜索序列空間以找到分子寶石,”聯合研究人員張說。該研究的資深作者,也是博德研究所的核心研究所成員。
張還是麻省理工學院麥戈文腦研究所的研究員、麻省理工學院神經科學系的James和PatriciaPoitras教授(兼任腦與認知科學和生物工程系)以及霍華德休斯醫(yī)學研究所的研究員。NCBI的杰出研究員尤金·庫寧(EugeneKoonin)也是該研究的共同高級作者。
尋找CRISPR
CRISPR代表成簇規(guī)則間隔短回文重復序列,是一種細菌防御系統(tǒng),已被設計成許多基因組編輯和診斷工具。
為了挖掘新型CRISPR系統(tǒng)的蛋白質和核酸序列數據庫,研究人員借鑒大數據社區(qū)的方法開發(fā)了一種算法。這種技術稱為局部敏感散列,將相似但不完全相同的對象聚集在一起。
使用這種方法,團隊可以在幾周內從NCBI、其全基因組獵槍數據庫和聯合基因組研究所探測數十億個蛋白質和DNA序列,而以前尋找相同物體的方法需要幾個月的時間。他們設計了算法來尋找與CRISPR相關的基因。
該研究的共同第一作者SoumyaKannan表示:“這種新算法使我們能夠在足夠短的時間內解析數據,從而真正恢復結果并做出生物學假設。”研究開始時,坎南是張實驗室的研究生,目前是哈佛大學的博士后研究員和初級研究員。HanAltae-Tran是該研究的另一位共同第一作者,他是張實驗室研究期間的研究生,目前是華盛頓大學的博士后研究員。
Altae-Tran說:“這證明了當你改進探索方法并使用盡可能多的數據時,你可以做些什么。”“能夠提高我們的搜索規(guī)模真是令人興奮。”
新系統(tǒng)
在他們的分析中,Altae-Tran、Kannan和他們的同事注意到,他們發(fā)現的數千個CRISPR系統(tǒng)屬于幾個現有類別和許多新類別。他們在實驗室中更詳細地研究了幾個新系統(tǒng)。
他們發(fā)現了已知I型CRISPR系統(tǒng)的幾種新變體,這些系統(tǒng)使用32個堿基對長的向導RNA,而不是Cas9的20個核苷酸的向導。由于引導RNA較長,這些I型系統(tǒng)有可能用于開發(fā)更精確的基因編輯技術,不易發(fā)生脫靶編輯。
張的團隊證明其中兩個系統(tǒng)可以對人類細胞的DNA進行簡短的編輯。由于這些I型系統(tǒng)的大小與CRISPR-Cas9相似,因此可以使用當今CRISPR所用的相同基因傳遞技術將它們傳遞到動物或人類的細胞中。
其中一個I型系統(tǒng)還表現出“附帶活性”——CRISPR蛋白結合其靶標后核酸的廣泛降解??茖W家們已經使用類似的系統(tǒng)進行傳染病診斷,例如SHERLOCK,這是一種能夠快速感應單個DNA或RNA分子的工具。張的團隊認為新系統(tǒng)也可以適用于診斷技術。
研究人員還發(fā)現了一些IV型CRISPR系統(tǒng)的新作用機制,以及精確靶向RNA的VII型系統(tǒng),該系統(tǒng)有可能用于RNA編輯。其他系統(tǒng)有可能用作記錄工具(基因何時表達的分子文件)或用作活細胞中特定活動的傳感器。
挖掘數據
科學家們表示,他們的算法可以幫助尋找其他生化系統(tǒng)。Altae-Tran說:“任何想要使用這些大型數據庫來研究蛋白質如何進化或發(fā)現新基因的人都可以使用這種搜索算法。”
研究人員補充說,他們的發(fā)現不僅說明了CRISPR系統(tǒng)的多樣性,而且大多數都很罕見,只在不尋常的細菌中發(fā)現。
“其中一些微生物系統(tǒng)僅在煤礦水中發(fā)現,”坎南說。“如果有人對此不感興趣,我們可能永遠不會看到這些系統(tǒng)。擴大我們的采樣多樣性對于繼續(xù)擴大我們所能發(fā)現的多樣性非常重要。”
標簽:
免責聲明:本文由用戶上傳,與本網站立場無關。財經信息僅供讀者參考,并不構成投資建議。投資者據此操作,風險自擔。 如有侵權請聯系刪除!