微生物序列數(shù)據(jù)庫包含有關(guān)酶和其他可適用于生物技術(shù)的分子的大量信息。但近年來這些數(shù)據(jù)庫變得如此之大,以至于很難有效地搜索感興趣的酶。
現(xiàn)在,麻省理工學(xué)院和哈佛大學(xué)布羅德研究所、麻省理工學(xué)院麥戈文腦研究所和美國國立衛(wèi)生研究院國家生物技術(shù)信息中心(NCBI)的科學(xué)家們開發(fā)了一種新的搜索算法,已識(shí)別出188種新的細(xì)菌基因組中罕見的CRISPR系統(tǒng),包含數(shù)千個(gè)單獨(dú)的系統(tǒng)。該作品發(fā)表在《科學(xué)》雜志上。
該算法來自CRISPR先驅(qū)張鋒的實(shí)驗(yàn)室,使用大數(shù)據(jù)聚類方法快速搜索大量基因組數(shù)據(jù)。該團(tuán)隊(duì)使用他們的算法,稱為基于快速局部敏感散列的聚類(FLSHclust)來挖掘三個(gè)主要公共數(shù)據(jù)庫,其中包含來自各種不尋常細(xì)菌的數(shù)據(jù),包括在煤礦、啤酒廠、南極湖泊和狗唾液中發(fā)現(xiàn)的細(xì)菌。
科學(xué)家們發(fā)現(xiàn)了令人驚訝的數(shù)量和多樣性的CRISPR系統(tǒng),包括可以編輯人類細(xì)胞DNA的系統(tǒng),其他可以靶向RNA的系統(tǒng),以及許多具有多種其他功能的系統(tǒng)。
新系統(tǒng)有可能用于編輯哺乳動(dòng)物細(xì)胞,并且與當(dāng)前的Cas9系統(tǒng)相比,脫靶效應(yīng)更少。它們有一天也可以用作診斷或作為細(xì)胞內(nèi)活動(dòng)的分子記錄。
研究人員表示,他們的研究突顯了CRISPR前所未有的多樣性和靈活性水平,并且隨著數(shù)據(jù)庫的不斷增長,可能還有更多罕見的系統(tǒng)有待發(fā)現(xiàn)。
“生物多樣性是一個(gè)寶庫,隨著我們繼續(xù)對(duì)更多基因組和宏基因組樣本進(jìn)行測(cè)序,越來越需要更好的工具,例如FLSHclust,來搜索序列空間以找到分子寶石,”聯(lián)合研究人員張說。該研究的資深作者,也是博德研究所的核心研究所成員。
張還是麻省理工學(xué)院麥戈文腦研究所的研究員、麻省理工學(xué)院神經(jīng)科學(xué)系的James和PatriciaPoitras教授(兼任腦與認(rèn)知科學(xué)和生物工程系)以及霍華德休斯醫(yī)學(xué)研究所的研究員。NCBI的杰出研究員尤金·庫寧(EugeneKoonin)也是該研究的共同高級(jí)作者。
尋找CRISPR
CRISPR代表成簇規(guī)則間隔短回文重復(fù)序列,是一種細(xì)菌防御系統(tǒng),已被設(shè)計(jì)成許多基因組編輯和診斷工具。
為了挖掘新型CRISPR系統(tǒng)的蛋白質(zhì)和核酸序列數(shù)據(jù)庫,研究人員借鑒大數(shù)據(jù)社區(qū)的方法開發(fā)了一種算法。這種技術(shù)稱為局部敏感散列,將相似但不完全相同的對(duì)象聚集在一起。
使用這種方法,團(tuán)隊(duì)可以在幾周內(nèi)從NCBI、其全基因組獵槍數(shù)據(jù)庫和聯(lián)合基因組研究所探測(cè)數(shù)十億個(gè)蛋白質(zhì)和DNA序列,而以前尋找相同物體的方法需要幾個(gè)月的時(shí)間。他們?cè)O(shè)計(jì)了算法來尋找與CRISPR相關(guān)的基因。
該研究的共同第一作者SoumyaKannan表示:“這種新算法使我們能夠在足夠短的時(shí)間內(nèi)解析數(shù)據(jù),從而真正恢復(fù)結(jié)果并做出生物學(xué)假設(shè)。”研究開始時(shí),坎南是張實(shí)驗(yàn)室的研究生,目前是哈佛大學(xué)的博士后研究員和初級(jí)研究員。HanAltae-Tran是該研究的另一位共同第一作者,他是張實(shí)驗(yàn)室研究期間的研究生,目前是華盛頓大學(xué)的博士后研究員。
Altae-Tran說:“這證明了當(dāng)你改進(jìn)探索方法并使用盡可能多的數(shù)據(jù)時(shí),你可以做些什么。”“能夠提高我們的搜索規(guī)模真是令人興奮。”
新系統(tǒng)
在他們的分析中,Altae-Tran、Kannan和他們的同事注意到,他們發(fā)現(xiàn)的數(shù)千個(gè)CRISPR系統(tǒng)屬于幾個(gè)現(xiàn)有類別和許多新類別。他們?cè)趯?shí)驗(yàn)室中更詳細(xì)地研究了幾個(gè)新系統(tǒng)。
他們發(fā)現(xiàn)了已知I型CRISPR系統(tǒng)的幾種新變體,這些系統(tǒng)使用32個(gè)堿基對(duì)長的向?qū)NA,而不是Cas9的20個(gè)核苷酸的向?qū)?。由于引?dǎo)RNA較長,這些I型系統(tǒng)有可能用于開發(fā)更精確的基因編輯技術(shù),不易發(fā)生脫靶編輯。
張的團(tuán)隊(duì)證明其中兩個(gè)系統(tǒng)可以對(duì)人類細(xì)胞的DNA進(jìn)行簡短的編輯。由于這些I型系統(tǒng)的大小與CRISPR-Cas9相似,因此可以使用當(dāng)今CRISPR所用的相同基因傳遞技術(shù)將它們傳遞到動(dòng)物或人類的細(xì)胞中。
其中一個(gè)I型系統(tǒng)還表現(xiàn)出“附帶活性”——CRISPR蛋白結(jié)合其靶標(biāo)后核酸的廣泛降解??茖W(xué)家們已經(jīng)使用類似的系統(tǒng)進(jìn)行傳染病診斷,例如SHERLOCK,這是一種能夠快速感應(yīng)單個(gè)DNA或RNA分子的工具。張的團(tuán)隊(duì)認(rèn)為新系統(tǒng)也可以適用于診斷技術(shù)。
研究人員還發(fā)現(xiàn)了一些IV型CRISPR系統(tǒng)的新作用機(jī)制,以及精確靶向RNA的VII型系統(tǒng),該系統(tǒng)有可能用于RNA編輯。其他系統(tǒng)有可能用作記錄工具(基因何時(shí)表達(dá)的分子文件)或用作活細(xì)胞中特定活動(dòng)的傳感器。
挖掘數(shù)據(jù)
科學(xué)家們表示,他們的算法可以幫助尋找其他生化系統(tǒng)。Altae-Tran說:“任何想要使用這些大型數(shù)據(jù)庫來研究蛋白質(zhì)如何進(jìn)化或發(fā)現(xiàn)新基因的人都可以使用這種搜索算法。”
研究人員補(bǔ)充說,他們的發(fā)現(xiàn)不僅說明了CRISPR系統(tǒng)的多樣性,而且大多數(shù)都很罕見,只在不尋常的細(xì)菌中發(fā)現(xiàn)。
“其中一些微生物系統(tǒng)僅在煤礦水中發(fā)現(xiàn),”坎南說。“如果有人對(duì)此不感興趣,我們可能永遠(yuǎn)不會(huì)看到這些系統(tǒng)。擴(kuò)大我們的采樣多樣性對(duì)于繼續(xù)擴(kuò)大我們所能發(fā)現(xiàn)的多樣性非常重要。”
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!