休斯頓——(2021 年 6 月 28 日)——萊斯大學(xué)的計(jì)算機(jī)科學(xué)家正在派遣 RAMBO 來(lái)拯救基因組研究人員,他們有時(shí)需要等待數(shù)天或數(shù)周才能從龐大的 DNA 數(shù)據(jù)庫(kù)中獲取搜索結(jié)果。
DNA 測(cè)序如此流行,基因組數(shù)據(jù)集的規(guī)模每?jī)赡攴环阉鲾?shù)據(jù)的工具卻沒(méi)有跟上步伐。跨基因組比較 DNA 或研究諸如導(dǎo)致 的病毒等生物體進(jìn)化的研究人員通常要等待數(shù)周才能讓軟件索引大型“宏基因組”數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)每月都在變大,現(xiàn)在以 PB 為單位。
RAMBO 是“重復(fù)合并布隆過(guò)濾器”的縮寫(xiě),是一種新方法,可以將此類(lèi)數(shù)據(jù)庫(kù)的索引時(shí)間從數(shù)周縮短至數(shù)小時(shí),將搜索時(shí)間從數(shù)小時(shí)縮短至數(shù)秒。萊斯大學(xué)的計(jì)算機(jī)科學(xué)家上周在計(jì)算機(jī)協(xié)會(huì)數(shù)據(jù)科學(xué)會(huì)議 SIGMOD 2021 上介紹了 RAMBO。
“使用傳統(tǒng)方法在大型數(shù)據(jù)庫(kù)中查詢(xún)數(shù)百萬(wàn)個(gè) DNA 序列在大型計(jì)算集群上可能需要幾個(gè)小時(shí),而在單個(gè)服務(wù)器上可能需要幾周時(shí)間,”蘭博的共同創(chuàng)建者托德·特倫根說(shuō),他是賴(lài)斯的計(jì)算機(jī)科學(xué)家,其實(shí)驗(yàn)室專(zhuān)門(mén)研究宏基因組學(xué).“除了查詢(xún)時(shí)間外,減少數(shù)據(jù)庫(kù)索引時(shí)間也至關(guān)重要,因?yàn)榛蚪M數(shù)據(jù)庫(kù)的規(guī)模正以驚人的速度持續(xù)增長(zhǎng)。”
為了解決這個(gè)問(wèn)題,Treangen 與萊斯大學(xué)計(jì)算機(jī)科學(xué)家 Anshumali Shrivastava 以及同行評(píng)審會(huì)議的共同主要作者 Gaurav Gupta 和 Minghao Yan 合作,后者擅長(zhǎng)創(chuàng)建使大數(shù)據(jù)和機(jī)器學(xué)習(xí)更快、更可擴(kuò)展的算法。蘭博上的紙。
RAMBO 使用的數(shù)據(jù)結(jié)構(gòu)比最先進(jìn)的基因組索引方法具有明顯更快的查詢(xún)時(shí)間以及其他優(yōu)點(diǎn),例如易于并行化、零假陰性率和低假陽(yáng)性率。
“RAMBO 的搜索時(shí)間比現(xiàn)有方法快 35 倍,”電氣和計(jì)算機(jī)工程博士生 Gupta 說(shuō)。在使用 170 TB 微生物基因組數(shù)據(jù)集的實(shí)驗(yàn)中,Gupta 表示,蘭博將索引時(shí)間從“在復(fù)雜的專(zhuān)用集群上的六周縮短到在共享商品集群上的九個(gè)小時(shí)”。
標(biāo)簽: DNA
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!