幾十年來,Y 染色體(人類兩條性染色體之一)由于其結構的復雜性,一直給基因組學界的測序帶來巨大挑戰(zhàn)?,F(xiàn)在,基因組中這一難以捉摸的區(qū)域已被完全測序,這一壯舉最終完成了一套端到端的人類染色體,并為人類基因組參考添加了 3000 萬個新堿基,其中大部分來自測序困難的衛(wèi)星 DNA。這些堿基揭示了 41 個額外的蛋白質編碼基因,并為研究與繁殖、進化和種群變化相關的重要問題的人們提供了重要的見解。
由加州大學圣克魯斯分校生物分子工程助理教授 Karen Miga 共同領導的端粒到端粒 (T2T) 聯(lián)盟的研究人員在《自然》雜志上發(fā)表的一篇新論文中宣布了這一成果。完整的、帶注釋的 Y 染色體參考可在 UCSC 基因組瀏覽器上使用,并可通過 Github 訪問。
“就在幾年前,人類 Y 染色體的一半(參考文獻中)缺失了,即具有挑戰(zhàn)性、復雜的衛(wèi)星區(qū)域,”該論文的共同主要作者、加州大學圣克魯斯分校生物分子工程博士后學者莫妮卡·切喬娃 (Monika Cechova) 說。“當時我們甚至不知道它是否可以測序,這太令人困惑了。這確實是一個巨大的轉變。”
完成Y
當科學家和臨床醫(yī)生研究個體的基因組時,他們會將個體的 DNA 與標準參考的 DNA 進行比較,以確定哪里存在變異。到目前為止,人類基因組的 Y 染色體部分存在很大的缺口,這使得理解變異和相關疾病變得困難。
Y染色體的結構一直難以解碼,因為一些DNA是以回文形式組織的——前后相同的長序列——跨越超過一百萬個堿基對。此外,之前版本的 Y 參考中缺失的 Y 染色體的很大一部分是衛(wèi)星 DNA,即大型、高度重復的非蛋白質編碼 DNA 區(qū)域。在 Y 染色體上,兩個衛(wèi)星相互連接,使測序過程進一步復雜化。
由于長讀長測序技術和新的創(chuàng)新計算組裝方法的進步,研究人員能夠實現(xiàn) Y 染色體的無縫讀取,這些方法可以處理重復序列并將測序的原始數(shù)據(jù)轉化為可用資源。這些新方法組合使團隊能夠解決 Y 染色體的一些特別具有挑戰(zhàn)性的方面,例如精確定位回文序列中發(fā)生倒位的位置——一種可用于查找其他倒位的技術。論文中建立的方法將使科學家能夠完成更多人類 Y 染色體的端到端讀取,以更好地了解這種遺傳物質如何影響不同的人類群體。
“Y 染色體缺乏先前參考基因組中最多的序列,”國家人類基因組研究所的科學家、該論文的主要作者 Arang Rhie 說。“每當我們嘗試進行任何基于參考的分析時,知道我們錯過了 Y 的一半總是令人惱火。我真的很高興能夠策劃第一個完整的 Y,看看我們實際上缺少什么,以及我們現(xiàn)在可以做什么。”
2018年,Miga和她的同事發(fā)布了第一個人類Y染色體著絲粒的完整圖譜。第一個間隙閉合被認為是獲得超長數(shù)據(jù)的功勞,該數(shù)據(jù)建立在納米孔測序技術的基礎上,該技術起源于加州大學圣迭戈分校。當時很明顯,新興技術和高覆蓋率長讀長數(shù)據(jù)集有潛力端到端地完成整個染色體,這導致了由 Phillippy 和 Miga 共同領導的 T2T 聯(lián)盟的成立。
標簽:
免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!