两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

全基因組且靶向的單體型重構(gòu)的制作方法

文檔序號:10693579閱讀:683來源:國知局
全基因組且靶向的單體型重構(gòu)的制作方法
【專利摘要】本發(fā)明涉及用于單體型確定的方法,且具體的是在全基因組水平的單體型確定以及靶向單體型確定。
【專利說明】全基因組且卽向的單體型重構(gòu)
[0001] 對相關(guān)申請的交叉引用
[0002] 本申請要求2013年7月19日提交的美國臨時申請?zhí)?1/856,486和2013年9月4日提 交的美國臨時申請?zhí)?1/873,671的優(yōu)先權(quán)。所述申請的內(nèi)容通過提述W其整體并入本文。 發(fā)明領(lǐng)域
[0003] 本發(fā)明設(shè)及用于單體型確定,且特別是在全基因組水平的單體型確定,W及祀向 單體型確定的方法。
[0004] 發(fā)明背景
[0005] DNA鳥槍法測序技術(shù)的快速進步使得能夠系統(tǒng)性鑒定個體的遺傳變體(Wheeler 等,化 1:ure 452,872-876(2008);化shkarev等,Nature Biotechnology27,847-850(2009); Kitzman等,Science Translational Medicine 4,137ral76(2012);和Levy等,Plos Biology 5,e254(2007))。然而,由于人類基因組由同源的兩組染色體組成,了解個體真正 的遺傳組成要求描繪遺傳材料的母本和父本拷貝,或單體型化aplotype)。在個體中獲得單 體型的效用可W有幾重:首先,單體型在臨床上對于器官移植中供體-受體匹配結(jié)果的預(yù)測 有用(Crawford等,Annual Review Of Medicine 56,303-320(2005)和化tersdorf等,PLoS Medicine 4, e8(2007))并越來越多地用作檢測疾病相關(guān)性的方法(Studies等,Nature 447,655-660(2007);Cirulli等,Nature Reviews.Geneticsll,415-425(2010);和Ng等, Nature Genetics 42,30-35(2010))。第二,在表現(xiàn)出復(fù)合雜合性(compound heterozygosity)的基因中,單體型提供了關(guān)于兩種有害變體是否定位于相同的或不同的 等位基因上的信息,運極大地影響了運些變體的遺傳是否有害的預(yù)測(Musone等,化ture Genetics 40,1062-1064(2008);和 Elrythematosus 等,Nature Genetics 40,204-210 (2008);和Zschocke'Journal of Inherited Metabolic Disease 31,599-618(2008))。在 復(fù)雜的基因組(例如人)中,復(fù)合雜合性可能設(shè)及在非編碼順式調(diào)節(jié)位點處的遺傳或表觀遺 傳變異,所述非編碼順式調(diào)節(jié)位點定位于遠離它們調(diào)節(jié)的基因(Sanyal等,Nature 489, 109-113(2012)),運強調(diào)了獲得染色體跨度(chromosome-span)的單體型的重要性。第S, 來自個體組的單體型提供了關(guān)于群體結(jié)構(gòu)的信息(International化pMap,C.等,化ture 449,851-861(2007);Genomes Project,C.等,Nature 467,1061-1073(2010);和Genomes Project,C.等,Nature 491,56-65(2012)),W及人種的進化史(Meyer等,Science 338, 222-226 ( 20 12 ))。最后,最近描述的基因表達中普遍的等位基因失衡(allelic imbalances )提示等位基因之間的遺傳或表觀遺傳差異可能促成表達的定量差異 (Gime化rant等,Science 318,1136-1140(2007) ;Kong等,化Uire 462,868-874(2009) ;Xie 等,Cell 148,816-831 (2012);和McDaniell等,Science 328,235-239(2010))。因此,對單 體型結(jié)構(gòu)的理解對于描繪促成運些等位基因失衡的變體機制將是關(guān)鍵的。總的來說,個體 中完全單體型結(jié)構(gòu)的知識對于推進個體化醫(yī)療至關(guān)重要。
[0006] 認(rèn)識到單體型的重要性,幾個小組已經(jīng)尋求擴展在群體和個體水平兩者上對單體 型結(jié)構(gòu)的理解。諸如International化pmap工程和1000基因組工程等倡導(dǎo)已經(jīng)嘗試著通過 連鎖不平衡測量(linkage disequiUbrium measures)基于無關(guān)個體群體測序數(shù)據(jù)或通過 家庭S人組(family hios)的基因型分析(genotyping)系統(tǒng)性重構(gòu)(reconstruct)單體 型。然而,使用該方法產(chǎn)生的準(zhǔn)確定相(phased)的單體型的平均長度被限制為約300kb(化n 等,Nature Biotechnology 29,51-57(2011)和Browning等,American Journal of Human Genetics 81,1084-1097(2007))。也開發(fā)了許多實驗方法來促進對個體的單體型定相,包 括LFR測序,配偶配對(mate-pair)測序,fosmid測序,W及基于稀釋的測序化evy等,PLoS Biology 5,e254( 2007) ;Bansal等,Bioinformatics24,1153-159(2008) ;Kitzman等, Na1:ure Biotechnology 29,59-63(2011);S址等,Genome Research 21,1672-1685(2011); Duitama等,Nucleic Acids Resea;rch40,2041-2053(2012);和Kaper等,Proc 化tl Acad Sci USA 110,5552-5557(2013))。運些方法最多可W重構(gòu)范圍在幾千堿基到約百萬堿基的 單體型,但沒有一個能夠達到染色體跨度的單體型。使用基于巧光輔助細(xì)胞分選(FACS)的 測序,染色體分離及隨后的測序,W及基于染色體微切割(micro-dissection)的測序完成 了全染色體單體型定相(Fan等,Nature Biotechnology 29,51-57(2011) ;Yang等, Proceedings of the National Academy of Sciences of the United States of America 108,12-17(2011);和Ma等,化ture Methods 7,299-301(2010))。然而,運些方法 是低分辨率的,因為它們只能對個體中一部分的雜合變體進行定相,更重要的是,它們的執(zhí) 行在技術(shù)上具有挑戰(zhàn)性,或要求專業(yè)的儀器。最近,使用來自精子細(xì)胞的基因型分析,已經(jīng) 進行了全基因組單體型分析化irkness等,Genome Research 23,826-832(2013))。雖然該 方法可高分辨率產(chǎn)生基因組跨度的單體型,但它不適用于普通人群,并需要復(fù)雜的減 數(shù)分裂重組模式的解卷積(deconvolution)。
[0007] 與全基因組單體型分析一起,祀向單體型分析(targeted haplotyping)也是重要 的。特別地,對化A(人白細(xì)胞抗原)基因座的祀向單體型分析可W幫助用于器官移植的受 體-供體匹配W及闡明順式調(diào)節(jié)元件在基因活性中的作用。
[0008] 計算分析已經(jīng)表明,來自先前建立的DNA鳥槍法測序方法的單體型重構(gòu)中的重要 因素是經(jīng)測序的基因組片段的長度(Tewhey等,Nature Reviews .Genetics 12,215-223 (2011))。例如,與常規(guī)的基因組測序相比(片段或插入物大小約500bp),通過配偶對測序 (mate pair sequencing)可W獲得較長的單體型(片段或插入物大小約化b)。然而,對于運 些片段可W多長存在技術(shù)限制。例如,克隆比使用fosmid克隆獲得的DNA片段更長的DNA片 段是困難的。因此,使用現(xiàn)有的鳥槍測序方法,難W產(chǎn)生超過1百萬個堿基的單體型區(qū)塊 (block),即使是在超涂度測序覆蓋。
[0009] 因此,對于在全基因組水平重構(gòu)單體型的方法,W及祀向單體型分析的方法存在 需要。
[001日]發(fā)明概述
[0011] 本發(fā)明通過提供在全基因組水平重構(gòu)單體型的方法W及在基因組的祀向區(qū)域重 構(gòu)單體型的方法,解決了上述未滿足的需求。
[0012] 因而,本發(fā)明的特征在于用于對生物體全染色體單體型分析的方法。所述方法包 括提供所述生物體的細(xì)胞,其含有具有基因組DNA的染色體組(a set of C虹omosomes);將 所述細(xì)胞或其核與固定試劑(fixation agent)解育一段時間并使用限制酶限制固定的 DNA,從而允許基因組DNA的原位臨近連接(proximity-ligation of the genomic DNA in situ),從而形成連接的基因組DNA;使所述連接的基因組DNA片段化(fragmenting) W形成 具有第一基因組DNA片段和第二基因組DNA片段的臨近連接的復(fù)合物;獲得多個臨近連接的 DNA片段W形成文庫;對所述多個臨近連接的DNA片段測序W獲得多個序列讀出,并組裝所 述多個序列讀出W構(gòu)建一個或多個染色體的染色體跨度的單體型。
[0013] 本發(fā)明還提供用于對生物體的祀向單體型分析的方法。所述方法包括提供所述生 物體的細(xì)胞,其含有具有基因組DNA的染色體組;將所述細(xì)胞或其核與固定試劑解育一段時 間并使用限制酶限制固定的DNA,W允許基因組DNA的原位臨近連接從而形成連接的基因組 DNA;使所述連接的基因組DNA片段化W形成具有第一基因組DNA片段和第二基因組DNA片段 的臨近連接的復(fù)合物;使所述鄰接連接的DNA片段與一個或多個寡核巧酸接觸,所述寡核巧 酸與所述臨近連接的片段的子集的預(yù)選擇區(qū)域雜交,W提供與所述寡核巧酸雜交的臨近連 接的片段的子集,將所述臨近連接的片段的子集與所述寡核巧酸分離;對所述臨近連接的 DNA片段的子集測序W獲得多個序列讀出,并組裝所述多個序列讀出W構(gòu)建祀向單體型。在 一個實施方案中,所述寡核巧酸是固定化的。
[0014] 在某些實施方案中,所述方法進一步包括在解育步驟之前從所述細(xì)胞分離細(xì)胞 核。分離細(xì)胞核的方法是本領(lǐng)域已知的。例如,用于從植物細(xì)胞分離核的方法由Lee等, (2007)The Plant Cell 19:731-749公開。
[0015] 在一些實施方案中,所述方法進一步包括在片段化步驟之前純化連接的基因組 DNA。在其它實施方案中,所述方法進一步包括,在片段化步驟之后,使用標(biāo)志物標(biāo)記所述第 一基因組DNA片段或所述第二基因組DNA片段;將所述第一基因組DNA片段和所述第二基因 組DNA片段連接,使得所述標(biāo)志物位于其間W形成標(biāo)記的嵌合DNA分子;W及剪切標(biāo)記的嵌 合DNA分子W形成標(biāo)記的、臨近連接的DNA片段。
[0016] 在上述方法中,可W通過本領(lǐng)域已知的多種方法進行所述片段化步驟。例如,其可 W通過酶促剪切進行,包括由限制酶,DNA酶,或轉(zhuǎn)座酶介導(dǎo)的。在一個實施方案中,通過使 用限制酶消化連接的基因組DNAW形成消化的基因組DNA片段來進行該步驟??蒞使用任意 適合的限制酶(例如,BamHI,EcoRI,HindIII,NcoI,或XhoI)或兩種或更多運些限制酶的組 合。所述固定試劑可W包含甲醒,戊二醒,或福爾馬林。可W通過使用標(biāo)記有標(biāo)志物(例如生 物素)的核巧酸填充所述第一或第二基因組DNA片段的末端來進行所述標(biāo)記步驟。在該情況 下,可W使用鏈霉親合素進行所述獲得步驟,所述鏈霉親合素可W粘附到珠。對于連接步 驟,它可W通過使用連接酶連接所述第一基因組DNA片段和第二基因組DNA片段來進行。所 述連接步驟可W在溶液中或固體基質(zhì)上進行。在固體基質(zhì)上連接在本文中稱為"栓系染色 體捕獲(tethered chromosomal capture)"。對于測序,它可W使用配對末端測序(pair- end sequencing)進行。
[0017] 在本發(fā)明的一個實施方案中,每個配對末端測序讀出片段長度的長度可W是至少 20bp,例如長度為 20-1000bp 或優(yōu)選20-150bp (例如,長度為 20,25,30,40,50,60,60,80,90, 100,110,120,130,140,或15化P)。對于每個染色體的單體型分析,文庫含有至少15x序列覆 蓋,例如25-20X序列覆蓋。優(yōu)選的是,所述第一基因組DNA片段和第二基因組DNA片段在同一 條染色體上或為順式。優(yōu)選的是,所述第一基因組DNA片段和第二基因組DNA片段在原位相 距至少lOObp,例如 100-100MB(例如,lOObp,化b,lOkb,1Mb,10Mb,20Mb,30Mb,40Mb,50Mb, 60Mb,70Mb,80Mb,90Mb,或 100Mb)。
[0018] 所述方法可w用于多種生物體,包括原核生物和真核生物。所述生物體包括真菌, 植物和動物。在一個優(yōu)選的實施方案中,所述生物體是植物。在另一個優(yōu)選的實施方案中, 所述生物體是哺乳動物或哺乳動物胚胎,或人或人胚胎。在一個實施方案中,所述人是器官 的供體或受體。在運種情況下,所述器官在移植到具有匹配單體型的受體之前,可W使用本 發(fā)明的方法進行單體型分析。本發(fā)明的方法可W用于二倍體細(xì)胞,非整倍體細(xì)胞,或多倍體 細(xì)胞,例如,某些癌性細(xì)胞。
[0019] 本發(fā)明的一個或多個實施方案的詳細(xì)說明列于W下說明書中。本發(fā)明的其它特 征,目的W及優(yōu)勢將從說明書和權(quán)利要求變得顯而易見。
[0020] 附圖簡述
[0021] 圖la-c是一組示出化ploSeq與其它用于重構(gòu)生物體的單體型的方法比較的圖: (a)圖概述了幾種用于對單體型定相的方法;(b)來自常規(guī)全基因組測序(WGS),配偶對和 化-C的插入物大小的頻率分布;(C)圖顯示了臨近連接讀出在構(gòu)建染色體跨度的單體型中 的作用。
[0022] 圖2a-c是一組示出臨近連接產(chǎn)物主要是單體型內(nèi)(intra-haplotype)的圖;(a)全 基因組相互作用頻率熱圖;(b)任意兩個片段之間相互作用頻率(logio比例)作為線性距離 的函數(shù);(C)比較h-反式相互作用化-trans interaction)概率作為插入物大小的函數(shù)。
[0023] 圖3a-d是一組示出化ploSeq允許精確的、高分辨率、W及染色體跨度的單體型重 構(gòu)的圖:(a)起源于129個等位基因的化-C讀出(上和下棒)的圖,所述129個等位基因跨越第 18號染色體的約30Mb,并用于將變體連接到單個染色體跨度單體型中;(b)CASTxJ129系統(tǒng) 中基于化-C的單體型定相的結(jié)果的表格;(C)通過模擬產(chǎn)生完全單體型的單體型定相方法 的比較;(d)對單體型定相的經(jīng)調(diào)整跨度(ad jus ted span,AS)的分析。
[0024] 圖4a-d是一組示出了使用化ploSeq在人GM12878細(xì)胞中單體型重構(gòu)的圖:(a)圖證 明了小鼠(CASTX129)和人(GM12878)之間在Hoxdl3/H0XD13基因上變體頻率的差異;(b)表 格描述了在CASTXJ129系統(tǒng)中在低變體密度的情境下使用化ploSeq分析的單體型重構(gòu)的完 全性("MVP區(qū)塊中跨越的染色體%"),分辨率("MVP區(qū)塊中定相的變體%" ),W及精確度 r'MVP區(qū)塊中定相的變體的精確度%" ); (c)GM12878細(xì)胞中基于化ploSeq的單體型重構(gòu)的 結(jié)果的表格;(d化i-C產(chǎn)生的種子單體型(seed haplotype)跨越中著絲粒染色體的著絲粒。 [00巧]圖5a-d是一組示出了HaploSeq分析與局部條件定相(local conditional phasing)結(jié)合允許在人中高分辨率單體型重構(gòu)的圖:(a)圖描述了進行局部條件性定相的 能力;(b)表格證明了GM12878細(xì)胞中局部條件性定相后使用化ploSeq的單體型定相的分辨 率W及整體精確度;(C)圖證明了在不同讀出長度和覆蓋的參數(shù)下,完成染色體跨度的種子 單體型(seed haplotypeKMVP區(qū)塊)的能力;(d)點示出了讀出長度和覆蓋的不同組合產(chǎn)生 高分辨率種子單體型的能力。
[0026] 圖6的圖示出了每條CASTXJ129染色體的h-反式相互作用的概率,其繪制為插入物 大小的函數(shù)。
[0027] 圖7a-d是一組示出了單體型定相中完整性,精確度,W及分辨率的圖形解釋的圖, (a)核巧酸堿基代表雜合SNP,而代表沒有變異性(variability) ;(b)MVP區(qū)塊的單體型 定相表明分辨率;(C)先驗已知的真實單體型和此知識幫助測量預(yù)測的從頭單體型(de- novo haplotypes)的精確度,并且不精確的變體定相示于灰色方框位置;(d)不同的度量。
[00%]圖8a-b是一組示出了限制的化pCUT模型的圖,所述模型僅允許到特定最大插入物 大小(maxis)為止的片段,其中在較高的maxis, MVP區(qū)段的分辨率(a)較高但含有較高的精 確度化)。
[0029] 圖9是示出了捕獲-HiC實驗方案的圖表。
[0030] 圖lOa-b示出了捕獲-HiC探針設(shè)計:(a)人類HLA基因座化gl9)的UCSC基因組瀏覽 器(Genome化owser)拍攝(shot)和(b)HLA-DQBl基因放大的UCSC基因組瀏覽器拍攝,W證 明探針祀向方法。
[0031] 發(fā)明詳述
[0032] 高通量DNA測序技術(shù)的快速進步加速了個體化醫(yī)療研究的步伐。雖然用于全基因 組測序(WGS)數(shù)據(jù)組的變體發(fā)現(xiàn)和基因型分析的方法已經(jīng)很好地建立了,但將染色體上的 變體連接成單個的單體型仍然是一項挑戰(zhàn)。
[0033] 全基因組單體型分析和重構(gòu)
[0034] 本發(fā)明提供用于單體型分析的新方法,其包括臨近連接和DNA測序技術(shù)及用于單 體型組裝化aplotype assembly)的概率算法(Dekker等,Science 295,1306-1311 (2002); Lieberman-Aiden等,Science 326,289-293(2009) ;Ka化or等,Na1:ure Biotechnology 30, 90-98(2012);和Bansal等,Bioinformatics 24,1153-159(2008))。稱為'haploSeq"(表示 。使用臨近連接和測序的單體型分析(些plotyping using Proximity-ygati啤and ^uencing)")的方法通過利用臨近連接和DNA鳥槍法測序重完全單體型或祀向i體型。 如本文所公開的,已經(jīng)在先驗已知完全單體型的雜種小鼠胚胎干細(xì)胞系和人類類淋己母細(xì) 胞細(xì)胞系中實驗證實了化ploSeq。本文證明了使用化ploSeq,可W在小鼠中完成染色體跨 度的單體型的重構(gòu),W約99.5%的精確度連接超過95%的等位基因。在人細(xì)胞系中,使用僅 17x覆蓋的基因組測序,將化ploSeq與局部條件性定相結(jié)合,從而在約81 %分辨率上W約 98%精確度獲得染色體跨度的單體型。運些結(jié)果建立了臨近連接和測序用于人群中單體型 分析的效用。
[0035] 本發(fā)明的化ploSeq方法的一個實施方案示于圖1中。簡單的說,圖la描述了 化ploSeq和其它用于重構(gòu)個體單體型的方法的比較。該圖概述了幾種用于定相單體型的方 法。與W前的方法不同,臨近-連接聯(lián)系空間上靠近的遠端DNA片段。接著將運些片段從細(xì)胞 分離并測序。
[0036] 圖化示出了來自常規(guī)WGS,配偶對(Gne;rre,S.等,Proceedings of the 化tional Academy of Sciences of the United Sl:ates of America 108,1513-1518(2011))和Hi- C的插入物大小的頻率分布。X軸為堿基對(logio比例)。圖代表1-22號染色體間從對GM12878 細(xì)胞先前的發(fā)表取得的數(shù)據(jù)點的隨機子集。在fosmid的情況下化idd等,化化re 453,56-64 (2008)),示出了比對后推斷的克隆的大小分布。Hi-C插入物大小得自發(fā)明人的實驗室所生 成的文庫。插入物和克隆的大小與重構(gòu)較長單體型的能力相關(guān)。在運些方法中,僅基于臨 近-連接的化-C產(chǎn)生了豐富的長片段。
[0037] 圖Ic顯示了臨近-連接讀出在建立染色體跨度單體型中的作用。頂部和底部的序 列代表兩個同源染色體的區(qū)域,其中代表無變異性而核巧酸代表雜合SNP。雜合SNP和插 入缺失(indel)可W用于區(qū)分所述同源染色體。可W從短的插入物測序讀出(i)建立局部單 體型區(qū)塊("區(qū)塊1"和"區(qū)塊2"),運與常規(guī)的WGS或配偶對測序中的發(fā)生相似??紤]到變體之 間的距離,運些小的單體型區(qū)塊相對于彼此仍然是未定相的??蓋使就線性序列而言遠離 定位的區(qū)域原位緊密接近(ii)。運些聯(lián)系將通過臨近-連接保存。大的插入物大小的臨近- 連接測序讀出幫助將較小的單體型區(qū)塊合并為單個染色體跨度的單體型(iii)。
[003引 Hi-C技術(shù)是本領(lǐng)域已知的,且相關(guān)的方案可W在US20130096009和Lieberman- Aiden等,Science 326,289-293(2009)中找到,其內(nèi)容通過提述并入本文。在一個實施方案 中,所述化-C方法包括純化連接產(chǎn)物,接著進行大規(guī)模平行測序。在一個實施方案中,Hi-C 方法允許對跨越整個基因組的染色質(zhì)相互作用的無偏愛(unbiased)鑒定。在一個實施方案 中,所述方法可W包括W下步驟,其包括但不限于使用甲醒交聯(lián)細(xì)胞;使用限制酶消化DNA, 留下5'-突出端(5'-0乂6^1曰11旨);填充所述5'-突出端,其包括生物素化的殘基;^及在有利 于交聯(lián)的DNA片段之間的連接事件的稀釋條件下連接平端片段。在一個實施方案中,所述方 法可W產(chǎn)生含有連接產(chǎn)物的DNA樣品,所述連接產(chǎn)物由核中最初緊密空間靠近的片段組成, 在接合處使用生物素殘基標(biāo)記。在一個實施方案中,所述方法進一步包括創(chuàng)建文庫(即例 如,Hi-C文庫)。在一個實施方案中,通過剪切DNA和使用鏈霉親合素珠子選擇含有生物素的 片段來創(chuàng)建所述文庫。在一個實施方案中,接著,使用大規(guī)模平行DNA測序分析所述文庫,產(chǎn) 生相互作用片段的目錄(catalog)。見圖la。
[0039] 如本文所公開W及圖2所示,通過本發(fā)明的方法獲得的臨近-連接產(chǎn)物主要是單體 型內(nèi)(intra-haplotype)。為了該目的,圖2a示出了全基因組相互作用頻率的熱圖?;谟H 本菌株已知的單體型結(jié)構(gòu),區(qū)分起源于CAST("c")或J129("j")基因組的化-C讀出。使用 10Mb二進制大小(bin size)計算每條染色體的每個等位基因之間的相互作用頻率。每條染 色體的CAST或J129等位基因主要W順式相互作用,確認(rèn)了個體等位基因發(fā)生在化-C數(shù)據(jù)中 看到的染色體領(lǐng)域(C虹omosome territories)。插圖示出了 12到16號染色體的CAST和J129 等位基因的放大視圖。此外,圖化示出了任意兩個片段間相互作用頻率(logio比例)作為線 性距離的函數(shù)。根據(jù)先前的單體型信息,讀出對(read-pair)區(qū)分為順式(頂部)和h-反式 (底部)相互作用。順式的相互作用頻率可W比h-反式更常見幾個數(shù)量級。值得注意的是,在 大的基因組距離上OlOOMbp),順式的相互作用頻率接近h-反式的相互作用頻率,且觀察 到<2%的總體h-反式相互作用。使用來自CASTXJ129系統(tǒng)中1-19號染色體的數(shù)據(jù)生成了 圖。最后,圖2c示出了作為插入物大小的函數(shù)的h-反式相互作用概率的比較。使用來自 CASTXJ129系統(tǒng)中的1-19號染色體的數(shù)據(jù)生成了圖。W2%平滑(smoothing)進行L0WESS擬 合。在30MbW下,讀出是h-反式相互作用的概率《5% (虛線)。因此,運一截留值用作最大插 入物大小用于進一步分析。
[0040] 本發(fā)明的化ploSeq方法允許精確的,高分辨率,W及染色體跨度的單體型重構(gòu)。圖 3a示出了自129個等位基因產(chǎn)生的化-C讀出的圖,所述129個等位基因跨越18號染色體的總 共約30Mb,并用于將變體連接為單個的染色體跨度的單體型。W黑色文本示出了化-C讀出 的序列,其中變體位置W紅色和下劃線示出。參考基因組的序列為灰色。在變體位置W及基 于化-C數(shù)據(jù)預(yù)測的單體型處,使用了每種基因型先驗的CAST和J129單體型。在運四個堿基 處,在鑒定已知的單體型結(jié)構(gòu)方面化-C生成了完美的匹配。接著化pCUT可W使用運些雜合 變體作為節(jié)點和運些重疊讀出作為邊緣W形成圖形結(jié)構(gòu)。
[0041] 圖3b中的表格示出了 CASTXJ129系統(tǒng)中基于化-C的單體型定相的結(jié)果。"染色體的 可定相跨度"欄列出了可定相堿基的數(shù)量(第一個和最后一個雜合變體之間的堿基對差)。 "MVP區(qū)塊中跨越的變體"欄中列出了每條染色體通過MVP區(qū)塊跨越的雜合變體的總數(shù),其為 完全性的替代測量,并用作估算分辨率的分母。"MVP模塊中跨越的染色體%"欄中列出了由 預(yù)測的單體型跨越的可定相堿基的百分比。"MVP區(qū)塊中定相的變體%"欄中列出了MVP區(qū)塊 中跨越的變體間定相的所有雜合變體的百分比。在最后一欄中列出的是每個定相的雜合變 體的精確度。對于每一條染色體,發(fā)明人生成了完全的(跨越>99.9%的堿基),高分辨率的 (定相的> 95 %雜合變體),W及精確的(正確定相> 99.5 %的雜合變體)單體型。
[0042] 圖3c進一步示出了通過模擬產(chǎn)生完全單體型的單體型定相方法的比較。發(fā)明人W 20x覆蓋模擬了常規(guī)鳥槍法測序(平均數(shù)= 400, sd= 100),配偶對(平均數(shù)= 4500, sd = 200) 和fosmicK平均數(shù)=35000,sd = 2500)的75個堿基對配對末端測序數(shù)據(jù)(19號染色體)。盡管 第一個讀出隨機置于基因組中,但是基于上述的正態(tài)分布參數(shù)選擇第二個讀出。發(fā)明人二 次采樣(sub-sampled) 了CASTXJ129數(shù)據(jù)W生成20x Hi-C片段,其用于HaploSeq分析。Y軸代 表MVP區(qū)塊的跨度作為19號染色體可定相跨度的函數(shù)?;痯loSeq中MVP區(qū)塊跨越了整個染色 體,而其它方法中MVP區(qū)塊僅跨越了染色體的一部分。發(fā)明人還將每種方法的20x測序覆蓋 與20x常規(guī)WGS數(shù)據(jù)組合,總共為40x覆蓋W在較高的覆蓋上比較方法。
[0043] 圖3d示出了對單體型定相的調(diào)整跨度(AS)的分析。所述AS定義為該區(qū)塊中定相的 雜合變體的跨度和分?jǐn)?shù)的乘積。通過每個模塊中定相的雜合變體的數(shù)量對單體型區(qū)塊排序 (X軸為排序的)并將整個染色體中累積的AS表示于y軸上。在化ploSeq的情況中,單獨MVP區(qū) 塊跨越了 100%的染色體并含有90%的定相變體。在其它方法中,百分比定相隨著發(fā)明人納 入非MVP模塊而累積地增加。虛線表示通過如上文所討論與WGS數(shù)據(jù)組合增加的40X覆蓋。
[0044] 本發(fā)明的化ploSeq方法還允許進行人類細(xì)胞(例如GM12878細(xì)胞)中的單體型重 構(gòu)。為此,圖4a證明了小鼠(CASTx 129)和人(GM12878)之間在Hoxd 13/H0XD13基因中變體頻 率的差異。還示出了運些基因座中化-C讀出覆蓋(logio比例)DHi-C讀出在高SNP密度(小鼠) 的情況下更可能含有變體(顯示為"覆蓋SNP的讀出")。運繼而允許運些變體更容易連接到 MVP區(qū)塊。在低變體密度的情況下(人類),情況不是運樣,因此存在"缺口 ",其中變體相對于 MVP區(qū)塊仍然未定相。
[0045] 此外,圖4b中的表格示出了在CASTxJ 129系統(tǒng)中在低變體密度的情況下使用 化ploSeq分析的單體型重構(gòu)的完全性("MVP模塊中跨越的染色體%"),分辨率("MVP區(qū)塊中 定相的變體%" ),W及精確度r'MVP區(qū)塊中定相的變體的精確度%")。在CASTX129基因組中 對變體二次取樣,W具有每1500個堿基的1個雜合變體,并如上文所述進行定相。發(fā)明人繼 續(xù)產(chǎn)生了完全(> 99 %染色體跨度)和精確(> 99 %精確度)的單體型。然而,在低變體密度 的情況下,定相的變體的分辨率有減少(約32% )。數(shù)字四舍五入到=位小數(shù)。
[0046] 另外,圖4c中的表格總結(jié)了 GM12878細(xì)胞中基于化ploSeq的單體型重構(gòu)的結(jié)果。所 述結(jié)果示出了完全性("MVP模塊中跨越的染色體%")和分辨率("MVP區(qū)塊中定相的變 體%")。發(fā)明人能夠生成染色體跨度的單體型(>99%),盡管分辨率較低(約22%)。在 GM12878細(xì)胞中,在與CASTXJ129系統(tǒng)中的約30x比較時,發(fā)明人產(chǎn)生了約17x覆蓋。因此,發(fā) 明人觀察到了在與低密度CASTxJ129(32%)相比時更低的分辨率(22%)。數(shù)字四舍五入到 =位小數(shù)。
[0047] 如圖4d所示,本發(fā)明的方法允許產(chǎn)生種子單體型,其跨越中著絲粒染色體的著絲 粒。示出了 2號染色體著絲粒任一側(cè)的兩個區(qū)域。運兩個化-C產(chǎn)生的種子單體型任意命名為 "A"和"B"。從S人組測序(trio sequencing)獲悉的GM12878個體的實際單體型示于下方, 任意命名為"A"和"B"?;?C產(chǎn)生的種子單體型在著絲粒的兩端都匹配實際單體型。值得注 意的是,實際單體型中的一些變體仍然是未定相的,因此促成了種子單體型中的"缺口"。另 夕h實際單體型不含所有的變體,因為=人組測序W低深度進行,因此種子單體型含有不在 實際單體型中的一些定相變體(例如,見AAK1區(qū)域中的第=個變體)。
[0048] 化ploSeq分析可W與其它技術(shù)共同使用,例如局部條件定相W允許人類中的高分 辨率單體型重構(gòu)。圖5a)示出了進行局部條件性定相的能力。X軸是通過模擬產(chǎn)生的染色體 跨度的種子單體型分辨率。頂部圖組示出了使用未校正的(上方)和鄰域校正的定相(下方, 窗口大小=3)兩者的局部條件性定相的誤差率。由于鄰域校正,一些變體不能局部地推斷。 底部圖組示出了由于鄰域校正(nei曲borhood)仍然未定相的變體百分比,其作為分辨率的 函數(shù)。所有的模擬在GM12878的1號染色體中完成。
[0049] 圖化中的表格證明了GM12878細(xì)胞中,在局部條件性定相后使用化ploSeq的單體 型定相的分辨率W及總體精確度。使用局部條件性定相,平均而言本發(fā)明人將分辨率從約 22%增加到了約81%。該表格也描述了由于鄰域校正(NC)所致的分辨率丟失,其平均僅約 3%。發(fā)明人使用窗口大小為3個種子單體型定相變體來檢測局部定相的性能。除提高的分 辨率外,發(fā)明人也得到了精確的單體型,具有總體精確度約98%。此處的精確度反應(yīng)了初始 化plpSeq分析的MVP區(qū)塊的誤差和來自局部條件性定相的誤差。對于一些染色體,由于較低 的覆蓋,精確度較低(見下文表1)。
[0050] 圖5c中的圖也證明了在不同讀出長度和覆蓋參數(shù)時完成染色體跨度的種子單體 型(MVP區(qū)塊)的能力。在所有情況下,使用約15x可用覆蓋可W獲得染色體跨度的種子單體 型。所有模擬在GM12878的1號染色體中完成。相似地,圖5d中的圖示出了讀出長度和覆蓋的 不同組合產(chǎn)生高分辨率種子單體型的能力。在運種情況下,較長的讀出長度有助于化-C生 成的種子單體型的較高的分辨率。所有的模擬在GM12878的1號染色體中完成。
[0051] 發(fā)明人在本文中描述了一種重構(gòu)生物體的染色體跨度的單體型的新策略。與從鳥 槍法測序讀出重構(gòu)完全單體型的其它單體型分析方法相比,本文公開的方法可W生成染色 體跨度的單體型(Fan等,化ture Biotechnology 29,51-57(2011);化ng等,Proceedings of the National Academy of Sciences of the United States of America 108,12-17 (2011);和Ma等,化Uire Methods 7,299-301 (2010))。該方法最適合用于臨床和實驗室環(huán) 境,因為化ploSeq需要的試劑和儀器容易得到。此外,所述方法比基于精子細(xì)胞的基因型分 析的方法更靈敏(aptKKirkness等,Genome Research 23,826-832(2013)),因為其可 W從 任意個體或細(xì)胞系的完整細(xì)胞產(chǎn)生全基因組單體型。因此,化ploSeq在個體化醫(yī)療中具有 極好的效用。在個體中對單體型的確定鑒定新的單體型-疾病關(guān)聯(lián),其中一些已經(jīng)在較小規(guī) 模鑒定化e等,American Journal of Human Genetics 92,667-680(2013) ;Zeng等, Genetic Epidemiology 28,70-82(2005);和畑 apman 等,Human Heredity 56,18-31 (2003))。另外,對于理解基因表達中的等位基因偏好,完全單體型將至關(guān)重要,其將有助于 群體中的遺傳和表觀遺傳多態(tài)性及其在分子水平的表型結(jié)果(Gimelbrant等,Science 318,1136-1140(2007);Kong等,Nature 462,868-874(2009);和McDaniell等,Science 328,235-239(2010))。此外,化ploSeq可W用于鑒定癌細(xì)胞中的遺傳多態(tài)性,其導(dǎo)致對癌癥 治療藥物的抗性,或是對癌癥治療藥物的抗性的標(biāo)志物。最后,雖然在W下實施例中,所述 方法w二倍體細(xì)胞示例,但是實驗和計算的改進允許在具有更高倍性的細(xì)胞中的單體型重 構(gòu),例如癌細(xì)胞。運可W有助于理解遺傳改變的結(jié)果,其經(jīng)常在腫瘤發(fā)生中看到。
[0化2] 先前,臨近-連接用于研究染色體的空間構(gòu)造化ieberman-Aiden等,Science 326, 289-293(2009)),而不是全基因組水平的單體型確定。如本文所公開的,它也是一種在研究 個體的遺傳構(gòu)成中有價值的工具。如本文中表明,基于臨近-連接的方法不僅可W告知哪個 順式調(diào)節(jié)元件與哪個祀基因物理相互作用,也能告知運些中的哪些等位基因在同一條染色 體上相連。臨近-連接數(shù)據(jù)也可和WGS同樣的方式用于基因型分析。雖然遠離限制酶切 割位點的變體不太可能進行基因型分析,運是由于鄰接-連接方法例如化-C的偏愛,但是可 W補充進行未基因型分析的變體的基于群體的歸因 (population based imputation) (Browning等,American Journal Of Human Genetics 81,1084-1097(2007))?完成增加 的基因型調(diào)用(call)。由于所有運點可W使用單次實驗完成,HaploSeq可W用作全基因組 分析的一般工具。
[0053] 祀向單體型分析和重構(gòu)
[0054] 化ploSeq也可W用于對不同區(qū)域的祀向單體型分析。一旦進行了連接步驟,且得 到了臨近連接的片段的文庫,定制設(shè)計的寡核巧酸(其可W固定化到固體表面上)引入到溶 液中的文庫。運些寡核巧酸"祀向"特定的臨近-連接片段并與運些臨近-連接片段雜交。分 離與運類寡核巧酸雜交的臨近-連接片段W提供新的文庫。此文庫現(xiàn)在含有臨近連接的片 段的子集,其能夠被定制的寡核巧酸捕獲。將運些片段測序并組裝W產(chǎn)生定向的單體型。運 一方法對于不同區(qū)域的定向單體型分析有用。例如,對HLA區(qū)域(也稱為人類主要組織相容 性復(fù)合基因座或人類白細(xì)胞抗原基因座)(其為約3.5Mb)的定向單體型分析可W通過該方 法進行。運種對HLA區(qū)域的定向單體型分析在器官移植中在預(yù)測供體-受體匹配的結(jié)果中有 用。
[0055] 圖9中示出的是此祀向單體型分析的示意性例子。首先,將細(xì)胞交聯(lián)并固定,從而 捕獲空間上臨近的DNA元件(頂部左邊)。接著,使用例如化ndin消化細(xì)胞,并使用生物素化 的核巧酸填充片段化的末端,接著如化-C方案中所進行的那樣再連接消化的末端(頂部中 間)。對化-C片段進行PCR擴增后,最終的化-C文庫由化-C雙標(biāo)簽組成,其可W被生物素化的 RNA探針祀向,所述探針已經(jīng)經(jīng)設(shè)計來捕獲特異性化-C片段(頂部右邊)。接著,使用寡核巧 酸捕獲技術(shù)(0CT),可W進行RNA探針和化-C文庫的溶液雜交。運里,一些化-C片段已經(jīng)被兩 種RNA探針祀向,而其它片段僅被一種祀向,并且所有的非祀向序列將不被RNA探針結(jié)合(底 部右邊)。接著,使用鏈霉親合素包被的珠子來結(jié)合生物素化的RNA: DNA雙鏈體(底部中間), 從而從化-C文庫中提取祀向化-C片段,并創(chuàng)建捕獲-HiC文庫。珠子結(jié)合的化-C文庫接著進 行PCR擴增,純化,并進行下一代測序(底部左邊)。
[0056] 在下文的實施例中,上述方法用于單體型分析人類HLA區(qū)域,其為約3.5Mb。圖10中 示出了本實施例中使用的捕獲-HiC探針設(shè)計。首先使用SureDesign軟件集(Agilent)計算 地產(chǎn)生探針序列。圖10a中示出了人類中HLA基因座化gl9)的UCSC基因組瀏覽器拍攝。圖10b 示出了HLA-DQB1基因放大的UCSC基因組瀏覽器拍攝,W證明該探針祀向方法。在運種情況 下,發(fā)明人祀向限制酶切割位點附近的+/-400bp,所述限制酶用于制備化-C文庫,在此情況 中是Hindlll ("祀向區(qū)域"追蹤)。對于祀向區(qū)域,W4X鋪蓋密度(tiling density)設(shè)計探 針,其目標(biāo)在于使得祀向序列的每個核巧酸被高達4個探針序列覆蓋。還應(yīng)當(dāng)注意的是,探 針自身不與化ndlll切割位點重疊("HLA探針"追蹤)。它也選擇為不祀向在祀定區(qū)域內(nèi)的任 意序列,其被RepeatMasker稱為含有重復(fù)序列("錯過區(qū)域"和"RepeatMasker"追蹤)。
[0057]本文所討論的祀向單體型分析方法,例如,所述捕獲-HiC方法,提供了將整個HLA 基因座定相到單個單體型區(qū)塊的機會,使得能夠更好地在細(xì)胞W及器官移植方案中預(yù)測 HLA型匹配。幾項研究已經(jīng)掲示了大量疾病相關(guān)的非編碼變體,其與特定的HLA基因或等位 基因關(guān)聯(lián)(Trowsdale等,Annual Review Of Genomics And Human Genetics 14,301-323, (2013)和Trowsdale,Immunology letters 137,1-8,(2011))。因此,通過描繪HLA的單個單 體型結(jié)構(gòu),可W系統(tǒng)地去卷積遺傳變異在HLA關(guān)聯(lián)的疾病和表型中的作用。
[005引如本文所證明的,捕獲-HiC方法通常保留常規(guī)化-C實驗檢測的染色質(zhì)相互作用測 量。因此,捕獲-HiC可W用作在特定基因座獲得長距離相互作用的方法。例如,利用捕獲- HiC可W掲示基因組印記(imprinting)背后的單體型解決的長距離相互作用機制。雖然幾 個小組目前使用4C和5C技術(shù)來研究祀向染色質(zhì)相互作用(Simonis等,Nature Genetics 38,1:348-1354,(2006),和Dostie等,Genome Research 16,1299-1309,(2006)),捕獲-HiC 提供了更靈活的方法學(xué)。具體地,4C被限制為使用單個視點(viewpoint)對相互作用分析, 而5C被復(fù)雜的引物設(shè)計,有限的通量,W及僅分析連續(xù)的基因組區(qū)域所限制?;蛘?,捕獲- HiC可W應(yīng)用于在單次實驗中檢測成幾千個視點的相互作用,并能夠W無偏愛的方式檢索 區(qū)域和定制的3D相互作用頻率。特別地,捕獲-HiC提供了經(jīng)改編W捕獲任意散布的基因組 元件的能力,鑒于所述元件與限制酶切割位點相對臨近,因此可W應(yīng)用到一般情況。例如, 通過將捕獲-HiC應(yīng)用到基因組范圍的啟動子或其它基因組元件,可空前的分辨率和相 對低的成本生成基因組范圍的3D調(diào)控相互作用圖譜。
[0化9] 最近已經(jīng)證明了化-C方案在從頭組裝基因組中有用((IkLTton等,化t Biotechnol 31,1119-1125 ,(2013)和Kaplan等,Nat Biotechnol 31,1143-1147 ,(2013))。由于捕獲- HiC獲得了高質(zhì)量的染色質(zhì)相互作用數(shù)據(jù)組,與化-C相似,運一方法學(xué)可W用于生成人類或 其它大型基因組的復(fù)雜區(qū)域的二倍體組裝,例如T細(xì)胞受體be化(Trcb)基因座(Spicuglia 等,Seminars in Immunology 22,330-336,(2010))。此外,在群體規(guī)模中進行高度雜合化八 基因座的二倍體組裝可W允許檢測到新的結(jié)構(gòu)變體并使得能夠精確的描繪人類遷移模式 W及進行關(guān)聯(lián)研究W發(fā)現(xiàn)個體化醫(yī)療用于多種疾病狀態(tài)。類似的,最近化-C也被用于宏基 因組學(xué)研究來去卷積復(fù)雜的微生物組混合物中存在的物種(Beitel等,PeerJ,doi: 10.7287/pee;rj .preprints. 260vl(2014)和Bu;rton等,Species-Level Deconvolution of Metagenome Assemblies with Hi-C-Based Contact Probability Maps .G3,doi: 10.1534/g3.114.011825(2014))。隨著捕獲-HiC的出現(xiàn),可W捕獲不同的基因座,其是提供 信息且有分辨力的,足W基于捕獲的化-C片段描繪物種混合物??偟膩碚f,本文公開的捕 獲-HiC和其祀向定相的應(yīng)用W及其它應(yīng)用使得能夠在個體化臨床基因組學(xué)W及生物醫(yī)藥 研究中啟用新的途徑。
[0060]術(shù)語"標(biāo)志物"或"接合標(biāo)志物",如本文所使用的,指代任意化合物或化學(xué)部分,其 能夠被整合到核酸中并可W提供用于選擇性純化的基礎(chǔ)。例如,標(biāo)志物可W包括但不限于, 標(biāo)記的核巧酸接頭,標(biāo)記的和/或修飾的核巧酸,切口平移,引物接頭,或有標(biāo)簽的接頭。術(shù) 語"標(biāo)記的核巧酸接頭"指代一類包含任何核酸序列的標(biāo)志物,所述核酸序列包含滲入(例 如連接)另一個核酸序列中的標(biāo)記。例如,所述標(biāo)記可W用來選擇性純化核酸序列(即例如, 通過親和色譜法)。運種標(biāo)記可W包括但不限于生物素標(biāo)記,組氨酸標(biāo)記(即6化s),或FLAG 標(biāo)記。
[0061] 術(shù)語"標(biāo)記的核巧酸","標(biāo)記的堿基",或"修飾的堿基"指代包含與標(biāo)志物附著的 任何核巧酸堿基的標(biāo)志物,其中所述標(biāo)志物包含對于配體具有獨特親和力的特異性部分。 或者,結(jié)合伴侶可W具有對接合標(biāo)志物的親和力。在一些例子中,所述標(biāo)志物包括但不限于 生物素標(biāo)記,組氨酸標(biāo)記(即細(xì)is ),或FLAG標(biāo)記。例如,可W認(rèn)為dATP-生物素是標(biāo)記的核巧 酸。在一些例子中,片段化的核酸序列可W使用標(biāo)記的核巧酸進行平端化(blunting),接著 平端連接。
[0062] 術(shù)語"標(biāo)記"或"可檢測標(biāo)記"如本文所使用的,指代任意組合物,其可W通過光譜 學(xué),光化學(xué),生物化學(xué),免疫化學(xué),電學(xué),光學(xué)或化學(xué)手段檢測。運樣的標(biāo)記包括用于用標(biāo)記 的鏈霉親合素綴合物染色的生物素,磁珠(例如,Dynabeads?),巧光染料(例如,巧光素,德 克薩斯紅(texas red),羅丹明(rhodamine),綠色巧光蛋白等),放射性標(biāo)記(例如,3H,i25I 嚴(yán)S,i4C,或32p),酶(例如,辣根過氧化物酶,堿性憐酸酶W及其它通常用于化ISA中的酶), 和熱量標(biāo)記,例如膠體金或有色玻璃或塑料(例如,聚苯乙締,聚丙締、膠乳等)珠。本發(fā)明中 考慮的標(biāo)記可W通過許多方法檢測。例如,可W使用膠片或閃爍計數(shù)器檢測放射性標(biāo)記,可 W使用光檢測器W檢測發(fā)射光來檢測巧光標(biāo)志物。通??蒞通過向酶提供底物并檢測通過 所述酶作用于所述底物產(chǎn)生的反應(yīng)產(chǎn)物,來檢測酶促標(biāo)記,并通過僅可視化有色標(biāo)記來檢 測熱量標(biāo)記。
[0063] 術(shù)語"片段"指代比衍生它的序列短的任何核酸序列。片段可W是任意大小的,范 圍從幾百萬堿基和/或幾千堿基到僅幾個堿基長。實驗條件可W決定預(yù)期的片段大小,包括 但不限于,限制酶消化,超聲處理,酸解育,堿解育,微流化等等。
[0064] 術(shù)語"染色體",如本文所使用的,指代天然發(fā)生的核酸序列,其包含一系列稱為基 因的功能區(qū)域,其通常編碼蛋白。其它的功能區(qū)域可能包括microRNA或長的非編碼RNA,或 其它調(diào)控元件。運些蛋白可能具有生物學(xué)功能或它們直接與相同或其它染色體相互作用 (即,例如,調(diào)控染色體)。
[0065] 術(shù)語"基因組區(qū)域"或"區(qū)域"指代任意確定長度的基因組和/或染色體。例如,基因 組區(qū)域可W指代多于一條染色體之間的關(guān)聯(lián)(即,例如,相互作用)。或者,基因組區(qū)域可W 指代完全染色體或部分染色體。此外,基因組區(qū)域可W指代染色體上特定的核酸序列(即, 例如,閱讀框和/或調(diào)控基因)。
[0066] 術(shù)語"片段化"指代任意過程或方法,通過所述過程或方法,化合物或組合物被分 離為較小的單元。例如,所述分離可W包括,但不限于,酶促剪切(即,例如,轉(zhuǎn)座酶介導(dǎo)的片 段化,作用于核酸的限制酶或作用于蛋白的蛋白酶),堿水解,酸水解,或熱誘導(dǎo)的熱脫穩(wěn)定 化。
[0067] 術(shù)語"熱圖"指代數(shù)據(jù)的任意圖形表示,其中二維圖中的變量采用的數(shù)值W顏色表 示。熱圖已經(jīng)廣泛地用于表示許多可比較的樣品中許多基因的表達水平(例如,不同狀態(tài)的 細(xì)胞,來自不同患者的樣品),如從DNA微陣列獲得的。
[0068] 術(shù)語"基因組"指代任意的染色體組和它們含有的基因。例如,基因組可W包括但 不限于,真核細(xì)胞基因組和原核細(xì)胞基因組。
[0069] 術(shù)語"固定","固定化"或"固定的"指代任意的方法或過程,其固定化任意和所有 的細(xì)胞過程。因此,固定的細(xì)胞在固定的時候準(zhǔn)確維持了細(xì)胞內(nèi)組分之間的空間關(guān)系。許多 化學(xué)物能夠提供固定,包括但不限于,甲醒,福爾馬林,或戊二醒。
[0070] 術(shù)語"交聯(lián)"指代兩個化合物之間任意合適的化學(xué)關(guān)聯(lián),使得它們作為一個單元進 一步處理。運種穩(wěn)定性可W基于共價和/或非共價鍵合。例如,核酸和/或蛋白可W通過化學(xué) 試劑交聯(lián)(即,例如,固定劑),使得它們在常規(guī)的實驗室方法(即,例如,提取,洗涂,離屯、等 等)過程中維持它們的空間關(guān)系。
[0071] 術(shù)語"聯(lián)接"是兩個核酸序列通過接合標(biāo)志物的獨特連接。運種連接可W通過W下 過程產(chǎn)生,其包括但不限于,片段化,使用標(biāo)記的核巧酸填充,W及平端連接。運種聯(lián)接反映 了兩個基因組區(qū)域的臨近,從而提供了功能性相互作用的證據(jù)。為了促進測序分析,可W選 擇性地純化包括接合標(biāo)志物的聯(lián)接。
[0072] 術(shù)語"連接的"如本文所使用,指代兩個核酸之間的任意連接,其通常包括憐酸二 醋鍵。所述連接通常在輔因子試劑和能源(即例如,S憐酸腺巧(ATP))的存在下,通過催化 酶的存在(即例如,連接酶)而促進。
[0073] 術(shù)語"限制酶"指代任意蛋白,其在特定的堿基對序列處剪切核酸。
[0074] 術(shù)語"選擇性純化"指代任意過程或方法,通過它們可W將特定的化合物和/或復(fù) 合體從混合物或組合物中去除。例如,運種過程可能基于親和色譜法,其中待去除的特定化 合物與所述混合物或組合物的剩余物相比,對于所述色譜底物具有更高的親和力。例如,通 過使混合物通過包含鏈霉親合素的色譜柱,可W從所述混合物中選擇性純化使用生物素標(biāo) 記的核酸,所述混合物包含沒有使用生物素標(biāo)記的核酸。
[0075] 術(shù)語"純化的"或"分離的"指代下述的核酸組合物,其已經(jīng)經(jīng)歷處理(例如,分級 (fractionation)) W去除各種其它組分,且該組合物基本保持了其表達的生物學(xué)活性。在 使用術(shù)語"基本純化"的情況下,此名稱將指代下述組合物,其中核酸形成所述組合物的主 要組分,例如組成所述組合物的約50%,約60%,約70%,約80%,約90%,約95%或更多(即 例如,重量/重量和/或重量/體積)。術(shù)語"純化至同質(zhì)"用于包括已經(jīng)純化至"表觀同質(zhì)",使 得存在單個核酸序列(即例如,基于SDS-PAGE或HPLC分析)的組合物。純化的組合物不意圖 表示可W保留一些微量雜質(zhì)。術(shù)語"基本純化"指代從其天然環(huán)境中取出,分離或分開,并且 至少60%不含,優(yōu)選75%不含,更優(yōu)選90%不含與它們天然相關(guān)的組分的分子(核酸或氨基 酸序列)。因此,"分離的多核巧酸"指代基本純化的多核巧酸。
[0076] "核酸序列"或"核巧酸序列"指代寡核巧酸或多核巧酸,W及其片段或部分,并指 代基因組或合成來源的DNA或RNA,其可W是單鏈或雙鏈的,并表示有義或反義鏈。
[0077] 術(shù)語"分離的核酸"指代任意下述的核酸分子,其已經(jīng)從其天然狀態(tài)取出(例如,從 細(xì)胞取出,在優(yōu)選的實施方案中,不含其它基因組核酸)。
[0078] 術(shù)語核巧酸的"變體"指代與參照寡核巧酸的不同之處在于具有缺失,插入和取代 的新的核巧酸序列。運些可W使用多種方法(例如,測序,雜交測定法等等)檢測。"缺失"定 義為下述的核巧酸或氨基酸序列中的變化,其中分別缺少一個或多個核巧酸或氨基酸殘 基。"插入"或"增加"是下述的核巧酸或氨基酸序列中的變化,其已經(jīng)導(dǎo)致增加一個或多個 核巧酸或氨基酸殘基。"取代"源自一個或多個核巧酸或氨基酸分別被不同的核巧酸或氨基 酸置換。
[0079] 術(shù)語"同源性"或"同源"如本文所使用的,就核巧酸序列而言指代達到與其它核巧 酸序列互補性的程度??蓋有部分同源性或完全同源性(即同一性)。與核酸序列部分互補, 即"基本同源"的核巧酸序列是至少部分抑制完全互補序列與該祀核酸序列雜交的序列???W使用雜交測定(Southern或Nodhern印跡,溶液雜交等等)在低嚴(yán)格性條件下檢查對完全 互補序列與祀序列雜交的抑制。在低嚴(yán)格性條件下,基本同源的序列或探針將競爭并抑制 完全同源序列與祀序列的結(jié)合(即,雜交)。
[0080]術(shù)語"癌癥治療藥物"用于本文指代所有的化療試劑,癌細(xì)胞可W對隨時化療劑獲 得化學(xué)抗性。例子包括JAK/STAUW制劑,P13激酶抑制劑,mTOR抑制劑,ErbB抑制劑,拓?fù)洚?構(gòu)酶抑制劑,等等。 實施例
[0081 ]實施例1 一般方法和材料
[0082] 本實施例描述了用于W下實施例2-9中的一般方法和材料。
[0083] 細(xì)胞培養(yǎng)和實驗方法
[0084] F1 代小家鼠 (Mus musculus castaneus)x S129/SvJae(F123系)是來自Edith Heard實驗室的贈品,且先前已經(jīng)描述于Gribnau等,Genes&Development 17,759-773 (2003)。在含有敲除血清替換物化nockOut Serum R邱lacement)的小鼠 ES細(xì)胞培養(yǎng)基中培 養(yǎng)運些細(xì)胞:DMEM 85%,15%敲除血清替換物(11^1付〇肖日11),青霉素/鏈霉素,1)(非必需氨 基酸(GIBCO)aX GlutaMax,1000U/mL LIF(MILLIPORE),O.4mM0-琉基乙醇。F123小鼠 ES細(xì) 胞最初在0.1%明膠包被的平板上培養(yǎng),所述平板具有絲裂霉素-C處理的小鼠胚胎成纖維 細(xì)胞(Millipore)。在收獲前,細(xì)胞在0.1%明膠包被的不含飼養(yǎng)者(feeder)的平板上傳代 兩次。GM12878細(xì)胞(C0RIE化)在補充有15%胎牛血清和IX青霉素/鏈霉素的85%RPMI培養(yǎng) 基中懸浮培養(yǎng)。
[0085] 在懸液中(GM12878)或在膜蛋白酶處理后(F123小鼠 EX細(xì)胞川欠獲細(xì)胞。甲醒固定 和化-C實驗如先前描述于Lieberman-Aiden等,Science 326,289-293(2009)中那樣進行。 [00化]基因型分析
[0087] 從DePristo等,化ture Genetics 43,491-498(2011)下載GM12878的變體調(diào)用和 基因型,并且運些用于單體型重構(gòu)。從1000基因組工程(Genomes Pro ject,C.等,Nature 467,1061-1073(2010))下載GM12878的定相信息。1000基因組工程對GM12878的定相利用了 低覆蓋測序,因此僅覆蓋該個體基因組中~約65 %的經(jīng)基因型分析的雜合變體(DePri sto 等,化化re Genetics 43,491 -498 (2011))。值得注意的是,"GMl2878"是類淋己母細(xì)胞系的 名稱,而"NA12878"是衍生該細(xì)胞系的個體的標(biāo)識符。在此處的整個實施例中,為了一致和 清楚,使用GM12878。
[0088] 為了生成雜種CASTXJ129細(xì)胞的基因型調(diào)用,從公眾可用的數(shù)據(jù)庫下載了親本基 因組測序數(shù)據(jù)。對于小家鼠,從歐洲核巧酸檔案化uropean Nucleotide Archive)下載基因 組序列(登錄號ERP000042)。從序列讀出檔案(Sequence ReadArchiveK登錄號SRX037820) 下載了5129/5¥化日基因組測序數(shù)據(jù)。使用齡¥0日11旨11(麗¥.]10¥0^日的.(30111)并使用3日1]11:0〇18 (Li等,Bioinformatics 25,2078-2079(2009))將讀出與mm9基因組比對,并且將未定位的 讀出和PCR重復(fù)過濾掉。使用Genome Analysis Toolkit(GATK)(McKenna et al.,Genome Research 20,1297-1303(2010))處理最終比對的數(shù)據(jù)組。特別地,進行了插入缺失再比對 和變體再校準(zhǔn)。GATK化ified Genotyper用于產(chǎn)生SNP和插入缺失調(diào)用。發(fā)明人過濾掉了不 滿足GATK質(zhì)量過濾器或稱為雜合變體的變體,因為基因組測序在純合親本近交系小鼠中進 行。親本中的基因型調(diào)用都用于確定順式相對于h-反式的相互作用程度,W及用于獲知先 驗的雜種CASTXJ129細(xì)胞定相到單體型重構(gòu)。
[0089] Hi-C讀出比對
[0090] 對于化-C讀出比對,將化-C讀出與mm9 (小鼠)或hgl8 (人)基因組比對。在每種情況 下,掩飾小家鼠或S129/Svjae(對于小鼠)或GM12878(對于人)中在基因組中基因型分析為 SNP的任何堿基。為了減少參考偏愛定位假象(reference bias mapping a;rtifacts),運些 堿基被掩飾為"N"。使用Novoali即將化-C讀出作為單末端讀出重復(fù)比對。特別的,對于重復(fù) 比對,首先將整個測序讀出與小鼠或人的基因組比對。接著,將未定位的讀出修整(trim)5 個堿基對,并再次比對。重復(fù)運一過程,直到讀出與基因組成功比對或者直到修整的讀出長 少于25個堿基對。重復(fù)比對對于化-C數(shù)據(jù)有用,因為某些讀出跨越臨近-連接的接合,并且 由于缺口和錯配而不能成功與基因組比對。當(dāng)修整將跨越連接接合的讀出的部分去除時, 重復(fù)修整的未定位的讀出允許運些讀出與基因組的成功比對。在作為單末端的讀出的重復(fù) 比對完成后,使用內(nèi)部腳本將讀出手動配對。去除未定位的和PCR重復(fù)讀出。然后,比對的數(shù) 據(jù)組最終經(jīng)過GATK插入缺失再比對和變體再校準(zhǔn)。
[0091 ]同源染色體之間相互作用頻率的分析
[0092] 當(dāng)比對化-C數(shù)據(jù)時,配對末端讀出可W具有被定位到同一條染色體上(染色體內(nèi)) 或定位到不同染色體(染色體間)的兩個末端。然而,Hi-C數(shù)據(jù)的最初定位利用單倍體參考 基因組且不區(qū)分單個測序讀出定位到染色體的兩個同源拷貝的哪一個。結(jié)果,最初定位為 "染色體內(nèi)"的讀出對被分解為發(fā)生于同一條同源染色體上的讀出(其真正為順式)和定位 于兩個同源對之間的讀出(其被定義為"h-反式")。
[0093] 為了確定相對于h-反式為順式的讀出的程度,首先區(qū)分個體讀出定位到哪個等位 基因。運是通過鑒定與基因組中變體位置重疊的讀出,并接著確定所述變體位置處測序的 堿基對應(yīng)哪個等位基因來完成的。一旦獲得了該信息,可W確定相對于h-反式而言區(qū)域W 順式相互作用的頻率(見圖2c和6)。
[0094] 如通過染色體內(nèi)和染色體間讀出定義的可用覆蓋
[0095] 對于使用化pCUT的定相,可W利用染色體內(nèi)和染色體間讀出兩者。對于染色體間 讀出,可W將每個染色體間讀出對考慮為兩個單末端讀出,因為運些讀出的配對信息不可 用于定相。相反,考慮所有的染色體內(nèi)讀出用于定相。單個讀出含有多于一個變體的概率很 小,特別是在人類中,其中變體的密度相對較低。運與僅配對的染色體內(nèi)讀出將具有大的插 入物大小的實情組合,意味著有助于單體型定相的成功的絕大部分讀出是染色體內(nèi)讀出。 因此,"可用覆蓋"定義為僅源自染色體內(nèi)讀出的基因組覆蓋。
[0096] 化-C實驗在CASTXJ129中生成約22%的染色體間讀出,而GM12878中約55%的讀出 是染色體間的。換句話說,CAS1XJ129中795M中的620M配對末端讀出是有用的,具有可用覆 蓋為30x。在人類中,577M中的262M配對末端讀出是有用的,導(dǎo)致可用覆蓋為17x。因此,盡管 測序的讀出總數(shù)相對類似,但人類中具有較低的可用覆蓋。W發(fā)明人的經(jīng)驗,Hi-C實驗中相 對于染色體間為染色體內(nèi)的所有讀出的分?jǐn)?shù)可W在實驗間和細(xì)胞類型間變化。
[0097] 使用化 pCUT 的化 ploSeq
[0098] 使用化pCUT算法來進行化ploSeq的計算方面,其細(xì)節(jié)先前描述于Bansal等, Bioinformatics 24,1153-159(2008)。化pCUT最初設(shè)計為作用于常規(guī)基因組測序(WGS)或 配偶對數(shù)據(jù)。HapCUT構(gòu)建具有雜合變體作為節(jié)點W及節(jié)點之間由相同片段覆蓋的邊緣的圖 表。因此,僅具有至少兩個雜合變體的片段對于單體型定相是有用的?;痯CUT使用分選方法 將運種"單體型信息性"片段從協(xié)調(diào)分選的BAM文件中提取,所述分選方法將每個潛在的單 體型信息性讀出儲存在緩存中,直到看到其配偶。緩存大小經(jīng)定制W允許化pCUT處理大的 插入物大小的臨近-連接讀出。
[0099] 化pCUT使用貪婪最大切割試探法(greedy max-cut heuristic)W鑒定用于在MEC 得分函數(shù)下具有最低得分的圖中的每個連接組分的單體型解決辦法。具體地,最初的 化pCUT算法使用0(n)重復(fù)來尋找最佳切割。由于化-C數(shù)據(jù)產(chǎn)生具有單個大連接組分的染色 體跨度的單體型,該默認(rèn)方法花費幾天的計算時間來定相CASTXJ129基因組。為了減少計算 時間,評估了減少重復(fù)數(shù)量對定相的精確度的影響。對于CAST*129系統(tǒng),觀察到將重復(fù)數(shù)量 增加到超過1000沒有顯著改善精確度。對于GM12878,允許高達100,000個重復(fù)。將該解決方 案重復(fù)多次,且在CASTXJ129中最多使用了 21次重復(fù)和GM12878中101次。與小鼠的數(shù)據(jù)相 比,考慮到較低的變體密度和減少的序列覆蓋,GM12878細(xì)胞中的參數(shù)允許化pCUT獲取較高 的精確度。
[0100] 最大插入物大小分析
[0101] 如先前所提到的,相對于h-反式而言化-C讀出為順式的概率作為兩個讀出對之間 距離的函數(shù)變化(圖2c)。在較短的基因組距離,染色體內(nèi)讀出為h-反式的概率非常低。在大 的距離(>30Mbp),運一概率大大提高且理論上更可能將錯誤的化pCUT連接引入相中??紤] 至岐一點,使用了CASTXJ129數(shù)據(jù)中的1號,5號,10號,15號和19號染色體的Hi-C數(shù)據(jù),且重 復(fù)單體型重構(gòu),運允許可變的最大插入物大小值。插入物大小比可允許的最大插入物大小 更大的任意讀出被排除。該分析使用低變體密度情況進行,對于此分析因為較低的密度最 適合用于人類應(yīng)用(圖8a-b)。該步驟導(dǎo)致化ploSeq分析增加的精確度伴隨分辨率的中度降 低。
[0102] 插入物大小依賴概率修正
[0103] 化pCUT算法的一個有用的特征是,為了計算潛在單體型的得分,其負(fù)責(zé)變體位點 的基礎(chǔ)質(zhì)量得分。換句話說,如果在連接兩個變體的測序讀出中并且一個變體位點的基礎(chǔ) 質(zhì)量較低,則此讀出在產(chǎn)生其最終單體型調(diào)用中被化pCUT給予相對較低的權(quán)重。因此, 化pCUT可W使用該信息來試著忽略來自產(chǎn)生錯誤的單體型連接的潛在測序誤差。如先前所 提到的,在化-C數(shù)據(jù)中,誤差也可能由于h-反式相互作用而產(chǎn)生,其比測序誤差頻繁得多, 且表現(xiàn)出距離依賴性行為。因此,嘗試基于兩個讀出之間的距離,解決相對于h-反式而言相 互作用為順式的可能性。CASTX129化-C數(shù)據(jù)用于鑒定順式或h-反式的讀出。將插入物大小 二進制化(binned)成50Kb二進制中,并評估讀出為h-反式的可能性(拙-反式/(#c i S+拙-反 式)。接著,W2%平滑使用局部回歸化0WESS似預(yù)測任意給定插入物大小的h-反式概率。對 于每個染色體內(nèi)讀出,將順式概率(1-h-反式)乘W基礎(chǔ)質(zhì)量來得到該染色體內(nèi)讀出為同源 反式相互作用的幾率。作為結(jié)果,在鑒定單體型解決辦法中,對于更可能是h-反式的讀出, 化pCUT給出較低的權(quán)重。
[0104] 增加 h-反式相互作用概率中度增加化ploSeq精確度,而對分辨率沒有任何影響。 作為比較,30Mb的19號染色體maxis具有1.1 %的誤差率(圖8b)。在增加了h-反式概率后,誤 差率為0.9% (圖4b),其中誤差率定義為1-精確度。
[0105] 局部條件性定相模擬
[0106] 為了研究W不同的分辨率百分比進行局部定相的能力,進行了逐步分析。首先,W 不同的分辨率生成種子單體型。接著,使用Beagle(v4.0) (Browning等,Genetics 194,459- 471(2013))在種子單體型的指導(dǎo)下進行局部定相。最后,局部定相的精確度通過將其與來 自1000基因組計劃的先驗已知的定相信息比較來檢查。
[0107] 為了 W不同分辨率模擬種子單體型,首先模擬種子基因型。使用讀出長度和覆蓋 的不同組合來獲得不同分辨率的種子基因型。具體地,來自H1和H1衍生細(xì)胞的化-C染色體 內(nèi)讀出起始位點(未發(fā)表數(shù)據(jù))用于生成給定讀出長度和覆蓋的讀出對。運允許維持化-C數(shù) 據(jù)結(jié)構(gòu)和模擬數(shù)據(jù)中觀察到的插入物大小的分布。為了生成種子基因型,發(fā)明人構(gòu)建了具 有節(jié)點和邊緣的圖,其中所述節(jié)點表示GM12878Q號染色體)中的雜合變體,所述邊緣對應(yīng) 覆蓋多個變體的讀出。該圖基本上是基因型圖,因為該定相還未知。因此,該圖的整個點是 基于分辨率和化-C數(shù)據(jù)結(jié)構(gòu),提供變體的子集,其為種子基因型的一部分,或不是通過局部 定相推斷的缺口。W要求的讀出長度和覆蓋參數(shù)生成種子基因型,來達到特定的分辨率。運 些種子基因型用于局部定相(圖5a) W研究用于產(chǎn)生足夠分辨率的種子單體型的最低要求 (圖5c-d)。運兩種分析獨立進行并在運兩種情況中,生成種子基因型和下游分析重復(fù)10次 來記錄平均結(jié)果。
[0108] 為了進行局部條件性定相,需要先驗的單體型系統(tǒng)來檢查局部條件性定相的精確 度。因為來自=人組的先驗單體型信息僅覆蓋約65%的雜合變體,決定僅在所述=人組子 集上進行局部定相模擬。特別地,條件為作為種子基因型或"缺口 "的一部分的每個變體應(yīng) 當(dāng)是1000基因組定相的S人組的一部分。使用S人組信息將種子基因型轉(zhuǎn)化為種子單體 型,同時使"缺口"變體保持未定相。接著,使用Beagle將種子單體型上的局部定相條件用于 推斷缺口變體的定相。允許同源變體輔助Beagle來從隱藏Markov模型獲得更好的預(yù)測。
[0109] 為了對種子單體型未定相變體進行鄰域校正,發(fā)明人收集了在種子單體型中定相 的各在上游和下游的3個變體。接著檢查在種子單體型中存在的定相和由Beagle預(yù)測的定 相之間是否存在100%相關(guān)性。運給出了 Beagle能夠在該"局部區(qū)域"表現(xiàn)得多好的信屯、。如 果存在100%匹配,認(rèn)為所述變體是條件性定相的。如果不是100%匹配,在最終的單體型中 忽略未定相的變體。嘗試了其它窗口大小,例如5和10,并且沒有發(fā)現(xiàn)精確度的改進。
[0110] 人GM12878細(xì)胞中的局部條件性定相
[0111] 發(fā)明人將化ploSeq分析和局部條件性定相偶聯(lián)W增加 GM12878細(xì)胞中的分辨率。 如早前所描述的對GM12878(ref.44)和群體樣品之間共同的基因型進行了局部條件性定 相。另外,由于所述種子單體型不是100%準(zhǔn)確的,發(fā)明人標(biāo)記了與局部定相不一致的種子 單體型定相的變體。使運些標(biāo)記的變體"未定相",因為它們可W是潛在的錯誤。因此,除了 使用用于決定缺口變體是否需要局部定相的鄰域校正外(如在模擬中),本發(fā)明人還使用了 運一信息來標(biāo)記種子單體型中可能是潛在錯誤的變體。運允許局部定相后精確度的小幅增 加 (見表1)。
[0112] 總體化ploSeq精確度估算為局部定相后MVP區(qū)塊中正確定相的雜合變體的分?jǐn)?shù) (圖加和表1)。具體地,發(fā)明人僅使用在S人組中定相的變體來評估精確度。對于ch巧中的 局部定相,發(fā)明人使得雄性單倍體基因型為純合。
[0113] GM12878細(xì)胞具有比CASTXJ129低的變體密度,并且較低的覆蓋增加了對預(yù)測模型 的更多限制,當(dāng)與低密度CASTX129情況中的0.8%相比,導(dǎo)致相對較高的化ploSeq誤差率 2%"25-30x的可用覆蓋(如圖5c-d中所示)可W幫助增加精確度,并潛在地覆蓋種子單體型 中更多的稀有變體。目前,約16%的變體沒有局部定相,運是由于它們在群體中的缺乏。運 些可W通過額外的化-C數(shù)據(jù)或甚至常規(guī)基因組測序數(shù)據(jù)(其可W潛在地將缺口變體連接到 種子MVP區(qū)塊中的變體)定相?;痯loSeq分析的一個重要方面是形成種子染色體跨度的單體 型的能力,其不能從常規(guī)基因組測序或配偶對或fosmid產(chǎn)生。
[0114] 化31111(1 模擬
[0115] 為了模擬基于fosmid的測序(圖4b和C),發(fā)明人模仿了作為配對末端測序的 fosmid克隆,其具有接近40化的插入物大小。發(fā)明人推理該方法較容易模擬,并仍然保持 fosmid添加到單體型重構(gòu)的數(shù)據(jù)結(jié)構(gòu)。作為證據(jù),如由其他組報道的,所述模擬在人類中產(chǎn) 生大小高達1Mb的單體型區(qū)塊化itzman等,化ture Biotechnology 29,59-63(2011);Suk 等,Genome Research 21,1672-1685(2011);和Duitama等,Nucleic Acids Research 40, 2041-2053(2012))。
[0116] 為了該目的,對于GM12878的1號染色體,模擬的l(K)bp配對末端讀出為各種測序覆 蓋。使用隨機起始位點模擬讀出,其具有提到的平均插入物大小和平均值的10%標(biāo)準(zhǔn)偏差。 化smid插入物表示使用吁osmid大小"的插入物的模擬,W精確定點(pinpoint)運些大型片 段產(chǎn)生較長單體型的能力。500bp偏態(tài)混合(skewed mix)插入物含有70%的5(K)bp插入物大 小,20 %的配偶對插入物和10 % 40000bp插入物。40000bp偏斜(skew)含有70 %的40000bp插 入物和10%5(K)bp插入物。N50定義為50%的含有N50跨度的單體型區(qū)塊的跨度。模擬重復(fù)10 次并在Y軸中記錄平均N50。結(jié)果表明,單獨的較高覆蓋不能形成較長的單體型。此外,運些 數(shù)據(jù)證明了較長的插入物大小片段生成較長的單體型。
[0117] 實施例2:化ploSeq的實驗策略
[011引在化ploSeq中,發(fā)明人首先基于先前建立的化-C實驗方案進行了臨近-連接測序 化ieberman-Aiden等,Science 326,289-293(2009))。與其他單體型分析方法中純化的基 因組DNA相反,在從細(xì)胞分離DNA之前,首先原位進行臨近-連接(圖la)。特別地,空間臨近的 基因組區(qū)域原位交聯(lián),使用限制酶消化,再連接W形成人工片段,其接著被分離(圖la)。如 此分離的純化的DNA片段可W捕獲兩個不同的基因組基因座,其在體內(nèi)3D空間中圈在一起 (Dekker等,Science 295,1306-1311 (2002);Lieberman-Aiden等,Science 326,289-293 (2009);和Ka化or等,NaUire Biotechnology 30,90-98(2012))。確實,在對所得的DNA文庫 進行鳥槍DNA測序后,配對末端讀出具有從幾百個堿基對到數(shù)千萬堿基對的范圍的"插入物 大小",而其它方法傾向于生成范圍從幾百個到數(shù)萬個堿基對的"插入物"(圖la-b)。理論 上,化ploSeq中的實驗方法保留了單體型信息,因為其允許同一條染色體上線性相距遠的 兩個區(qū)域連接為短且連續(xù)的DNA片段(圖la)。雖然化-C實驗中生成的短片段可W形成小的 單體型區(qū)塊,但長片段最終可W將運些小區(qū)塊連接到一起(圖1C)。使用足夠的測序覆蓋,運 種方法允許連接不連續(xù)區(qū)塊中的變體,并將每個運樣的區(qū)塊組裝為單個單體型。因此,使用 基于臨近-連接的方法來制備DNA測序文庫,可W重構(gòu)染色體跨度的單體型區(qū)塊。
[0119]待考慮的一個因素是臨近-連接可W捕獲個體等位基因中的順式相互作用和同源 與非同源染色體之間的反式相互作用兩者。雖然不同染色體之間的非同源的反式相互作用 不影響定相,但同源染色體之間的反式相互作用(此后稱為h-反式)可W使單體型重構(gòu)復(fù)雜 化,如果h-反式相互作用與順式相互作用一樣頻繁。因此,發(fā)明人著手確定臨近-連接測序 數(shù)據(jù)中,h-反式相對順式相互作用的相對頻率。為了完成運一目的,發(fā)明人使用雜種小鼠胚 胎干細(xì)胞化S)系,其衍生于兩個近交純合品系(小家鼠(CAST)和129S4/SWae(J129))之間 的雜交,對于所述細(xì)胞,親本近交系全基因組序列(WGS)公開可用。作為結(jié)果,該細(xì)胞系中母 本和父本單體型的知識作為育種結(jié)構(gòu)的產(chǎn)物是先驗已知的,且然后,等位基因之間的相互 作用頻率可W明確地檢測。從運些雜種ES細(xì)胞,發(fā)明人進行了化-C實驗并生成了超過6.20 億個可用的75堿基對配對末端讀出,對應(yīng)基因組的30x覆蓋。
[0120] 為了確定單體型內(nèi)(順式)相對于單體型間化-反式)相互作用的程度,發(fā)明人使用 先前的單體型信息來區(qū)分來自CAST和J129等位基因的讀出。為了檢查h-反式相互作用模 式,發(fā)明人首先可視化地檢查了每個等位基因之間的相互作用模式(圖2a)。先前的化-知開 究已經(jīng)確認(rèn)了長久W來建立的染色體領(lǐng)域的概念,盡管沒有對每個染色體的兩個等位基因 之間進行區(qū)分(Xieberman-Aiden等,Science 326,289-293(2009);和Kalhor等,Nature Biotechnology 30,90-98(2012))。發(fā)明人觀察到每條染色體的CAST和J129等位基因形成 單獨的染色體領(lǐng)域(圖2a)。此外,在與順式相互作用相比時,發(fā)明人觀察到<2%的h-反式 相互作用,表明絕大多數(shù)的化-C讀出真正是順式(圖化)。另外,相對h-反式而言DNA讀出是 順式的概率似乎作為讀出對之間插入物大小的函數(shù)而變化(圖2c,和圖6)。如圖6所示,每個 點描繪了lowess平滑曲線,而黑色的點源自于組合所有的染色體。運表明每條染色體遵循 相似的h-反式相互作用概率的模式。運些觀察表明,h-反式相互作用是罕見現(xiàn)象。
[0121] 實施例3在雜種小鼠 ES細(xì)胞中W高分辨率精確重構(gòu)染色體跨度的單體型
[0122] 存在罕見的h-反式相互作用讀出和諸如在變體位點處的測序誤差等現(xiàn)象可導(dǎo)致 同源配對之間錯誤的連接并引起單體型重構(gòu)的沖突。為了克服運些問題,發(fā)明人將化pCUfs 軟件整合到化ploSeq分析中W在概率上預(yù)測單體型。具體的是,化pCUT構(gòu)建了具有雜合變 體作為節(jié)點和由重疊片段所闡明的邊緣的圖表。由于測序誤差和h-反式相互作用,該圖表 可能含有幾個假的邊緣。HapCUT使用最大切割算法來預(yù)測簡約的(parsimonious)解決方 案,其最大地與輸入測序讀出組提供的單體型信息一致(圖3a)。因為臨近-連接比常規(guī)基因 組測序或配偶對產(chǎn)生更大的圖表,發(fā)明人修改了HapCUTW減少其計算時間,使其可用于 化ploSeq分析。為了測試化pCUT從臨近-連接和測序數(shù)據(jù)生成單體型區(qū)塊的能力,發(fā)明人再 次利用了 CASTx 129小鼠 ES細(xì)胞化-C數(shù)據(jù)。在運種情況下,發(fā)明人沒有先驗區(qū)分測序讀出屬 于哪一個等位基因。取而代之,發(fā)明人允許化pCUT從頭重構(gòu)雜合變體的單體型區(qū)塊。接著, 本發(fā)明人利用CAST和J129等位基因的已知單體型信息來評估算法的性能。發(fā)明人使用了完 全性,分辨率,W及精確度的度量來評估化ploSeq分析在單體型重構(gòu)中的成功(圖7)。
[0123] 在圖7a中,將雜合SNP考慮為節(jié)點,且在屬于相同片段的節(jié)點之間產(chǎn)生邊緣。該圖 系統(tǒng)從頭建立了兩條同源染色體(或單體型)。然而,可W有形成的多個區(qū)塊,且在本實施例 中發(fā)明人已經(jīng)鑒定了一個跨越96.15%的大型MVP組分W及不能被連接到MVP區(qū)塊的另一個 小型區(qū)塊(示于黑色邊緣的方框中)。
[0124] 通過就跨越的堿基對的數(shù)目而言生成的單體型區(qū)塊的大小或者通過每個區(qū)塊跨 越的雜合變體的總數(shù)測量單體型定相的完全性。一般來說,根據(jù)雜合變體連接,對于每條染 色體,,HapCUT將生成各種大小的幾個單體型區(qū)塊。含有定相的最雜合變體(most hetero巧gous variant phased) (MVP)的單體型區(qū)塊通常是最感興趣的,因為它經(jīng)常是跨 度最大的模塊。另外,可W將少數(shù)雜合變體分配到較小的區(qū)塊,由于它們不能與MVP區(qū)塊連 接。在運種情況下,MVP區(qū)塊跨越了每條染色體的超過99.9%的可定相堿基對(圖3b),證明 使用化-C數(shù)據(jù)的化ploSeq分析可W生成完全的染色體跨度的單體型。
[0125]雖然完全性定義為MVP區(qū)塊的堿基對跨度,但分辨率被表示為定相的雜合變體相 對于MVP區(qū)塊中跨越的總變體的分?jǐn)?shù)(圖7)。對于每條染色體,生成的運些MVP區(qū)塊具有高分 辨率,因為發(fā)明人可W定相任意給定染色體上約95%的雜合變體(圖3b)。不能將剩下的5% 的雜合變體連接似乎是因為不存在覆蓋運些變體的測序片段,或不能將運些雜合變體連接 到MVP變體模塊。作為結(jié)果,盡管跨越了絕大部分的染色體,MVP區(qū)塊在定相的變體中含有約 5%的缺口。
[01%]為了評估MVP區(qū)塊中雜合變體的精確度,發(fā)明人將通過化ploSeq分析從頭生成的 預(yù)測的單體型與CAST和J129等位基因的已知單體型比較。發(fā)明人將精確度定義為MVP區(qū)塊 中正確定相的定相雜合變體的分?jǐn)?shù)(圖7)。在分配到MVP單體型模塊的變體中,在區(qū)分兩個 已知的單體型中發(fā)明人觀察到了 >99.5%的精確度(圖3b)。
[0127]最后,由于發(fā)明人先前已經(jīng)證明了h-反式相互作用概率隨著分開兩個測序讀出的 基因組距離而增加(圖2c),本發(fā)明人將h-反式相互作用概率整合到化pCUT算法中,并將測 序讀出的最大插入物大小加帽于3000萬堿基對。運些條件不犧牲發(fā)明人生成的單體型的完 全性。相反,發(fā)明人觀察到MVP模塊中變體進一步改進的精確性,伴隨著定相的變體分辨率 的中度下降(圖8a和b)。
[01%]如運些圖所示,限制性化pCUT模型僅允許直到特定最大插入物大小(maxis)的片 段。最低的maxis為500萬堿基,在運之下MVP區(qū)組中形成染色體跨度的單體型的能力喪失。 在較高的maxis, MVP區(qū)塊的分辨率(a)高但含有較高的精確度(b)。因此,選擇了3000萬堿基 作為maxis W允許可接受水平的分辨率和精確度。該模擬在低變體密度的情況下,在 CASTXJ129系統(tǒng)中的不同染色體中進行,因為運更接近人類應(yīng)用。該分析沒有整合h-反式概 率,使得實現(xiàn)了 maxis單獨的效果。
[0129] 總之,運些結(jié)果證明了對于所有的常染色體,化ploSeq分析產(chǎn)生完全的,高分辨率 和精確的單體型。
[0130] 實施例4化ploSeq與其他單體型定相方法比較
[0131] 為了將本文公開的方法與先前建立的單體型分析方法比較,發(fā)明人模擬了常規(guī)配 對末端鳥槍法DNA測序(WGS),配偶對測序,fosmid和臨近-連接的20x覆蓋DNA測序數(shù)據(jù)來評 估每種方法重構(gòu)單體型的能力。發(fā)明人觀察到僅使用臨近-連接的化ploSeq分析可W生成 染色體跨度的MVP區(qū)塊,而其它方法產(chǎn)生顯著較小的MVP區(qū)塊并因此具有片段化的單體型結(jié) 構(gòu)(圖3c)。具體地,基于配偶對和fosmid的測序方法分別生成幾十萬堿基和約百萬堿基大 小的區(qū)塊。發(fā)明人將WGS數(shù)據(jù)和配對,fosmidW及鄰近連接組合,W增加覆蓋并增加數(shù)據(jù)結(jié) 構(gòu)中的變異性,然而生成較長單體型的能力沒有顯著變化(圖3c)。為了比較運些方法的分 辨率,發(fā)明人檢查了排名前100的經(jīng)變體定相的單體型區(qū)塊的累積調(diào)整跨度(圖3d),其中調(diào) 整的跨度表示為完全性和分辨率的乘積?;痯loSeq中獲得的單獨MVP區(qū)塊是完全的,并具有 約90%的分辨率。相反,當(dāng)將所有區(qū)塊累積性考慮時,常規(guī)鳥槍法測序,配對和fosmid僅能 覆蓋5%,65%,和90 %的染色體。與MVP區(qū)塊的大小相比,累積完全性具有較少的潛在應(yīng)用, 因為不同區(qū)塊中的變體彼此依然是未定相的。較高的覆蓋(圖3d,虛線)沒有顯著改變累積 跨度模式。運表明為了生成染色體跨度的單體型模塊,總測序覆蓋似乎相比用于定相的方 法不那樣重要。
[0132] 實施例甜aploSeq的表現(xiàn)依賴于變體密度
[0133] CASTXJ129ES細(xì)胞系的一個區(qū)別特征是整個基因組中存在高密度的雜合變體。平 均每150個堿基存在一個雜合變體,其比人類中頻繁7-10倍(Wheeler等,化化re 452,872- 876(2008)和化shkarev等,Nature Biotechnology 27,847-850(2009))。為了起始測試 化ploSeq在人細(xì)胞中生成單體型的可行性,發(fā)明人對CASTxJ129系統(tǒng)中的雜合變體進行了 二次采樣,使得變體密度模擬人群中的變體密度。發(fā)明人接著測試了多么低的變體密度影 響化ploSeq重構(gòu)單體型的能力。雖然降低的變體密度快速的降低了片段含有雜合變體的能 力,但通過化ploSeq獲得精確且完全的單體型區(qū)塊的能力沒有改變(圖4b)。發(fā)明人仍然觀 察到了每個染色體里的完全單體型,而平均精確度僅少量降低,在低變體密度的情況下從 約99.6%降到約99.2% (圖4b)。然而,較低的變體密度的確導(dǎo)致了較少的可用讀出,其繼而 提供較少的機會用于預(yù)測模型來解決單體型。作為結(jié)果,與高密度條件相比,使用"人類"變 體密度生成的MVP區(qū)塊具有較低的分辨率和較少的定相變體。現(xiàn)在MVP區(qū)塊中約32%的雜合 變體被定相(圖4b),而不是高密度情況下的95% (圖3b)??偟膩碚f,低變體密度不影響完全 性或精確度,但確實影響化ploSeq分析的染色體跨度的單體型的分辨率。
[0134] 實施例6對人類個體的化ploSeq分析
[0135] 為了實際地評估本文的方法在人類中定相單體型的能力,發(fā)明人在GM12878類淋 己母細(xì)胞細(xì)胞系中進行了化ploSeq。該細(xì)胞系的完全單體型已經(jīng)由1000基因組計劃從家庭 S人組WGS確定1S。發(fā)明人生成了超過2.62億個可用的100堿基對配對末端讀出,其對應(yīng)約 17x覆蓋。在GM12878細(xì)胞中,化ploSeq成功地在所有的近端著絲粒染色體和18個中著絲粒 染色體中的17個中生成了染色體跨度的單體型(圖4c-d)。值得注意的是,先前嘗試在人類 中單體型重構(gòu)的方法不能重構(gòu)跨越中著絲粒染色體的高度重復(fù)的著絲粒區(qū)域的單體型 (Levy等,PLoS Biology 5,e254(2007);Kitzman等,Nature Biotechnology 29,59-63 (2011);Suk等,Genome Research 21,1672-1685(2011);Duitama等,Nucleic Acids Research 40,2041-2053(2012);和Kaper等,Proc Natl Acad Sci USA 110,5552-5557 (2013))。使用化ploSeq,發(fā)明人生成了跨越除9號染色體外所有中著絲粒染色體的著絲粒 的單體型,在9號染色體中錯誤的連接導(dǎo)致了著絲粒處單體型調(diào)用的切換。除了具有大型的 15Mbp不充分定位的著絲粒區(qū)域外,9號染色體具有相對較低的可用覆蓋(13.7x)。發(fā)明人假 設(shè)額外的覆蓋可W提供跨越著絲粒的較好機會。因此,在9號染色體中,發(fā)明人將化-C數(shù)據(jù) 與先前生成的化-C和TCC數(shù)據(jù)組合,運將其覆蓋增加到約15X。栓系染色體捕獲(TCC)與化-C 相似,其中交聯(lián)的DNA片段在固體表面栓系并連接到一起。TCC生成與化-C實驗相似的數(shù)據(jù), 具有稍微好一點的能力來捕獲真正的長距離染色質(zhì)相互作用(Kalhor等,Nature Biotechnology30,90-98(2012))。使用該組合的數(shù)據(jù)組,發(fā)明人能夠精確地定相整個9號染 色體??偟膩碚f,從化ploSeq分析的僅17X基因組覆蓋,發(fā)明人生成了所有人染色體(包括X 染色體)的完全的,染色體跨度的單體型,盡管W降低的約22%分辨率(圖4c)。
[0136] 實施例7通過組合化ploSeq和局部條件性定相完全且高分辨率的單體型定相
[0137] 雖然化ploSeq生成完全的染色體跨度的單體型,由于人類群體中的低變體密度, 其不能達到高分辨率的定相的變體。運導(dǎo)致了 "缺口",其中雜合變體相對于MVP單體型區(qū)塊 仍然未定相。發(fā)明人推理使用衍生于群體規(guī)模測序數(shù)據(jù)的連鎖不平衡模式(linkage disequi 1 ibrium patterns),可W將運些缺口變體W概率連接到MVP模塊。為了運一目的, 發(fā)明人使用Beagle(v4.0) (Browning等,Genetics 194,459-471 (2013))軟件和來自 1000基 因組計劃的測序數(shù)據(jù)(Genomes Pro ject,C.等,化ture 491,56-65(2012)。發(fā)明人使用了 化ploSeq生成的染色體跨度的單體型作為"種子單體型指導(dǎo)局部定相。作為結(jié)果,發(fā)明 人能夠從相對于MVP區(qū)塊仍然未定相的"缺口"變體的連鎖不平衡(LD)測量生成局部定相預(yù) 測。
[0138] 為了首先調(diào)查該方法的有效性,就MVP區(qū)塊中定相的變體的數(shù)量而言,發(fā)明人W不 同的分辨率百分比在GM12878基因組中模擬了染色體跨度的種子單體型。該模擬結(jié)果表明 發(fā)明人可W甚至W低分辨率種子單體型輸入時精確地推測局部定相(10%種子單體型分辨 率時3%的誤差,圖5a中的上面曲線)。由于復(fù)雜的群體結(jié)構(gòu),來自Beagle預(yù)測的局部單體型 和化ploSeq種子單體型的定相預(yù)測之間發(fā)生偶爾的錯配。為了修正運種現(xiàn)象,發(fā)明人檢查 了包圍每個待推測雜合變體的臨近窗口區(qū)域,并分析種子單體型和局部定相之間定相的一 致。通過僅當(dāng)它們具有100%的一致性時接受變體相對于所述種子單體型定相,不論單體型 分辨率如何,發(fā)明人能夠?qū)⒄`差率降低到約0.7% (圖5a,下面的曲線)。由于該原因,發(fā)明人 能夠推測局部定相的雜合變體的分?jǐn)?shù)隨著較大的種子單體型分辨率而增加(圖5a,底部圖 組)。發(fā)明人使用3個定相的種子單體型變體的鄰域窗口大小,而窗口大小的增加不顯著增 加精確度。
[0139] 基于運些結(jié)果,發(fā)明人使用來自化ploSeq分析生成的MVP染色體跨度的單體型作 為種子單體型并進行了局部條件性定相??傮w上,發(fā)明人W平均約98%的精確度生成了具 有約81%分辨率的染色體跨度的單體型(圖5b)。值得注意的是,在不能局部定相的19%的 雜合變體中,約16%是由于它們不存在于群體樣品中而約3%是因為鄰域校正,其僅少量地 影響分辨率(圖化)。因此,通過組合化ploSeq分析和局部條件性定相,發(fā)明人能夠在人類中 完成高分辨率和精確的染色體跨度的單體型。
[0140] 實施例8通過化ploSeq獲得精確和高分辨率的染色體跨度的單體型的要求
[0141] 從局部條件性定相分析,發(fā)明人推導(dǎo)具有約20-30%分辨率的種子單體型足W獲 得精確和高分辨率的染色體跨度的單體型。因此,接下來的問題是完成具有約20-30%分辨 率的染色體跨度的種子單體型的最小實驗要求是什么。為了研究運點,發(fā)明人生成了模擬 的臨近-連接測序數(shù)據(jù),其具有不同的讀出長度和測序覆蓋。基于模擬,為了首先完成染色 體跨度的單體型,依賴于獲取約15x的可用測序覆蓋而不論讀出長度如何(圖5c)。在獲得染 色體跨度的單體型后,完成所需的約20-30%的分辨率的分?jǐn)?shù)將要求約25-30X可用覆蓋,其 具有100個堿基對配對末端讀出(圖5d)。該模擬還強調(diào)對較長讀出長度的需要,因為較長的 讀出長度顯著增加種子單體型分辨率。另外,該模擬不考慮精確度,且從對GM12878的分析, 發(fā)明人能夠推導(dǎo)重構(gòu)精確單體型的能力依賴于可用覆蓋。例如,低覆蓋染色體例如17號和 19號具有相對較低的精確度。具體的是,較低的覆蓋可能導(dǎo)致許多變體W較少的邊緣連接, 其繼而可W傳播(propagate)高度誤差的結(jié)構(gòu)到整個染色體跨度的單體型。見W下表1。
[0142] 表1示出了 MVP區(qū)塊的覆蓋和精確度之間的關(guān)系。低覆蓋影響臨近-連接完成精確 單體型的能力,正如在17號,19號和20號染色體中看到的。局部條件性定相化CP)后,分辨率 從22%增加到81% (圖加)而不進一步降低精確度。實際上,基于鄰域校正看到了精確度的 少量增加。如圖化中還示出的,最后一欄反映總體精確度。
[0143] 此外,雖然對于任意一個染色體,發(fā)明人沒有達到約25X的可用覆蓋,發(fā)明人仍然 能夠達到平均約~98%的精確度。額外的覆蓋可W甚至進一步增加精確度,正如在低密度 CASTXJ129系統(tǒng)中觀察到的。因此,具有100個堿基對的配對末端讀出的25-30X可用覆蓋足 W完成具有約20-30%分辨率的染色體跨度的單體型,并允許使用化ploSeq分析精確的局 部條件性定相。
[0144] 表1
[0145]
[0146]實施例9對人類個體的化ploSeq分析
[0147]在本實施例中,使用來自四個人類個體的樣品進行化ploSeq分析。為了該目的,在 甲醒交聯(lián)之前,將人組織樣品急速冷凍并研磨。接著,如Lieberman-Aiden等,Science 326, 289-293(2009)所述在樣品上進行化-C。使用先前描述的化ploSeq方法進行單體型分析 (Selvaraj等,化t Biotechno 1.2013Dec;31 (12) :1111-8)。簡單的說,為了生成單體型預(yù) 巧。,來自每個供體的Hi-C讀出用作對HapCUT軟件的輸入測序(Bansal等, Bioinformatics.2008Aug 15;24( 16): il53-9)。對于最終單體型調(diào)用,將Hi-C數(shù)據(jù)與供體 基因組的WGS配偶對數(shù)據(jù)組合。因為化-C數(shù)據(jù)僅能定相一些SNP,通過利用來自1000基因組 工程的群體測序數(shù)據(jù)進行局部條件性定相方法。對于每條染色體,化ploSeq生成兩個單體 型,對于母本等位基因為1個,對于父本等位基因為1個。一個等位基因命名為P1(親本1),而 另一個等位基因命名為P2(親本2),因為關(guān)于每個供體基因組中的來源親本的信息不可用。
[0148] 對于四個不同的組織供體,在每個組織供體中發(fā)明人能夠生成跨越整個染色體的 單體型,其具有平均99.5%的完全性(單體型解決的基因組區(qū)域的覆蓋),W及范圍從78% 至89%的平均分辨率(定相的雜合SNP的覆蓋)。通過比較預(yù)測的單體和屬于相同配對末端 讀出的SNP的一致(concordance),驗證單體型預(yù)測的精確度。對于冊K27ac化IP-seq讀出, 一致率為99.7%而對于mRNA-seq讀出為98.4%,表明高度的精確度。
[0149] 實施例10使用捕獲-HiC和測序的祀向單體型分析
[0150] 在本實施例中,具有寡核巧酸探針的捕獲-HiC用于捕獲染色質(zhì)相互作用,用于對 整個人HLA基因座的祀向單體型分析。
[0151] 為了生成化-C文庫,將GM12878(C0RffiLL)細(xì)胞在使用15%FBS和IX青霉素/鏈霉素 補充的85%的RPMI培養(yǎng)基中懸浮培養(yǎng)。收獲GM12878細(xì)胞,甲醒固定,并經(jīng)過如Lieberman- Aiden等,Science 326,289-293,(2009)中所述Hi-C實驗方案,在捕獲測序前使用一些修 改。在將11 lumina銜接頭(adapter)連接到Hi-C片段上后,文庫經(jīng)歷14個PCR擴增循環(huán),接著 使用高保真(Fusion)聚合酶捕獲雜交??蒞根據(jù)需要多少DNA用于下游捕獲雜交反應(yīng),修改 預(yù)捕獲PCR循環(huán)的數(shù)量。在運種情況下,使用少量珠子結(jié)合的Hi-C文庫輸出W14個循環(huán)進行 幾個平行的PCR反應(yīng)W最大化PCR產(chǎn)出和獲得足夠的材料用于可再生捕獲-HiC實驗。為了檢 查文庫質(zhì)量和為了提供內(nèi)部深度匹配的對照用于捕獲-HiC文庫,在預(yù)捕獲(14個循環(huán))文庫 上進行NGS。
[0152] 使用上文所述的實驗方案,首先生成了具有足夠材料的常規(guī)化-C文庫,W使得能 夠進行基于寡核巧酸探針的整個HLA區(qū)域的捕獲(圖9和圖10a)。
[0153] 為了獲得人HLA基因座的祀向單體型分析,計算生成寡核巧酸探針序列并祀向HLA 基因座中靠近化ndlll切割位點的非重復(fù)+/-400bp區(qū)域(圖10)。為此,進行了單體型分析表 現(xiàn)模擬。簡單的說,根據(jù)單體型分析分辨率(Y軸)作為測序覆蓋(X軸)的函數(shù)模擬化ploSeq 表現(xiàn)。進行了該研究來更普遍提問如果在文庫中僅存在含有化ndlll切割位點相鄰序列的 化-C片段,化ploSeq將表現(xiàn)得多好。理論上來說,捕獲-HiC文庫將僅含有其中至少一個讀出 末端起源于化ndlll切割位點相鄰序列的化-C片段。因此,使用內(nèi)部的常規(guī)化-C數(shù)據(jù)組,使 用所有定位的化-C讀出進行化ploSeq分析,而沒有限制任何讀出(Resolution_Nores)???用讀出也被限制為僅那些含有在化ndlll切割位點的5(K)bpW內(nèi)(Resolution_pm500)或切 割位點的250bpW內(nèi)(Resolution_pm250)的至少1個讀出末端。該模擬的結(jié)果表明,雖然單 體型分析分辨率有約20 %的降低,該分辨率仍然足夠用于單體型分析的目的。該結(jié)果還表 明,無論將讀出限制到靠近化ndlll切割位點的250bp還是5(K)bp,分辨率存在少量差異。相 應(yīng)地,選擇40化P用于勒1向方法。
[0154] 使用SureDesign參數(shù),W4X鋪蓋密度在祀向區(qū)域處設(shè)計探針,W優(yōu)化捕獲效率和 因此最大化單體型分析分辨率和精確度。更具體的是,為了生成RNA誘巧,使用SureDesign 軟件包(AGILENT TECHNOLOGIES)設(shè)計探針。使用hgl9基因組構(gòu)建(chr6 :29689001- 33098938),定制設(shè)計祀向靠近Hindlll切割位點的上游和下游40化p,跨越MHC基因座。將 SureDesign參數(shù)設(shè)置為4X鋪蓋密度,最大探針加強(boosting),W及最大重復(fù)序列掩蓋。盡 管不臨近化ndlll切割位點,發(fā)明人也W2X鋪蓋密度,平衡加強,W及最大重復(fù)元件掩蓋祀 向HLA基因外顯子。通過SureDesign使用本文所述的參數(shù),總共計算生成了 12,298個探針。 [01巧]接著,通過CustomArray Inc合成了單鏈DNA(ssDNA)寡聚物。ssDNA寡聚物含有通 用的正向和反向引發(fā)序列。正向引發(fā)序列包含截短的SP6RNA聚合酶識別序列。反向通用引 發(fā)序列含有BsrDI識別序列,用于體外轉(zhuǎn)錄前3'剪切。為了將寡聚物轉(zhuǎn)化為生物素化的RNA 誘巧,稀釋寡聚物并接著使用高保真DNA聚合酶(KAPA)進行PCR擴增,并接著柱純化 (PR0MEGA)。該PCR反應(yīng)也用于填充到SP6識別序列的剩余部分。接著,通過使用BsrDI (化W 化gland Biosciences)消化dsDNA去除反向引發(fā)序列并再次純化W去除消化的片段。最后, 根據(jù)制造商的方案(AMBI0N)在生物素化的UTP化PICENTRE)存在下進行體外轉(zhuǎn)錄(IVT)。接 著,柱純化RNA(QIAGEN),稀釋到工作濃度(500ngAil)并在使用前儲存在-80°C。
[0156] 為了富集化-C文庫用于將化-C片段定位到HLA基因座,主要根據(jù)化stomArray實驗 方案和一些修改進行捕獲雜交W及接著PCR擴增。簡單的說,將500ng化-C文庫在65°C與 500ng生物素化的RNA探針解育過夜。因為祀向序列(約320kb)僅為基因組的約0.01%,發(fā)明 人每個實驗進行了 16個平行的雜交反應(yīng),并在測序前將最終雜交產(chǎn)物匯集。接著,使用鏈霉 親合素包被的珠子(INVITR0GEN)下拉RNA: DNA雜交體,未結(jié)合的DNA片段被洗掉,并洗脫捕 獲的產(chǎn)物。在捕獲的產(chǎn)物被洗脫后,將它們在QIAGEN Mi址lute柱上脫鹽,并使用11個循環(huán) PCR擴增(FUSION)。在該實驗方案中,對于每個雜交反應(yīng),所有的步驟獨立地進行。換句話 說,在脫鹽的捕獲片段上進行幾個平行的捕獲后PCR反應(yīng),且每種捕獲后PCR產(chǎn)物使用 AMPure XP珠子(Beckman Coulter)獨立地純化。接著,匯集PCR產(chǎn)物并接著使用真空離屯、蒸 發(fā)濃縮器(3966(1-¥曰(3)濃縮。得到的捕獲-化(:文庫,接著在11111111;[]13化5692500上進行下一 代測序。
[0157] 更具體的是,在制備捕獲化-C文庫后,所得的文庫W約IX測序深度測序,使用配對 末端lOObp讀出長度。理論上來說,該測序深度將足夠覆蓋基因組中的每個堿基一次。接著 計算整個HLA基因座中的覆蓋(包括跨越基因座的所有非祀向序列)并確定為約32. IX。為了 計算HLA基因座富集,將HLA覆蓋除W基因組覆蓋。將所有來自捕獲-HiC測序數(shù)據(jù)的單克隆 定位讀出二進制化到100化二進制全基因組。運里,將落在HLA基因座W及6號染色體上靠近 的脫祀?yún)^(qū)域的每個二進制中的讀出總數(shù)作圖。發(fā)現(xiàn)祀向HLA基因座為約29M至33.4M,其相對 于6號染色體上的非祀向靠近區(qū)域表現(xiàn)出顯著的富集。
[015引總的來說,通過在化-C文庫上進行上述的捕獲測序,生成了 GM12878人類類淋己母 細(xì)胞細(xì)胞系化化)的捕獲-HiC文庫,在HLA基因座上W約1. IX測序深度W約30倍的富集生 成。
[0159]由于單體型分析效率取決于3D染色體接觸的保真度,調(diào)查了與常規(guī)化-C文庫相 比,在相同的基因座捕獲-HiC數(shù)據(jù)組是否保留了相對接觸頻率。為了該目的,將來自捕獲 化-C的染色質(zhì)相互作用與先前發(fā)表的來自GM12878細(xì)胞的HLA基因座的化-C數(shù)據(jù)比較。簡單 的說,使用來自GM12878的捕獲-HiC數(shù)據(jù)(頂部),W及來自GM12878的發(fā)表數(shù)據(jù)(Se 1 vara j 等,化t Biotechnol.2013Dec;31(12):llll),W20化二進制生成了 HLA基因座中的接觸矩 陣。在生成接觸矩陣前,每個數(shù)據(jù)組通過讀出深度標(biāo)準(zhǔn)化,其簡單地W每個矩陣值(I,j)除 W定位到基因座的讀出的總數(shù)。發(fā)現(xiàn)在運些數(shù)據(jù)組中存在高度顯著的一致性(p<〇.01)。
[0160] 除了檢查捕獲-HiC數(shù)據(jù)中是否保留了相對3D接觸頻率外,也進行了測定W更接近 的檢查化-C片段的特性。首先,使用所有的捕獲-HiC數(shù)據(jù)(包括通過所述實驗捕獲的脫祀序 列),發(fā)明人比較了捕獲和常規(guī)化-C文庫中的染色體內(nèi)(順式)和染色體間(反式)讀出的比 例,并發(fā)現(xiàn)順式:反式的比例彼此一致。第二,如果每個數(shù)據(jù)組被限制到僅定位到HLA基因座 的讀出,再次發(fā)現(xiàn)每個數(shù)據(jù)組含有大體相同的順式:反式比例。第S,由于化ploSeq關(guān)鍵地 取決于同一條同源染色體中高頻率的順式接觸化-順式)(~99%),探索了捕獲-HiC數(shù)據(jù)中 的h-順式率。發(fā)現(xiàn)捕獲-HiC數(shù)據(jù)也含有絕大多數(shù)(約98%)的h-順式化-C片段,因此能夠進 行有效的化ploSeq分析。該分析掲示了常規(guī)化-C和捕獲-HiC文庫一般具有可比的順式:反 式比率且捕獲-HiC具有相似的同源性-反式相互作用,因此保留了單體型內(nèi)接觸頻率,其對 于使用化ploSeq保持高單體型分析精確度至關(guān)重要。
[0161] 另外,進行了對捕獲-HiC RNA探針靈敏度的分析。作為評價捕獲-HiC探針表現(xiàn)的 指標(biāo),發(fā)明人分析了每個探針序列中的讀出密度W及具有至少1個捕獲的化-C片段的探針 總分?jǐn)?shù)。為了該目的,將讀出密度(Y軸)相對于每個獨特的RNA探針序列(X軸)作圖W生成柱 狀圖。該柱狀圖中每個垂直線代表單個獨特的探針。發(fā)現(xiàn)在總共7885個獨特探針中,7650個 (~97%)具有至少一個讀出定位到由該探針祀向的序列。運提供了捕獲測序方法的總體靈 敏度的某些意義。
[0162] 總的來說,W上結(jié)果示出了捕獲-HiC實驗方案數(shù)據(jù)是高質(zhì)量數(shù)據(jù),因此能夠?qū)?體型模型進行精確的分析。
[0163] 接著,使用化pl〇Seq(Selvaraj等,化t Biotechnol.2013Dec;31(12):llll-8WP LCP實驗方案從捕獲-HiC數(shù)據(jù)進行了單體型重構(gòu)。首先,從先前公開的數(shù)據(jù)獲得了 GM12878 的定相信息(Genomes Project,C.等,Nature 467,1061-1073,(2010))。接著,利用 化ploSeq和局部條件性定相化CP)實驗方案來生成HLA基因座里的單個單體型結(jié)構(gòu),并定相 GM12878中~95%的等位基因。將化ploSeq分析的單體型結(jié)果總結(jié)于W下表格中。接著,將 預(yù)測的單體型結(jié)構(gòu)與先前報道的單體型結(jié)構(gòu)比較并估算捕獲-HiC的精確度為~97.7% (見 W下表2)。
[0164] 表2 [01 化]
[0166]
[0167] 如該表格中所示,在化pCUT后,發(fā)明人生成了化A基因座的完全單體型結(jié)構(gòu),并W 約96 %精確度定相了約46 %的所有雜合SNPdLCP后,W約98%精確度定相了約95 %的所有 的雜合SNP。在最終的單體型結(jié)構(gòu)中,發(fā)現(xiàn)由化pCUT和LCP定相的SNP的精確度分別為約96% 和 99 %。
[0168] 值得注意的是,本文公開的方法是首次證明了跨越整個化A基因座的高質(zhì)量單體 型分析,在單一單體型結(jié)構(gòu)中不僅定相高度不同的主要和次要HLA等位基因基因座,而且還 定相一起跨越基因座的其它重要的免疫學(xué)基因和非HLA基因座。更廣泛的說,運種方法學(xué)是 首次實現(xiàn)了使用者確定的祀向基因座的完全單體型結(jié)構(gòu)化aper等,Proc化tl Acad Sci USA 110,5552-57(2013))。通過對于95%的等位基因完成精確的單體型(約98%),運一方 法可W用于個體化基因組學(xué)和群體遺傳學(xué)。
[0169] W上實施例和優(yōu)選實施方案的說明應(yīng)當(dāng)認(rèn)為是說明性的,而不限制如權(quán)利要求所 確定的本發(fā)明。如將容易理解的是,可W利用上述特征的眾多變化和組合而不脫離如權(quán)利 要求中所闡明的本發(fā)明。運些變化不視為脫離本發(fā)明的范圍,且所有運些變化意圖包括在 W下權(quán)利要求的范圍內(nèi)。本文引用的所有參考文獻W其整體并入本文。
【主權(quán)項】
1. 一種用于對生物體全染色體單體型分析的方法,包括: 提供所述生物體的細(xì)胞,其含有具有基因組DNA的染色體組; 將所述細(xì)胞或其核與固定試劑孵育一段時間以允許所述基因組DNA原位交聯(lián),并且從 而形成交聯(lián)的基因組DNA; 片段化所述交聯(lián)的基因組DNA,并連接臨近定位的交聯(lián)并片段化的基因組DNA以形成臨 近連接的復(fù)合物,所述復(fù)合物具有第一基因組DNA片段和第二基因組DNA片段; 剪切所述臨近連接的復(fù)合物以形成臨近連接的DNA片段; 獲得多個所述臨近連接的DNA片段以形成文庫; 對所述多個臨近連接的DNA片段測序以獲得多個序列讀出,和 組裝所述多個序列讀出以構(gòu)建一個或多個染色體的染色體跨度的單體型。2. -種用于生物體的靶向單體型分析的方法,包括提供所述生物體的細(xì)胞,其含有具 有基因組DNA的染色體組;將所述細(xì)胞或其核與固定試劑孵育一段時間以允許所述基因組 DNA的原位交聯(lián),并且從而形成交聯(lián)的基因組DNA;片段化所述交聯(lián)的基因組DNA,并連接臨 近定位的交聯(lián)并片段化的基因組DNA以形成臨近連接的復(fù)合物,所述復(fù)合物具有第一基因 組DNA片段和第二基因組DNA片段;剪切所述臨近連接的復(fù)合物以形成臨近連接的DNA片段; 使所述臨近連接的DNA片段與一個多個寡核苷酸接觸,所述寡核苷酸與所述臨近連接的片 段的子集的預(yù)選擇區(qū)域雜交,以提供與所述寡核苷酸雜交的臨近連接的片段的子集,將所 述臨近連接的片段的子集與所述寡核苷酸分離;對所述臨近連接的DNA片段的子集測序以 獲得多個序列讀出,并組裝所述多個序列讀出以構(gòu)建靶向單體型。3. 權(quán)利要求2的方法,其中所述寡核苷酸固定化到固體基質(zhì)上。4. 權(quán)利要求1或2的方法,進一步包括在孵育步驟前從所述細(xì)胞分離細(xì)胞核。5. 權(quán)利要求1或2的方法,進一步包括在片段化步驟前純化連接的基因組DNA。6. 權(quán)利要求1或2的方法,進一步包括在片段化步驟后, 使用標(biāo)志物標(biāo)記所述第一基因組DNA片段或所述第二基因組DNA片段; 連接所述第一基因組DNA片段和所述第二基因組DNA片段,使得所述標(biāo)志物在它們之間 以形成標(biāo)記的嵌合DNA分子;和 剪切所述標(biāo)記的嵌合DNA分子以形成標(biāo)記的、臨近連接的DNA片段。7. 權(quán)利要求1或2的方法,其中通過使用限制酶消化所述連接的基因組DNA以形成消化 的基因組DNA片段進行所述片段化步驟。8. 權(quán)利要求1或2的方法,其中所述固定試劑包括甲醛,戊二醛,或福爾馬林。9. 權(quán)利要求6的方法,其中通過使用標(biāo)記有所述標(biāo)志物的核苷酸填充所述第一和第二 基因組DNA片段的末端進行所述標(biāo)記步驟。10. 權(quán)利要求9的方法,其中所述標(biāo)志物是生物素。11. 權(quán)利要求10的方法,其中使用鏈霉親合素進行獲得步驟。12. 權(quán)利要求11的方法,其中所述鏈霉親合素固定到珠。13. 權(quán)利要求6的方法,其中通過使用連接酶連接所述第一基因組DNA片段和所述第二 基因組DNA片段進行連接步驟。14. 權(quán)利要求13的方法,其中在溶液中進行連接。15. 權(quán)利要求13的方法,其中在固體基質(zhì)上進行連接。16. 權(quán)利要求1或2的方法,其中使用配對末端測序片段的配對末端測序進行測序。17. 權(quán)利要求16的方法,其中每個配對末端測序讀出片段的長度為至少20bp。18. 權(quán)利要求16的方法,其中每個配對末端測序讀出片段的長度為20-150bp。19. 權(quán)利要求16的方法,其中每個配對末端測序讀出片段的長度為20,25,30,40,50, 60,70,80,90,100,110,120,130,140,或150bp。20. 權(quán)利要求1或2的方法,其中對于每條染色體,所述文庫含有至少15x序列覆蓋。21. 權(quán)利要求20的方法,其中對于每條染色體,所述文庫含有至少25-30x序列覆蓋。22. 權(quán)利要求18的方法,其中所述第一基因組DNA片段和所述第二基因組DNA片段在同 一條染色體上。23. 權(quán)利要求22的方法,其中所述第一基因組DNA片段和所述第二基因組DNA片段原位 相距至少l〇〇bp。24. 權(quán)利要求23的方法,其中所述第一基因組DNA片段和所述第二基因組DNA片段原位 相距 100bp-100Mb。25. 權(quán)利要求24的方法,其中所述第一基因組DNA片段和所述第二基因組DNA片段原位 相距 1 OObp,1 kb,1 Okb,1Mb,10Mb,20Mb,30Mb,40Mb,50Mb,60Mb,70Mb,80Mb,90Mb,或 100Mb。26. 權(quán)利要求1或2的方法,其中所述生物體是真核生物。27. 權(quán)利要求1或2的方法,其中所述生物體是真菌。28. 權(quán)利要求1或2的方法,其中所述生物體是植物。29. 權(quán)利要求1或2的方法,其中所述生物體是動物。30. 權(quán)利要求1或2的方法,其中所述生物體是哺乳動物或哺乳動物胚胎。31. 權(quán)利要求1或2的方法,其中所述生物體是人或人胚胎。32. 權(quán)利要求31的方法,其中所述人是器官的供體或受體。33. 權(quán)利要求32的方法,其中在將所述器官移植到具有匹配單體型的受體前對所述器 官進行單體型分析。34. 權(quán)利要求1或2的方法,其中所述細(xì)胞是二倍體細(xì)胞。35. 權(quán)利要求1或2的方法,其中所述細(xì)胞是非整倍體細(xì)胞。36. 權(quán)利要求1或2的方法,其中所述細(xì)胞是癌性細(xì)胞。
【文檔編號】C12Q1/68GK106062207SQ201480051354
【公開日】2016年10月26日
【申請日】2014年7月18日
【發(fā)明人】B.任, S.塞爾瓦拉, J.狄克遜, A.施米特
【申請人】路德維格癌癥研究有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
清涧县| 剑河县| 泰州市| 麦盖提县| 博湖县| 本溪市| 枣阳市| 湖南省| 法库县| 郑州市| 凤凰县| 本溪市| 闻喜县| 临高县| 习水县| 南丰县| 新昌县| 衡南县| 进贤县| 吉水县| 天等县| 汾西县| 屏山县| 江城| 从化市| 昌图县| 图木舒克市| 盐池县| 鄂伦春自治旗| 武清区| 铁岭市| 合作市| 宜宾市| 太保市| 虎林市| 许昌市| 邻水| 阜宁县| 清水河县| 柳州市| 舞阳县|