導航:首頁 > 源碼編譯 > snv突變檢測演算法

snv突變檢測演算法

發布時間:2022-10-04 14:42:27

A. 基因檢測對癌症有用嗎

針對腫瘤的基因圖譜進行測試,從而確定到底是發生了哪些突變,這個過程就叫做基因檢測。基因檢測就是為了最大限度的增加每個患者對葯物選擇的正確性。選葯前,先檢測患者的基因,看患者體內是否存在已報道的葯物靶點基因。如果存在靶點基因,那麼患者對葯物敏感的可能性就會大幅度的提高。在實際的治療過程中,基因檢測可以幫助醫生和患者制定最佳的治療方案。
癌症中可能發生許多類型的基因改變。四種主要改變包括:

1) 單核苷酸變異體(SNV),也稱為點突變。SNV由一個鹼基處的鹼基置換產生。這些可能導致編碼蛋白的氨基酸序列(錯義突變)或蛋白過早截短(無義突變)。

2) 連續核苷酸的小復制。涉及一個或幾個核苷酸的插入或缺失,或涉及同時缺失和插入一個或幾個鹼基(indelsa)的復雜突變。這些類型的突變可能是「框內的」,導致蛋白質中氨基酸的加入或減少,或可導致「移碼」,通常導致蛋白質的過早截短。

3) 外顯子或基因拷貝數目的變化。外顯子拷貝數變化包括包含整個外顯子並影響蛋白質功能結構域的大的重復或缺失;基因拷貝數變化包括整個基因的擴增或缺失。

4) 遺傳物質的結構變異(SV)或大的結構異常。包括由多個染色體之間或單個染色體內的斷點引起的易位或倒位。這些通常導致融合基因和相關融合蛋白。

通常,致癌突變聚集在來自不同患者的腫瘤的「熱點」突變。一些熱點SNV可能會頻繁發生,而另一些則很少見

B. 怎樣說明是體系突變,又怎樣做說明是胚系突變

胚系突變又叫生殖細胞突變,是來源於精子或卵子這些生殖細胞的突變,因此通常身上所有細胞都帶有突變;體細胞突變又叫獲得性突變,是在生長發育過程中或者環境因素影響下後天獲得的突變,通常身上只有部分細胞帶有突變。

突變並不總是和疾病掛鉤,有的只是影響膚色、相貌等。

胚系突變可以遺傳,這也是有血緣關系的親戚,總是或多或少有些像的原因。

大部分胚系突變的作用是:成就獨一無二的你

但是,當胚系突變發生在BRCA1,BRCA2等基因上的時候,就可能導致腫瘤的風險大大升高。

為何高達87%?

腫瘤本質上是基因病,而且是多個基因突變累積導致的復雜疾病。BRCA1這個胚系突變相當於腫瘤的第一個突變,出生就帶有。相對於不攜帶者,突變出現的時間大大提前,同時,後續體細胞突變積累更加容易。
後續的體細胞突變有什麼意義?

腫瘤細胞帶有的與正常細胞不一樣的體細胞突變,有的被科學家們變成了靶向葯物的靶點
——殺敵不傷己的好策略!👍

Q
&
A
為什麼要做兩個質評,發布兩個結果呢?

因為目的不同,所需要的檢測不同:

· 遺傳性腫瘤——胚系突變檢測
· 尋找靶向葯物,腫瘤負荷監測等
——體細胞突變檢測

哪個檢測更容易?

實現准確無誤的檢測,其實都不容易。
從衛計委臨檢中心發布的結果來反推,相對而言體細胞突變檢測更難(滿分少,合格率低)。背後的原因可能在於體細胞突變是部分細胞帶有的突變,突變頻率低,對於檢測靈敏度要求更高。

更多問題?請聯系我們

[email protected]

4001666506

C. 解讀「淺層測序「-「淺測序「-「低深度測序「

近日,Sentieon與中國遺傳疾病診斷領導者安吉康爾積極合作,共同開發測試了基於Sentieon機器學習變異檢測模塊DNAscope的「淺」測序模型,並探索了該模型在遺傳病臨床診斷領域的應用。結果顯示,使用這一模型分析,在不降低變異檢測准確度的前提下,能在相同測序通量下增加50%以上的樣本數量,在測序與分析兩方面同時為用戶降低成本。

自從NGS被應用在了全基因組和全外顯子測序以來,測序深度的影響被廣泛研究。測序深度是測序成本的決定因素,但另一方面過低的深度會導致部分區域的突變檢測准確性大幅度下降,因此需要尋找到一個平衡點。

我們都知道,每一個檢測到的變異都需要若干條reads的支持,低於一定的閾值則難以將真實突變與引入的錯誤區分開來。然而由於基因組中GC分布的不均勻,簡單重復序列的存在,外顯子靶向擴增效率差異等情況的存在,實際map在基因組上的reads的深度是非常不平均的。尤其是全外顯子或者panel產生的數據數據,深度均一性比全基因組要更低,某些位點難以進行准確的突變檢測。

從下圖文獻報道中我們可以看到,在全外顯子的數據中,錯誤的突變主要來自於10x以內的低深度區域;相比之下全基因組數據的覆蓋均一度較好,但是錯誤的突變同樣來自於較低深度區域。

換言之,要想進一步提升變異檢測的准確度,核心問題是提升低深度區域的准確度。

我們都知道, GATK最佳實踐流程推薦的joint-calling是人群隊列變異檢測的重要工具。基於單個樣本的變異檢測往往產生難以避免的錯誤,包括由於覆蓋度不足導致的假陰性,建庫測序錯誤導致的假陽性,以及難以區分陰性位點和不確定(no-call)位點,這些都會導致最終人群變異頻率計算的錯誤。相比之下,joint-calling利用群體的統計背景,有效矯正每個樣本檢出變異的置信度,從而提高檢測的敏感性和特異性。這對發現和確認隊列中罕見變異位點尤其重要。

但是,當全基因組數據規模上升到萬人或十萬人規模的時候,如何高效使用計算存儲資源來快速准確分析大規模樣本,不可避免成為了一個巨大的挑戰。在應對挑戰搭建數據分析流程的時候,我們應該始終關注以下四個因素:效率、精度、成本、靈活性。單個樣本數據的分析處理雖然流程上相對簡單,但是,在隊列項目大樣本量的背景下,如何保證分析精度,提高分析效率,降低整體分析成本,對項目的成本控制和完成進度都是至關重要的問題。在Joint-calling方面,雖然GATK有現成方案,但其運行效率較為低下,可擴展性也較差,每次僅能處理100個左右的樣本,然後需要逐步一次次合並,這樣會造成精度損失,而且效率低下,容易出錯。隊列項目需要新的高效的可擴展的joint-calling解決方案。

大型隊列研究另一個特別需要關注的方面是流程和生信工具的標准化,以方便不同隊列之間的數據交換、對比和交叉使用,避免重新處理。因此,數據分析流程的搭建和工具的選擇至關重要,一定要符合業界公認的標准。MSSNG項目選擇了CCDG (Centers for Common Disease Genomics) 發布的分析流程標准。CCDG流程規定了參考基因組版本,從FASTQ到CRAM文件的各步驟分析工具和參數選擇,以產生功能等效 (functionally equivalent) 的變異檢測結果,能被廣泛應用於多個人群隊列項目。

Sentieon的DNAscope流程相比於GATK金標准而言,改進了核心演算法,擁有更加准確的局部重組裝能力,能夠大幅度提升SNP和Indel的檢測靈敏度。同時,基於機器學習模型過濾器的DNAscope流程經過重訓練之後,可以很好的適配包括華大測序儀在內的不同測序平台,在「Sentieon DNAscope助力華大智造MGI測序儀提升變異檢測准確性」一文中已有展示:在加速5-10倍的基礎上,准確率顯著優於GATK流程,並且在絕大部分樣本中優於DeepVariant。DNAscope流程的原理類似於GATK流程,大體可以分為3個步驟,首先是上游處理,將FASTQ文件經過比對去重等步驟處理為BAM文件;接下來通過自研演算法生成潛在變異列表,這一步利用了DNAscope的優異Haplotye拼接以及超高靈敏度,確保盡可能少的假陰性;最後在潛在變異上運行機器學習模型過濾器,根據訓練生成的隨機森林模型將假陽性從真陽性中區分出來,比GATK自帶的簡單統計模型更為精準。

在優異的基礎性能之上,DNAscope還可以很方便的訓練與搭載不同的機器學習模型文件,進一步強化針對特定數據類型的適應性。Sentieon與安吉康爾合作,利用HG001和HG005的標准品數據進行降采樣之後補充已經使用的常規深度訓練集,訓練了最新版本的模型文件,提升了分析流程對於低深度數據的准確度。

我們使用HG001/NA12878標准品在華大智造MGISEQ2000平台測序,生成了WGS和WES數據分別進行性能測試。WGS為普通PCR建庫,WES為IDT v1全外顯子探針捕獲建庫。兩種數據各自做階梯數據量切割,WGS截取16-49x范圍內5個梯度,WES截取58-210x范圍內7個梯度,隨後每份數據分別使用DNAscope以及GATK進行SNV和Indel變異檢測。其中,DNAscope使用上文所述的拓展適配低深度的機器學習模型文件(DNAscopeModelBGIBeta0.4.model);GATK的結果我們使用DNAseq提供匹配數據(發表文章doi.org/10.3389/fgene.2019.00736表明DNAseq與GATK4.0結果一致)。變異一致性使用hap.py進行評估,真集為GIAB HG001 highconf v3.3.2,WGS的評估范圍是真集給定區域,WES為該區域與目標捕獲區域交集。

如下圖所示,在統計了SNP和Indel的假陽性(FP)與假陰性(FN)的數量之和,並且在每個深度進行對比之後,我們可以明顯看出DNAscope在每個深度的錯誤數都遠小於GATK。具體來看DNAscope在20x深度的准確度,SNP方面優於50x GATK,Indel方面與30x GATK基本持平,並且FN較低,更符合臨床需求。綜合起來,DNAscope在20x優於30x GATK結果。

Sentieon淺層測序分析結果

同樣的趨勢在下圖的全外顯子標准數據中再一次得到了驗證:DNAscope的准確度在不同測序深度都優於GATK,並且在60x的深度下SNP與Indel的准確度均優於GATK在200x的結果。

Sentieon淺層測序分析結果

具體比對兩組數據,我們可以發現全基因組數據中錯誤類型中的占絕大多數是FN,而DNAscope也確實大幅度降低了這部分的錯誤數量。由於全基因組的均一性較好,所以推測FN主要不是由於覆蓋度不足導致,而是來自於基因編碼區以外的高復雜度區域。DNAscope在這部分區域的准確度有較大的提升,所以減少了FN的數量。對比之下,全外顯子數據中的錯誤主要類型是FP,DNAscope也同樣降低了這部分錯誤。然而FN主要來自於WES覆蓋度過低的區域。面對這種情況,在進一步降低深度之後,DNAscope也難以改善FN的錯誤。

在整體趨勢以外,有兩點值得注意:首先是DNAscope在超過100x高深度下的FN反而是高於GATK,這是由於DNAscope機器學習模型的訓練集中不包括超過100x的訓練數據,所以當前模型只適合於低於100x的數據處理,並不適合高深度的panel數據;第二是GATK Indel FP的數目隨著深度上升在持續增長,並且增長速度大於FN的下降,造成整體准確率的下降。這反映了對於Indel的准確率來說測序深度不是一個關鍵因素。後續我們會對這兩個發現以及其他問題做更深入的探索,在機器學習模型訓練集中加入更多類型的樣本數據,進一步拓展DNAscope模型的泛用性。

另外我們知道,NGS臨床應用對於突變位點檢測的准確度要求非常高。為了詳細了解20x DNAscope的檢測結果是否適用於這種高要求的臨床場景,我們使用HG002作為標准品進行對比測試,並詳細展開了基因組的各個特徵區域,比對了在不同區域下DNAscope和GATK的錯誤結果所佔比例。可以看出,無論是單看不同的染色體,還是不同CG%區域,20x DNAscope的准確率都基本與30x GATK數據持平,可以推斷兩者之間的差異沒有明顯偏向性。

近年來,遺傳疾病基因檢測需求飛速增長,行業內對降低測序和分析成本,以及提高檢測精度的需求也持續上升。作為回應,Sentieon與安吉康爾的研發團隊積極合作,共同開發並驗證了DNAscope「淺「測序流程方案。使用這個方案,在確保檢測准確度的前提下,可以有效降低測序深度,相同數據產出情況下增加至少50%樣品量,並且分析速度相比GATK提升了5-10倍,能夠同時為客戶節省測序成本和計算成本。本流程不含imputation步驟,經過驗證後可適用於臨床檢測。

D. snv基因突變是什麼意思

是指單核苷酸變異。

研究者利用該項技術開發出了可以用不同顏色的熒光信號區分序列中只存在單核苷酸變異(SNV)的mRNA的方法,即採用兩對發卡探針,其中兩條發卡探針的識別序列包括SNV位點,從而釋放不同的HCR引發序列,最終使得兩種mRNA被標記上不同顏色的熒光信號。

該方法對研究等位mRNA的不均衡表達,以及對癌細胞中有體細胞突變的mRNA進行檢測都具有重要應用前景。

(4)snv突變檢測演算法擴展閱讀

盡管可以從誘導的多能幹細胞(iPSC)產生活的小鼠,但是累積的突變對所得iPSC的發育潛力的影響仍有待確定。在這里,我們證明通過四倍體胚泡互補產生的所有iPSC小鼠可以使用Tet-on誘導重編程系統耐受長達六代的體細胞突變的累積。

但是,全iPS小鼠的生存能力隨著世代的增加而降低。全基因組測序調查顯示,在整個連續重編程過程中累積了數千個單核苷酸變異(SNV),包括44個非同義變異。

隨後的分析提供證據表明這些累積的SNV導致所得全iPSC小鼠的生存力逐漸降低。不料,我們目前的重編程系統顯示多能幹細胞在擁有一組拷貝數改變(CNA)方面是異質的。這些CNA對於多能細胞是獨特的,並且隨後在分化後代中消失。

E. snv基因突變是什麼意思

是指單核苷酸變異。

華盛頓大學研究人員傑·申德魯及同事,運用基因組編輯技術,對BRCA1基因功能至關重要的13個外顯子上的近4000種單核苷酸變異(SNV)的功能進行了評估,並在2000萬個人類單倍體(HAP1)細胞中進行了後續細胞存活率測定。

最後,研究團隊識別出了約300種會干擾表達的SNV以及400多種錯義突變的SNV(會導致蛋白質的氨基酸序列改變),發現這些變異並無實際功能(不破壞基因的原有功能)。這些功能評分與已知的致病性變異或良性變異的臨床評估密切相關。

(5)snv突變檢測演算法擴展閱讀

在SNV中,基因序列里的「字母」在不同個體間出現差異。

為確定是否有任何SNV導致了Ata的異常,研究人員僅關注了涉及創建蛋白質的區域中的SNV,並且過濾掉通常出現在一般人群中的變異。

這將需要研究的SNV減少至54個。雖然很多突變此前從未被描述過,但研究人員發現,大多數突變發生在已知涉及骨骼形成以及此前牽扯到骨骼疾病的基因中。他們在日前出版的《基因組研究》雜志上報告了這些發現。

例如,研究人員辨別出編碼膠原蛋白(構成骨骼和軟骨)的基因中的SNV。其他突變導致了類似於Ata所患缺陷(比如少於正常數量的肋骨或者身材矮小)的基因中的SNV也被辨別出來。

F. 生信課程筆記10-變異的識別

宅在家兩個多月,不知不覺已經是春天了,也許距離返校的日子更近了吧...

變異 ,指的是實際測序數據與國際規定的參考基因組之間的區別。很多變異其實只是造成人類多樣性的原因。 突變 ,指的是那些與疾病相關的變異。
舉個例子:ENSEMBL等規定的人類參考基因組文件某位置是AAAAA,然後一個人實際測序得到的序列為AGCAA,那麼相比於參考基因組,這個人就有2個變異位點。對於第2個位置,如果查看所有已知的測序,絕大部分人都是G,說明是參考基因組出現了問題,這個變異就不能稱作突變。對於第3個位置,如果查看所有已知的測序,絕大部分人都是A,而恰好有一個人不是A,但他是個患者,那麼這個變異就是突變了。

SNP(single nucleotide polymorphism):單核苷酸多態性。 個體間基因組DNA序列同一位置單個核苷酸變異(替換、插入或缺失)所引起的多態性。在人類基因組中SNP分布普遍並且密度較大,總數超過107, 平均每300bp(也有說1kbp)就有一個SNP。或稱單核苷酸位點變異SNV。
INDEL(insertion-deletion):插入和缺失。 基因組上小片段(>50bp)的插入或缺失。
CNV( number variation):基因組拷貝數變異。 基因組中大片段的DNA形成非正常的拷貝數量。比如一個基因在染色體的一條染色單體上的數目為1,但是在染色體復制過程中,復制結束後該基因在染色單體數目由1變成了2或者n。它發生的頻率遠遠高於染色體結構變異,並且整個基因組中覆蓋的核苷酸總數大大超過SNP的總數。
SV(structure variation):結構變異。 染色體大片段的插入與缺失,染色體內部的某區域發生翻轉顛換,兩條染色體之間發生重組。

一般情況下只分析SNP,其它類型的變異分析有難度或不準確。
來自兩個不同個體的DNA片段AAGCCTA和AAGCTTA為等位基因。幾乎所有常見的SNP位點只有兩個等位基因。
在人體中,SNP的發生機率大約是0.1%,也就是每1000個鹼基對就可能有一個SNP(密度高)。對疾病發生和葯物治療有重大影響的SNP,估計只佔數以百萬計SNP的很小一部分。
SNP位點的分布是不均勻的,在非轉錄序列比在轉錄序列更常見。編碼區的單核苷酸多態性——編碼 SNP(coding SNP,cSNP)也有同義和非同義兩種類型,非同義SNP會改變蛋白質的氨基酸序列。基因非編碼區、基因間隔區的SNP仍然可能影響轉錄因子結合、剪接等過程。
從演化的觀點來看,SNP具有相當程度的穩定性,即使經過代代相傳,SNP所引起的改變卻不大,因此可用以研究族群演化。

HISAT2 是一款利用改進的BWT演算法進行序列比對的軟體。由約翰霍普金斯大學計算生物學中心(CCB at JHU)開發,是TopHat的升級版本,速度提高了50倍。利用 HISAT2 + StringTie 流程,可以快速地分析轉錄組測序數據,獲得每個基因和轉錄本的表達量。

首先需要構建參考基因組索引用於下一步的比對。HISAT2提供了兩個腳本用於從基因組注釋GTF文件中提取剪接位點和外顯子位置,基於這些特徵,可以使 RNA-Seq reads 比對更加准確。然後再進行reads mapping。

比對結果:

SAM(sequence Alignment/mapping)數據格式是目前高通量測序中存放比對數據的標准格式。BAM是SAM的二進制格式。使用samtools將sam文件轉化為bam文件,並進行排序。

SAM文件:

vcf格式(Variant Call Format)是存儲變異位點的標准格式,用於記錄variants(SNP / InDel)。BCF是VCF的二進制文件。

stats統計文件:

G. 什麼是SNP、SNV(單核苷酸位點變異)

單核苷酸多態性,SNP或單核苷酸位點變異SNV。個體間基因組DNA序列同一位置單個核苷酸變異(替代、插入或缺失)所引起的多態性。

人基因組上平均約每1000個核苷酸即可能出現1個單核苷酸多態性的變化,其中有些單核苷酸多態性可能與疾病有關,但可能大多數與疾病無關。

單核苷酸多態性是研究人類家族和動植物品系遺傳變異的重要依據。在研究癌症基因組變異時,相對於正常組織,癌症中特異的單核苷酸變異是一種體細胞突變,稱做SNV。

SNP在基因組內的形式

一是遍布於基因組的大量單鹼基變異;

二是分布在基因編碼區(codingregion),稱其為cSNP,屬功能性突變。

SNP在單個基因或整個基因組的分布是不均勻的:

(1)非轉錄序列要多於轉錄序列

(2)在轉錄區非同義突變的頻率,比其他方式突變的頻率低得多。

以上內容參考:網路-單核苷酸多態性

H. 基因檢測有什麼用途主要檢測哪些內容

1基因檢測有什麼用途?

1)
輔助臨床診斷:很多疾病表現出來的症狀類似,臨床上很難進行鑒別診斷,容易混淆。若是通過基因檢測,在基因層面找到致病原因,可以輔助臨床醫生鑒別診斷甚至糾正臨床上的診斷。

2)
指導治療:治療的效果與很多因素相關,排查外在的原因,人與人之間治療的差異主要受遺傳因素的影響。通過基因檢測可以幫助實現個體化治療,提高療效,減少不良反應的發生。

3)
攜帶者篩查:最常見的是唐氏綜合征的篩查。傳統的唐氏綜合征篩查是利用血清學篩查進行的,檢出率為65%-75%,容易漏檢。而無創產前基因檢測則可以准確地篩查出唐氏綜合征患兒,還包括對18三體綜合征和13三體綜合征的篩查。此外,針對具有某些單基因遺傳病(尤其是隱性遺傳病)家族史的高危人群進行相關致病基因的篩查,可以及時發現該家族中致病基因的攜帶情況,進而分析後代患病的風險,為家屬成員提供有效的遺傳信息,防止缺陷基因向下一代遺傳。

4)
指導生育:基因檢測結果,結合疾病不同的遺傳模式可通過遺傳咨詢進行生育指導。通過產前診斷(自然懷孕後進行)或是試管嬰兒結合胚胎植入前篩查或診斷等技術幫助生育健康的寶寶。

5)
為造血幹細胞移植提供精確的配型信息:如地中海貧血、粘多糖貯積症患者、白血病等需要通過移植造血幹細胞進行治療時必須進行HLA分型,評估移植後排斥反應的發生率。

2基因檢測主要檢測哪些內容?

基因檢測可以檢測的基因突變包括:由於體內外各種因素使基因特定的DNA序列的鹼基組成或排列順序發生改變,導致DNA一級結構發生改變。基因檢測主要檢測基因序列的各種改變,包括單個鹼基的改變,即單核苷酸變異(SNV),大或小序列片段的插入和缺失(DNA序列插入/缺失一個或多個核苷酸的突變,即Insertion&
Deletion,InDel),序列片段的拷貝數變異(Copy Number Variant,CNV),序列的結構變異(Structure
Variant,SV),動態突變等等,目前最主要的檢測突變類型是單核苷酸變異(SNV)、插入和缺失突變(InDel)和拷貝數變異(CNV)。

I. RNA-seq中的常見問題匯總

參考鏈接: http://www.huangshujia.me/2018/05/26/2018-05-26-How-Does-Sequencing-Duplicates-happen.html

這是一個非常好的問題。我的回答是: RNA-Seq不能代替WES完成外顯子的變異檢測 ,原因如下:

(1). 轉錄本不是全部的外顯子。 由於基因通過可變剪切出不同的轉錄本,實現多能性。那麼,沒被該轉錄本包括的外顯子就丟失了;

(2). 轉錄本數據在基因上的覆蓋度是極度不均勻的。 不同基因的表達量不同,有些很高,有些甚至沒有。進行變異檢測的時候,這種不均勻性會極大影響變異結果的有效檢出。 導致很多發現的變異可能都是那些高表達但是卻很可能不具備什麼關注點的基因上。 如果這時你還是想獲得更多的變異,那麼到頭來還是得花更多的錢加大測序深度;

(3). 目前對轉錄本數據進行變異檢測,還是一個偏於補充性質的分析。 RNA-Seq的目的主要還是集中在基因表達方面,以及尋找差異表達基因和融合基因上。對於變異檢測,這類數據中也肯定可以發現,但假陰一定是很高的,比如低表達的基因,甚至是在這個組織(或者樣本)中不表達的基因,你就無法有效檢出它基因組上的變異了。另外,由於目前的二代測序系統並不能對RNA中的U鹼基進行識別,因此,RNA測序的時候需要先反轉錄為cDNA,這個過程會為RNA的變異檢測帶來一定程度的假陽結果;

(4). 變異檢測范圍有限。使用RNA-Seq數據很難發現除單鹼基變異(SNV)之外的其他突變(比如Indel)。

要搞清楚這個read重復(plicate)的問題,我想我們需要從NGS數據的產出過程說起,具體來說如下:

我們一般認為第1步DNA提取出來的是完整的基因組,打斷則是完全隨機的——通常來說也確實如此。

在第3步, PCR擴增時,同一個DNA片段會產生多個相同的拷貝,第4步測序的時候,這些來源於同!一!個!拷貝的DNA片段會結合到Fellowcell的不同位置上,生成完全相同的測序cluster,然後被測序出來,這些相同的序列就是plicate。 這是plicate的第一個來源,也是主要來源,稱為PCR plicates(PCR重復)。

同樣,在第4步,生成測序cluster的時候,某一個cluster中的DNA序列可能搭到旁邊的另一個cluster的生成位點上,又再重新長成一個相同的cluster,這也是序列plicate的另一個來源,這個現象在Illumina HiSeq4000之後的Flowcell中會有這類Cluster plicates,這是第二類plicate(如下圖)。

在第5步中,某些cluster在測序的時候,捕獲的熒光亮點由於光波的衍射,導致形狀出現重影(如同近視散光一樣),導致它可能會被當成兩個熒光點來處理。這也會被讀出為兩條完全相同的reads,這是第三類plicate, 稱之為Optical plicates(光學重復);

以上三種比較常見,還有第四種, 稱為Sister plicates,這是比較特殊的一個情況。 它是文庫分子的兩條互補鏈同時都與Flowcell上的引物結合分別形成了各自的cluster被測序,最後產生的這對reads是完全反向互補的。 比對到參考基因組時,也分別在正負鏈的相同位置上,在有些分析中也會被認為是一種plicates。

另外,據說 NextSeq 平台上還出現過由於熒光信號捕獲相機移動位置不夠,導致 tile 邊緣被重復拍攝,每次采樣區域的邊緣由於重復采樣而出現了plicates, 下圖中藍色點代表 plicates, 可以看到在tile的左右兩側明顯富集。

以上,除了NextSeq的情況之外, 所有這些不同類型的plicates都各有特點。 比如,PCR plicate的特點是隨機分布於Flowcell表面;而cluster plicates和optical plicates 的特點是它們都來自Flowcell上位置相鄰的cluster。Cluster的位置一般都會被記錄在原始測序fastq文件@Sequence-id那一行中。

這些Read重復都會一定程度上導致一些鹼基信號被錯誤地拉高或者減低,會對後續分析帶來干擾,特別是在WGS和WES分析時都需要去除。 如果測序過程沒什麼特殊問題或者原因,那麼,測序數據的plicate比例一般都在10%以下。

PCR plicates可以通過PCR-free來避免。並且PCR本身還會帶來一些其他的問題,比如擴增過程自帶了一定的偏向性,這會損失一定的測序隨機性,使得某些序列信息被擴大或者減小。所以, 只要DNA起始量足夠,那麼我們就應該盡量採用PCR Free的方式來建庫。

參考鏈接:
http://blog.sina.com.cn/s/blog_5c2f929b0102w5b8.html
https://www.cnblogs.com/leezx/p/6247885.html

樣本 :就是待測的DNA、RNA或蛋白序列,樣本來源單一的就是單樣本,樣本來源於多處就是多樣本,一般我們測序用的樣本都是單樣本,但有時候有特殊需求,我們會把一些樣本混合在一起測序,也就是多樣本測序。

文庫 :二代三代讀長都是有限的,為此我們必須將全長的序列打斷成小片段的文庫才能進行測序。總的來說,在NGS分析之前,制備RNA或DNA的主要步驟包括:片段化和/或篩分指定長度的目標序列;將目標片段轉化成雙鏈DNA;在片段末端連上寡核苷酸接頭;以及定量最終的文庫。

單端測序和雙端測序 :單端測序(Single-read)首先將DNA樣本進行片段化處理形成200-500bp的片段,引物序列連接到DNA片段的一端,然後末端加上接頭,將片段固定在flow cell上生成DNA簇,上機測序單端讀取序列(圖1)。 Paired-end方法是指在構建待測DNA文庫時在兩端的接頭上都加上測序引物結合位點,在第一輪測序完成後,去除第一輪測序的模板鏈,用對讀測序模塊(Paired-End Mole)引導互補鏈在原位置再生和擴增,以達到第二輪測序所用的模板量,進行第二輪互補鏈的合成測序(圖2)。

flowcell :FC,一個FC就是一個載玻片狀的載體,它是測序的場所。

lane :表示測序晶元上的一條流通槽,測序文庫與試劑均在裡面,測序信號的掃描也是按照一條lane上的一個tile進行。一個FC有多條lane,一般是8條

run :測序儀運行一次

參考鏈接: https://mp.weixin.qq.com/s/awdjoXRYobrQAbXmAp3C0g
在使用bwa進行比對時,會有-R參數用來補充read group信息,這對於後續進行call variation時必要的
read group :在sam中以@RG開頭,它是用來將比對的read進行分組的。不同的組之間測序過程被認為是相互獨立的,這個信息對於我們後續對比對數據進行錯誤率分析和Mark plicate時非常重要。
1)ID,這是Read Group的分組ID,一般設置為測序的 lane ID (不同lane之間的測序過程認為是獨立的),下機數據中我們都能看到這個信息的,一般都是包含在fastq的文件名中
2)PL,指的是所用的測序平台,這個信息不要隨便寫!特別是當我們需要使用GATK進行後續分析的時候,更是如此!這是一個很多新手都容易忽視的一個地方,在GATK中,PL只允許被設置為:ILLUMINA,SLX,SOLEXA,SOLID,454,LS454,COMPLETE,PACBIO,IONTORRENT,CAPILLARY,HELICOS或UNKNOWN這幾個信息。基本上就是目前市場上存在著的測序平台,當然,如果實在不知道,那麼必須設置為UNKNOWN,名字方面不區分大小寫
3)SM,樣本ID,同樣非常重要,有時候我們測序的數據比較多的時候,那麼可能會分成多個不同的lane分布測出來,這個時候SM名字就是可以用於區分這些樣本;
4)LB,測序文庫的名字,這個重要性稍微低一些,主要也是為了協助區分不同的group而存在。文庫名字一般可以在下機的fq文件名中找到,如果上面的lane ID足夠用於區分的話,也可以不用設置LB。
除了以上這四個之外,還可以自定義添加其他的信息,不過如無特殊的需要,對於序列比對而言,這4個就足夠了。這些信息設置好之後,在RG字元串中要用製表符( )將它們分開
總結:ID一般用來寫lane ID,如果在測的時候一個樣本一個lane,那也可以是sample id。PL必須是它指定的那幾個。SM是樣本的ID,如果是一個樣本一個lane的話,ID=SM,如果是一個樣本多個lane的話(測序很深時),ID是laneID,SM是樣本id,要做區分。LB,可以隨便設置。
例子:

FASTQ文件裡面這些被測序下來的read是隨機分布於基因組上面的,第一步的比對是按照FASTQ文件的順序把read逐一定位到參考基因組上之後,隨即就輸出了,它不會也不可能在這一步裡面能夠自動識別比對位置的先後位置重排比對結果。因此,比對後得到的結果文件中,每一條記錄之間位置的先後順序是亂的,我們後續去重復等步驟都需要在比對記錄按照順序從小到大排序下來才能進行,所以這才是需要進行排序的原因
[注意] 排序後如果發現新的BAM文件比原來的BAM文件稍微小一些,不用覺得驚訝,這是壓縮演算法導致的結果,文件內容是沒有損失的。

https://mp.weixin.qq.com/s/awdjoXRYobrQAbXmAp3C0g

首先什麼是重復序列,重復序列是在進行PCR擴增時,由同一個DNA分子產生了很多的相同的拷貝。重復序列的存在會導致對於變異的判斷產生錯誤,主要有以下幾點:
1)DNA在打斷的時候會發生一些變異,而PCR會擴大這個信號,導致假陽性的出現。
2)PCR過程會引入新的變異,這些變異越早發生,那其在後續的擴增中錯誤的拷貝會越多,導致假陽性
3)PCR本身存在序列偏好性,如果存在真實的變異後,PCR產生了偏好性,如對reference序列擴增偏向強烈,那變異的鹼基信息會減少,導致假陰性,反之,導致假陽性。
4)目前使用的主流工具,GATK、Samtools、Platpus等這種利用貝葉斯原理的變異檢測演算法都是認為所用的序列數據都不是重復序列(即將它們和其他序列一視同仁地進行變異的判斷,所以帶來誤導),因此必須要進行標記(去除)或者使用PCR-Free的測序方案
其次是如何識別或去除重復序列,既然PCR擴增是把同一段DNA序列復制出很多份,那麼這些序列在經過比對之後它們一定會定位到基因組上相同的位置,比對的信息看起來也將是一樣的!於是,我們就可以根據這個特點找到這些重復序列了!事實上,現有的工具包括Samtools和Picard中去除重復序列的演算法也的確是這么做的。不同的地方在於,samtools的rmp是直接將這些重復序列從比對BAM文件中刪除掉,而Picard的MarkDuplicates默認情況則只是在BAM的FLAG信息中標記出來,而不是刪除,因此這些重復序列依然會被留在文件中,只是我們可以在變異檢測的時候識別到它們,並進行忽略。

J. 請問 SNV(single nucleotide variants)和 SNP(single nucleotide polymorphism)有什麼區別

「SNV」是指單鹼基變異,也稱為點突變;「SNP」是指單核苷酸多態性。SNV與NP的區別如下:

一、性質不同

SNV:SNV是一種由單個鹼基改變發生的突變。

SNP:SNP是一種DNA序列多態性。

二、產生原因不同

SNV:SNV的產生原因是鹼基替換、單鹼基插入或鹼基缺失等。

SNP:SNP的產生原因是在基因組水平上由單個核苷酸的變異。

三、影響因素不同

SNV:SNV的影響因素包括物理因素、化學因素,例如紫外線、倫琴射線等。

SNP:SNP的影響因素包括單鹼基變異、轉錄區非同義突變、基因組分布不均等。


閱讀全文

與snv突變檢測演算法相關的資料

熱點內容
安卓系統如何打開電腦軟體 瀏覽:566
android監聽事件處理 瀏覽:743
h3c伺服器怎麼看功率 瀏覽:119
前端錄制文件如何上傳伺服器 瀏覽:536
雅黑pdf 瀏覽:457
python使用領域 瀏覽:880
買蘭博基尼用什麼app 瀏覽:137
android關閉後台運行 瀏覽:505
python輸出路徑為超鏈接 瀏覽:533
caxa為什麼沒有加密鎖 瀏覽:792
伺服器怎麼設置才能用IP訪問 瀏覽:663
郵件附件加密後打開能顯示嗎 瀏覽:724
榮耀x10拍照演算法 瀏覽:569
androidgradle配置簽名 瀏覽:96
文件夾左邊的空心三角符號是什麼 瀏覽:287
app英語音頻試卷掃碼怎麼聽 瀏覽:613
字元串編譯預處理 瀏覽:704
蘋果手機怎麼會顯示多個App 瀏覽:241
不去互聯網程序員 瀏覽:555
電腦qq郵箱解壓的圖片保存在哪裡 瀏覽:550