A. 基因检测对癌症有用吗
针对肿瘤的基因图谱进行测试,从而确定到底是发生了哪些突变,这个过程就叫做基因检测。基因检测就是为了最大限度的增加每个患者对药物选择的正确性。选药前,先检测患者的基因,看患者体内是否存在已报道的药物靶点基因。如果存在靶点基因,那么患者对药物敏感的可能性就会大幅度的提高。在实际的治疗过程中,基因检测可以帮助医生和患者制定最佳的治疗方案。
癌症中可能发生许多类型的基因改变。四种主要改变包括:
1) 单核苷酸变异体(SNV),也称为点突变。SNV由一个碱基处的碱基置换产生。这些可能导致编码蛋白的氨基酸序列(错义突变)或蛋白过早截短(无义突变)。
2) 连续核苷酸的小复制。涉及一个或几个核苷酸的插入或缺失,或涉及同时缺失和插入一个或几个碱基(indelsa)的复杂突变。这些类型的突变可能是“框内的”,导致蛋白质中氨基酸的加入或减少,或可导致“移码”,通常导致蛋白质的过早截短。
3) 外显子或基因拷贝数目的变化。外显子拷贝数变化包括包含整个外显子并影响蛋白质功能结构域的大的重复或缺失;基因拷贝数变化包括整个基因的扩增或缺失。
4) 遗传物质的结构变异(SV)或大的结构异常。包括由多个染色体之间或单个染色体内的断点引起的易位或倒位。这些通常导致融合基因和相关融合蛋白。
通常,致癌突变聚集在来自不同患者的肿瘤的“热点”突变。一些热点SNV可能会频繁发生,而另一些则很少见
B. 怎样说明是体系突变,又怎样做说明是胚系突变
胚系突变又叫生殖细胞突变,是来源于精子或卵子这些生殖细胞的突变,因此通常身上所有细胞都带有突变;体细胞突变又叫获得性突变,是在生长发育过程中或者环境因素影响下后天获得的突变,通常身上只有部分细胞带有突变。
突变并不总是和疾病挂钩,有的只是影响肤色、相貌等。
胚系突变可以遗传,这也是有血缘关系的亲戚,总是或多或少有些像的原因。
大部分胚系突变的作用是:成就独一无二的你
但是,当胚系突变发生在BRCA1,BRCA2等基因上的时候,就可能导致肿瘤的风险大大升高。
为何高达87%?
肿瘤本质上是基因病,而且是多个基因突变累积导致的复杂疾病。BRCA1这个胚系突变相当于肿瘤的第一个突变,出生就带有。相对于不携带者,突变出现的时间大大提前,同时,后续体细胞突变积累更加容易。
后续的体细胞突变有什么意义?
肿瘤细胞带有的与正常细胞不一样的体细胞突变,有的被科学家们变成了靶向药物的靶点
——杀敌不伤己的好策略!👍
Q
&
A
为什么要做两个质评,发布两个结果呢?
因为目的不同,所需要的检测不同:
· 遗传性肿瘤——胚系突变检测
· 寻找靶向药物,肿瘤负荷监测等
——体细胞突变检测
哪个检测更容易?
实现准确无误的检测,其实都不容易。
从卫计委临检中心发布的结果来反推,相对而言体细胞突变检测更难(满分少,合格率低)。背后的原因可能在于体细胞突变是部分细胞带有的突变,突变频率低,对于检测灵敏度要求更高。
更多问题?请联系我们
[email protected]
4001666506
C. 解读“浅层测序“-“浅测序“-“低深度测序“
近日,Sentieon与中国遗传疾病诊断领导者安吉康尔积极合作,共同开发测试了基于Sentieon机器学习变异检测模块DNAscope的“浅”测序模型,并探索了该模型在遗传病临床诊断领域的应用。结果显示,使用这一模型分析,在不降低变异检测准确度的前提下,能在相同测序通量下增加50%以上的样本数量,在测序与分析两方面同时为用户降低成本。
自从NGS被应用在了全基因组和全外显子测序以来,测序深度的影响被广泛研究。测序深度是测序成本的决定因素,但另一方面过低的深度会导致部分区域的突变检测准确性大幅度下降,因此需要寻找到一个平衡点。
我们都知道,每一个检测到的变异都需要若干条reads的支持,低于一定的阈值则难以将真实突变与引入的错误区分开来。然而由于基因组中GC分布的不均匀,简单重复序列的存在,外显子靶向扩增效率差异等情况的存在,实际map在基因组上的reads的深度是非常不平均的。尤其是全外显子或者panel产生的数据数据,深度均一性比全基因组要更低,某些位点难以进行准确的突变检测。
从下图文献报道中我们可以看到,在全外显子的数据中,错误的突变主要来自于10x以内的低深度区域;相比之下全基因组数据的覆盖均一度较好,但是错误的突变同样来自于较低深度区域。
换言之,要想进一步提升变异检测的准确度,核心问题是提升低深度区域的准确度。
我们都知道, GATK最佳实践流程推荐的joint-calling是人群队列变异检测的重要工具。基于单个样本的变异检测往往产生难以避免的错误,包括由于覆盖度不足导致的假阴性,建库测序错误导致的假阳性,以及难以区分阴性位点和不确定(no-call)位点,这些都会导致最终人群变异频率计算的错误。相比之下,joint-calling利用群体的统计背景,有效矫正每个样本检出变异的置信度,从而提高检测的敏感性和特异性。这对发现和确认队列中罕见变异位点尤其重要。
但是,当全基因组数据规模上升到万人或十万人规模的时候,如何高效使用计算存储资源来快速准确分析大规模样本,不可避免成为了一个巨大的挑战。在应对挑战搭建数据分析流程的时候,我们应该始终关注以下四个因素:效率、精度、成本、灵活性。单个样本数据的分析处理虽然流程上相对简单,但是,在队列项目大样本量的背景下,如何保证分析精度,提高分析效率,降低整体分析成本,对项目的成本控制和完成进度都是至关重要的问题。在Joint-calling方面,虽然GATK有现成方案,但其运行效率较为低下,可扩展性也较差,每次仅能处理100个左右的样本,然后需要逐步一次次合并,这样会造成精度损失,而且效率低下,容易出错。队列项目需要新的高效的可扩展的joint-calling解决方案。
大型队列研究另一个特别需要关注的方面是流程和生信工具的标准化,以方便不同队列之间的数据交换、对比和交叉使用,避免重新处理。因此,数据分析流程的搭建和工具的选择至关重要,一定要符合业界公认的标准。MSSNG项目选择了CCDG (Centers for Common Disease Genomics) 发布的分析流程标准。CCDG流程规定了参考基因组版本,从FASTQ到CRAM文件的各步骤分析工具和参数选择,以产生功能等效 (functionally equivalent) 的变异检测结果,能被广泛应用于多个人群队列项目。
Sentieon的DNAscope流程相比于GATK金标准而言,改进了核心算法,拥有更加准确的局部重组装能力,能够大幅度提升SNP和Indel的检测灵敏度。同时,基于机器学习模型过滤器的DNAscope流程经过重训练之后,可以很好的适配包括华大测序仪在内的不同测序平台,在“Sentieon DNAscope助力华大智造MGI测序仪提升变异检测准确性”一文中已有展示:在加速5-10倍的基础上,准确率显着优于GATK流程,并且在绝大部分样本中优于DeepVariant。DNAscope流程的原理类似于GATK流程,大体可以分为3个步骤,首先是上游处理,将FASTQ文件经过比对去重等步骤处理为BAM文件;接下来通过自研算法生成潜在变异列表,这一步利用了DNAscope的优异Haplotye拼接以及超高灵敏度,确保尽可能少的假阴性;最后在潜在变异上运行机器学习模型过滤器,根据训练生成的随机森林模型将假阳性从真阳性中区分出来,比GATK自带的简单统计模型更为精准。
在优异的基础性能之上,DNAscope还可以很方便的训练与搭载不同的机器学习模型文件,进一步强化针对特定数据类型的适应性。Sentieon与安吉康尔合作,利用HG001和HG005的标准品数据进行降采样之后补充已经使用的常规深度训练集,训练了最新版本的模型文件,提升了分析流程对于低深度数据的准确度。
我们使用HG001/NA12878标准品在华大智造MGISEQ2000平台测序,生成了WGS和WES数据分别进行性能测试。WGS为普通PCR建库,WES为IDT v1全外显子探针捕获建库。两种数据各自做阶梯数据量切割,WGS截取16-49x范围内5个梯度,WES截取58-210x范围内7个梯度,随后每份数据分别使用DNAscope以及GATK进行SNV和Indel变异检测。其中,DNAscope使用上文所述的拓展适配低深度的机器学习模型文件(DNAscopeModelBGIBeta0.4.model);GATK的结果我们使用DNAseq提供匹配数据(发表文章doi.org/10.3389/fgene.2019.00736表明DNAseq与GATK4.0结果一致)。变异一致性使用hap.py进行评估,真集为GIAB HG001 highconf v3.3.2,WGS的评估范围是真集给定区域,WES为该区域与目标捕获区域交集。
如下图所示,在统计了SNP和Indel的假阳性(FP)与假阴性(FN)的数量之和,并且在每个深度进行对比之后,我们可以明显看出DNAscope在每个深度的错误数都远小于GATK。具体来看DNAscope在20x深度的准确度,SNP方面优于50x GATK,Indel方面与30x GATK基本持平,并且FN较低,更符合临床需求。综合起来,DNAscope在20x优于30x GATK结果。
Sentieon浅层测序分析结果
同样的趋势在下图的全外显子标准数据中再一次得到了验证:DNAscope的准确度在不同测序深度都优于GATK,并且在60x的深度下SNP与Indel的准确度均优于GATK在200x的结果。
Sentieon浅层测序分析结果
具体比对两组数据,我们可以发现全基因组数据中错误类型中的占绝大多数是FN,而DNAscope也确实大幅度降低了这部分的错误数量。由于全基因组的均一性较好,所以推测FN主要不是由于覆盖度不足导致,而是来自于基因编码区以外的高复杂度区域。DNAscope在这部分区域的准确度有较大的提升,所以减少了FN的数量。对比之下,全外显子数据中的错误主要类型是FP,DNAscope也同样降低了这部分错误。然而FN主要来自于WES覆盖度过低的区域。面对这种情况,在进一步降低深度之后,DNAscope也难以改善FN的错误。
在整体趋势以外,有两点值得注意:首先是DNAscope在超过100x高深度下的FN反而是高于GATK,这是由于DNAscope机器学习模型的训练集中不包括超过100x的训练数据,所以当前模型只适合于低于100x的数据处理,并不适合高深度的panel数据;第二是GATK Indel FP的数目随着深度上升在持续增长,并且增长速度大于FN的下降,造成整体准确率的下降。这反映了对于Indel的准确率来说测序深度不是一个关键因素。后续我们会对这两个发现以及其他问题做更深入的探索,在机器学习模型训练集中加入更多类型的样本数据,进一步拓展DNAscope模型的泛用性。
另外我们知道,NGS临床应用对于突变位点检测的准确度要求非常高。为了详细了解20x DNAscope的检测结果是否适用于这种高要求的临床场景,我们使用HG002作为标准品进行对比测试,并详细展开了基因组的各个特征区域,比对了在不同区域下DNAscope和GATK的错误结果所占比例。可以看出,无论是单看不同的染色体,还是不同CG%区域,20x DNAscope的准确率都基本与30x GATK数据持平,可以推断两者之间的差异没有明显偏向性。
近年来,遗传疾病基因检测需求飞速增长,行业内对降低测序和分析成本,以及提高检测精度的需求也持续上升。作为回应,Sentieon与安吉康尔的研发团队积极合作,共同开发并验证了DNAscope“浅“测序流程方案。使用这个方案,在确保检测准确度的前提下,可以有效降低测序深度,相同数据产出情况下增加至少50%样品量,并且分析速度相比GATK提升了5-10倍,能够同时为客户节省测序成本和计算成本。本流程不含imputation步骤,经过验证后可适用于临床检测。
D. snv基因突变是什么意思
是指单核苷酸变异。
研究者利用该项技术开发出了可以用不同颜色的荧光信号区分序列中只存在单核苷酸变异(SNV)的mRNA的方法,即采用两对发卡探针,其中两条发卡探针的识别序列包括SNV位点,从而释放不同的HCR引发序列,最终使得两种mRNA被标记上不同颜色的荧光信号。
该方法对研究等位mRNA的不均衡表达,以及对癌细胞中有体细胞突变的mRNA进行检测都具有重要应用前景。
(4)snv突变检测算法扩展阅读
尽管可以从诱导的多能干细胞(iPSC)产生活的小鼠,但是累积的突变对所得iPSC的发育潜力的影响仍有待确定。在这里,我们证明通过四倍体胚泡互补产生的所有iPSC小鼠可以使用Tet-on诱导重编程系统耐受长达六代的体细胞突变的累积。
但是,全iPS小鼠的生存能力随着世代的增加而降低。全基因组测序调查显示,在整个连续重编程过程中累积了数千个单核苷酸变异(SNV),包括44个非同义变异。
随后的分析提供证据表明这些累积的SNV导致所得全iPSC小鼠的生存力逐渐降低。不料,我们目前的重编程系统显示多能干细胞在拥有一组拷贝数改变(CNA)方面是异质的。这些CNA对于多能细胞是独特的,并且随后在分化后代中消失。
E. snv基因突变是什么意思
是指单核苷酸变异。
华盛顿大学研究人员杰·申德鲁及同事,运用基因组编辑技术,对BRCA1基因功能至关重要的13个外显子上的近4000种单核苷酸变异(SNV)的功能进行了评估,并在2000万个人类单倍体(HAP1)细胞中进行了后续细胞存活率测定。
最后,研究团队识别出了约300种会干扰表达的SNV以及400多种错义突变的SNV(会导致蛋白质的氨基酸序列改变),发现这些变异并无实际功能(不破坏基因的原有功能)。这些功能评分与已知的致病性变异或良性变异的临床评估密切相关。
在SNV中,基因序列里的“字母”在不同个体间出现差异。
为确定是否有任何SNV导致了Ata的异常,研究人员仅关注了涉及创建蛋白质的区域中的SNV,并且过滤掉通常出现在一般人群中的变异。
这将需要研究的SNV减少至54个。虽然很多突变此前从未被描述过,但研究人员发现,大多数突变发生在已知涉及骨骼形成以及此前牵扯到骨骼疾病的基因中。他们在日前出版的《基因组研究》杂志上报告了这些发现。
例如,研究人员辨别出编码胶原蛋白(构成骨骼和软骨)的基因中的SNV。其他突变导致了类似于Ata所患缺陷(比如少于正常数量的肋骨或者身材矮小)的基因中的SNV也被辨别出来。
F. 生信课程笔记10-变异的识别
宅在家两个多月,不知不觉已经是春天了,也许距离返校的日子更近了吧...
变异 ,指的是实际测序数据与国际规定的参考基因组之间的区别。很多变异其实只是造成人类多样性的原因。 突变 ,指的是那些与疾病相关的变异。
举个例子:ENSEMBL等规定的人类参考基因组文件某位置是AAAAA,然后一个人实际测序得到的序列为AGCAA,那么相比于参考基因组,这个人就有2个变异位点。对于第2个位置,如果查看所有已知的测序,绝大部分人都是G,说明是参考基因组出现了问题,这个变异就不能称作突变。对于第3个位置,如果查看所有已知的测序,绝大部分人都是A,而恰好有一个人不是A,但他是个患者,那么这个变异就是突变了。
SNP(single nucleotide polymorphism):单核苷酸多态性。 个体间基因组DNA序列同一位置单个核苷酸变异(替换、插入或缺失)所引起的多态性。在人类基因组中SNP分布普遍并且密度较大,总数超过107, 平均每300bp(也有说1kbp)就有一个SNP。或称单核苷酸位点变异SNV。
INDEL(insertion-deletion):插入和缺失。 基因组上小片段(>50bp)的插入或缺失。
CNV( number variation):基因组拷贝数变异。 基因组中大片段的DNA形成非正常的拷贝数量。比如一个基因在染色体的一条染色单体上的数目为1,但是在染色体复制过程中,复制结束后该基因在染色单体数目由1变成了2或者n。它发生的频率远远高于染色体结构变异,并且整个基因组中覆盖的核苷酸总数大大超过SNP的总数。
SV(structure variation):结构变异。 染色体大片段的插入与缺失,染色体内部的某区域发生翻转颠换,两条染色体之间发生重组。
一般情况下只分析SNP,其它类型的变异分析有难度或不准确。
来自两个不同个体的DNA片段AAGCCTA和AAGCTTA为等位基因。几乎所有常见的SNP位点只有两个等位基因。
在人体中,SNP的发生机率大约是0.1%,也就是每1000个碱基对就可能有一个SNP(密度高)。对疾病发生和药物治疗有重大影响的SNP,估计只占数以百万计SNP的很小一部分。
SNP位点的分布是不均匀的,在非转录序列比在转录序列更常见。编码区的单核苷酸多态性——编码 SNP(coding SNP,cSNP)也有同义和非同义两种类型,非同义SNP会改变蛋白质的氨基酸序列。基因非编码区、基因间隔区的SNP仍然可能影响转录因子结合、剪接等过程。
从演化的观点来看,SNP具有相当程度的稳定性,即使经过代代相传,SNP所引起的改变却不大,因此可用以研究族群演化。
HISAT2 是一款利用改进的BWT算法进行序列比对的软件。由约翰霍普金斯大学计算生物学中心(CCB at JHU)开发,是TopHat的升级版本,速度提高了50倍。利用 HISAT2 + StringTie 流程,可以快速地分析转录组测序数据,获得每个基因和转录本的表达量。
首先需要构建参考基因组索引用于下一步的比对。HISAT2提供了两个脚本用于从基因组注释GTF文件中提取剪接位点和外显子位置,基于这些特征,可以使 RNA-Seq reads 比对更加准确。然后再进行reads mapping。
比对结果:
SAM(sequence Alignment/mapping)数据格式是目前高通量测序中存放比对数据的标准格式。BAM是SAM的二进制格式。使用samtools将sam文件转化为bam文件,并进行排序。
SAM文件:
vcf格式(Variant Call Format)是存储变异位点的标准格式,用于记录variants(SNP / InDel)。BCF是VCF的二进制文件。
stats统计文件:
G. 什么是SNP、SNV(单核苷酸位点变异)
单核苷酸多态性,SNP或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。
人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。
单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变,称做SNV。
SNP在基因组内的形式
一是遍布于基因组的大量单碱基变异;
二是分布在基因编码区(codingregion),称其为cSNP,属功能性突变。
SNP在单个基因或整个基因组的分布是不均匀的:
(1)非转录序列要多于转录序列
(2)在转录区非同义突变的频率,比其他方式突变的频率低得多。
以上内容参考:网络-单核苷酸多态性
H. 基因检测有什么用途主要检测哪些内容
1基因检测有什么用途?
1)
辅助临床诊断:很多疾病表现出来的症状类似,临床上很难进行鉴别诊断,容易混淆。若是通过基因检测,在基因层面找到致病原因,可以辅助临床医生鉴别诊断甚至纠正临床上的诊断。
2)
指导治疗:治疗的效果与很多因素相关,排查外在的原因,人与人之间治疗的差异主要受遗传因素的影响。通过基因检测可以帮助实现个体化治疗,提高疗效,减少不良反应的发生。
3)
携带者筛查:最常见的是唐氏综合征的筛查。传统的唐氏综合征筛查是利用血清学筛查进行的,检出率为65%-75%,容易漏检。而无创产前基因检测则可以准确地筛查出唐氏综合征患儿,还包括对18三体综合征和13三体综合征的筛查。此外,针对具有某些单基因遗传病(尤其是隐性遗传病)家族史的高危人群进行相关致病基因的筛查,可以及时发现该家族中致病基因的携带情况,进而分析后代患病的风险,为家属成员提供有效的遗传信息,防止缺陷基因向下一代遗传。
4)
指导生育:基因检测结果,结合疾病不同的遗传模式可通过遗传咨询进行生育指导。通过产前诊断(自然怀孕后进行)或是试管婴儿结合胚胎植入前筛查或诊断等技术帮助生育健康的宝宝。
5)
为造血干细胞移植提供精确的配型信息:如地中海贫血、粘多糖贮积症患者、白血病等需要通过移植造血干细胞进行治疗时必须进行HLA分型,评估移植后排斥反应的发生率。
2基因检测主要检测哪些内容?
基因检测可以检测的基因突变包括:由于体内外各种因素使基因特定的DNA序列的碱基组成或排列顺序发生改变,导致DNA一级结构发生改变。基因检测主要检测基因序列的各种改变,包括单个碱基的改变,即单核苷酸变异(SNV),大或小序列片段的插入和缺失(DNA序列插入/缺失一个或多个核苷酸的突变,即Insertion&
Deletion,InDel),序列片段的拷贝数变异(Copy Number Variant,CNV),序列的结构变异(Structure
Variant,SV),动态突变等等,目前最主要的检测突变类型是单核苷酸变异(SNV)、插入和缺失突变(InDel)和拷贝数变异(CNV)。
I. RNA-seq中的常见问题汇总
参考链接: http://www.huangshujia.me/2018/05/26/2018-05-26-How-Does-Sequencing-Duplicates-happen.html
这是一个非常好的问题。我的回答是: RNA-Seq不能代替WES完成外显子的变异检测 ,原因如下:
(1). 转录本不是全部的外显子。 由于基因通过可变剪切出不同的转录本,实现多能性。那么,没被该转录本包括的外显子就丢失了;
(2). 转录本数据在基因上的覆盖度是极度不均匀的。 不同基因的表达量不同,有些很高,有些甚至没有。进行变异检测的时候,这种不均匀性会极大影响变异结果的有效检出。 导致很多发现的变异可能都是那些高表达但是却很可能不具备什么关注点的基因上。 如果这时你还是想获得更多的变异,那么到头来还是得花更多的钱加大测序深度;
(3). 目前对转录本数据进行变异检测,还是一个偏于补充性质的分析。 RNA-Seq的目的主要还是集中在基因表达方面,以及寻找差异表达基因和融合基因上。对于变异检测,这类数据中也肯定可以发现,但假阴一定是很高的,比如低表达的基因,甚至是在这个组织(或者样本)中不表达的基因,你就无法有效检出它基因组上的变异了。另外,由于目前的二代测序系统并不能对RNA中的U碱基进行识别,因此,RNA测序的时候需要先反转录为cDNA,这个过程会为RNA的变异检测带来一定程度的假阳结果;
(4). 变异检测范围有限。使用RNA-Seq数据很难发现除单碱基变异(SNV)之外的其他突变(比如Indel)。
要搞清楚这个read重复(plicate)的问题,我想我们需要从NGS数据的产出过程说起,具体来说如下:
我们一般认为第1步DNA提取出来的是完整的基因组,打断则是完全随机的——通常来说也确实如此。
在第3步, PCR扩增时,同一个DNA片段会产生多个相同的拷贝,第4步测序的时候,这些来源于同!一!个!拷贝的DNA片段会结合到Fellowcell的不同位置上,生成完全相同的测序cluster,然后被测序出来,这些相同的序列就是plicate。 这是plicate的第一个来源,也是主要来源,称为PCR plicates(PCR重复)。
同样,在第4步,生成测序cluster的时候,某一个cluster中的DNA序列可能搭到旁边的另一个cluster的生成位点上,又再重新长成一个相同的cluster,这也是序列plicate的另一个来源,这个现象在Illumina HiSeq4000之后的Flowcell中会有这类Cluster plicates,这是第二类plicate(如下图)。
在第5步中,某些cluster在测序的时候,捕获的荧光亮点由于光波的衍射,导致形状出现重影(如同近视散光一样),导致它可能会被当成两个荧光点来处理。这也会被读出为两条完全相同的reads,这是第三类plicate, 称之为Optical plicates(光学重复);
以上三种比较常见,还有第四种, 称为Sister plicates,这是比较特殊的一个情况。 它是文库分子的两条互补链同时都与Flowcell上的引物结合分别形成了各自的cluster被测序,最后产生的这对reads是完全反向互补的。 比对到参考基因组时,也分别在正负链的相同位置上,在有些分析中也会被认为是一种plicates。
另外,据说 NextSeq 平台上还出现过由于荧光信号捕获相机移动位置不够,导致 tile 边缘被重复拍摄,每次采样区域的边缘由于重复采样而出现了plicates, 下图中蓝色点代表 plicates, 可以看到在tile的左右两侧明显富集。
以上,除了NextSeq的情况之外, 所有这些不同类型的plicates都各有特点。 比如,PCR plicate的特点是随机分布于Flowcell表面;而cluster plicates和optical plicates 的特点是它们都来自Flowcell上位置相邻的cluster。Cluster的位置一般都会被记录在原始测序fastq文件@Sequence-id那一行中。
这些Read重复都会一定程度上导致一些碱基信号被错误地拉高或者减低,会对后续分析带来干扰,特别是在WGS和WES分析时都需要去除。 如果测序过程没什么特殊问题或者原因,那么,测序数据的plicate比例一般都在10%以下。
PCR plicates可以通过PCR-free来避免。并且PCR本身还会带来一些其他的问题,比如扩增过程自带了一定的偏向性,这会损失一定的测序随机性,使得某些序列信息被扩大或者减小。所以, 只要DNA起始量足够,那么我们就应该尽量采用PCR Free的方式来建库。
参考链接:
http://blog.sina.com.cn/s/blog_5c2f929b0102w5b8.html
https://www.cnblogs.com/leezx/p/6247885.html
样本 :就是待测的DNA、RNA或蛋白序列,样本来源单一的就是单样本,样本来源于多处就是多样本,一般我们测序用的样本都是单样本,但有时候有特殊需求,我们会把一些样本混合在一起测序,也就是多样本测序。
文库 :二代三代读长都是有限的,为此我们必须将全长的序列打断成小片段的文库才能进行测序。总的来说,在NGS分析之前,制备RNA或DNA的主要步骤包括:片段化和/或筛分指定长度的目标序列;将目标片段转化成双链DNA;在片段末端连上寡核苷酸接头;以及定量最终的文库。
单端测序和双端测序 :单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Mole)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。
flowcell :FC,一个FC就是一个载玻片状的载体,它是测序的场所。
lane :表示测序芯片上的一条流通槽,测序文库与试剂均在里面,测序信号的扫描也是按照一条lane上的一个tile进行。一个FC有多条lane,一般是8条
run :测序仪运行一次
参考链接: https://mp.weixin.qq.com/s/awdjoXRYobrQAbXmAp3C0g
在使用bwa进行比对时,会有-R参数用来补充read group信息,这对于后续进行call variation时必要的
read group :在sam中以@RG开头,它是用来将比对的read进行分组的。不同的组之间测序过程被认为是相互独立的,这个信息对于我们后续对比对数据进行错误率分析和Mark plicate时非常重要。
1)ID,这是Read Group的分组ID,一般设置为测序的 lane ID (不同lane之间的测序过程认为是独立的),下机数据中我们都能看到这个信息的,一般都是包含在fastq的文件名中
2)PL,指的是所用的测序平台,这个信息不要随便写!特别是当我们需要使用GATK进行后续分析的时候,更是如此!这是一个很多新手都容易忽视的一个地方,在GATK中,PL只允许被设置为:ILLUMINA,SLX,SOLEXA,SOLID,454,LS454,COMPLETE,PACBIO,IONTORRENT,CAPILLARY,HELICOS或UNKNOWN这几个信息。基本上就是目前市场上存在着的测序平台,当然,如果实在不知道,那么必须设置为UNKNOWN,名字方面不区分大小写
3)SM,样本ID,同样非常重要,有时候我们测序的数据比较多的时候,那么可能会分成多个不同的lane分布测出来,这个时候SM名字就是可以用于区分这些样本;
4)LB,测序文库的名字,这个重要性稍微低一些,主要也是为了协助区分不同的group而存在。文库名字一般可以在下机的fq文件名中找到,如果上面的lane ID足够用于区分的话,也可以不用设置LB。
除了以上这四个之外,还可以自定义添加其他的信息,不过如无特殊的需要,对于序列比对而言,这4个就足够了。这些信息设置好之后,在RG字符串中要用制表符( )将它们分开
总结:ID一般用来写lane ID,如果在测的时候一个样本一个lane,那也可以是sample id。PL必须是它指定的那几个。SM是样本的ID,如果是一个样本一个lane的话,ID=SM,如果是一个样本多个lane的话(测序很深时),ID是laneID,SM是样本id,要做区分。LB,可以随便设置。
例子:
FASTQ文件里面这些被测序下来的read是随机分布于基因组上面的,第一步的比对是按照FASTQ文件的顺序把read逐一定位到参考基因组上之后,随即就输出了,它不会也不可能在这一步里面能够自动识别比对位置的先后位置重排比对结果。因此,比对后得到的结果文件中,每一条记录之间位置的先后顺序是乱的,我们后续去重复等步骤都需要在比对记录按照顺序从小到大排序下来才能进行,所以这才是需要进行排序的原因
[注意] 排序后如果发现新的BAM文件比原来的BAM文件稍微小一些,不用觉得惊讶,这是压缩算法导致的结果,文件内容是没有损失的。
https://mp.weixin.qq.com/s/awdjoXRYobrQAbXmAp3C0g
首先什么是重复序列,重复序列是在进行PCR扩增时,由同一个DNA分子产生了很多的相同的拷贝。重复序列的存在会导致对于变异的判断产生错误,主要有以下几点:
1)DNA在打断的时候会发生一些变异,而PCR会扩大这个信号,导致假阳性的出现。
2)PCR过程会引入新的变异,这些变异越早发生,那其在后续的扩增中错误的拷贝会越多,导致假阳性
3)PCR本身存在序列偏好性,如果存在真实的变异后,PCR产生了偏好性,如对reference序列扩增偏向强烈,那变异的碱基信息会减少,导致假阴性,反之,导致假阳性。
4)目前使用的主流工具,GATK、Samtools、Platpus等这种利用贝叶斯原理的变异检测算法都是认为所用的序列数据都不是重复序列(即将它们和其他序列一视同仁地进行变异的判断,所以带来误导),因此必须要进行标记(去除)或者使用PCR-Free的测序方案
其次是如何识别或去除重复序列,既然PCR扩增是把同一段DNA序列复制出很多份,那么这些序列在经过比对之后它们一定会定位到基因组上相同的位置,比对的信息看起来也将是一样的!于是,我们就可以根据这个特点找到这些重复序列了!事实上,现有的工具包括Samtools和Picard中去除重复序列的算法也的确是这么做的。不同的地方在于,samtools的rmp是直接将这些重复序列从比对BAM文件中删除掉,而Picard的MarkDuplicates默认情况则只是在BAM的FLAG信息中标记出来,而不是删除,因此这些重复序列依然会被留在文件中,只是我们可以在变异检测的时候识别到它们,并进行忽略。
J. 请问 SNV(single nucleotide variants)和 SNP(single nucleotide polymorphism)有什么区别
“SNV”是指单碱基变异,也称为点突变;“SNP”是指单核苷酸多态性。SNV与NP的区别如下:
一、性质不同
SNV:SNV是一种由单个碱基改变发生的突变。
SNP:SNP是一种DNA序列多态性。
二、产生原因不同
SNV:SNV的产生原因是碱基替换、单碱基插入或碱基缺失等。
SNP:SNP的产生原因是在基因组水平上由单个核苷酸的变异。
三、影响因素不同
SNV:SNV的影响因素包括物理因素、化学因素,例如紫外线、伦琴射线等。
SNP:SNP的影响因素包括单碱基变异、转录区非同义突变、基因组分布不均等。