A. 基因中map和read是什么意思
此处,map的意思是“比对到基因图上”;read是指测序出的一条序列,也称“读序”。
正在做RNA seq?
RPKM, Reads Per Kb per Million reads
RPKM=(10的9次方×C)/(N×L)。RPKM为某基因的表达量,C为唯一比对到该基因的reads数,N为唯一比对到参考基因的总reads数,L为该基因编码区的碱基数。RPKM法能消除基因长度和测序量差异对计算基因表达的影响,计算得到的基因表达量可直接用于比较不同样品间的基因表达差异。
B. 如何根据RPKM值求差异表达基因
差异表达基因分析是根据表型协变量(分类变量)鉴定组间差异表达,它属于监督性分类的一种。在鉴定差异表达基因以前,一般需要对表达值实施非特异性过滤(在机器学习框架下属于非监督性分类),因为适当的非特异性过滤可以提高差异表达基因的检出率、甚至是功效。R分析差异表达基因的library有很多,但目前运用最广泛的Bioconctor包是limma。
鉴定差异表达基因是表达谱芯片分析pipeline中必须的分析步骤。差异表达基因分析是根据表型协变量(分类变量)鉴定组间差异表达,它属于监督性分类的一种。在鉴定差异表达基因以前,一般需要对表达值实施非特异性过滤(在机器学习框架下属于非监督性分类),因为适当的非特异性过滤可以提高差异表达基因的检出率、甚至是功效。R分析差异表达基因的library有很多,但目前运用最广泛的Bioconctor包是limma。
C. 拼接转录本cluster怎么确定差异基因
FoldChange,就是两样品中同一个基因表达水平的变化倍数。
可以用RPKM、FPKM或TPM值来计算。实验组和正常组的表达值的差异倍数,是用于检测差异表达基因的最基本的方法,由于其简单,易理解和不错的实验结果,使得其成为差异表达直观分析的首要选择。
FoldChange方法在探测差异表达基因时,能够直接的得到差异变化值,因此在与差异表达绝对值相关的研究时具有优势。
D. 为什么rpkm是fpkm的两倍
R是reads,F是fragments,因而对于单端测序来说,二者相同;对于双端测序,FPKM将两端的reads当作一个fragment,只计算比对到同一转录本的数量,所以有RPKM是FPKM两倍的情况
E. 如何计算cuffdiff中的FPKM值
FPKM与RPKM计算方法基本一致。公式如下:
(5)rpkm计算法扩展阅读:
FPKM计算的是片段(fragments),而RPKM计算的是数据(reads)。Fragment比read的含义更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个read。
比如对应到该基因的read有1000个,总reads个数有100万,而该基因的外显子总长为5kb,那么它的FPKM为:
10^9*1000(reads个数)/10^6(总reads个数)*5000(外显子长度)=200
或者:1000(reads个数)/1(百万)*5(K)=200这个值反映基因的表达水平。
F. geo数据库数据如何标准化
标准化的方法就是Counts值:
对给定的基因组参考区域,计算比对上的read数,又称为raw count(RC)。
aw count作为原始的read计数矩阵是一个绝对值,而绝对值的特点是基因长度、测序深度不同不可以比较。所以我们要进行标准化把count矩阵转变为相对值,去除基因长度、测序深度的影响,我们采用分析的。
标准化的三种方法得出的三种值:
RPM (Reads per million mapped reads):RPM方法:10^6标准化了测序深度的影响,但没有考虑转录本的长度的影响。
RPKM/FPKM方法:
103标准化了基因长度的影响,106标准化了测序深度的影响。TCGA的数据分析多采用这种结果。
TPM (Transcript per million):TPM的计算方法也同RPKM/FPKM类似,TPM可以看作是RPKM/FPKM值的百分比。
具体判断方法:
表达量是否需要重新标准化。
可以通过boxplot函数观察一下样本表达丰度值的分布是否整齐进行判断。
是否需要log2:根据数据值的大小。
如果表达丰度的数值在50以内,通常是经过log2转化的。如果数字在几百几千,则是未经转化的。
G. 差异基因分析pvalue,fdr是怎么计算的
在利用RNA-seq数据比较分析两个样品中同一个基因是否存在差异表达的时候,一般选取两个标准:
i)FoldChange
FoldChange,很容易理解了。就是两样品中同一个基因表达水平的变化倍数。可以用RPKM值来计算,关于RPKM的计算方法,请参考<RPKM的简介>
ii)FDR校正后的p-value,即q-value
FDR值的计算方法如下:
1)对每个基因进行p-value的计算
假设观测到基因A对应的reads数为x,已知在一个大文库中,每个基因的表达量只占所有基因表达量的一小部分,在这种情况下,p(x)的分布服从泊松分布。已知样本一中唯一比对到基因组的总reads数为N1,样本二中唯一比对到基因组的总reads数为N2,样本一中唯一比对到基因A的总reads数为x,样本二中唯一比对到基因A的总reads数为y,则基因A在两样本中表达量相等的概率可由以下公式计算:
H. fpkm能代表表达量吗
fpkm不能代表表达量。fpkm是衡量基因相对表达量一个公式。
FPKM是将Map到基因的Fragments数除以Map到Genome的所有Read数(以Million为单位)与RNA的长度(以KB为单位)。适用于单端和双端测序。
FPKM和RPKM的区别:
不同点就是FPKM计算的是片段(fragments),而RPKM计算的是数据(reads)。
Fragment比read的含义更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个read。
FPKM和RPKM RPKM代表每千个碱基的转录每百万映射读取读数。 FPKM代表每千个碱基的转录每百万映射读取的碎片。
I. 一个基因序号中3T_FPKM是什么意思
颜色代表了基因在样品中的表达量水平(log2FPKM+1)。Cuffdiff采用FPKM[16]()作为衡量转录本或基因表达水平的指标,FPKM计算公式如下: