❶ ATAC-seq專題---生信分析流程
ATAC-seq信息分析流程主要分為以下幾個部分:數據質控、序列比對、峰檢測、motif分析、峰注釋、富集分析,下面將對各部分內容進行展開講解。
下機數據經過過濾去除接頭含量過高或低質量的reads,得到clean reads用於後續分析。常見的trim軟體有Trimmomatic、Skewer、fastp等。fastp是一款比較新的軟體,使用時可以用--adapter_sequence/--adapter_sequence_r2參數傳入接頭序列,也可以不填這兩個參數,軟體會自動識別接頭並進行剪切。如:
fastp \
--in1 A1_1.fq.gz \ # read1原始fq文件
--out1 A1_clean_1.fq.gz \ # read1過濾後輸出的fq文件
--in2 A1_2.fq.gz \ # read2原始fq文件
--out2 A1_clean_2.fq.gz \ # read2過濾後輸出的fq文件
--cut_tail \ #從3』端向5』端滑窗,如果窗口內鹼基的平均質量值小於設定閾值,則剪切
--cut_tail_window_size=1 \ #窗口大小
--cut_tail_mean_quality=30 \ #cut_tail參數對應的平均質量閾值
--average_qual=30 \ #如果一條read的鹼基平均質量值小於該值即會被舍棄
--length_required=20 \ #經過剪切後的reads長度如果小於該值會被舍棄
fastp軟體的詳細使用方法可參考:https://github.com/OpenGene/fastp。fastp軟體對於trim結果會生成網頁版的報告,可參考官網示例http://opengene.org/fastp/fastp.html和http://opengene.org/fastp/fastp.json,也可以用FastQC軟體對trim前後的數據質量進行評估,FastQC軟體會對單端的數據給出結果,如果是PE測序需要分別運行兩次來評估read1和read2的數據質量。
如:
fastqc A1_1.fq.gz
fastqc A1_2.fq.gz
FastQC會對reads從鹼基質量、接頭含量、N含量、高重復序列等多個方面對reads質量進行評估,生成詳細的網頁版報告,可參考官網示例:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/good_sequence_short_fastqc.html
經過trim得到的reads可以使用BWA、bowtie2等軟體進行比對。首先需要確定參考基因組fa文件,對fa文件建立索引。不同的軟體有各自建立索引的命令,BWA軟體可以參考如下方式建立索引:
bwa index genome.fa
建立好索引後即可開始比對,ATAC-seq推薦使用mem演算法,輸出文件經samtools排序輸出bam:
bwa mem genome.fa A1_clean_1.fq.gz A1_clean_2.fq.gz
| samtools sort -O bam -T A1 > A1.bam
值得注意的是,在實驗過程中質體並不能完全去除,因此會有部分reads比對到質體序列上,需要去除比對到質體上的序列,去除質體序列可以通過samtools提取,具體方法如下:首先將不含質體的染色體名稱寫到一個chrlist文件中,一條染色體的名稱寫成一行,然後執行如下命令即可得到去除質體的bam
samtools view -b A1.bam $chrlist > A1.del_MT_PT.bam
用於後續分析的reads需要時唯一比對且去重復的,bwa比對結果可以通過MAPQ值來提取唯一比對reads,可以用picard、sambamba等軟體去除p,最終得到唯一比對且去重復的bam文件。
比對後得到的bam文件可以轉化為bigWig(bw)格式,通過可視化軟體進行展示。deeptools軟體可以實現bw格式轉化和可視化展示。首先需要在linux環境中安裝deeptools軟體,可以用以下命令實現bam向bw格式的轉換:
bamCoverage -b A1.bam -o A1.bw
此外,可以使用deeptools軟體展示reads在特定區域的分布,如:
computeMatrix reference-point \ # reference-pioint表示計算一個參照點附近的reads分布,與之相對的是scale-regions,計算一個區域附近的reads分布
--referencePoint TSS \#以輸入的bed文件的起始位置作為參照點
-S A1.bw \ #可以是一個或多個bw文件
-R gene.bed \ #基因組位置文件
-b 3000 \ #計算邊界為參考點上游3000bp
-a 3000 \ #計算邊界為參考點下游3000bp,與-b合起來就是繪制參考點上下游3000bp以內的reads分布
-o A1.matrix.mat.gz \ #輸出作圖數據名稱
#圖形繪制
plotHeatmap \
-m new_A1.matrix.mat.gz \ #上一步生成的作圖數據
-out A1.pdf \ # 輸出圖片名稱
繪圖結果展示:
MACS2能夠檢測DNA片斷的富集區域,是ATAC-seq數據call peak的主流軟體。峰檢出的原理如下:首先將所有的reads都向3'方向延伸插入片段長度,然後將基因組進行滑窗,計算該窗口的dynamic λ,λ的計算公式為:λlocal = λBG(λBG是指背景區域上的reads數目),然後利用泊松分布模型的公式計算該窗口的顯著性P值,最後對每一個窗口的顯著性P值進行FDR校正。默認校正後的P值(即qvalue)小於或者等於0.05的區域為peak區域。需要現在linux環境中安裝macs2軟體,然後執行以下命令:
macs2 callpeak \
-t A1.uni.dep.bam \ #bam文件
-n A1 \ # 輸出文件前綴名
--shift -100 \ #extsize的一半乘以-1
--extsize 200 \ #一般是核小體大小
--call-summits #檢測峰頂信息
註:以上參數參考文獻(Jie Wang,et.al.2018.「ATAC-Seq analysis reveals a widespread decrease of chromatin accessibility in age-related macular degeneration.」Nature Communications)
ATAC分析得到的peak是染色質上的開放區域,這些染色質開放區域常常預示著轉錄因子的結合,因此對peak區域進行motif分析很有意義。常見的motif分析軟體有homer和MEME。以homer軟體為例,首先在linux環境中安裝homer,然後用以下命令進行motif分析:
findMotifsGenome.pl \
A1_peaks.bed \ #用於進行motif分析的bed文件
genome.fa \ #參考基因組fa文件
A1 \ #輸出文件前綴
-size given \ #使用給定的bed區域位置進行分析,如果填-size -100,50則是用給定bed中間位置的上游100bp到下游50bp的區域進行分析
homer分析motif的原理及結果參見:http://homer.ucsd.e/homer/motif/index.html
根據motif與已知轉錄因子的富集情況可以繪制氣泡圖,從而可以看到樣本與已知轉錄因子的富集顯著性。
差異peak代表著比較組合染色質開放性有差異的位點,ChIP-seq和ATAC-seq都可以用DiffBind進行差異分析。DiffBind通過可以通過bam文件和peak的bed文件計算出peak區域標准化的readcount,可以選擇edgeR、DESeq2等模型進行差異分析。
在科研分析中我們往往需要將peak區域與基因聯系起來,也就是通過對peak進行注釋找到peak相關基因。常見的peak注釋軟體有ChIPseeker、homer、PeakAnnotator等。以ChIPseeker為例,需要在R中安裝ChIPseeker包和GenomicFeatures包,然後就可以進行分析了。
library(ChIPseeker)
library(GenomicFeatures)
txdb<- makeTxDbFromGFF(『gene.gtf』)#生成txdb對象,如果研究物種沒有已知的TxDb,可以用GenomicFeatures中的函數生成
peakfile <-readPeakFile(『A1_peaks.narrowPeak』)#導入需要注釋的peak文件
peakAnno <- annotatePeak(peakfile,tssRegion=c(-2000, 2000), TxDb=txdb)
# 用peak文件和txdb進行peak注釋,這里可以通過tssRegion定義TSS區域的區間
對於peak注釋的結果,也可以進行可視化展示,如:
p <- plotAnnoPie(peakAnno)
通過注釋得到的peak相關基因可以使用goseq、topGO等R包進行GO富集分析,用kobas進行kegg富集分析,也可以使用DAVID在線工具來完成富集分析。可以通過挑選感興趣的GO term或pathway進一步篩選候選基因。
❷ rna-seq不能使用bwa比對嗎
對。
_NA測序並不能直接使用DNA測序常用的BWA、Bowtie等比對軟體,這是由於真核生物內含子的存在,導致測到的reads並不與基因組序列完全一致(如下圖所示),因此需要使用TophatHISATSTAR等專門為RNA測序設計的軟體進行比對。
❸ 重測序(RADseq)做群體遺傳分析套路
構建的群體,或自然群體,如各地方品種。
提取DNA後,構建文庫,簡要步驟如下:
① 限制性內切酶TaqI酶切;
② 連接P1接頭;
③ DNA隨機打斷片斷化;
④ 目的片段回收與末端修復;
⑤ 連接P2接頭;
⑥ RAD片段富集;
⑦ 上機測序。
參考: Rapid and cost-effective polymorphism identification and genotyping using restriction site associated DNA (RAD) markers
根據識別標簽序列得到每個個體的測序reads,使用trimmomatic進行過濾(其他質控軟體,如fastqc,multiQC等)
設置過濾參數為:SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50。 過濾標准:兩端質量低於5的鹼基進行切除,並以5bp為窗口進行滑動過濾,對平均質量低於20的窗口進行切除。
BWA (其他比對軟體如bowtie2/soap2/MAQ等)將過濾後的個體clean reads比對到參考基因組序列上。樣本比對率反映的是樣本測序數據與參考基因組的相似性,覆蓋深度和覆蓋度能夠直接反映測序數據的均一性與參考序列的同源性。
使用GATK(或samtools+bcftools)Haplotype Caller模塊進行變異檢測,獲得群體變異集文件(VCF 格式)。對變異進行過濾:過濾參數為缺失率小於或等於0.2、雜合率小於或等於0.2、最小等位基因頻率(MAF) 大於或等於0.05,最終得到高質量的基因型數據。
在獲得高質量的標記數據以後,利用vcftools將vcf文件處理得到plink.ped和plink.map文件(整理為plink軟體所需格式)。
使用plink 軟體隨機選擇連鎖不平衡(LD)小於0.1,且相鄰間隔在300kb以上的SNP位點,最後得到一個包含3420 個SNP位點的標記集,一般是生成.bed文件。
1.祖先成分堆疊圖
使用ADMIXTURE對此 SNP位點集(bed文件)進行群體結構分析(Structure),利用交叉驗證過程確定確定合適的祖先數或亞群(K值)。若不知道理想的K值,可用ADMIXTURE計算,一般當cross-validation error值最低時所對應的K值為最合適的K值。
考慮到樣本所歸屬的分類單元,即看看哪幾個物種聚在一起,對合適的K值利用Structure軟體(速度慢,其他軟體如frappe,ADMIXTURE也可做群體結構圖,並且很快)聚類圖,一些R包如hapmap也是可以做群體結構圖的。
2.PCA
利用GCTA對SNP數據集進行樣本的PCA分析(其他軟體如EIGENSOFT中的smartpca)。GCTA可以直接讀取.bed , .bim , .fam文件,利用–make-grm 生成個體對之間的遺傳關系矩陣,並將GRM的下三角元素保存為二進制文件.grm.id , .grm.bin , .grm.N.bin。使用 –pca 設置要生成主成分的數目,一般來說就可以刻畫出群體結構。這一步會生成 .eigenval 和 .eigenvec 兩個文件。.eigenval文件為各主成分可解釋遺傳信息的比例,.eigenvec文件為每個樣本在top4主成分上的分解值。
3.系統發育樹
構樹的方法有非加權分組平均法(UPGMA,已經很少用)、最小進化法(ME)、鄰接法(NJ)、最大簡約法(MP)、最大似然法(ML)等。
構樹軟體如FastTree/MEGA/cluster X/phylip,美化可以用FigTree/ggtree/treeview/GraPhIAn。
NJ法是基於最小進化原理經常被使用的一種演算法,它不檢驗所有可能的拓撲結構,能同時給出拓撲結構和分支長度。
GWAS的群體遺傳分析也是包含這三個圖,RADseq畢竟是簡化基因組,得到的SNP有限,做這種群體分析效果肯定沒有GWAS好。
❹ RNA-seq中的基因表達量計算和表達差異分析
原文鏈接: RNA-seq中的基因表達量計算和表達差異分析-生物知識學習 (biotechknowledgestudy.com)
差異分析的步驟:
1)比對;
2) read count計算;
3) read count的歸一化;
4)差異表達分析;
背景知識:
1)比對:
普通比對: BWA,SOAP
開大GAP比對:Tophat(Bowtie2);
2) Read count(多重比對的問題):
丟棄
平均分配
利用Unique region估計並重新分配
表達量計算的本質
目標基因表達量相對參照系表達量的數值。
參照的本質:
( 1)假設樣本間參照的信號值應該是相同的;
( 2)將樣本間參照的觀測值校正到同一水平;
( 3)從參照的數值,校正並推算出其他觀測量的值。
例如:Qpcr:目標基因表達量(循環數)相對看家基因表達量(循環數);RNA-seq:目標基因的表達量(測序reads數),相對樣本RNA總表達量(總測序量的reads數),這是最常用的標准。
歸一化的原因及處理原則:
1)基因長度
2)測序量
3)樣本特異性(例如,細胞mRNA總量,污染等)前兩者使用普通的RPKM演算法就可以良好解決,關鍵是第三個問題,涉及到不同的演算法處理。
RNA-Seq歸一化演算法的意義:
基因表達量歸一化:在高通量測序過程中,樣品間在數據總量、基因長度、基因數目、高表達基因分布甚至同一個基因的不同轉錄本分布上存在差別。因此不能直接比較表達量,必須將數據進行歸一化處理。
RNA-seq差異表達分析的一般原則
1)不同樣品的基因總表達量相似
2)上調差異表達與下調差異表達整體數量相似(上下調差異平衡)
3)在兩組樣品中不受處理效應影響的基因, 表達量應該是相近的(差異不顯著)。
4)看家基因可作為表達量評價依據( 待定)
不同的演算法比較:
以什麼數值來衡量表達量:RPKM、FPKM、TPM
以什麼作為參照標准:TMM(edgeR軟體)、De seq矯正
RPKM:是Reads Per Kilobase per Million mapped reads的縮寫,代表每百萬reads中來自於某基因每千鹼基長度的reads數。
本質:1)以reads數為計算單位;
2)對基因長度(基因間的比較)和總數據量(樣本間的比較)做矯正;
1)由於可變剪切,同一基因有效轉錄區域長度未必相同(這個一般情況下可以不考慮,了解一下:Cufflinks軟體考慮了這個問題)優化策略:外顯子或轉錄本水平的表達量分析。
2) 使用reads數計算基因表達量有輕微誤差(這里暫不展開,主要了解一下定義)優化策略:FPKM或 TPM
3) mRNA的總量未必相等。
RPKM的優化:FPKm
F = Fragment,即測序片段數量。這些片段都是從完整的cDNA打碎而來的;
本質:以文庫中的片段數量為計算單位在Paired-end測序中,一個fragment就是兩條PE reads構成的片段。由於是PE比對,理論上比SE比對更可靠。
T = Transcripts
本質:以轉錄本的條數為計算單位。使用轉錄本的條數(或者說:轉錄本的測序深度),代替reads數,在一定條件下定量更准,尤其樣本間表達基因總數差異很大的時候(例如,對照樣本有1萬個基因表達,另外處理組僅有4000個基因表達)。
mRNA總量未必相等
mRNA總量不等——細胞本身不同
例如:活躍組織vs休眠的組織;癌細胞vs正常細胞
mRNA總量不等——污染
例如:核糖體污染外源RNA污染
解決方法——不同演算法比較
其中歸一化演算法介紹:
1)Total Count(TC):總reads數矯正
2)Upper Quartile(UQ):上四分之一分位數(總reads)
矯正
3)Median(Med);中位數(總reads數)矯正
4)Quantile (Q):基因晶元軟體limma中的校正演算法;
5)RPKM:總reads數,但引入了基因長度
6)幾何平均數:Deseq軟體中的演算法;
7)TMM:edgeR軟體中的演算法;
8)RPKM
邏輯1:不同位置數值的穩定性不同
四分位數quartile:將數據按從小到大排列,並分成四等分,這樣得到3個分割點,第一個分割點叫做lowerquartile,第二個叫Media,第三個叫Upper quartile
很顯然,極大值具有極大不穩定性,而且可能會顯著影
響總體之和(假設,我們之中有個馬雲,我們的總收入
有什麼變化?)
所以,Upper quartile和Median的數值,比總表達量之
和更加穩定,更適合作為參照。
邏輯2:表達量居中的基因的表達量值,其數值應該是相似的。
DESeq與edgeR,默認情況下都使用這一的邏輯校正。(DESeq and edgeR Bioconctor packages)
Deseq:異常高表達的基因,會顯著影響細胞中的總mRNA的數量。類似的,如果樣本中受到不同程度的外源RNA,如病毒、真菌等的污染,也會顯著影響樣本總mRNA數,導致RPMK值的誤差。對於這樣的問題,Deseq嘗試對數據進行矯正(矯正因子),使表達量處於中間位置的基因表達量應該是基本相同的(即使用表達量處於中間的基因表達量值作為參照,而減少高表達基因的作用)。
Deseq: 校正因子=樣本表達中位數/所有樣本表達量中位數:回答了一個關鍵的問題:Deseq不同差異比較組間,計算得到的表達量值不同。因
為樣本在變化,「所有樣本表達量的中位數」也在變動。RPKM:總表達量為參照
Deseq:中位數為參照
TMM(edgeR):與Deseq類似,在去除高表達基因和差異最大的基因後,TMM也是要找到一個加權系數,使剩餘的基因在被矯正後差異倍數可能小。TMM的加權系數是基於兩兩樣本比較後推算獲得的(也就是兩組樣本的比較,將產生與這次比較相關的加權系數)。然後將所有基因除以這個加權系數,從而保證大部分表達量居中的基因表達量最相似。
不同RNA-seq表達量歸一化演算法的區別
Deseq類的校正演算法:理論上更加穩定;但不同批次的比較會得到不同的表達量值,不利於進行多處理組/批次數據的統一分析(例如,趨勢分析、共表達分析)校正會掩蓋一些問題(例如:樣本污染)
RPKM類的演算法: 容易受異常高表達基因、外源污染等的干擾;但也更容易從結果的異常中,發現潛在問題;得到的表達量值是恆定的,多處理組/批次的數據可以合並分析。折中的方法:使用RPKM類的演算法,但需要人工檢查數據是否
異常。備註: Deseq軟體也可以關閉校正的功能。
實際經驗總結
總之:從多方面考慮,RPKM類演算法,如果合理使用,依然是最優的。具體問題具體分析:在遇到問題的時候,找到問題的來源,從而給出解決方案(沒有完美的流程,只有最佳解決方案)
❺ 那令人困惑的比對工具選擇啊~
我可能不適合做科研,因為我總是對一些「 沒有必要 」的事斤斤計較~
剛開始接觸二代測序時,是跟著Jimmy大神從RNA-seq開始入門的。那時候使用的比對工具是HISAT2。當時也沒怎麼細想為什麼用這個工具,你說用那我就用吧,於是HISAT2就成了目前我最喜歡的比對工具
但是,隨著需要處理不同的數據,我發現HISAT2不能滿足我的要求了,我似乎需要考慮其他工具了,但我無從下手,不知道什麼工具更適合我。於是一場不太考慮生物學意義,只思考工具特點的戰斗便拉開了帷幕……
雖然每次我都說這是廢話超多系列,但我是真心想讓你們認真看看這部分的內容。畢竟我能力有限,很難用幾句簡短的話把我想說的事情搞明白,除非我寫文言文……
搜了搜各種帖子,發現大家在對比對工具進行比較時,都喜歡將其分為DNA比對工具(DNA-seq)和RNA比對工具(RNA-seq)。仔細思考你會發現,它們的區別僅在於是否會考慮跨外顯子的比對(即:是否會將沒有比對上的reads劈開,對劈開後的兩部分再次比對)。
隨著現在各種seq的出現,我們已經不能簡單的根據是比對DNA還是RNA來判斷工具的選擇,而是要判斷reads的比對是否需跨外顯子。比如PRO-seq/GRO-seq,它們在建庫時捕獲的RNA,但是它們並不需要考慮跨外顯子的比對。
鬼扯了這么多,簡單總結一下各種類型的常用工具都有哪些:
bowtie出現在上古時期(就是很久遠的意思了),那個時候測序行業的發展還不成熟,序列長度普遍在50bp以下,因此bowtie的出現就是為了滿足長度在50bp以下的reads的比對。官方稱其可以把短的DNA序列(35bp)快速的比對到人類基因組上。
而bowtie2的出現則彌補了bowtie的短板,bowtie2擅長比對50-100bp長的reads,長度甚至長達1000。它適合比對那些比較長的基因組,如哺乳動物基因組。
結論:bowtie和bowtie2,是兩個不同類型的比對工具,bowtie2並非是bowtie的升級。尺有所長寸有所短,bowtie適合長度在50b長度以內的reads比對,而bowtie2適合50-100b,甚至更長的reads比對。但是這兩個都屬DNA-seq比對工具
Tophat/Tophat2工具本身不能進行比對,它是通過調用bowtie/bowtie2進行比對的。劃重點, bowtie2不是bowtie的升級版,但是Tophat2是Tophat2的升級版 。因此Tophat只可以調用bowtie,而Tophat2不僅可以調用bowtie2(默認)還可以更改設置調用bowtie。
Tophat/Tophat2調用bowtie/bowtie2後,會首先使用bowtie/bowtie2對序列進行比對,對於那些沒有比對上的,會考慮其跨外顯子的可能性,將reads劈開重新比對。
如果你去bowtie/bowtie2/Tophat的官網仔細觀察,你會發現,bowtie和bowtie2各自有自己的官網,有專屬於自己的介紹。而Tohat就不同了,它只有一個,僅僅是在2012年4月9日Tophat發布了2.0.0版本,宣布支持bowtie2的比對。而我們通常也將支持bowtie2版本的Tophat稱之為Tophat2。
此外,如果你夠無聊,你在它們的主頁上下扒拉扒拉,你會發現無論是bowtie還是bowtie2在2019年仍然是有更新的。但是Tophat到了2016年2月便停止了更新……這是為什麼呢?請繼續往下看
Tophat2的原作者們也不知道是出於什麼考慮,不再更新Tophat2,轉而開發了一個新的比對工具HISAT2,更是推薦人們使用HISAT2,聲稱其速度更快,內存佔用率更小,准確率更高。
此外,HISAT2不僅支持RNA-seq的比對還支持DNA-seq比對,唯一需要做的就是加上一個參數 --no-spliced-alignment 。但是就目前來看,大部分人都是使用HISAT2做RNA-seq,沒人使用它做DNA-seq
其實沒有太多需要說的,是我最早知道的比對工具,屬於DNA-seq比對工具。大部分搞全基因組或者全外的似乎都使用BWA作比對。當時本科時期有門課叫做計算生物學,當時學習BWT演算法,還經常把演算法名稱和比對工具名稱搞混。
值得一提的是這個工具是李恆開發的,如果你不知道李恆,你最起碼也應該知道SAMtools工具,這東西也是李恆開發的。一個強的可怕的男人……
最早聽到這個工具的名稱是在研一時期,的確有點孤陋寡聞。當時以為是一個很小眾的野雞工具,後來發現身邊蠻多人用這個工具的,於是就帶著好奇心上網搜索它的資料。
不搜不知道,一搜嚇一跳。嘖嘖嘖,ENCODE皇家御用的RNA-seq比對工具,真香……
可能是因為RNA-seq分析比較大眾,因此大部分的比對工具都是利用RNA-seq的效率進行比較。
《Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis》這篇文章可以稱之為史上最全RNA-seq測評。對於RNA-seq的方方面面都進行了比較。因為太全面,反而有點雜亂,因此我只關注了我感興趣的一些地方。
無論是HISAT2還是STAR,對於Tophat來說都有很大的優勢,更何況Toph還不再繼續更新,這就更給力我們不再使用它的理由。至於HISAT2,他的junction正確率最高,但是靈敏度相對較低。而STAR靈敏度更高,但是會有許多包含soft-clip的低質量比對。此外,STAR的unique mapping比例最高,它對於雙端測序的reads,要麼全部比對上,要麼全部拋棄,不會像像TopHat和HISAT2一樣只比對上某一個reads
最後這篇文章還給了一個它認為比較好的RN-seq組合方式:
前一陣的龍星課程針對RNA-seq給出了另一個組合方式:SATR+RSEM,其中STAR既可以比對也可以用於定量(count)
具體選用哪一個組合,看習慣,看眼緣,看心情……
❻ 如何使用bwa只輸出一條比對結果
首先要把所有的序列復制到windows自帶的記事本中,全部以fasta格式存到同一個文件中,保存成*.txt,序列內部最好不要有空格或者換行.
序列格式舉例如下:
「>序列1
ATCG.ATCG
>序列2
ATCG.ATCG
>序列3
ATCG.ATCG
>序列4
ATCG.ATCG」
然後用Bioedit打開剛才保存的文件*.txt,點擊窗口上方的Accessory application菜單,再點擊clustelW multiple alignment,這時候會彈出一個窗口,直接選擇Run clustalW,又彈出一個窗口,選擇ok,等待結果就行了.
最後的比對結果可以保存成*.fas格式,適用於各種分析.