TOP

Taiwan Precision Medicine Society

腫瘤討論會

Biological Sequence Analysis I – Andy Baxevanis

發佈日期:2017-04-05

影片標題: Biological Sequence Analysis I - Andy Baxevanis

演講人: Andy Baxevanis, Ph.D,National Human Genome Research Institute

演講會議和時間:Current Topics in Genomics Analysis 2016 Lecture Series , 2016-02-17

 影片推薦人:銘傳大學 生物科學糸 李御賢教授

影片來源: https://www.youtube.com/watch?v=jVdyAb0jVo0&t=1145s

 

Andy Baxevanis教授在二周的課程中,提供生物資訊學基礎。第一周的課程主要包含Alignment的原理,BLAST的原理與NCBI BLAST的應用,三大部份,說明如下:

PART1: Alignment (DNA or Amino Acid 相似性的定量測量) 的原理:

  1. 可以找到Polymorphism, insertion and deletion (InDel) 的位置。
  2. 兩序列共同的演化歷史和生物學功能的共同性。

 

1.Homologs (同源)的定義

  1. Homologs:是二序列有沒有Homologous,而不是二序列 Homologous 有多少比例。
  2. 當我們有兩種序列被稱為Homologous(同源),這意味著它們的基因可能從一個共同的祖先出現。



  3. Orthologs vs paralogs:

         Orthologs:       不同物種間的同源序列。

         Paralogs:         同物種間的同源序列。


2.何決定二序列Alignment好不好:而Alignment的score計算,要用到score matrix,gap分別說明如後。而score的例子如下圖。

 


3.Score matrix:用Score matrix 可以用來定義兩個Amino acid (or nucleotide) 的相似性,而Score matrix是依據conservation (amino acid性質)或演化出現的frequency計算。


  1. 而針對不同的目的,要使用不同的Score matrix,如下圖BLOSUM90是應用在找高相似的短片段序列,而BLOSUM30應用在找相似較低的長片段。如NCBI BLASTP的預設值為: BLOSUM62。



  2. Andy Baxevanis教授強調,沒有一種score matrix可以應用在所有的序列比對分析,因此依據上圖的基本概念,改變所要使用的score matrix。


4.Gap:gap的評分,都是扣分,而gap有opening與extension兩種。

An origination penalty (gap opening) for starting a new series of gaps in one of the sequences being aligned (連續 Gap 的個數算一個)

A length penalty (gap extension) that depends on the number of sequential missing characters (每個Gap 都算)

在NCBI BLAST的預設值如下圖。

 

PART2: BLAST (Basic local alignment search tool) 的原理

BLAST:它是一個用來比對生物序列的一級結構(如不同蛋白質的胺基酸序列或不同基因的DNA序列)的算法。 已知一個包含若干序列的資料庫,BLAST可以讓研究者在其中尋找與其感興趣的序列相同或類似的序列。 例如如果某種非人動物的一個以前未知的基因被發現,研究者一般會在人類基因組中做一個BLAST搜尋來確認人類是否包含類似的基因(通過序列的相似性),BLAST演算法以及實現它的程式由美國國家生物技術資訊中心(NCBI)開發[維基百科]

 

而NCBI BLAST依據Query sequences (你的序列),Target sequences (資料庫的序列)的種類不同(nucleotide or protein) 而有6種演算法。

 

而Andy Baxevanis教授告訴我們,在BLAST中,使用Alignment所得到的score值與Alignment到的序列長度,可能並不能代表你要找尋的序列。

 

經過一番的計算與說明,BLAST使用Probabilities 的E值,來排序所找到的序列。而E值的建議值如下圖。而E值的計算,原則上同時看”Alignment所得到的score值”(下圖Y軸為cumulative score值) 與 ”Alignment到的序列長度” (下圖X軸)。

 

PART3: NCBI BLAST的應用

1. NCBI BLAST的資料庫種類,如下圖 (upper是nucleotide,lower是protein)。

 


為簡化BLAST結果的複雜性,建議使用refSeq,而refSeq的說明如下圖。



   而refSeq的accession number有特定的字首,如下圖。


2.BLAST的設定,再來說明BLASTP的設定,而scoring matrix (BLOSM62),Gap cost在PART1,已經有說明。而low complexity region 預設值是不選。而建義可以考慮選取。

 

low complexity region 預設值是不要filter。而建義可以考慮filter的原因,如下圖,主要是。low complexity region常常會有biased sequences造成false positive的結果。

 

 而BLAST的cutoff數值,建議如下圖。

 

3.NCBI也可以進行二序列的比較à BLAST2SEQ,如下圖,要選取Align two or more sequences。

 

4.依據query sequences(你的序列)的長短,要使用不同的score matrix (+/-, + match score, -:mismatch score) 與gap分數 (opening and extension penality),

長序列/高相似序列 (>95%)         ->  MegaBLAST (預設值)

不同物種間/中度相似(<80%)         ->   Discontiguous MegaBLAST/BLASTN

短序列 (<20 base)                           ->    BLASTN

 

5. UCSC Genome Browser BLAT與NCBI BLAST的異同。

 

而BLAT的使用時機,如下圖。