2008/01/24

Difference between PAM and BLOSUM

PAM (Percent Accepted Mutation)與BLOSUM(BLOck SUbstitution Matrix)是序列比對工具BLAST(生科相關的研究常用)時常用的計分矩陣類別,以下的探討以下面數個面向出發,說明他們的差異:

資料集的差異

PAM是從34個超家族(super family)中71個演化樹,記錄了1572個序列變異。為了最小化每點因為成功的可接受突變(accepted mutations)導致的變異,而每株演化樹中的兩兩序列的相異度都小於15%,更遠祖的序列可能更相近。PAM為表示蛋白質序列上胺基酸被其他取代且可以被自然選擇所接受,舉例而言250 PAM即為變異250代後的可接受變異程度。

BLOSUM是使用具有以特定最小相似程度分群的蛋白質片段來組成使用的區塊以建立資料集,舉例而言BLOSUM62就是以序列區塊兩兩最低相似程度62%作為分群標準的建成的矩陣。其資料集組成是從Prosite取出輸入至Swiss-Prot所得出的五百餘個無冗餘的蛋白質群集,產生兩千個左右區塊,接著再使用一系列的依序列相似程度的百分比作分群來建立替代矩陣。

統計方法的差異

PAM (Percent Accepted Mutation)是紀錄預期胺基酸配對在演化距離中的突變機率矩陣(mutation probability matrix),其中的元素Mij是在一個可變的演化距離內胺基酸i轉換過去胺基酸j的機率,因此其中元素M的計算是由突變發生的機率以及轉移成該胺基酸的機率相乘,或是用1減掉會突變的機率得出胺基酸不互換的機率,也就是矩陣的對角線上的值,另外可由矩陣自乘的次數作為PAM的代數,表示代數內胺基酸被替換的機率。

在PAM的建置過程中,首先將蛋白質建成演化樹而一條序列對一條序列比對變異,假設胺基酸甲被胺基酸乙取代與胺基酸乙被胺基酸甲取代是等價的,並在甲乙與乙甲的矩陣位置加一,以此就可以建出可接受的點突變矩陣(accepted point mutation matrix)。胺基酸突變的進行可以用考量下一代會改變以及不改變兩方面來著手,因此需要知道胺基酸在小的演化區間中的改變機率,可以算出各個胺基酸的出現頻率與改變次數,計算得出各胺基酸的相對異變性(relative mutability, m)。

暴露在突變機會下的相對機率(relative frequencies of exposure to mutation, f),此頻率約於與演化樹中的突變和每個群組的平均組成的乘積等比例,加總為1。此外,當突變機率矩陣趨近於無限代時,其中任一胺基酸轉換成其他胺基酸的機率會恰好與其暴露在突變機會下的相對機率相同。平常在使用的PAM矩陣會以相關剩餘矩陣的方式呈現,將該胺基酸位於突變機率矩陣中的值除以暴露在突變機會下的相對機率,得出相關剩餘矩陣(relatedness odds matrix)。相關剩餘矩陣是對稱的,意即將胺基酸甲被胺基酸乙取代與胺基酸乙被胺基酸甲取代視為是等價,而實際應用在序列比對上,其實亦難探究相比較的兩序列其起源何者為先。

BLOSUM(BLOck Substitution Matrix)矩陣是由某種程度以上相似且未插溝槽的序列比對中截取出的區塊中衍生得到,將單一區塊可以視為蛋白質家族中的保留區域(conserved region)。建製取代矩陣中的各個胺基酸配對的值s,觀測到該胺基酸配對的機率(observed frequency, q)除以預期該胺基酸配對出現的機率(expected probability of occurrence),並取對數值。胺基酸配對的機率為該區塊的欄中,出現此配對的機率。為了求出預期該胺基酸配對出現的機率,首先由配對的機率可以估算出該區塊的欄中每個胺基酸所出現的比率,因為同樣的胺基酸相互配對如AA,這樣表示AA出現過兩次,但其他的配對XA中A只出現一次,所以其機率應減半,由此可以得出當同樣的胺基酸相互配對時該胺基酸的出現機率p互乘即可,而不同的胺基酸所組成的配對由於有兩種組合形式所以p互乘外尚需加倍,如此就可以得到預期出現的機率。舉例而言,在一個區塊中含十條序列,其中的某欄有九個A與一個S,在兩兩序列比對時可以產生9*8/2=36組AA配對與9組AS配對。而其觀測到該胺基酸配對的機率AA是36/45而AS是9/45,A出現的機率為[36+9/2]/45另外S出現的機率[9/2]/45,所以得出期望AA的配對出現機率是0.9*0.9=0.81,AS的配對出現機率是2*(0.9*0.1)=0.18,出現SS的配對機率只有0.1*0.1=0.01的機率。最後再取對數值即可。s的值要是大於零表示該配對比預期出現的機率高,表示這邊容易發生置換,小於零表示該配對比預期出現的機率低,相等時代表與期望相同。

矩陣計分的差異

相比較BLOSUM62與PAM160在矩陣的每個元素,顯現出BLOSUM62在疏水性的胺基酸上比較不能容忍,但相對的,在親水性的胺基酸上BLOSUM62就能顯現出較優秀的耐性。同樣的對於希罕的胺基酸BLOSUM62也有較好的耐性來容忍不相配。

將BLOSUM62與PAM160各對應的矩陣元素相減可以得到下面的表格,其中可以看到在下方的灰色的剩餘矩陣中,有69個配對積分相減是0,也就是計分相等的配對在210個的配對中佔有約32.8%左右的比率,差異大於2的只有16個,小於一成,兩矩陣的相關係數r=0.851,頗為相似,不過整體而言BLOSUM62的給分較高。另外有芳香環的胺基酸的BLOSUM62普遍每欄的計分比PAM160高或相等,顯示使用BLOSUM來作序列比對時,有芳香環的胺基酸的移轉機率較PAM160高,而W特別顯著。下表列出了各胺基酸配對中BLOSUM62與PAM160各欄的相關係數r,可以看出使用計分矩陣時參照F與I的BLOSUM62與PAM160的結果會類似,而A的部份會有較顯著的差異。

PAM矩陣系列衡量的是在高度相關的蛋白質中取代作用觀察到的突變機率,然後外推這些機率去建立距離關係;在BLOSUM中,頻率直接從區塊中的關係取得,而不需考量距離,因為區塊是先從高度保留的蛋白質區塊取出,所以在計算高度保留的區塊中的BLOSUM與PAM的限制可能就不同。如PAM中的Asn相當的易變,但BLOSUM系列中它被取代的機率與平均值相近。

搜尋效能的差異

每個矩陣中的每個殘基對在一個位元單位中平均所攜帶的資訊量可以用資訊理論的相對熵(relative entropy) 來評估,當等於零時代表觀測值與背景值的頻率是相同的,越大則代表這兩者資訊的容量越大而越能夠區分。在這評估函式下,PAM250矩陣相當於BLUSOM45的熵值約為0.4個位元、PAM120矩陣相當於BLUSOM80的熵值約為1.0個位元、BLOSUM62矩陣在分群的相似程度以及相對熵值與PAM160約略相同,在0.7個位元左右。矩陣有較能比得上的熵值會有接近的預期分數。

 

參考文獻

1. Henikoff, S. and Henikoff, J.G. (1992) Amino acid substitution matrices from protein blocks, Proceedings of the National Academy of Sciences of the United States of America, 89, 10915-10919.

2. Dayhoff, M.O., Schwartz, R.M., and Orcutt, B.C. (1978) A model of evolutionary change in proteins, Atlas of pretein sequence and structure, p345-352

--

這也是之前的某課報告,稍微的小修一下,之後要考慮開始寫寫讀最近發表論文的心得吧。

沒有留言: