2007/11/30

AAindex as feature set

AAindex是京都大學的Minoru Kanehisa教授等學者當初在京都大學發展的一套收集以數值化來表示胺基酸或是胺基酸配對的物化性質的資料庫,附帶一提他也是提供基因體資訊中細胞的系統行為KEGG資料庫的作者之一,這些資料庫同時也是日本提供基因體相關研究的資料庫與計算服務的GenomeNet的一部份。

AAindex的資料庫分為三部份,第一部分紀錄了每個胺基酸各種不同的數值化屬性,像是出現各種二級結構的機率、在不同蛋白質下的疏水性、體積或是極性之類;第二部份則是相關的變異矩陣,像是經典的PAM矩陣與BLOSUM矩陣,第三部份則是胺基酸配對的接觸位能,這個分類是最近才加上去的,也是收錄了各種情況或不同的切入角度下胺基酸配對的位能變化。

此外目前也有相當多發展分類系統的研究將AAindex作為feature set使用的情形,像是使用第一部分的數值來預測MHC的抗原決定位的POPI,或是預測SUMO(small ubiquitin-like modifier)的binding site的研究......等等,我會看到的論文應該都是以使用第一部分的為主,另外的部份這跟我可能會觸及的研究領域應該較遠,該團隊應會在他們論文中提及哪些其他的研究團隊有引用AAindex的資料庫作為feature set。

雖然說像是目前上述的預測系統使用AAindex作為feature set就可以有還不錯的效果,但要在這許多屬性中找出有效的feature set也是難度所在,此外由於目前使用方法的是只有參考該residue在AAindex裡面該項屬性的值,換言之該residue不管在哪個位置上只要是關於該屬性都是同樣的值,我想這是種模擬是不夠貼近現實的,要是有像PSSM般可以建出跟序列相依的預測數值,我想應該是對這些建立預測系統的準確度更是有所幫助的,但這偏向預測的工作,又是另外一回事了。

參考文獻

  Kawashima, S., Ogata, H., and Kanehisa, M.; AAindex: amino acid index database. Nucleic Acids Res. 27, 368-369 (1999). [PMID:9847231]

  Kawashima, S. and Kanehisa, M.; AAindex: amino acid index database. Nucleic Acids Res. 28, 374 (2000). [PMID:10592278]

--

終於寫了一篇了,不過現在好像十一月底了,有越來越像月刊的感覺(汗)