2008/04/19

Reduce alphabets for peptide as a new feature set

最近看到的有趣研究,看來是看到了有研究者使用BLOSUM50的矩陣將胺基酸字母漸次濃縮成15、10、8、4、2個字母的編碼方式提供了靈感,作者們提出了以基因演算法來作為將多個胺基酸字母合而為一的方法,可以把它想成一種抽取特徵的方法,從原本的胺基酸字母集合中產生出一組使用較少字母的胺基酸組合,然後使用這新的胺基酸字母組成來預測蛋白質或小段胜肽上的特定功能;簡單的說,本來有二十個字母的胺基酸組成被這個演算法濃縮成了只用八個字母或四個字母來描述蛋白質上的胺基酸組成。

而這個方法在他們熟知的免疫領域中應用在數個分類題目上的表現都夠比用BLOSUM50濃縮出來的字母集合效能優秀,並且訓練使用來分類蛋白酶切斷位(HIV protease cleavage/uncleavage site)跟T細胞抗原決定位(T-cell epitope)的胺基酸字母集合竟然對人類白血球抗原(HLA)的分類問題也有增進效果,說明這個抽取特徵的方法就算字母集合就算不是從他本身的資料集中建立的仍然會有改善的效果,所以是個stat-of art reduced alphbets-based feature extraction method!!(笑)

我是覺得這個建立新的字母集合的想法挺有趣的,但要是一個為了特定目的應用(如免疫)發展出來的演算法要是在他的特長領域內輸給泛用型的演算法(從BLOSUM 50抽取)其實應該算很可悲吧XD。另外光用GAOT MATLAB TOOLBOX提供的基因演算法跑超過5代(population 10)後辨識率就會開始下降,看來這題目應該挺容易overfitting的~呵呵XD。

沒有留言: