2008/04/07

Getting into trouble in indian style......

這篇文應該比較像是抱怨文吧。最近在看某個印度團隊發表的資料集,本來想說他們很有誠意的把全部用到的資料集都公布在他們網站上,但當要轉換成我們實驗室預定要使用的格式時,突然發現他們拿來作獨立測試(indepedent test)的資料竟然沒有附上陰性的資料集,幸好寫信去跟他們討教很快就拿到了。

當然故事不會這麼快樂的就結束了,不然這又沒啥好抱怨的。這次試圖從蛋白質的功能區域切入:使用BLAST2GO批次跑出InterProScan找出的蛋白質功能區域當作特徵。但這幾個資料集被BLAST2GO讀取蛋白質序列時總是會發生些讀取錯誤,仔細的每條每條序列的檢查讓我看到了愕然的結果:序列的欄位中竟然有蛋白質描述1!這太驚人了!而且竟然在序列中找到底線符號2,還有序列中被插入空格的情況3,下面有圖解......。另外我也頗好奇怎麼會有這樣的錯誤呢,難道他們建資料集是用手工剪貼?=口=||?

a1
b 2
c3

真是多虧了BLAST2GO對fasta格式有連序列結尾都不能容許有空白字元的嚴厲程度(為了這個例外狀況我又找了一陣= =),讓我耗了三小時能找出這些錯誤,平常我刻出來的小程式這些例外都會直接無視說XD。

沒有留言: