2007/12/22

Clustering by k-means

應用在生物資訊的分群(clustering)的方法中,k-means演算法可以算是最普遍且簡單的趨近方法了,像是開放原始碼的資料探勘與機器學習的套件weka就有實作了簡單的k-means演算法,另外舉個顯而易見的例子,作微陣列分析(microarray analysis)時,通常就是使用k-means演算法來將基因作初步的分群。

k-means詳細的演算法如下:首先起始條件是輸入欲分類的資料n個樣本,以及需求的中心數c。便能起產生c個所需求中心數。接著將n指配給距離最近的中心,當全部的n都分完後,再重新計算各個中心,也就是取歸在該樣本群中的平均值,即為新的中心點,如此反覆做下去,直到滿足收斂條件為止。此外,樣本與分群中心的距離有相當多種的算法,最基本的作法就是計算歐幾里得度量(Euclidean distance)。

由上述的作法可以理解到k-means演算法是種Unsupervised learning的方法,他的作法簡單的說就是將資料集中的每個樣本分給離該樣本距離最近的中心(center or centroid),每個中心即為距離該中心最近的樣本的平均所組成,而且可以藉由改良衡量距離的函式就可以達到改善的效果。k-means有著簡單的計算與快速收斂的優點,但缺點是分群的中心相當易受起始點的影響,也就是通常只能尋找到區域的最佳解,但這點可以藉由引入模糊(fuzzy)的概念來加以改善。

參考文獻

K-means algorithm From Wikipedia, the free encyclopedia

Pattern Classification (2nd Edition) p562-p568

--

這是最近某個作業所寫的報告的一部份,主題是介紹k-means演算法並完成了一個實作k-means的C++程式,就將內文摘錄的一部份改修了一下並貼了上來,應該不會有人想要我的程式碼來看吧XD。

Amazing TAKARA: Q-SKY

TAKARATOMY雖然不是我常常消費的主力廠商(趕緊藏起背後的魔神英雄傳模型),但也是日本玩具製造商的老字號,之前的小型遙控車Q-STEER就讓我相當的驚艷,想買個幾台來玩玩小賽車,最近還有出附加整組跑道套件的QSRS05 GT-R(R34),但沒想到今天出門吃飯順便閑晃時,竟然看到這個Q-SKY!!

官網上的規格介紹說可以在室內飛行,迴轉半徑大概3M,可以自行起飛與著陸,充電30分可以飛5分鐘,是用紅外線控制。整台飛機的重量只有2.5克,大小為160mm * 650mm * 150mm。定價是日幣未稅4000日元。

另外TAKARATOMY之前還出了一個AERO SOARER看起來是更像是室內滑翔機的玩具。這邊有些Q-SKY的心得與AERO SOARER的比較。看起來是真的可以飛行也可以玩的很開心,AERO SOARER照他的說法比較像滑翔機。另外機身看起來是保麗龍做的,強度上有點消耗品的意味。(對日本人而言4000元比台灣人覺得的便宜吧)

結論:在這個時間點看到讓人覺得是相當適合聖誕禮物的玩具。

--

執著想寫太硬的東西果然容易難產XD

2007/11/30

AAindex as feature set

AAindex是京都大學的Minoru Kanehisa教授等學者當初在京都大學發展的一套收集以數值化來表示胺基酸或是胺基酸配對的物化性質的資料庫,附帶一提他也是提供基因體資訊中細胞的系統行為KEGG資料庫的作者之一,這些資料庫同時也是日本提供基因體相關研究的資料庫與計算服務的GenomeNet的一部份。

AAindex的資料庫分為三部份,第一部分紀錄了每個胺基酸各種不同的數值化屬性,像是出現各種二級結構的機率、在不同蛋白質下的疏水性、體積或是極性之類;第二部份則是相關的變異矩陣,像是經典的PAM矩陣與BLOSUM矩陣,第三部份則是胺基酸配對的接觸位能,這個分類是最近才加上去的,也是收錄了各種情況或不同的切入角度下胺基酸配對的位能變化。

此外目前也有相當多發展分類系統的研究將AAindex作為feature set使用的情形,像是使用第一部分的數值來預測MHC的抗原決定位的POPI,或是預測SUMO(small ubiquitin-like modifier)的binding site的研究......等等,我會看到的論文應該都是以使用第一部分的為主,另外的部份這跟我可能會觸及的研究領域應該較遠,該團隊應會在他們論文中提及哪些其他的研究團隊有引用AAindex的資料庫作為feature set。

雖然說像是目前上述的預測系統使用AAindex作為feature set就可以有還不錯的效果,但要在這許多屬性中找出有效的feature set也是難度所在,此外由於目前使用方法的是只有參考該residue在AAindex裡面該項屬性的值,換言之該residue不管在哪個位置上只要是關於該屬性都是同樣的值,我想這是種模擬是不夠貼近現實的,要是有像PSSM般可以建出跟序列相依的預測數值,我想應該是對這些建立預測系統的準確度更是有所幫助的,但這偏向預測的工作,又是另外一回事了。

參考文獻

  Kawashima, S., Ogata, H., and Kanehisa, M.; AAindex: amino acid index database. Nucleic Acids Res. 27, 368-369 (1999). [PMID:9847231]

  Kawashima, S. and Kanehisa, M.; AAindex: amino acid index database. Nucleic Acids Res. 28, 374 (2000). [PMID:10592278]

--

終於寫了一篇了,不過現在好像十一月底了,有越來越像月刊的感覺(汗)

2007/10/16

Summer is over......, again

漫長的夏天又結束了,在六個月的緊湊賽程中好不容易殺出重圍,但之後邁向光榮之路的旅程卻迅速的劃下句點,只有短短五天僅僅1W3L的成績卻實在很難令人接受。

我對這支球隊的印象是在國中的時候漸漸形成的,起初是老人與海中老人對該隊的強大留有印象,只是漸漸對報紙上出現的寥寥幾行的報導中出現孔恩跟里維拉刻下記憶;記得Irabu的初登板;記得讀賣巨人隊Matsui的加盟;記得創下單季最多勝場數114場;記得曾經在20世紀的球隊與90年代的球隊的世紀對決中勝出;記得在地鐵大戰中獲勝,著迷於球隊的強大,以及他們的光輝榮耀。不過真的常常在看實況轉播卻是在今年,從MLB.tv換到YESPN,從四月到九月,可惜他們已經不是當年的那支王朝的球隊了。

雖然往昔的王朝成員漸漸凋零離開球隊,雖然連續三年都在第一輪止步讓我感到相當的失望,但不得不承認這也是支偉大的球隊,全隊有著絕佳的talent,今年打成許多優異的成就,特別是全隊的打擊表現.290/.366/.463傲視整個聯盟,也是整個聯盟中得分最多的球隊,可以說是各隊投手的夢靨。但本季最令人驚奇的是從季初投手不穩打者低潮,在明星賽前的跟TB爭分區墊底的泥沼中爬起,並在下半季打出聯盟最佳的戰績殺進季後賽,讓大家對世界大賽燃起無限的希望。可惜沒能火熱到季後賽,沒有機會可以為戒指奮鬥,但並不減損這些球員背影帶來的感動,A-rod讓我們看到了全聯盟最有天份的球員的姿態,Matsui、Rocket與MOOSE跟年齡還有舊傷的拼搏奮鬥,新秀Hughes、Kennedy、Chamberlain的活躍,小人物電燈泡的血淚,還有眾多小將老將的努力只能期待明年再來吧。

明年,又是全新的球季。不過現在先來期待GM現金人的冬季搶劫跟總教練Torre的場面話奧義再現吧~XD

--

PS.不過是篇感想我卻寫了好多天 冏>

2007/09/30

Write before running this blog

自從把網誌架好後除了貼了篇來調整版面的測試文章後,經過了快一個月都沒有新文章,本來是想說把這個網誌當作興趣,抽空寫寫文字,但我想我太樂觀的看待自己的惰性,又小小的偷懶一下了,往後希望能以一個月數篇的速度像是週記般更新吧。

其實我建立這個網誌一個主要目的是想藉此試著寫一些認真的東西,內容或許會涉及到我目前的研究主題:關於生物資訊(bioinformatics)以及計算系統生物學(computational systems biology),但這裡並不會提到具原創性的研究內容,只有打算略略整理一些讀過的論文以及接受的資訊,順便練習組織自己的想法與意見。從這裡就可以知道沒有貼出新文章的原因(遮臉),最近研究沒有什麼進度(繼續遮)。

另一方面,這是一個私人性質的網誌,我想會有些內容是關於自己的休閒興趣以及身邊的瑣事雜談,像是讀書觀賞影視或是戶外活動、興趣收集其他嗜好等等,不過我想這塊領域的文字內容應該通常與研究距離頗遠,大部分會是僅只些心得感言的分享。

這個網誌的名稱是希望能夠充滿好奇與熱忱的心態紀錄自己的生活,水瓶宮的意義我想應該是顯而易見的,風格的話再貼幾篇文章然後慢慢的確立吧。

2007/09/01

First Test

確定版面配置
以及各種畫面能符合我想要的