基于Alpha-NMF的AD樣本分類及特異性基因選擇方法
摘要:由于基因表達譜數據的高噪聲、高維性、高冗余以及數據分布不均勻等特點使得在分析過程中仍然有很多挑戰性問題。基于該目的,將一種無監督學習方法--非負矩陣分解方法,應用到基因表達譜數據中,挖掘出與AD相關的信息基因。然而標準NMF算法其效率較低,并且在基因表達數據的應用有效性低。為了適應該領域的需求,采用了Alpha-NMF算法。該算法能夠有效的克服標準NMF算法的缺陷,獲得較好的實驗結果。多次運行Alpha-NMF算法,選取分類準確率和穩定性最優的實驗結果,對其集合基因設定一閾值,篩選出集合基因中大于該閾值的信息基因。最后通過基因功能分類以及生物功能結構圖來驗證所捉煉出的特異性基因的有用性和可靠性。
關鍵詞:無監督學習;阿爾茨海默病;非負矩陣分解(NMF);基因表達譜數據;Alpha-NMF
阿爾茨海默病(Alzheimer disease,AD)是德國神經病學家Alois Alzheimer于1907年首次對一位51歲的病人描述的,至今對AD的認識和研究已經進行了100余年了。它是老年人中最常見的神經退行性疾病之一,其臨床特點是隱襲起病,逐漸出現記憶力減退、認知功能障礙、行為異常和社交障礙。65歲以上老年癡呆人群中超過55%的病例是阿爾茨海默病。隨著全球人口的老齡化,癡呆患病人數大量增加,阿爾茨海默病已經成為人類共同面臨的嚴峻挑戰。
DNA微陣列技術能夠對大量的基因進行同步、快速測量,同時提供成千上萬條基因的表達水平,使得生物學家能夠在基因組層次上研究任何種類細胞在任意給定時間、任意給定條件下的基因表達模式。由于基因表達譜數據的高噪聲、高維性、高冗余以及數據分布不均勻等特點使得在分析過程中仍然有很多挑戰性問題。
非負矩陣分解(non-negative matrix factorization,NMF)方法由Lee和Seung在一篇關于無監督學習的文章中提出的一種新的矩陣分解方法。該方法在矩陣分解過程中對矩陣元素進行非負約束,在實際應用中具有明確的物理意義。相比一些傳統的算法,NMF具有實現簡便,分解形式和分解結果可解釋性強等靖多優點。NMF算法被提出后,隨著研究的不斷深入,為了適應不同領域的要求,一些研究者設計了基于多種目標函數的算法對標準NMF算法進行改進。目前,應用比較頻繁的有釋疏非負矩陣分解(sparse non-negativematrix factorization,SNMF)、非平滑非負矩陣分解(non-smoothnon-negative matrix factorization,NSNMF)以及加權非負矩陣分解(weighted non-negative matrix factorization,WNMF)等。NMF已運漸應用于語音信號處理、模式識別、圖像分析等研究領域中,并且獲得了很好的效果。相信不久的將來,NMF能夠適應于更多領域的需求。
1 非負矩陣分解算法原里
NMF理論上是利用非負約束條件來獲取數據表示的一種方法。NMF問題可以描述為:已知非負矩陣Vnxm,找到一個非負矩陣Wnxr和Hrxm一個非負矩陣,使得:
V≈WH (1)
此時矩陣V中的列向量可以近似地看作是非負矩陣W的列向量的非負線性組合,組合系數為hj的分量。因此矩陣W=(w1,…,wr)可以看成是對V進行線性估計的一組基,而H則是V在基W上的非負投影系數。
1.1 基本NMF算法
根據NMF理論的數學模型,必須找到一個分解過程V≈WH,使得WH盡量逼近V,可以定義一個目標函數來保證逼近的效果。目標函數可以利用某些距離的測量來獲得,通常使用的目標函數是歐式距離,即:
當且僅當V=WH時取最小值為0。因此NMF問題可以轉化為優化問題用迭代方法交替求解W和H。雖然式(2)對于單獨的W和H來講均是凸函數,但是同時對于W和H卻不是凸函數,因此找剄一個全局最優解是不太現實的,但可以尋找一個局都最優解。NMF算法可以定義為如下優化問題:最小化‖V-WH‖2,交替更新W,H。最簡單易行的更新方法就是梯度下降法,但是其收斂速度非常緩慢。更新規則如下:
定理1:在(3)迭代規則下,歐式距離‖V-WH‖2是單調不增的,如果當W和H的值是固定的,‖V-WH‖2保持不變。
評論