從生物統計下一代數據分析趨勢說起
2009年,SAS公司在北美發布了全新的JMP/SAS CLINICAL產品,內部人士認為JMP/SAS Clinical產品是SAS針對生命科學領域的“下一代數據分析平臺”。作為全球生命科學領域數據分析和研發改善的領導者,SAS的這一舉動毫無疑問將引領全球生物統計分析的方向,也令整個產業界重新思考,生物統計及其在藥物、衛生等領域的應用將走向何方?
SAS的生命科學領域新動向
前SAS生命科學資深科學家,現任JMP/SAS CLINICAL產品經理的GEOFFREY MANN在今年年初舉行的JMP/SAS CLINICAL新版本發布會上,展示了這一產品是如何改善臨床試驗和藥物評審等各個環節數據分析的。在“探索臨床試驗數據背后的隱藏模式,來自 SAS——臨床數據分析軟件標準”這一話題下,他展示了新一代生物統計分析的方向和耐人尋味的諸多細節:
JMP/SAS Clinical是全球首款全面支持CDISC數據標準的軟件。而SAS作為CDISC的積極參與者,在推廣CDISC應用上自然是不遺余力。JMP/SAS Clinical產品在功能全面性、先進性和易用性上配置豐富,其組成模塊包括:
− SAS Clinical Standards Toolkit
− SAS BASE2
− SAS ACCESS to PC Files
− SAS Genetics
− SAS GRAPH
− SAS IML
− SAS STAT
− JMP Life Sciences SAS components 12=
− SAS Integration Technologies
SAS Enterprise Guide (此為可選項,僅僅適用于客戶端而非服務器端)
− JMP
− JMP for Clinical
這一共十二個模塊涵蓋了生命科學領域所需的數據整理、數據分析、SAS編程、JMP數據可視化圖形界面等全部內容。其安裝模式與其他傳統SAS模塊一樣,既可以單機安裝,又可以客戶端、服務器的模式安裝。盡管SAS對這個打包產品的價格三緘其口,但一些迅速購買該產品包的客戶透露“和以往相比,其價格令人驚喜”。對于價格敏感型客戶來說,廠商這種為推廣新策略而進行的促銷的確是降低采購成本的好機會。
同時,SAS公司網站也宣稱“JMP/SAS Clinical是JMP(藥物評審員的不二之選)和SAS(制藥業生物統計學家的標準分析與報告工具)的完美結合”。至此,SAS的策略可見一斑。
功能上,JMP/SAS Clinical能通過JMP菜單進行“point,click and discover”式數據分析,所有鼠標操作會在后臺自動記錄為JMP程序,以便反復調用;也可以直接沿用過往已經寫好的SAS程序;對于SAS程序員來說,還可以繼續編程。以前SAS給人的大致印象基本上是程序員和統計學家的工具,而其他業務人員(比如藥物評審員、臨床醫生、流行病學家、生物測定小組成員,數據監察員和任何想理解臨床研究結果的人)使用傳統SAS軟件的準入門檻教高,學習曲線相對陡峭而難于盡快熟練掌握。JMP/SAS CLINICAL的使命似乎不僅僅在于取悅傳統用戶,讓分析和編程工作更簡單和高效,其精美的圖形也很有利于對統計結果的解釋和溝通,還在于讓大量非統計專業人員得以輕松使用SAS強大的統計分析性能而又不必經受漫長而痛苦的學習和培訓過程。
下一代數據分析?
那么,所謂的“下一代數據分析平臺”,其實就是以生物統計所常用的SAS模塊為基礎,對軟件進行了改造和封裝,輔之以行業標準和優化的分析能力,降低使用門檻,提升專業性,在深度和廣度兩個維度同時發力。筆者個人理解,“下一代”的提法應該和SAS基本模塊多年來在用戶友好、可視化、交互性分析等方面的進展較慢有關,而JMP在易用性,交互性、探索性數據分析(EDA)等方面與傳統SAS模塊(如SAS GRAPH)相比可謂后來居上,正好在這些方面提供了很好的補充。而這些方面多年來也一直是很多傳統統計軟件倍受用戶抱怨的地方:難學,難用,展示效果也亟待提升。
比如,在臨床試驗的藥審工作中,美國FDA要求對于受試對象的年齡、性別、種族等信息進行分析,并以如下圖表的形式展示:
而在JMP/SAS CLINICAL中,既可以用上述圖形/圖表展示,交互式的數據分析又可以通過點擊圖形中SEX變量下的M或者F,被點擊選中的這些數據的在其他變量維度(Age, Race等)中會自動變色,對應的數據行在后臺也被同步選中,病人情況的展示也會很清晰和完全;若要進行下一步的子集化、分組以便進行進一步探索也很方便。
在“韋氏圖”和“火山圖”里,無論是考察個體之間的關系還是探索不良反應的程度,JMP/SAS CLINICAL提供的圖形都比傳統圖形手段更為清晰直觀,交互性也更強,為在這些重要分析步驟有效地中“探索”和“發現”臨床數據中的重要信息提供了可能。
據筆者了解,JMP作為SAS旗下主打數據分析可視化和交互性的軟件部門,一直在走一條與傳統SAS模塊化策略不同的道路:敏捷計算+可視化+交互式。JMP繼承了SAS在分析和建模領域的巨大優勢,沿襲了SAS的數據挖掘和傳統統計功能,在DOE(試驗設計)等高級分析領域一直獨占鰲頭,近10年來在圖形和交互式分析方面也有明顯的進步。其運行性能(速度、穩定性等)堪稱優秀,所處理的數據量也從原先的42億行65535列升級到軟件本身對數據無限制DD也就是取決于內存大小。
那么,這一新動向能否給SAS帶來預期的效果?其背后是否有更高層面的策略?
也許先看看其他行業會幫助我們理解這一動向。在對分析能力和數據吞吐量更高的銀行業,SAS的數據挖掘平臺長期以來一直是行業標準。2011年5月初,SAS總部宣布一項新的產品戰略,在SAS ENTERPRISE MINDER(企業級數據挖掘平臺)上加入JMP產品。并且,和這個產品策略相對應,推出了“探索性數據挖掘”的概念。 這個舉動不由令人產生簡單的聯想:JMP/SAS Clinical 和SAS ENTERPRISE MINER兩個SAS引以為傲的拳頭產品和核心競爭力,都已經和JMP融合,除了這兩款拳頭產品,SAS旗下的一系列主打產品包括SAS VBI, SAS VDD,SAS MLA等,都是在傳統SAS模塊的基礎上融合JMP而形成的新一代產品。這種把傳統數據分析融入可視化交互式數據探索的舉動,是不是SAS新的產品策略?
反觀全球統計分析業界,商業智能新秀TIBCO并購了SPLUS和SPOTFIRE,IBM并購了SPSS和COGNOS,ORACLE并購了HyperionDD這些并購是否昭示著傳統統計分析與圖形、可視化能力的結合這一趨勢已經在全球范圍內實實在在地發生了呢? 站在這樣的角度,跳出“生物統計”的小圈子,不難發現,數據分析正走向一個全新的方向:分析可以是文本的,圖形的,而不再只是數據表的。
就此,筆者相信,“下一代數據分析”這種提法,無論是否真正成為幾大巨頭的產品策略并不重要。事實是,在數據分析領導者JMP/SAS和傳統IT巨頭IBM, ORACLE等的推動下,大幕已經就此拉開。這一潮流的第一登陸點,似乎并非金融和電信,而是我國十二五規劃中重點發展的生物醫藥行業。
中國生物醫藥數據分析的機會與挑戰
和其他科技領域一樣,我國的技術界習慣了“引進一流技術與設備”,或者“業界老大用什么,我們就用什么”。這種依賴國外同行的選擇來降低決策風險的做法,一段時期曾經起到過相當積極的作用。只是在創新領域,永遠模仿競爭對手的做法,只能產生跟隨者,而不是創新。
我國藥品新的注冊管理辦法的核心就是要保證藥品質量,鼓勵新藥創新和遏制低水平的重復。生物制藥的創新和自主研發,需要藥企和研發機構在以臨床醫學(包括治療、診斷、倫理等)為基礎,并豐富以藥學、藥理學、毒理學、藥代動力學、生物統計、現代生物技術、信息學等的各學科方面都有足夠的積累和深入研究。在數據分析方面,先進的生物統計方法加上計算機軟硬件技術的飛速發展,可以實現由工具層面的升級到生產/研究方法的革新。
反觀國內大學的生物統計和其他類型的應用統計教學,基本上都是數學學科的延伸。闡述數理統計原理的要求,遠遠高于了應用數據分析方法的要求。這一特征使得我國培養的數據分析人員,在數據分析的應用和拓展方面,創新能力不夠,思路課本化、程式化。在商業領域,無論是臨床數據分析還是銀行數據分析,都更傾向于:
1.采用SAS編程的手段進行分析,過于強調編程的必要性和重要性
2.分析過程仍然以“帶著問題找結果”的邏輯展開
3.在分析結果的溝通和展示上,以部分傳統統計分析圖形和數據表為主
4.部分數據分析和對結果的解釋存在普遍誤用乃至于錯誤
創新的一大特征就是繞開模式思維的盲點。擺脫傳統思路和模式,用全新的方法、手段、工具去開展工作,其本身就是創新的一部分。藥物研發水平的升級和創新密不可分。在數據分析層面,在部分保留傳統編程手段的同時,恰當引入可視化、交互式而又更加強大的數據分析能力和方法,能否為我國生物制藥領域的研究和發展提供一些創新的源動力?我們拭目以待。
評論