亞信數據何鴻凌:我們為什么要做大數據PaaS
作者:何鴻凌/亞信數據LDP云平臺部總經理
本文引用地址:http://www.j9360.com/article/201605/290936.htm1 分工是推動人類社會進步的原動力
隨著人類進步的速度不斷加快,分工不斷細化;細化以后的分工導致了更加專業的技術出現,更加專業的技術反過來又促進了分工的進一步細化,由此人類社會的發展變成了非線性的指數級增長模式。
當每個家庭不再自己磨麥子、做面包,而是從面包師手中購買以后,分工更細了,所有人的工作效率得以提升,從而整個社會的效率得以提升,人類也從農業社會逐步過渡到工業社會,從工業社會到信息社會更是如此。
我們要做大數據PaaS的原因也是如此。我們認為,不久的將來,一切皆服務,一切IT也皆服務。

2 IT世界的分工
最開始做IT是在二戰之后的50年代,那個時代基本沒有什么分工,連軟件都是編碼在硬件之中。到了60年代,基本上操作系統的概念已經非常明確了,軟件正式被從硬件中分離了出來,之后一類一類的專業軟件被分化出來:工具軟件、數據庫、中間件。
軟件專業化之后出現了部署方式的分工,標志性事件就是云計算概念的提出。其實這個概念非常早就出現了,但直到網絡帶寬可以比擬計算機內部帶寬的時代才有了實用價值。
最初是IaaS,aws的一系列服務極大改變了IT的業態,創業公司不再租用主機設備、機房和網絡,而是按需購買。IaaS的分工有效解決了系統搭建和運維的問題,降低了創業公司的門檻,但這一仍還不夠。
接著aws推出了一些稱之為iPaaS的服務,比如 RDS和Elastic Cache。在解放了(或者說解雇了)系統管理員的基礎上,aws進一步解放了(或者說解雇了)平臺管理員,人們不再需要DBA之類的角色,因為aws把所有事情都統一做了,而且因為其規模效應而收費便宜。
這一切仍然不夠,人們(通常先是創業公司,然后是大型企業)希望能更簡單、更快速,怎么辦呢?Google給出了另一個選擇--GAE服務,大體的意思是用戶提供代碼,GAE進行運行(Show me the code)。而Heroku推出的服務更是可以跟開發人員日常使用的版本管理工具git緊密結合起來,就像保存代碼到版本服務器上一樣,發布應用就完成了。這簡直是一個神奇的魔法。于是Devops、十二因子開發方法等逐漸形成。這種形態的服務可以稱之為aPaaS,因為其服務于application。
當然在往上還有一個最終的形態就是SaaS,所有的碼農都被解放了(或者解雇了),軟件通過服務的形式直接提供給最終用戶。不過軟件往往有很多個性化的東西,具備長尾現象,這是SaaS模式難以全部覆蓋的。

3 大數據的世界是如何的?
很有幸,2001年本人畢業就進入了BI/DW(數據倉庫與商業智能)這個領域,與數據打交道的時間超過了15年。從一個人寫統計分析程序,到帶領團隊建設系統,再到運營商總部負責全網BI和集中化BI的規劃,可以說從不同的角度體驗了數據分析和平臺的方方面面。
毫無疑問,在不久之前,這個領域的技術含量實在是少得可憐。有限的數據和有限的分析方法加上有限的需求使得建BI就是為了出報表,各個公司的BI系統都需要努力證明自己是有價值的。但是世界改變得很快,隨著技術的進步,大量的數據被累積下來,Hadoop等大規模并行處理的平臺被發明出來,各種使用數據的場景被一一探明。“大數據”這個替代BI 的概念被正式提出。
很快,大數據領域的技術復雜度飛快地上去了,一開始大家都在搭建各種各樣的傳統數據庫、然后是各種各樣的MPP數據庫、接著是Hadoop中的各個組件、現在又都在搭建加入了實時流處理技術的lambda架構。
因此,大數據的軟件專業化相比傳統IT的軟件專業化來得更早,時間更短。但是大數據平臺部署的專業化,只能說處于非常早期的萌芽狀態。各地方、各公司,甚至是公司中的各個部門都在重復的搭建大數據基礎平臺。
參考網上的資料和文檔自己搭建一個大數據平臺來進行測試和開發固然難度不大,但是要真正投入生產、進行性能調優、保證數據安全就不是那么簡單的事情了,需要豐富的經驗才有可能做好。如果大數據的平臺無法形成規模效益,而又想要享受所有大數據紅利的話,相當于每一個公司都在做與BAT一樣的事情,一定會忙于搭建各種硬件、大數據軟件平臺,而沒有時間精于自己的業務邏輯和分析算法,這樣想要取得成功基本是不可能的。

4 大數據尚未與云計算有機結合
早前在運營商負責全網BI系統規劃時,會頻繁遇到一個問題,各個省公司、各個部門都希望自己搭建大數據平臺,到處都缺少人才,甚至都在爭搶集成商的支持。隨著大數據技術的蓬勃發展,這個問題變得非常嚴重,關鍵在于沒有規模效益。公司能培養一百名大數據專家已經非常不容易了,但是如果分散在三十一個省,又分散在其中的3個IT部門(業務支撐、網管支撐和管理信息支撐系統),那么每個部門只能分到一個人。
所以當時我們就開始規劃“能否實現平臺和應用分離?”“可否統一搭建一個大數據平臺,然后各個省公司、專業公司在平臺上做分析模式、搭建自己的應用?”這種集中化經分的規劃,可能是業界第一次提出大數據能力開放平臺(PaaS)的概念。希望數據能夠集中,能力能夠集中,而應用可以分散。這樣的話既能充分發揮大數據的價值、又能達到大數據平臺的規模效益。當前這個系統還在建設的過程中。
后來我來到了亞信數據,因為我認為同樣的情況可能更廣泛的存在。如果能把大數據和云計算結合起來,將大數據能力通過云計算的模式來提供,是否可以避免各個企業、各個部門重復去搭建大數據基礎設施?如果可以按需享受到比擬BAT的頂級大數據平臺的服務,只用使用而不用維護,他們會不會Happy?這就是大數據PaaS平臺正在做的事情。這些雜七雜八專業的事情,通過分工的形式由專業的公司來進行保障,使用者只需使用即可。

5 數據本身,其實也是一種服務
大數據PaaS最重要的就是數據資源的管理,把它與大數據能力一樣看待,通通抽象成服務,即一切皆服務。誰能用這些數據,誰不能用這些數據,反應到PaaS中就是誰能訂購這些服務,而誰不能。這樣簡單的抽象簡化了系統的實現。
6 忙忙碌碌在干什么
如同開篇所說的一樣,我們認為分工是推動人類社會進步的原動力。而現在可以看到大數據平臺的領域中,分工并沒有達到最優,還能看到很多簡單的重復勞動。這些勞動由于沒有達到規模效應而效率很差,造成擁有成本很高。這種高的成本導致的現象,就使很多企業的大數據價值無法充分發揮出來,無論是對內大數據變現還是對外大數據變現。由于無法達成交易,整個社會的福利也因此受到了影響。
我們希望改變這一切,根據多年的經驗,將大數據的PaaS平臺定位成框架、應用和服務3個方面。
·重型的,帶有持久化的部分作為“服務”被集成到大數據PaaS平臺中,比如MPP數據庫、Hadoop之類的就屬于此,還包括更加流行的流處理、機器學習等能力。各項能力通過一個標準的能力管理接口接入框架之中,提供了對大數據能力的透明性。采用的標準是Cloud Foundry中的service broker協議,目前版本為2.8。
·輕型的,不帶持久化的部分作為“應用”被集成到大數據PaaS平臺中,比如各種可視化、數據探索、推薦引擎、監控告警等。采用的技術標準是Docker,并通過Kubernetes容器管理系統進行封裝。也就是說任何能跑在Docker中的應用,無論是單機的,還是集群的,均可以放心的托管到系統上,可擴展性和高可用性都由平臺去搞定。
·管理上述兩塊就是框架。它將“服務”和“應用”有機地結合在一起。并負責認證、權限、計費、審計、日志、監控等管理。
毫無疑問我們采用的是一個開放的體系,因為我們認為大數據的世界如此的豐富多彩,任何一個廠家都無法提供所有的服務,開發所有的應用,開放合作可以實現共贏。

7 小結
知名調研公司Gartner預計,今年公共云服務方面的全球開支將增長16%,達到超過2040億美元,同時預測全球IT開支將比上一年略下降0.5%,達到3.49萬億美元。請注意這種開支的下降是在IT需求增加的背景下達成的,云計算提高社會效率可見一斑。
去年CSDN的調查中,發現全國IT人員的分布中,數據庫管理員DBA的職位比例明顯下降,這疑似被云中的各種RDS所替代。這又是云計算提高社會效率的一個例證。從個人或某個細分的職業來說,可能是悲劇,但對于社會整體來說,這是進步要付出的代價。這也提醒從事大數據職業的人群,如果工作無法達到規模效益,效率無法持續提高,那么其崗位就有被其他模式所替代的風險。
大數據的能力是否也能像云一樣流淌到千家萬戶?在不久的將來,是否每個公司、甚至每個個人,都可以像在BAT這樣的大公司中一樣享受低成本的大數據紅利?
當這種長尾的效應釋放出來的時候,世界應該會變得更加有效率。
評論