干貨 | 數字經濟創新創業——DWF和Apache IOTDB研究項目介紹(1)
下文整理自清華大學大數據能力提升項目能力提升模塊課程“Innovation & Entrepreneurship for Digital Economy”(數字經濟創新創業課程)的精彩內容。
主講嘉賓:Kris Singh: CEO at SRII, Palo Alto, CaliforniaVisiting Professor of Tsinghua UniversityYingbo Liu, Associate Research Fellow of School of Software, Tsinghua UniversityPengcheng Zheng,Timecho
今天我們將分享兩個來自清華軟件學院的非常重要的項目。這兩個項目都與數據有關,如何管理大量數據,如何創造數據價值。未來是數據經濟時代,誰擁有最多的數據,誰能夠挖掘數據價值,誰就是贏家。
數據量呈現指數級增長,因為數字經濟,現在萬物皆可數字化。一切過程、系統和溝通都是通過數據來完成。上述圖表展示了數據體量的爆炸性增長趨勢。而大部分的數據是在近十年甚至是近五年之內形成的,所以根據這種趨勢可以預測未來五年的情況。
大部分數據來源從之前的計算機、到筆記本再到只能手機,而現在則來自于傳感器IOT。傳感器產生的數據比其余來源加起來還要多得多。在未來幾年內將會有總量超過650億傳感器,其產生的數據量可想而知。
那么數據量是如何爆炸式增長的呢?我們從最開始的ERP企業管理系統,再到客戶管理系統再到網絡,再到所有其他的活動項目,因為我們所使用的技術和工具,數據量越來越龐大。你可能聽說過大數據的5V,即體量(volume)、價值(value)、多樣性(variety)、速度(velocity)、veracity(準確性)。數據體量龐大,數據的指數級增長已經超過了可控的范圍,而體量大不足以讓我們理解數據的價值,如何創造價值,如何理解數據的含義。數據多樣性是指數據來源的多樣性,數據是多種類型的混合。速度則是指數據運行有多快,可以用于理解我們的社會交往、智能手機和傳感器的運行速度。最后一點是數據質量的多樣性,數據真實程度以及有用性。數據符合二八定律,當我們處理數據時,只有20%的工作是真正用于數據分析,所以在分析數據之前,要先理解數據的含義。
上述圖表展示了數據并非特定于某一個部分,某一種行業或某一個地區,每一種行業都面臨著機遇和挑戰。數據不僅僅關乎醫療、電子商務,它涉及經濟和商業的方方面面。數據是基礎。你需要理解數據的價值,不同領域的數據有獨特的含義、價值、技術和工具,但都需要處理大量的數據。
數據分為不同類型,有結構化數據、半結構化數據和無結構化數據。大部分數據都是結構化數據,結構化數據是我們經典的數據庫,我們在IT系統當中理解并使用。但現在爆炸的社交媒體、手機和傳感器里的數據大部分都是無結構化的,這也是我們最大的機遇和挑戰。我們如何理解結構化數據、無結構化數據以及介于兩者之中的半結構化數據呢?
數據分析不是新領域,它已經存在了將近60年時間。數字化數據始自60年代計算機剛出現的時候,網絡也是在這一時期出現的。所以數據爆炸也是從這時開始的。首先是一個簡單的數據庫,然后是數據倉庫,你學習如何將數據恢復到某個系統中,然后是數據挖掘。開始應用統計和其他一些技術和工具來幫助更好地理解。在過去的7年里,這個新的數據分析領域已經發展起來,處理所有新類型的數據。這也是我邀請英博和鵬程來討論這一話題的原因。我們需要理解所有這些不同的數據源,最重要的是我們如何分析數據、如何創造數據的價值,僅僅擁有數據并不意味著什么,分析數據更重要,分析可以獲取信息,信息可以幫助你采取行動,行動則可以創造價值。這是我們需要遵循的經典流程。
嘗試描述和理解數據,捕獲數據并實現其意義,之后再采取行動做出預測,我們能從數據中獲得些信息,以便于以后不會再犯類似的錯誤或可以創造更好的價值,再進一步實現數據分析過程的優化。這就叫做數據成熟度。以下圖片中展示了你們需要學習和使用的數據分析工具。Hadoop用于數據存儲和分析,MangoDB用于變化頻率高的數據集,Talend用于數據整合和管理,Cassandra用于分布式數據集,Spark用于實時加工和分析大體量數據。
數據分析和數據科學彼此相關,但是關注點不同。數據科學是在學校里學的課程,學習算法統計模型和代碼,用知識來幫助你更好地理解數據。
下圖展示了數據分析的10個主要趨勢。AI對數據知識簡化助力頗多,我們有了更好的工具和技術,可以幫助我們分析數據。但問題是數據過于碎片化,對于決策而言,其涵蓋不同方面,如何在采取行動前從不同途經捕獲數據,另外一點是混合云服務,我們無法將所有數據都存儲在學校內,因為數據量過于龐大,所以我們使用云計算,現在是混合云服務,包括公共云和隱私云,每一種各有利弊。我們如何在兩種云結構中處理好數據。萬物始自數據,數據是整個學科的中心。談論所有話題之前都要先學習理解該學科的數據。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。