a一级爱做片免费观看欧美,久久国产一区二区,日本一二三区免费,久草视频手机在线观看

新聞中心

EEPW首頁 > 智能計算 > 業界動態 > Nvidia:GPU激發轉型 突破過去無法達成的分析工作

Nvidia:GPU激發轉型 突破過去無法達成的分析工作

作者:? 王岫晨 時間:2021-08-10 來源:CTIMES 收藏

數據科學家Deborah Tylor,堅持不懈的運用正確的工具,達成原本以為做不到的事情。Deborah Tylor負責整理美國國稅局 (IRS) 超過 300 TB 的龐大數據庫,從中找出可能有助于發現身份盜用和其它詐欺行為的模式。但就算她在一大排 CPU 服務器上徹夜運行整理工作,依舊摸不著頭緒。她隔天早上發現沒有成功,于是又試了一次,結果再次失敗。 圖片.png

本文引用地址:http://www.j9360.com/article/202108/427472.htm

最新版的 Cloudera Data Platform 加上由 NVIDIA 加快運行速度的 Spark 3.0,協助一支團隊提升作業表現達八倍。

Cloudera 的 Nasheb Ismaily 差不多就在同一時間,敲了敲 Tylor 的主管 Rahul Tikekar 辦公室的門,Tikekar 也是國稅局數據分析師技術支持團隊的主管。這名 Cloudera 的解決方案工程師詢問 Tikekar 的團隊有沒有用過 Cloudera Data Platform (CDP),以發揮 以 加速的 Apache Spark 3.0 軟件的優勢。
Tikekar 表示,我欣然接受這個提議。我們的獨立服務器上裝有 NVIDIA 顯示適配器,在分布式叢集上使用 Spark 來運行這些顯示適配器也有一段時間了,這對我們來說時機剛剛好。
他們很快就進行軟件測試,在沒有更動程序代碼的情況下,Tylor 很多的工作執行速度提升高達五倍,不過還是出現了一些延遲。
Ismaily 找來 NVIDIA 的數據科學家協助檢查程序代碼,很快就確認 CPU 上還運行著一些數據結構特別差的任務。他們寫了程序代碼來處理這些工作,并且把它插入 Spark 的 RAPIDS (在 上進行數據分析的開源函式庫) 軟件接口里。Tylor 又試了一次。
Tikekar 說,數據突然全都進入分布式 Spark 叢集的 上,加速成果非常顯著,Deborah 現在在有四個節點的叢集上運行整個程序。
美國國稅局研究與應用分析及統計部門的技術主管 Joe Ansaldi 表示,Cloudera 與 NVIDIA 的整合讓我們能夠從數據中找出寶貴的洞察,以支持關鍵的任務。我們正運用這個組合,且已經看到數據工程和數據科學工作流程的執行速度提高了十倍以上,而且成本還少了一半。
IRS 團隊已經著手探索這項工作帶來的一些回報。他們使用搭載 GPU 的服務器組成的 Spark 叢集,可以加快處理手邊的各項工作,還能執行過去以為做不到的事情,而這些工作可以協助處理該團隊所擁有的大型數據集。Tikekar 表示,在 Spark 3.0 出現前,我們做不到這些,但現在有 GPU 可以讓我們放手一搏,解決曾經不可能解決的問題。
規畫發展人工智能(AI)的路線
這支團隊計劃應用他們在數據準備的成功經驗,即數據分析的擷取、轉換和加載 (ETL) 作業。下一個重大計劃便是加快全面發展 AI 推論工作。
Tikekar 表示,跟 Cloudera 和 NVIDIA 合作,幫助我們發揮叢集中 GPU 的優勢。市場上出現這么進步的技術,我們要花點時間才能認清它們的實力,還有開發出能夠運用它們的應用,Deborah 為我們規劃了一條新的路線,她是我們故事的英雄。
說得更具體一點,這支團隊想要建立大型深度學習神經網絡,以解決自然語言處理和分析的問題。
這是當下許多企業想要透過機器學習進行的轉型。
擁有計算機科學博士學位的 Tikekar 表示,機器學習帶來了無窮的可能,讓我們能夠做到從前無法完成的事情。Tikekar 在 13 年前加入國稅局之前,曾在南奧勒岡大學 (Southern Oregon University) 任教十年。
他進一步表示,例如我們可以掃描表格,然后用光學字符識別技術來讀取里面的只字詞組,但有了 AI,我們還可以更深入從表格中找出有助于發現身分盜用,或是減少浪費的模式,AI 在很多方面都能嘉惠不少應用。



關鍵詞: Nvidia GPU

評論


相關推薦

技術專區

關閉