全新Cloudera Data Platform加上由NVIDIA加速Spark 3.0協助提升作業表現達八倍

堅持不懈的Deborah Tylor運用正確的工具,達成原本以為做不到的事情。身為資料科學家的她,負責整理美國國稅局(IRS)超過300TB的龐大資料庫,從中找出可能有助於發現身份盜用和其它詐欺行為的模式。但就算她在一大排CPU伺服器上徹夜運行整理工作,依舊摸不著頭緒。

她隔天早上發現沒有成功,於是又試了一次,結果再次失敗。

Cloudera的Nasheb Ismaily差不多就在同一時間,敲了敲Tylor的主管Rahul Tikekar辦公室的門,Tikekar也是國稅局資料分析師技術支援團隊的主管。這名Cloudera的解決方案工程師詢問Tikekar的團隊有沒有用過Cloudera Data Platform(CDP),以發揮以GPU加速的ApacheSpark3.0軟體的優勢。

Tikekar表示:「我欣然接受這個提議。我們的獨立伺服器上裝有NVIDIA顯示卡,在分散式叢集上使用Spark來運行這些顯示卡也有一段時間了,這對我們來說時機剛剛好。」

解開腦袋裡的結

他們很快就進行軟體測試,在沒有更動程式碼的情況下,Tylor很多的工作執行速度提升高達五倍,不過還是出現了一些延遲。

Ismaily找來NVIDIA的資料科學家協助檢查程式碼,很快就確認CPU上還運行著一些資料結構特別差的任務。他們寫了程式碼來處理這些工作,並且把它插入Spark的RAPIDS(在GPU上進行資料分析的開源函式庫)軟體介面裡。Tylor又試了一次。

Tikekar說:「資料突然全都進入分散式Spark叢集的GPU上,加速成果非常顯著,Deborah現在在有四個節點的叢集上運行整個程式。」

美國國稅局研究與應用分析及統計部門的技術主管Joe Ansaldi表示:「Cloudera與NVIDIA的整合讓我們能夠從資料中找出寶貴的洞察,以支援關鍵的任務。我們正運用這個組合,且已經看到資料工程和資料科學工作流程的執行速度提高了十倍以上,而且成本還少了一半。」

Spark 3.0+GPU=全新境界

IRS團隊已經著手探索這項工作帶來的一些回報。他們使用搭載GPU的伺服器組成的Spark叢集,可以加快處理手邊的各項工作,還能執行過去以為做不到的事情,而這些工作可以協助處理該團隊所擁有的大型資料集。

Tikekar表示:「在Spark 3.0出現前,我們做不到這些,但現在有GPU可以讓我們放手一搏,解決曾經不可能解決的問題。」

規畫發展AI人工智慧的路線

這支團隊計畫應用他們在資料準備的成功經驗,即資料分析的擷取、轉換和載入(ETL)作業。下一個重大計畫便是加快全面發展AI推論工作。

Tikekar表示:「跟Cloudera和NVIDIA合作,幫助我們發揮叢集中GPU的優勢。市場上出現這麼進步的技術,我們要花點時間才能認清它們的實力,還有開發出能夠運用它們的應用,Deborah為我們規劃了一條新的路線,她是我們故事的英雄。」

說得更具體一點,這支團隊想要建立大型深度學習神經網路,以解決自然語言處理和分析的問題。

許多用於機器學習的應用

這是當下許多企業想要透過機器學習進行的轉型。

擁有電腦科學博士學位的Tikekar表示:「我個人覺得機器學習帶來了無窮的可能,讓我們能夠做到從前無法完成的事情。」Tikekar在13年前加入國稅局之前,曾在南奧勒岡大學(Southern Oregon University)任教十年。

他進一步表示:「例如我們可以掃描表格,然後用光學字元辨識技術來讀取裡面的隻字片語,但有了AI,我們還可以更深入從表格中找出有助於發現身分盜用,或是減少浪費的模式,AI在很多方面都能嘉惠不少應用。」

如需更多關於運用NVIDIA GPU來加速Cloudera的CDP 7.1.6的資訊,請觀看一場在2020年10月舉行的GTC演講,兩間公司在當時宣佈建立合作關係。

以上資訊由NVIDIA提供

延伸閱讀:
AMD公佈2021年第2季財務報告:營收較去年同期增長99%、毛利率攀升至48%
GIGABYTE技嘉主機板BIOS內建TPM 2.0可支援Windows 11作業系統升級
皮克斯動畫新作《路卡的夏天》再現義大利美麗小城、導演成長經歷搬上大銀幕!
《寶貝老闆:家大業大》今年暑假歡樂登場!亞歷鮑德溫再獻聲挑戰喜怒哀樂全集中發揮