廣宣學堂為您推出機器學習系列之 巨量資料處理實戰
大數據與機器學習已成顯學,各種行業都有大量需求,Spark是目前大數據最火紅的框架之一,是一個可擴充性的分散式計算平台,而其中 PySpark(Spark Python API) 更可運用 Python 語言來處理巨量資料,非常適合於資料科學家、資料工程師、人工智慧與機器學習開發者。
Spark的好處是速度快,據稱比 Hadoop MapReduce 執行速度快上100倍,主要是能把資料暫存於記憶體、並優化資料的處理;而且容易使用,因為PySpark 可以讓 Python 開發者利用擅長的 Python 語言開發,且可以跟許多時下流行的資料科學、機器學習套件結合;最後加上其極廣泛的應用性,不但可以在Spark上使用SQL、甚至處理即時串流資料、更有機器學習套件 MLlib、圖論(graph theory)套件等等,功能強大。
本課程特別邀請此領域業界頂尖高手 David Chiu 授課,David是國內即時輿情分析上之重量級開發者,曾協助柯文哲團隊在第一次市長選舉時,利用文字探勘與輿情分析技術打贏大數據戰爭,技術、實戰經驗堪稱頂尖。本次課程將從基礎開始介紹,深入 PySpark 分散式架構與各種元件,研究 RDD ,並且剖析Spark SQL 及 DataFrames 的核心技術,更帶您學習如何用 Spark 處理巨量機器學習資料, 配合上大師的專業解答與寶貴經驗,跟最厲害的高手學習,得到最頂級的技術經驗,讓您的職場競爭力大增 !
課程內容
(講師依學員實際狀況動態調整進度)
NLP特別日 $2980超優惠熱賣中