跟高手學大數據分析 : PySpark 巨量資料處理實戰

  • 2018/06/09(周六) 09:30(+0800) ( iCal/Outlook, Google 日曆 )
  • 台北市中山區松江路131號7F-1 (7樓教室) / 台北市中山區松江路131號7F-1 / 台北市中山區松江路131號7F-1
  • 廣宣學堂粉絲團、廣宣科技有限公司

廣宣學堂為您推出機器學習系列之 巨量資料處理實戰 

 

大數據與機器學習已成顯學,各種行業都有大量需求,Spark是目前大數據最火紅的框架之一,是一個可擴充性的分散式計算平台,而其中 PySpark(Spark Python API) 更可運用 Python 語言來處理巨量資料,非常適合於資料科學家、資料工程師、人工智慧與機器學習開發者。

 

Spark的好處是速度快,據稱比 Hadoop MapReduce 執行速度快上100倍,主要是能把資料暫存於記憶體、並優化資料的處理;而且容易使用,因為PySpark 可以讓 Python 開發者利用擅長的 Python 語言開發,且可以跟許多時下流行的資料科學、機器學習套件結合;最後加上其極廣泛的應用性,不但可以在Spark上使用SQL、甚至處理即時串流資料、更有機器學習套件 MLlib、圖論(graph theory)套件等等,功能強大。
 

本課程特別邀請此領域業界頂尖高手 David Chiu 授課,David是國內即時輿情分析上之重量級開發者,曾協助柯文哲團隊在第一次市長選舉時,利用文字探勘與輿情分析技術打贏大數據戰爭,技術、實戰經驗堪稱頂尖。本次課程將從基礎開始介紹,深入 PySpark 分散式架構與各種元件,研究 RDD ,並且剖析Spark SQL 及 DataFrames 的核心技術,更帶您學習如何用 Spark 處理巨量機器學習資料, 配合上大師的專業解答與寶貴經驗,跟最厲害的高手學習,得到最頂級的技術經驗,讓您的職場競爭力大增 !
 

 
本課程您將學會:
1. Spark, PySpark 的清楚觀念與分散式架構介紹
2. 各種 Spark 元件與語法深入介紹與手把手實作
3. 學會 Spark 在 SQL 資料庫上的靈活運用
4. 能運用 Spark 處理巨量資料的機器學習
 

課程內容

1.Spark的妙用:
MapReduce的挑戰與限制 / Apache Spark的特性 / Hadoop v.s. Spark剖析
2.徹底研究 Apache Spark:
Spark 分散式架構簡介 / 深入 Spark 元件 / 進入 PySpark 的世界
3.解析 Spark 基礎語法:
RDD關鍵概念 / RDD Transformation / 深入 Python Lambda函式 / Action 函式 / 剖析 RDD cache / Broadcast & Accumulators
4.Spark SQL 與 DataFrame:
Spark SQL / 深入了解 DataFrame / Spark SQL 實戰
5.破解巨量資料機器學習:
MLlib與機器學習 / 機器學習 Spark 分類模型實戰 / 機器學習 Spark 分群模型實戰

(講師依學員實際狀況動態調整進度

 

NLP特別日 $2980超優惠熱賣中

無 kktix 帳號者,可直接傳訊廣宣學堂(http://www.broadmission.org)報名
 
課程提醒
 
1.主辦單位得依報名人數狀況調整時間。
2.預計時段: 9:30~12:30 / 14:00~17:00 (準時開始,時段以當場狀況為準,中午自行用餐)。
3.自備筆電,插座有限建議充足電池。
4.為尊重智慧財產權,現場不開放錄音錄影,敬請配合。
5.課程十天內除天災、主辦單位異動外,恕不接受退費。
 
台北市中山區松江路131號7F-1 (7樓教室) / 台北市中山區松江路131號7F-1 / 台北市中山區松江路131號7F-1

活動票券

票種 販售時間 售價
超早鳥優惠票

2018/05/25 00:00(+0800) ~ 2018/05/31 00:00(+0800) 結束販售
  • TWD$2,980
優惠票

2018/05/18 00:01(+0800) ~ 2018/05/31 00:00(+0800) 結束販售
  • TWD$3,480
一般票

2018/05/25 00:01(+0800) ~ 2018/06/06 23:59(+0800) 結束販售
  • TWD$3,980
團體票

2018/05/11 00:00(+0800) ~ 2018/06/06 23:59(+0800) 結束販售
  • TWD$2,980
下一步