Spark 2.0 編程指南繁體中文版
============================= 如果你是個讀者,這邊有更容易閱讀的Gitbook版本
貢獻方式
請有意願加入的同好參考 (https://github.com/TaiwanSparkUserGroup/spark-programming-guide-zh-tw/blob/master/CONTRIBUTING.rst)
大綱
簡介
快速上手
- Spark Shell
- 獨立應用程序
- 開始翻滾吧!
編程指南
- 引入 Spark
- 初始化 Spark
Spark RDDs
- 並行集合
- 外部資料集
RDD 的操作
- 基本功
- 傳遞函數到 Spark
- 了解 closures
- 使用鍵值對
- 轉換
- 行動
- Shuffle操作
RDD持續化
共享變數
- 部署集群
- 從Java/Scala發布Spark工作
- 單元測試
- 從這裡開始
Spark Streaming
- 一個快速的例子
基本概念
- 連接
- 初始化StreamingContext
- 離散化串流
- 输入DStreams
- DStream中的轉換
- DStream的輸出操作
- Accumulators與Broadcast變數
- DataFrame與SQL操作
- MLlib操作
- 暫存或持續化
- Checkpointing
- 部署應用程序
- 監控應用程序
性能優化
- 減少處理時間
- 設置正確的的批次大小
- 記憶體優化
容錯語意
- 從這裡開始
Spark SQL, DataFrames 與 Datasets
總覽
- SQL
- Datasets與DataFreame
開始
資料來源
- 常見載入與儲存函數
Parquet文件
JSON資料集
- Hive資料表
- JDBC與其他資料庫
- 疑難雜症
性能優化
- 分散式SQL引擎
MLlib
- 聲明
- 相依性
- 移轉指引
GraphX編程指南
- 開始
- 屬性圖
- 圖操作
- Pregel API
- 圖建立者
- 頂點和邊RDDs
- 圖算法
- 範例
SparkR (R on Spark)
- 總覽
- SparkDataFrame
- Machine Learning
- R函數名稱的衝突
Copyright
本文翻譯自
本文延伸自