Powered by GitBook

Spark 2.0 編程指南繁體中文版

============================= 如果你是個讀者，這邊有更容易閱讀的Gitbook版本

貢獻方式

請有意願加入的同好參考 (https://github.com/TaiwanSparkUserGroup/spark-programming-guide-zh-tw/blob/master/CONTRIBUTING.rst)

大綱

簡介
快速上手
- Spark Shell
- 獨立應用程序
- 開始翻滾吧!
編程指南
- 引入 Spark
- 初始化 Spark
- Spark RDDs
  - 並行集合
  - 外部資料集
  - RDD 的操作
    - 基本功
    - 傳遞函數到 Spark
    - 了解 closures
    - 使用鍵值對
    - 轉換
    - 行動
    - Shuffle操作
  - RDD持續化
- 共享變數
- 部署集群
- 從Java/Scala發布Spark工作
- 單元測試
- 從這裡開始
Spark Streaming
- 一個快速的例子
- 基本概念
  - 連接
  - 初始化StreamingContext
  - 離散化串流
  - 输入DStreams
  - DStream中的轉換
  - DStream的輸出操作
  - Accumulators與Broadcast變數
  - DataFrame與SQL操作
  - MLlib操作
  - 暫存或持續化
  - Checkpointing
  - 部署應用程序
  - 監控應用程序
- 性能優化
  - 減少處理時間
  - 設置正確的的批次大小
  - 記憶體優化
- 容錯語意
- 從這裡開始
Spark SQL, DataFrames 與 Datasets
- 總覽
  - SQL
  - Datasets與DataFreame
- 開始
- 資料來源
  - 常見載入與儲存函數
  - Parquet文件
  - JSON資料集
  - Hive資料表
  - JDBC與其他資料庫
  - 疑難雜症
- 性能優化
- 分散式SQL引擎
MLlib
- 聲明
- 相依性
- 移轉指引
GraphX編程指南
- 開始
- 屬性圖
- 圖操作
- Pregel API
- 圖建立者
- 頂點和邊RDDs
- 圖算法
- 範例
SparkR (R on Spark)
- 總覽
- SparkDataFrame
- Machine Learning
- R函數名稱的衝突

Copyright

本文翻譯自

Spark 官方手冊

本文延伸自

Spark 編程指南繁體中文版

results matching ""

No results matching ""