導航:首頁 > 編程語言 > sparkrddjava

sparkrddjava

發布時間:2023-02-01 03:15:54

⑴ Spark最基本的單位 RDD

最近在負責Spark Streaming 結合 Spark Sql的相關項目,語言是java,留下一些筆記,也供大家參考,如有錯誤,請指教!

1.RDD(Resilient Distributed Dataset):彈性分布式數據集。

2.RDD是只讀的,由多個partition組成

3.Partition分區,和Block數據塊是一一對應的

1.Driver:保存block數據,並且管理RDD和Block的關系

2.Executor 會啟動一個BlockManagerSlave,管理Block數據並向BlockManagerMaster注冊該Block

3.當RDD不再需要存儲的時候,BlockManagerMaster將向BlockManagerSlave發送指令刪除相應的Block。

Transformation:轉換運算元,這類轉換並不觸發提交作業,完成作業中間過程處理。

Action:行動運算元,這類運算元會觸發SparkContext提交Job作業。

RDD的依賴關系有兩種:窄依賴(narrow dependency)和寬依賴(wide dependency)。

窄依賴: 每一個parent RDD的Partition最多被子RDD的一個Partition使用

寬依賴: 多個子RDD的Partition會依賴同一個parent RDD的Partition

⑵ 怎樣使用java開發spark程序

1、Spark 是基於內存的分布式計算框架,因為無需利用 HDFS 作為中間結果保存的介質,性能杠杠的。Spark 是由 Scala 實現的,所以最好學習一下 Scala(當然用 Python 和 Java 也是可以的)。(http://wdxtub.com/2016/04/11/spark-guide/)

為啥要用 Spark?
快!基於內存
易用!Scala, Java, Python 都支持,還有互動式的 Python 和 Scala 的 shell,可以快速進行原型開發
通用!批處理、交互查詢、流處理、機器學習、圖計算,樣樣精通
兼容!可以使用各種現有的技術作為底層,也可以自己獨立運行
Spark 生態系統有哪些組件?
Spark SQL: 類似 Hive,支持在不同 RDD 上進行類似 SQL 的操作
Spark Streaming: 對於流數據進行處理
MLlib: 機器學習庫
GraphX: 圖並行框架

RDD 是什麼?
在 Spark 框架中,最重要的是一類新的數據抽象,叫做 Resilient Distributed Dataset - RDD。RDD 是分布式存儲在集群中的內存對象,按照值的范圍或者哈希結果進行劃分。與此同時 RDD 會記錄關於數據進行的各種操作(每次操作都會生成新的 RDD),這樣即使節點掛掉,也能夠根據之前的操作日誌重新得到損失的 RDD
RDD 支持2種操作:
轉換(transformation):從現有的數據集創建一個新的數據集
動作(actions):在數據集上運行計算後,返回一個值給驅動程序
2、實戰java開發spark程序
https://my.oschina.net/csmw00/blog/672869

3、spark集群環境搭建
http://nekomiao.me/2016/12/05/spark-install-distributed/

閱讀全文

與sparkrddjava相關的資料

熱點內容
主角為秦霄的穿越小說 瀏覽:707
大尺度床戲多的電影 瀏覽:395
台灣性電影 瀏覽:942
華為手機聊天加密軟體 瀏覽:833
台灣電影愛情片他女朋友死了 瀏覽:813
電影音樂下載 瀏覽:158
池恩瑞的作品 瀏覽:912
澳門電影免費觀看網站大全 瀏覽:243
電腦多組命令 瀏覽:806
abkdb編譯 瀏覽:710
尺度計演算法大全 瀏覽:926
單片機開發板的作用 瀏覽:331
唯美愛情動作電影在線觀看 瀏覽:574
老電影農村片 瀏覽:303
netbeansclinux 瀏覽:181
不可能的世界小說免費閱讀 瀏覽:272
法國啄木鳥絲襪電影 瀏覽:307
動作片愛情在線免費觀看 瀏覽:1002
騰飛投資理財分紅源碼 瀏覽:854