spark概述與編程模型_spark編程語言

㈠ spark編程語言

如果條件許可，公司提供Spark集群機器，在Spark集群機器上進行開發和學習是最好的；如果條件不允許，在亞馬遜雲計算平台上構建Spark集群環境也是一種非常理想的選擇；如果純粹是學習使用，安裝單機版的Spark也是可以的

㈡ spark和hadoop的區別

直接比較Hadoop和Spark有難度，因為它們處理的許多任務都一樣，但是在一些方面又並不相互重疊。

比如說，Spark沒有文件管理功能，因而必須依賴Hadoop分布式文件系統(HDFS)或另外某種解決方案。

Hadoop框架的主要模塊包括如下：

Hadoop Common
Hadoop分布式文件系統(HDFS)
Hadoop YARN
Hadoop MapRece

雖然上述四個模塊構成了Hadoop的核心，不過還有其他幾個模塊。這些模塊包括：Ambari、Avro、Cassandra、Hive、 Pig、Oozie、Flume和Sqoop，它們進一步增強和擴展了Hadoop的功能。

Spark確實速度很快(最多比Hadoop MapRece快100倍)。Spark還可以執行批量處理，然而它真正擅長的是處理流工作負載、互動式查詢和機器學習。

相比MapRece基於磁碟的批量處理引擎，Spark賴以成名之處是其數據實時處理功能。Spark與Hadoop及其模塊兼容。實際上，在Hadoop的項目頁面上，Spark就被列為是一個模塊。

Spark有自己的頁面，因為雖然它可以通過YARN(另一種資源協調者)在Hadoop集群中運行，但是它也有一種獨立模式。它可以作為 Hadoop模塊來運行，也可以作為獨立解決方案來運行。

MapRece和Spark的主要區別在於，MapRece使用持久存儲，而Spark使用彈性分布式數據集(RDDS)。

性能

Spark之所以如此快速，原因在於它在內存中處理一切數據。沒錯，它還可以使用磁碟來處理未全部裝入到內存中的數據。

Spark的內存處理為來自多個來源的數據提供了近乎實時分析的功能：營銷活動、機器學習、物聯網感測器、日誌監控、安全分析和社交媒體網站。另外，MapRece使用批量處理，其實從來就不是為驚人的速度設計的。它的初衷是不斷收集來自網站的信息，不需要這些數據具有實時性或近乎實時性。

易用性

支持Scala(原生語言)、Java、Python和Spark SQL。Spark SQL非常類似於SQL 92，所以幾乎不需要經歷一番學習，馬上可以上手。

Spark還有一種交互模式，那樣開發人員和用戶都可以獲得查詢和其他操作的即時反饋。MapRece沒有交互模式，不過有了Hive和Pig等附加模塊，採用者使用MapRece來得容易一點。

成本

「Spark已證明在數據多達PB的情況下也輕松自如。它被用於在數量只有十分之一的機器上，對100TB數據進行排序的速度比Hadoop MapRece快3倍。」這一成績讓Spark成為2014年Daytona GraySort基準。

兼容性

MapRece和Spark相互兼容;MapRece通過JDBC和ODC兼容諸多數據源、文件格式和商業智能工具，Spark具有與MapRece同樣的兼容性。

數據處理

MapRece是一種批量處理引擎。MapRece以順序步驟來操作，先從集群讀取數據，然後對數據執行操作，將結果寫回到集群，從集群讀取更新後的數據，執行下一個數據操作，將那些結果寫回到結果，依次類推。Spark執行類似的操作，不過是在內存中一步執行。它從集群讀取數據後，對數據執行操作，然後寫回到集群。

Spark還包括自己的圖形計算庫GraphX。GraphX讓用戶可以查看與圖形和集合同樣的數據。用戶還可以使用彈性分布式數據集(RDD)，改變和聯合圖形，容錯部分作了討論。

容錯

至於容錯，MapRece和Spark從兩個不同的方向來解決問題。MapRece使用TaskTracker節點，它為 JobTracker節點提供了心跳(heartbeat)。如果沒有心跳，那麼JobTracker節點重新調度所有將執行的操作和正在進行的操作，交給另一個TaskTracker節點。這種方法在提供容錯性方面很有效，可是會大大延長某些操作(即便只有一個故障)的完成時間。

Spark使用彈性分布式數據集(RDD)，它們是容錯集合，裡面的數據元素可執行並行操作。RDD可以引用外部存儲系統中的數據集，比如共享式文件系統、HDFS、HBase，或者提供Hadoop InputFormat的任何數據源。Spark可以用Hadoop支持的任何存儲源創建RDD，包括本地文件系統，或前面所列的其中一種文件系統。

RDD擁有五個主要屬性：

分區列表
計算每個分片的函數
依賴其他RDD的項目列表
面向鍵值RDD的分區程序(比如說RDD是散列分區)，這是可選屬性
計算每個分片的首選位置的列表(比如HDFS文件的數據塊位置)，這是可選屬性

RDD可能具有持久性，以便將數據集緩存在內存中。這樣一來，以後的操作大大加快，最多達10倍。Spark的緩存具有容錯性，原因在於如果RDD的任何分區丟失，就會使用原始轉換，自動重新計算。

可擴展性

按照定義，MapRece和Spark都可以使用HDFS來擴展。那麼，Hadoop集群能變得多大呢?

據稱雅虎有一套42000個節點組成的Hadoop集群，可以說擴展無極限。最大的已知Spark集群是8000個節點，不過隨著大數據增多，預計集群規模也會隨之變大，以便繼續滿足吞吐量方面的預期。

安全

Hadoop支持Kerberos身份驗證，這管理起來有麻煩。然而，第三方廠商讓企業組織能夠充分利用活動目錄Kerberos和LDAP用於身份驗證。同樣那些第三方廠商還為傳輸中數據和靜態數據提供數據加密。

Hadoop分布式文件系統支持訪問控制列表(ACL)和傳統的文件許可權模式。Hadoop為任務提交中的用戶控制提供了服務級授權(Service Level Authorization)，這確保客戶擁有正確的許可權。

Spark的安全性弱一點，目前只支持通過共享密鑰(密碼驗證)的身份驗證。Spark在安全方面帶來的好處是，如果你在HDFS上運行Spark，它可以使用HDFS ACL和文件級許可權。此外，Spark可以在YARN上運行，因而能夠使用Kerberos身份驗證。

總結

Spark與MapRece是一種相互共生的關系。Hadoop提供了Spark所沒有的功能特性，比如分布式文件系統，而Spark 為需要它的那些數據集提供了實時內存處理。完美的大數據場景正是設計人員當初預想的那樣：讓Hadoop和Spark在同一個團隊裡面協同運行。

㈢什麼是Spark，如何使用Spark進行數據分析

spark是一種編程語言

㈣有什麼關於 Spark 的書推薦

《大數據Spark企業級實戰》本書共包括14章，每章的主要內容如下。

第一章回答了為什麼大型數據處理平台都要選擇SPARK

。為什麼spark如此之快?星火的理論基礎是什麼?spark如何使用專門的技術堆棧來解決大規模數據處理的需要?

第二章回答了如何從頭構建Hadoop集群的問題。

如何構建基於Hadoop集群的星火集群?如何測試火星的質量?

附錄從spark的角度解釋了Scala，並詳細解釋了Scala函數編程和面向對象編程。

㈤大數據崗位需要掌握哪些技能

大數據所需技能：

1、linux

大數據集群主要建立在linux操作系統上，Linux是一套免費使用和自由傳播的類Unix操作系統。

2、Hadoop

Hadoop是一個能夠對大量數據進行離線分布式處理的軟體框架，運算時利用maprece對數據進行處理。

3、HDFS

HDFS是建立在多台節點上的分布式文件系統,用戶可以通過hdfs命令來操作分布式文件系統。

4、Hive

Hive是使用sql進行計算的hadoop框架，工作中常用到的部分，也是面試的重點，此部分大家將從方方面面來學習Hive的應用，任何細節都將給大家涉及到。

5、Storm實時數據處理

全面掌握Storm內部機制和原理，通過大量項目實戰，擁有完整項目開發思路和架構設計，掌握從數據採集到實時計算到數據存儲再到前台展示。

6、spark

大數據開發中最重要的部分，涵蓋了Spark生態系統的概述及其編程模型，深入內核的研究，Spark on Yarn,Spark Streaming流式計算原理與實踐，Spark SQL,Spark的多語言編程以及SparkR的原理和運行...

㈥科普Spark，Spark是什麼，如何使用Spark

科普Spark，Spark是什麼，如何使用Spark

1.Spark基於什麼演算法的分布式計算（很簡單）

2.Spark與MapRece不同在什麼地方

3.Spark為什麼比Hadoop靈活

4.Spark局限是什麼

5.什麼情況下適合使用Spark

Spark與Hadoop的對比

Spark的中間數據放到內存中，對於迭代運算效率更高。

Spark更適合於迭代運算比較多的ML和DM運算。因為在Spark裡面，有RDD的抽象概念。

Spark比Hadoop更通用

Spark提供的數據集操作類型有很多種，不像Hadoop只提供了Map和Rece兩種操作。比如map, filter, flatMap, sample, groupByKey, receByKey, union, join, cogroup, mapValues, sort,partionBy等多種操作類型，Spark把這些操作稱為Transformations。同時還提供Count, collect, rece, lookup, save等多種actions操作。

這些多種多樣的數據集操作類型，給給開發上層應用的用戶提供了方便。各個處理節點之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模式。用戶可以命名，物化，控制中間結果的存儲、分區等。可以說編程模型比Hadoop更靈活。

不過由於RDD的特性，Spark不適用那種非同步細粒度更新狀態的應用，例如web服務的存儲或者是增量的web爬蟲和索引。就是對於那種增量修改的應用模型不適合。

容錯性

在分布式數據集計算時通過checkpoint來實現容錯，而checkpoint有兩種方式，一個是checkpoint data，一個是logging the updates。用戶可以控制採用哪種方式來實現容錯。

可用性

Spark通過提供豐富的Scala, Java，Python API及互動式Shell來提高可用性。

Spark與Hadoop的結合

Spark可以直接對HDFS進行數據的讀寫，同樣支持Spark on YARN。Spark可以與MapRece運行於同集群中，共享存儲資源與計算，數據倉庫Shark實現上借用Hive，幾乎與Hive完全兼容。

Spark的適用場景

Spark是基於內存的迭代計算框架，適用於需要多次操作特定數據集的應用場合。需要反復操作的次數越多，所需讀取的數據量越大，受益越大，數據量小但是計算密集度較大的場合，受益就相對較小（大資料庫架構中這是是否考慮使用Spark的重要因素）

由於RDD的特性，Spark不適用那種非同步細粒度更新狀態的應用，例如web服務的存儲或者是增量的web爬蟲和索引。就是對於那種增量修改的應用模型不適合。總的來說Spark的適用面比較廣泛且比較通用。

運行模式

本地模式

Standalone模式

Mesoes模式

yarn模式

Spark生態系統

Shark ( Hive on Spark): Shark基本上就是在Spark的框架基礎上提供和Hive一樣的H iveQL命令介面，為了最大程度的保持和Hive的兼容性，Shark使用了Hive的API來實現query Parsing和 Logic Plan generation，最後的PhysicalPlan execution階段用Spark代替Hadoop MapRece。通過配置Shark參數，Shark可以自動在內存中緩存特定的RDD，實現數據重用，進而加快特定數據集的檢索。同時，Shark通過UDF用戶自定義函數實現特定的數據分析學習演算法，使得SQL數據查詢和運算分析能結合在一起，最大化RDD的重復使用。

Spark streaming: 構建在Spark上處理Stream數據的框架，基本的原理是將Stream數據分成小的時間片斷（幾秒），以類似batch批量處理的方式來處理這小部分數據。Spark Streaming構建在Spark上，一方面是因為Spark的低延遲執行引擎（100ms+）可以用於實時計算，另一方面相比基於Record的其它處理框架（如Storm），RDD數據集更容易做高效的容錯處理。此外小批量處理的方式使得它可以同時兼容批量和實時數據處理的邏輯和演算法。方便了一些需要歷史數據和實時數據聯合分析的特定應用場合。

Bagel: Pregel on Spark，可以用Spark進行圖計算，這是個非常有用的小項目。Bagel自帶了一個例子，實現了Google的PageRank演算法。

End.

㈦ hadoop，storm和spark的區別，比較

一、hadoop、Storm該選哪一個？
為了區別hadoop和Storm，該部分將回答如下問題：
1.hadoop、Storm各是什麼運算
2.Storm為什麼被稱之為流式計算系統
3.hadoop適合什麼場景，什麼情況下使用hadoop
4.什麼是吞吐量

首先整體認識：Hadoop是磁碟級計算，進行計算時，數據在磁碟上，需要讀寫磁碟；Storm是內存級計算，數據直接通過網路導入內存。讀寫內存比讀寫磁碟速度快n個數量級。根據Harvard CS61課件，磁碟訪問延遲約為內存訪問延遲的75000倍。所以Storm更快。

注釋：
1. 延時，指數據從產生到運算產生結果的時間，「快」應該主要指這個。
2. 吞吐，指系統單位時間處理的數據量。

storm的網路直傳、內存計算，其時延必然比hadoop的通過hdfs傳輸低得多；當計算模型比較適合流式時，storm的流式處理，省去了批處理的收集數據的時間；因為storm是服務型的作業，也省去了作業調度的時延。所以從時延上來看，storm要快於hadoop。

從原理角度來講：

Hadoop M/R基於HDFS，需要切分輸入數據、產生中間數據文件、排序、數據壓縮、多份復制等，效率較低。
Storm 基於ZeroMQ這個高性能的消息通訊庫，不持久化數據。

為什麼storm比hadoop快，下面舉一個應用場景
說一個典型的場景，幾千個日誌生產方產生日誌文件，需要進行一些ETL操作存入一個資料庫。

假設利用hadoop，則需要先存入hdfs，按每一分鍾切一個文件的粒度來算（這個粒度已經極端的細了，再小的話hdfs上會一堆小文件），hadoop開始計算時，1分鍾已經過去了，然後再開始調度任務又花了一分鍾，然後作業運行起來，假設機器特別多，幾鈔鍾就算完了，然後寫資料庫假設也花了很少的時間，這樣，從數據產生到最後可以使用已經過去了至少兩分多鍾。
而流式計算則是數據產生時，則有一個程序去一直監控日誌的產生，產生一行就通過一個傳輸系統發給流式計算系統，然後流式計算系統直接處理，處理完之後直接寫入資料庫，每條數據從產生到寫入資料庫，在資源充足時可以在毫秒級別完成。

同時說一下另外一個場景：
如果一個大文件的wordcount，把它放到storm上進行流式的處理，等所有已有數據處理完才讓storm輸出結果，這時候，你再把它和hadoop比較快慢，這時，其實比較的不是時延，而是比較的吞吐了。

--------------------------------------------------------------------------------------------------------------------------------
最主要的方面：Hadoop使用磁碟作為中間交換的介質，而storm的數據是一直在內存中流轉的。
兩者面向的領域也不完全相同，一個是批量處理，基於任務調度的；另外一個是實時處理，基於流。
以水為例，Hadoop可以看作是純凈水，一桶桶地搬；而Storm是用水管，預先接好（Topology），然後打開水龍頭，水就源源不斷地流出來了。

--------------------------------------------------------------------------------------------------------------------------------
Storm的主工程師Nathan Marz表示： Storm可以方便地在一個計算機集群中編寫與擴展復雜的實時計算，Storm之於實時處理，就好比Hadoop之於批處理。Storm保證每個消息都會得到處理，而且它很快——在一個小集群中，每秒可以處理數以百萬計的消息。更棒的是你可以使用任意編程語言來做開發。
Storm的主要特點如下：
1.簡單的編程模型。類似於MapRece降低了並行批處理復雜性，Storm降低了進行實時處理的復雜性。
2.可以使用各種編程語言。你可以在Storm之上使用各種編程語言。默認支持Clojure、Java、Ruby和Python。要增加對其他語言的支持，只需實現一個簡單的Storm通信協議即可。
3.容錯性。Storm會管理工作進程和節點的故障。
4.水平擴展。計算是在多個線程、進程和伺服器之間並行進行的。
5.可靠的消息處理。Storm保證每個消息至少能得到一次完整處理。任務失敗時，它會負責從消息源重試消息。
6.快速。系統的設計保證了消息能得到快速的處理，使用MQ作為其底層消息隊列。
7.本地模式。Storm有一個「本地模式」，可以在處理過程中完全模擬Storm集群。這讓你可以快速進行開發和單元測試。

--------------------------------------------------------------------------------------------------------------------------------
在消耗資源相同的情況下，一般來說storm的延時低於maprece。但是吞吐也低於maprece。storm是典型的流計算系統，maprece是典型的批處理系統。下面對流計算和批處理系統流程

這個個數據處理流程來說大致可以分三個階段：
1. 數據採集與准備
2. 數據計算（涉及計算中的中間存儲），題主中的「那些方面決定」應該主要是指這個階段處理方式。
3. 數據結果展現（反饋）

1）數據採集階段，目前典型的處理處理策略：數據的產生系統一般出自頁面打點和解析DB的log，流計算將數據採集中消息隊列（比如kafaka,metaQ,timetunle）等。批處理系統一般將數據採集進分布式文件系統（比如HDFS），當然也有使用消息隊列的。我們暫且把消息隊列和文件系統稱為預處理存儲。二者在延時和吞吐上沒太大區別，接下來從這個預處理存儲進入到數據計算階段有很大的區別，流計算一般在實時的讀取消息隊列進入流計算系統（storm）的數據進行運算，批處理一系統一般會攢一大批後批量導入到計算系統（hadoop），這里就有了延時的區別。
2）數據計算階段，流計算系統（storm）的延時低主要有一下幾個方面（針對題主的問題）
A： storm 進程是常駐的，有數據就可以進行實時的處理
maprece 數據攢一批後由作業管理系統啟動任務，Jobtracker計算任務分配，tasktacker啟動相關的運算進程
B： stom每個計算單元之間數據之間通過網路（zeromq）直接傳輸。
maprece map任務運算的結果要寫入到HDFS，在於rece任務通過網路拖過去運算。相對來說多了磁碟讀寫，比較慢
C：對於復雜運算
storm的運算模型直接支持DAG（有向無環圖）
maprece 需要肯多個MR過程組成，有些map操作沒有意義的

3）數據結果展現
流計算一般運算結果直接反饋到最終結果集中（展示頁面，資料庫，搜索引擎的索引）。而maprece一般需要整個運算結束後將結果批量導入到結果集中。

實際流計算和批處理系統沒有本質的區別，像storm的trident也有批概念，而maprece可以將每次運算的數據集縮小（比如幾分鍾啟動一次），facebook的puma就是基於hadoop做的流計算系統。

二、高性能並行計算引擎Storm和Spark比較
Spark基於這樣的理念，當數據龐大時，把計算過程傳遞給數據要比把數據傳遞給計算過程要更富效率。每個節點存儲（或緩存）它的數據集，然後任務被提交給節點。
所以這是把過程傳遞給數據。這和Hadoop map/rece非常相似，除了積極使用內存來避免I/O操作，以使得迭代演算法（前一步計算輸出是下一步計算的輸入）性能更高。
Shark只是一個基於Spark的查詢引擎（支持ad-hoc臨時性的分析查詢）
而Storm的架構和Spark截然相反。Storm是一個分布式流計算引擎。每個節點實現一個基本的計算過程，而數據項在互相連接的網路節點中流進流出。和Spark相反，這個是把數據傳遞給過程。
兩個框架都用於處理大量數據的並行計算。
Storm在動態處理大量生成的「小數據塊」上要更好（比如在Twitter數據流上實時計算一些匯聚功能或分析）。
Spark工作於現有的數據全集（如Hadoop數據）已經被導入Spark集群，Spark基於in-memory管理可以進行快訊掃描，並最小化迭代演算法的全局I/O操作。
不過Spark流模塊（Streaming Mole）倒是和Storm相類似（都是流計算引擎），盡管並非完全一樣。
Spark流模塊先匯聚批量數據然後進行數據塊分發（視作不可變數據進行處理），而Storm是只要接收到數據就實時處理並分發。
不確定哪種方式在數據吞吐量上要具優勢，不過Storm計算時間延遲要小。
總結下，Spark和Storm設計相反，而Spark Steaming才和Storm類似，前者有數據平滑窗口（sliding window），而後者需要自己去維護這個窗口。

㈧ 2分鍾讀懂大數據框架Hadoop和Spark的異同

1、 Spark VSHadoop哪些異同點

Hadoop:布式批處理計算強調批處理用於數據挖掘、析

Spark:基於內存計算源集群計算系統目讓數據析更加快速, Spark 種與 Hadoop 相似源集群計算環境兩者間存些同處些用同處使 Spark 某些工作負載面表現更加優越換句說Spark 啟用內存布數據集除能夠提供互動式查詢外優化迭代工作負載

Spark Scala 語言實現 Scala 用作其應用程序框架與 Hadoop 同Spark Scala 能夠緊密集其 Scala 像操作本集合象輕松操作布式數據集

盡管創建 Spark 支持布式數據集迭代作業實際 Hadoop 補充 Hadoop 文件系統並行運行通名Mesos第三集群框架支持行Spark 由加州伯克利校 AMP 實驗室 (Algorithms,Machines,and People Lab) 發用構建型、低延遲數據析應用程序

雖 Spark 與 Hadoop 相似處提供具用差異新集群計算框架首先Spark 集群計算特定類型工作負載設計即些並行操作間重用工作數據集（比機器習算）工作負載優化些類型工作負載Spark 引進內存集群計算概念內存集群計算數據集緩存內存縮短訪問延遲.

數據處理面相信家hadoop已經耳熟能詳基於GoogleMap/Rece實現Hadoop發者提供map、rece原語使並行批處理程序變非簡單優美Spark提供數據集操作類型種像Hadoop提供MapRece兩種操作比map,filter, flatMap,sample, groupByKey, receByKey, union,join, cogroup,mapValues, sort,partionBy等種操作類型些操作稱Transformations同提供Count,collect, rece, lookup, save等種actions些種數據集操作類型給層應用者提供便各處理節點間通信模型再像Hadoop唯Data Shuffle種模式用戶命名物化控制間結區等說編程模型比Hadoop更靈.

2、Spark容錯性面否比其工具更優越性

Spark論文《Resilient Distributed Datasets: AFault-TolerantAbstraction for In-Memory Cluster Computing》沒看容錯性做倒提布式數據集計算做checkpoint兩種式checkpoint dataloggingthe updates貌似Spark採用者文提雖者看似節省存儲空間由於數據處理模型類似DAG操作程由於圖某節點錯由於lineage chains依賴復雜性能引起全部計算節點重新計算本低說存數據存更新志做checkpoint由用戶說算吧相於都沒說皮球踢給用戶所我看由用戶根據業務類型衡量存儲數據IO磁碟空間代價重新計算代價選擇代價較種策略取代給間結進行持久化或建立檢查點Spark記住產某些數據集操作序列節點現故障Spark根據存儲信息重新構造數據集認錯其節點幫助重建

3、Spark於數據處理能力效率哪些特色

Spark提供高性能數據處理能力使用戶快速反饋體驗更另類應用做數據挖掘Spark充利用內存進行緩存利用DAG消除必要步驟所比較合適做迭代式運算相部機器習算通迭代收斂算所適合用Spark實現我些用算並行化用Spark實現R語言便調用降低用戶進行數據挖掘習本

Spark配流數據處理模型與Twitter Storm框架相比Spark採用種趣且獨特辦Storm基本像放入獨立事務管道其事務布式處理相反Spark採用模型收集事務短間內（我假設5秒）批處理式處理事件所收集數據自RDD使用Spark應用程序用組進行處理作者聲稱種模式緩慢節點故障情況更加穩健且5秒間間隔通於數應用已經足夠快種統流式處理與非流式處理部

總結
幾看Hadoop權威指南、hbase權威指南、hive權威指南、規模布式存儲系統、zoopkeeper、數據互聯網規模數據挖掘與布式處理等書同補充能靜完整看完本書相錯

㈨大數據中的Spark指的是什麼

謝謝邀請！
spark最初是由伯克利大學的amplab於2009年提交的一個項目，現在已經是Apache軟體基金會最活躍的項目，對於spark,apache給出的官方定義是：spark是一個快速和通用的大數據處理引擎。可以理解為一個分布式大數據處理框架，spark是基於Rdd(彈性分布式數據集)，立足於內存計算，在「one stack to rule them all」的思想引導下，打造了一個可以流式處理（spark streaming）,機器學習（mllib）,實時查詢（spark sql）,圖計算（graphx）等各種大數據處理，無縫連接的一棧式計算平台，由於spark在性能和擴展上快速，易用，通用的特點，使之成為一個一體化，多元化的大數據計算平台。
spark的一棧式優勢
1 快速處理，比hadoop快100倍，因為spark是基於內存計算，而hadoop是基於磁碟計算
2易用性，spark支持多種語言
3 通用性強，可以流式處理，及時查詢，圖計算，機器學習
4 可以和hadoop數據集成，運行在yarn上，統一進行資源管理調度
5 活躍和壯大的社區
以上是關於spark的簡單定義，希望我的回答可以採納，謝謝

㈩《Spark大數據分析實戰》epub下載在線閱讀全文，求百度網盤雲資源

《Spark大數據分析實戰》（高彥傑/倪亞宇）電子書網盤下載免費在線閱讀

鏈接: https://pan..com/s/1MyKNRhDaWb9FMUYESLDIcw

提取碼: 1eva

書名:Spark大數據分析實戰

豆瓣評分:5.2

作者:高彥傑/倪亞宇

出版社:機械工業出版社

出版年:2016-1-1

頁數:213

內容簡介

本書一共11章：其中第1～3章，主要介紹了Spark的基本概念、編程模型、開發與部署的方法；第4～11章，詳細詳解了熱點新聞分析系統、基於雲平台的日誌數據分析、情感分析系統、搜索引擎鏈接分析系統等的應用與演算法等核心知識點。

作者簡介

高彥傑，畢業於*國人民大學，就職於微軟亞洲研究院。開源技術愛好者，對spark及其他開源大數據系統與技術有較為深入的認識和研究，實踐經驗豐富。較早接觸並使用spark，對spark應用開發、spark系統的運維和測試比較熟悉．深度閱讀了spark的源代碼，了解spark的運行機制，擅長spark的查詢優化。

曾著有暢銷書《spark大數據處理：技術、應用與性能優化》。

倪亞宇，清華大學自動化系在讀博士研究生，曾於微軟亞洲研究院、IBM研究院實習。對大規模的推薦系統和機器學習演算法有較為深入的研究和豐富的實踐經驗。

導航:首頁 > 編程語言 > spark概述與編程模型

spark概述與編程模型

《大數據Spark企業級實戰》本書共包括14章，每章的主要內容如下。

第一章回答了為什麼大型數據處理平台都要選擇SPARK

第二章回答了如何從頭構建Hadoop集群的問題。

與spark概述與編程模型相關的資料