Ⅰ Hadoop實戰的作品目錄
第一部分Hadoop——一種分布式編程框架
第1章Hadoop簡介2
1.1為什麼寫《Hadoop 實戰》3
1.2什麼是Hadoop3
1.3了解分布式系統和Hadoop4
1.4比較SQL資料庫和Hadoop5
1.5理解MapRece6
1.5.1動手擴展一個簡單程序7
1.5.2相同程序在MapRece中的擴展9
1.6用Hadoop統計單詞——運行第一個程序11
1.7Hadoop歷史15
1.8小結16
1.9資源16
第2章初識Hadoop17
2.1Hadoop的構造模塊17
2.1.1NameNode17
2.1.2DataNode18
2.1.3Secondary NameNode19
2.1.4JobTracker19
2.1.5TaskTracker19
2.2為Hadoop集群安裝SSH21
2.2.1定義一個公共賬號21
2.2.2驗證SSH安裝21
2.2.3生成SSH密鑰對21
2.2.4將公鑰分布並登錄驗證22
2.3運行Hadoop22
2.3.1本地(單機)模式23
2.3.2偽分布模式24
2.3.3全分布模式25
2.4基於Web的集群用戶界面28
2.5小結30
第3章Hadoop組件31
3.1HDFS文件操作31
3.1.1基本文件命令32
3.1.2編程讀寫HDFS35
3.2剖析MapRece程序37
3.2.1Hadoop數據類型39
3.2.2Mapper40
3.2.3Recer41
3.2.4Partitioner:重定向Mapper輸出41
3.2.5Combiner:本地rece43
3.2.6預定義mapper和Recer類的單詞計數43
3.3讀和寫43
3.3.1InputFormat44
3.3.2OutputFormat49
3.4小結50
第二部分實戰
第4章編寫MapRece基礎程序52
4.1獲得專利數據集52
4.1.1專利引用數據53
4.1.2專利描述數據54
4.2構建MapRece程序的基礎模板55
4.3計數60
4.4適應Hadoop API的改變64
4.5Hadoop的Streaming67
4.5.1通過Unix命令使用Streaming68
4.5.2通過腳本使用Streaming69
4.5.3用Streaming處理鍵/值對72
4.5.4通過Aggregate包使用Streaming75
4.6使用combiner提升性能80
4.7溫故知新83
4.8小結84
4.9更多資源84
第5章高階MapRece85
5.1鏈接MapRece作業85
5.1.1順序鏈接MapRece作業85
5.1.2具有復雜依賴的MapRece鏈接86
5.1.3預處理和後處理階段的鏈接86
5.2聯結不同來源的數據89
5.2.1Rece側的聯結90
5.2.2基於DistributedCache的復制聯結98
5.2.3半聯結:map側過濾後在rece側聯結101
5.3創建一個Bloom filter102
5.3.1Bloom filter做了什麼102
5.3.2實現一個Bloom filter104
5.3.3Hadoop 0.20以上版本的Bloom filter110
5.4溫故知新110
5.5小結111
5.6更多資源112
第6章編程實踐113
6.1開發MapRece程序113
6.1.1本地模式114
6.1.2偽分布模式118
6.2生產集群上的監視和調試123
6.2.1計數器123
6.2.2跳過壞記錄125
6.2.3用IsolationRunner重新運行出錯的任務128
6.3性能調優129
6.3.1通過combiner來減少網路流量129
6.3.2減少輸入數據量129
6.3.3使用壓縮129
6.3.4重用JVM132
6.3.5根據猜測執行來運行132
6.3.6代碼重構與演算法重寫133
6.4小結134
第7章細則手冊135
7.1向任務傳遞作業定製的參數135
7.2探查任務特定信息137
7.3劃分為多個輸出文件138
7.4以資料庫作為輸入輸出143
7.5保持輸出的順序145
7.6小結146
第8章管理Hadoop147
8.1為實際應用設置特定參數值147
8.2系統體檢149
8.3許可權設置151
8.4配額管理151
8.5啟用回收站152
8.6刪減DataNode152
8.7增加DataNode153
8.8管理NameNode和SNN153
8.9恢復失效的NameNode155
8.10感知網路布局和機架的設計156
8.11多用戶作業的調度157
8.11.1多個JobTracker158
8.11.2公平調度器158
8.12小結160
第三部分Hadoop也瘋狂
第9章在雲上運行Hadoop162
9.1Amazon Web Services簡介162
9.2安裝AWS163
9.2.1獲得AWS身份認證憑據164
9.2.2獲得命令行工具166
9.2.3准備SSH密鑰對168
9.3在EC2上安裝Hadoop169
9.3.1配置安全參數169
9.3.2配置集群類型169
9.4在EC2上運行MapRece程序171
9.4.1將代碼轉移到Hadoop集群上171
9.4.2訪問Hadoop集群上的數據172
9.5清空和關閉EC2實例175
9.6Amazon Elastic MapRece和其他AWS服務176
9.6.1Amazon Elastic MapRece176
9.6.2AWS導入/導出177
9.7小結177
第10章用Pig編程178
10.1像Pig一樣思考178
10.1.1數據流語言179
10.1.2數據類型179
10.1.3用戶定義函數179
10.2安裝Pig179
10.3運行Pig180
10.4通過Grunt學習Pig Latin182
10.5談談Pig Latin186
10.5.1數據類型和schema186
10.5.2表達式和函數187
10.5.3關系型運算符189
10.5.4執行優化196
10.6用戶定義函數196
10.6.1使用UDF196
10.6.2編寫UDF197
10.7腳本199
10.7.1注釋199
10.7.2參數替換200
10.7.3多查詢執行201
10.8Pig實戰——計算相似專利的例子201
10.9小結206
第11章Hive及Hadoop群207
11.1Hive207
11.1.1安裝與配置Hive208
11.1.2查詢的示例210
11.1.3深入HiveQL213
11.1.4Hive小結221
11.2其他Hadoop相關的部分221
11.2.1HBase221
11.2.2ZooKeeper221
11.2.3Cascading221
11.2.4Cloudera222
11.2.5Katta222
11.2.6CloudBase222
11.2.7Aster Data和Greenplum222
11.2.8Hama和Mahout223
11.3小結223
第12章案例研究224
12.1轉換《紐約時報》1100萬個庫存圖片文檔224
12.2挖掘中國移動的數據225
12.3在StumbleUpon推薦最佳網站229
12.3.1分布式StumbleUpon的開端230
12.3.2HBase和StumbleUpon230
12.3.3StumbleUpon上的更多Hadoop應用236
12.4搭建面向企業查詢的分析系統——IBM的ES2項目238
12.4.1ES2系統結構240
12.4.2ES2爬蟲241
12.4.3ES2分析242
12.4.4小結249
12.4.5參考文獻250
附錄AHDFS文件命令251
Ⅱ 大數據學習一般都學什麼內容
一、0基礎學習打基礎:java語言、 Linux
java可以說是大數據最基礎的編程語言,我接觸的很大一部分的大數據開發都是從Jave Web開發轉崗過來的。
二、大數據Hadoop體系
Hadoop是用Java語言開發的一個開源分布式計算平台,適合大數據的分布式存儲和計算平台。Hadoop是目前被廣泛使用的大數據平台,本身就是大數據平台研發人員的工作成果,Hadoop是目前比較常見的大數據支撐性平台。
三、Scala黃金語言和Spark
Scala和java很相似都是在jvm運行的語言,在開發過程中是可以無縫互相調用的。
Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是MapRece的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生態系統,以彌補MapRece的不足。
四、 大數據項目實戰
數據獲取、數據處理、數據分析、數據展現、數據應用
Ⅲ Hadoop 請教學習順序
雖然從事Hadoop方面工作,但是不是高手,畢竟只有一年經歷而已。
分享下本人的學習經歷吧。
了解Hadoop運行機制,可以學習Hadoop權威指南或者Hadoop實戰;
了解Hadoop運行流程,看懂HADOOP_HOME/bin/下面主要執行腳本。
查看core-default.xml/hdfs-default.xml/mapred-default.xml等默認配置
文件,及core-site.xml/hdfs-site.xml/mapred-site.xml等相關文件,學會
如何進行參數優化,以及掌握如何配置讀取壓縮文件,默認的gzip,及
自定義的lzo,學會自定義Combiner/Patitioner等,掌握各種輸入輸出
格式的區別及應用場景,學會自定義輸入輸出格式,其次學習MapRece演算法,
比如In-Map-Combing,相對頻度計算,Pairs演算法,Strips演算法等。掌握好
maprece編程。
在這其中,需要好好閱讀HADOOP_HOME/src/目錄下的Hadoop源碼,
這個就是開源最大的好處。說的比較亂,但是就湊合著借鑒下吧
Ⅳ 大數據培訓的內容是什麼有哪些方式
一、基礎部分:JAVA語言 和 LINUX系統
二、數據開發:
1、數據分析與挖掘
一般工作包括數據清洗,執行分析和數據可視化。學習Python、資料庫、網路爬蟲、數據分析與處理等。
大數據培訓一般是指大數據開發培訓。
大數據技術龐大復雜,基礎的技術包含數據的採集、數據預處理、分布式存儲、資料庫、數據倉庫、機器學習、並行計算、可視化等各種技術范疇和不同的技術層面。
2、大數據開發
數據工程師建設和優化系統。學習hadoop、spark、storm、超大集群調優、機器學習、Docker容器引擎、ElasticSearch、並發編程等;
課程學習一共分為六個階段:
Ⅳ 大數據主要學什麼
大數據分析挖掘與處理、移動開發與架構、軟體開發、雲計算等前沿技術等。
主修課程:面向對象程序設計、Hadoop實用技術、數據挖掘、機器學習、數據統計分析、高等數學、Python編程、JAVA編程、資料庫技術、Web開發、Linux操作系統、大數據平台搭建及運維、大數據應用開發、可視化設計與開發等。
旨在培養學生系統掌握數據管理及數據挖掘方法,成為具備大數據分析處理、數據倉庫管理、大數據平台綜合部署、大數據平台應用軟體開發和數據產品的可視化展現與分析能力的高級專業大數據技術人才。
(5)maprece編程實戰單詞擴展閱讀:
越來越多的行業對大數據應用持樂觀的態度,大數據或者相關數據分析解決方案的使用在互聯網行業,比如網路、騰訊、淘寶、新浪等公司已經成為標准。而像電信、金融、能源這些傳統行業,越來越多的用戶開始嘗試或者考慮怎麼樣使用大數據解決方案,來提升自己的業務水平。
在「大數據」背景之下,精通「大數據」的專業人才將成為企業最重要的業務角色,「大數據」從業人員薪酬持續增長,人才缺口巨大。
Ⅵ IT技術人員轉行大數據應該考慮哪些問題
1、豐富的數據開發經驗,對數據處理、數據建模、數據分析等有深刻認識和實戰經驗。
2、熟悉SQL,有一定的SQL性能優化經驗。
3、熟練掌握Java語言,MapRece編程,腳本語言Shell/Python/Perl之一。
4、業務理解力強,對數據、新技術敏感,對雲計算、大數據技術充滿熱情。
5、深入理解Map-Rece模型,對Hadoop、Spark、Storm等大規模數據存儲與運算平台有實踐經驗。
這五點因素並代表全部,只是為大家羅列出一些基礎的技能,但這也能夠給一些轉行者提供一些方向。
Ⅶ 有沒有關於maprece編程的書籍推薦
maprece編程書籍推薦一:《MapRece設計模式》
將各種有價值的MapRece設計模式匯集在一起,形成一本獨特的合集,可以幫讀者節省大量的時間和精力,無論讀者身處哪個領域,使用哪種編程語言,使用什麼開發框架。
書中對每一種模式都會詳細解釋其使用的上下文、可能存在的陷阱及使用的注意事項,以幫助讀者在對大數據問題架構建模時避免常見的設計錯誤。本書還提供了MapRece的一個完整綜述,解釋其起源和實現,並說明設計模式如此重要的原因。書中的所有示例代碼都是基於Hadoop平台編寫的。
maprece編程書籍推薦二:《Hadoop MapRece實戰手冊》