hadoop演算法題_如何系統地學習數據挖掘

① Hadoop實戰的作品目錄

第一部分Hadoop——一種分布式編程框架
第1章Hadoop簡介2
1.1為什麼寫《Hadoop 實戰》3
1.2什麼是Hadoop3
1.3了解分布式系統和Hadoop4
1.4比較SQL資料庫和Hadoop5
1.5理解MapRece6
1.5.1動手擴展一個簡單程序7
1.5.2相同程序在MapRece中的擴展9
1.6用Hadoop統計單詞——運行第一個程序11
1.7Hadoop歷史15
1.8小結16
1.9資源16
第2章初識Hadoop17
2.1Hadoop的構造模塊17
2.1.1NameNode17
2.1.2DataNode18
2.1.3Secondary NameNode19
2.1.4JobTracker19
2.1.5TaskTracker19
2.2為Hadoop集群安裝SSH21
2.2.1定義一個公共賬號21
2.2.2驗證SSH安裝21
2.2.3生成SSH密鑰對21
2.2.4將公鑰分布並登錄驗證22
2.3運行Hadoop22
2.3.1本地(單機)模式23
2.3.2偽分布模式24
2.3.3全分布模式25
2.4基於Web的集群用戶界面28
2.5小結30
第3章Hadoop組件31
3.1HDFS文件操作31
3.1.1基本文件命令32
3.1.2編程讀寫HDFS35
3.2剖析MapRece程序37
3.2.1Hadoop數據類型39
3.2.2Mapper40
3.2.3Recer41
3.2.4Partitioner：重定向Mapper輸出41
3.2.5Combiner：本地rece43
3.2.6預定義mapper和Recer類的單詞計數43
3.3讀和寫43
3.3.1InputFormat44
3.3.2OutputFormat49
3.4小結50
第二部分實戰
第4章編寫MapRece基礎程序52
4.1獲得專利數據集52
4.1.1專利引用數據53
4.1.2專利描述數據54
4.2構建MapRece程序的基礎模板55
4.3計數60
4.4適應Hadoop API的改變64
4.5Hadoop的Streaming67
4.5.1通過Unix命令使用Streaming68
4.5.2通過腳本使用Streaming69
4.5.3用Streaming處理鍵/值對72
4.5.4通過Aggregate包使用Streaming75
4.6使用combiner提升性能80
4.7溫故知新83
4.8小結84
4.9更多資源84
第5章高階MapRece85
5.1鏈接MapRece作業85
5.1.1順序鏈接MapRece作業85
5.1.2具有復雜依賴的MapRece鏈接86
5.1.3預處理和後處理階段的鏈接86
5.2聯結不同來源的數據89
5.2.1Rece側的聯結90
5.2.2基於DistributedCache的復制聯結98
5.2.3半聯結：map側過濾後在rece側聯結101
5.3創建一個Bloom filter102
5.3.1Bloom filter做了什麼102
5.3.2實現一個Bloom filter104
5.3.3Hadoop 0.20以上版本的Bloom filter110
5.4溫故知新110
5.5小結111
5.6更多資源112
第6章編程實踐113
6.1開發MapRece程序113
6.1.1本地模式114
6.1.2偽分布模式118
6.2生產集群上的監視和調試123
6.2.1計數器123
6.2.2跳過壞記錄125
6.2.3用IsolationRunner重新運行出錯的任務128
6.3性能調優129
6.3.1通過combiner來減少網路流量129
6.3.2減少輸入數據量129
6.3.3使用壓縮129
6.3.4重用JVM132
6.3.5根據猜測執行來運行132
6.3.6代碼重構與演算法重寫133
6.4小結134
第7章細則手冊135
7.1向任務傳遞作業定製的參數135
7.2探查任務特定信息137
7.3劃分為多個輸出文件138
7.4以資料庫作為輸入輸出143
7.5保持輸出的順序145
7.6小結146
第8章管理Hadoop147
8.1為實際應用設置特定參數值147
8.2系統體檢149
8.3許可權設置151
8.4配額管理151
8.5啟用回收站152
8.6刪減DataNode152
8.7增加DataNode153
8.8管理NameNode和SNN153
8.9恢復失效的NameNode155
8.10感知網路布局和機架的設計156
8.11多用戶作業的調度157
8.11.1多個JobTracker158
8.11.2公平調度器158
8.12小結160
第三部分Hadoop也瘋狂
第9章在雲上運行Hadoop162
9.1Amazon Web Services簡介162
9.2安裝AWS163
9.2.1獲得AWS身份認證憑據164
9.2.2獲得命令行工具166
9.2.3准備SSH密鑰對168
9.3在EC2上安裝Hadoop169
9.3.1配置安全參數169
9.3.2配置集群類型169
9.4在EC2上運行MapRece程序171
9.4.1將代碼轉移到Hadoop集群上171
9.4.2訪問Hadoop集群上的數據172
9.5清空和關閉EC2實例175
9.6Amazon Elastic MapRece和其他AWS服務176
9.6.1Amazon Elastic MapRece176
9.6.2AWS導入/導出177
9.7小結177
第10章用Pig編程178
10.1像Pig一樣思考178
10.1.1數據流語言179
10.1.2數據類型179
10.1.3用戶定義函數179
10.2安裝Pig179
10.3運行Pig180
10.4通過Grunt學習Pig Latin182
10.5談談Pig Latin186
10.5.1數據類型和schema186
10.5.2表達式和函數187
10.5.3關系型運算符189
10.5.4執行優化196
10.6用戶定義函數196
10.6.1使用UDF196
10.6.2編寫UDF197
10.7腳本199
10.7.1注釋199
10.7.2參數替換200
10.7.3多查詢執行201
10.8Pig實戰——計算相似專利的例子201
10.9小結206
第11章Hive及Hadoop群207
11.1Hive207
11.1.1安裝與配置Hive208
11.1.2查詢的示例210
11.1.3深入HiveQL213
11.1.4Hive小結221
11.2其他Hadoop相關的部分221
11.2.1HBase221
11.2.2ZooKeeper221
11.2.3Cascading221
11.2.4Cloudera222
11.2.5Katta222
11.2.6CloudBase222
11.2.7Aster Data和Greenplum222
11.2.8Hama和Mahout223
11.3小結223
第12章案例研究224
12.1轉換《紐約時報》1100萬個庫存圖片文檔224
12.2挖掘中國移動的數據225
12.3在StumbleUpon推薦最佳網站229
12.3.1分布式StumbleUpon的開端230
12.3.2HBase和StumbleUpon230
12.3.3StumbleUpon上的更多Hadoop應用236
12.4搭建面向企業查詢的分析系統——IBM的ES2項目238
12.4.1ES2系統結構240
12.4.2ES2爬蟲241
12.4.3ES2分析242
12.4.4小結249
12.4.5參考文獻250
附錄AHDFS文件命令251

② 基於hadoop的機器學習演算法有哪些

很多，主要說下監督學習這塊的演算法哈。歡迎討論。
svm，支撐向量機，通過找到樣本空間中的一個超平面，實現樣本的分類，也可以作回歸，主要用在文本分類，圖像識別等領域，詳見：；
lr，邏輯回歸，本質也是線性回歸，通過擬合擬合樣本的某個曲線，然後使用邏輯函數進行區間縮放，但是一般用來分類，主要用在ctr預估、推薦等；
nn，神經網路，通過找到某種非線性模型擬合數據，主要用在圖像等；
nb，樸素貝葉斯，通過找到樣本所屬於的聯合分步，然後通過貝葉斯公式，計算樣本的後驗概率，從而進行分類，主要用來文本分類；
dt，決策樹，構建一棵樹，在節點按照某種規則（一般使用信息熵）來進行樣本劃分，實質是在樣本空間進行塊狀的劃分，主要用來分類，也有做回歸，但更多的是作為弱分類器，用在model embedding中；
rf，隨進森林，是由許多決策樹構成的森林，每個森林中訓練的樣本是從整體樣本中抽樣得到，每個節點需要進行劃分的特徵也是抽樣得到，這樣子就使得每棵樹都具有獨特領域的知識，從而有更好的泛化能力；
gbdt，梯度提升決策樹，實際上也是由多棵樹構成，和rf不同的是，每棵樹訓練樣本是上一棵樹的殘差，這體現了梯度的思想，同時最後的結構是用這所有的樹進行組合或者投票得出，主要用在推薦、相關性等；
knn，k最近鄰，應該是最簡單的ml方法了，對於未知標簽的樣本，看與它最近的k個樣本(使用某種距離公式，馬氏距離或者歐式距離)中哪種標簽最多，它就屬於這類；

③ 如何提升Hadoop MapRece性能

你這個問慎虧培題，問的太大了。目前可能有很多人都在熟悉使用hadoop，當然就會有很多人研究它了。默認的集群環境並不是最優的，所以為了提升集群的性能，人們就開始研究hadoop的優化了。現在，通常從以下幾個方面對空數hadoop進行優化：
1、數據放置和數據副本數量的選擇。集群默認情況一般有三個副本，並且集群默認每個節點的計算能力是一樣的，在分配數據塊的時候，均勻分布在每個節點上。實際環境中，更多的是每個節點得各方面能力是不同的，比如計算能力，那麼原有的數據分配方式就那麼合適了，需要根據節點的能力，合理的放置數據塊，從而提升性能。數據副本的數量也會影響hadoop的性能，這里邊涉及到數據遷移的問題。
2、參數配置方面。例如數據塊的大小當前大多數是128或者64M，相對來說是比較合理的。那麼這個值真的適合你的集群環境嗎？是否有方法可以計算出集群的最優狀態下的數據塊大小，這個需要研究。當然還有很多參數，需要優化，比如容器大小，內存分配，map和rece數量等。
3、作業調度問題。給你一堆的job，如何合理的調度使得執行最快。這也是優化的方向，雖然集群有默認的三種調度策略，但並不一寬唯定是最好的。
當然還有很多優化，這里就不一一列舉了，如果你感興趣，可以去網上搜索更多的參考資料！

④ hadoop某節點運行較慢，通過什麼機制解決

一個節點需要執行的命令答：（1）hadoop job Clist 得到job的id，然後執行 hadoop job -kill jobId就可以殺死一個指定jobId的job工作了。（2）hadoop fs -rmr /tmp/aaa 3 增加一個新的節點在新的幾點上執行 Hadoop daemon.sh start datanode Hadooop daemon.sh start tasktracker 然後在主節點中執行 hadoop dfsadmin -refreshnodes 刪除一個節點的時候，只需要在主節點執行 hadoop mradmin -refreshnodes 請列出你所知道的hadoop調度器，並簡要說明其工作方法答：Fifo schelar :默認，先進先出的原則 Capacity sc

⑤ 如何系統地學習數據挖掘

磨刀不誤砍柴工。在學習數據挖掘之前應該明白幾點：

數據挖掘目前在中國的尚未流行開，猶如屠龍之技。

數據初期的准備通常占整個數據挖掘項目工作量的70%左右。

數據挖掘本身融合了統計學、資料庫和機器學習等學科，並不是新的技術。

數據挖掘技術更適合業務人員學習（相比技術人員學習業務來的更高效）

數據挖掘適用於傳統的BI（報表、OLAP等）無法支持的領域。

數據挖掘項目通常需要重復一些毫無技術含量的工作。

如果你閱讀了以上內容覺得可以接受，那麼繼續往下看。

學習一門技術要和行業靠攏，沒有行業背景的技術如空中樓閣。技
術尤其是計算機領域的技術發展是寬泛且快速更替的（十年前做網頁設計都能成立公司），一般人沒有這個精力和時間全方位的掌握所有技術細節。但是技術在結合
行業之後就能夠獨當一面了，一方面有利於抓住用戶痛點和剛性需求，另一方面能夠累計行業經驗，使用互聯網思維跨界讓你更容易取得成功。不要在學習技術時想
要面面俱到，這樣會失去你的核心競爭力。

一、目前國內的數據挖掘人員工作領域大致可分為三類。

1）數據分析師：在擁有行業數據的電商、金融、電信、咨詢等行業里做業務咨詢，商務智能，出分析報告。

2）數據挖掘工程師：在多媒體、電商、搜索、社交等大數據相關行業里做機器學習演算法實現和分析。
3）科學研究方向：在高校、科研單位、企業研究院等高大上科研機構研究新演算法效率改進及未來應用。

二、說說各工作領域需要掌握的技能。
(1).數據分析師

需要有深厚的數理統計基礎，但是對程序開發能力不做要求。
需要熟練使用主流的數據挖掘（或統計分析）工具如Business Analytics and Business Intelligence Software（SAS）、SPSS、EXCEL等。
需要對與所在行業有關的一切核心數據有深入的理解，以及一定的數據敏感性培養。
經
典圖書推薦：《概率論與數理統計》、《統計學》推薦David
Freedman版、《業務建模與數據挖掘》、《數據挖掘導論》、《SAS編程與數據挖掘商業案例》、《Clementine數據挖掘方法及應用
》、《Excel 2007 VBA參考大全》、《IBM SPSS Statistics 19 Statistical Proceres
Companion》等。

(2).數據挖掘工程師

需要理解主流機器學習演算法的原理和應用。
需要熟悉至少一門編程語言如（Python、C、C++、Java、Delphi等）。
需要理解資料庫原理，能夠熟練操作至少一種資料庫（Mysql、SQL、DB2、Oracle等），能夠明白MapRece的原理操作以及熟練使用Hadoop系列工具更好。
經典圖書推薦：《數據挖掘概念與技術》、《機器學習實戰》、《人工智慧及其應用》、《資料庫系統概論》、《演算法導論》、《Web數據挖掘》、《 Python標准庫》、《thinking in Java》、《Thinking in C++》、《數據結構》等。

(3).科學研究方向

需要深入學習數據挖掘的理論基礎，包括關聯規則挖掘（Apriori和FPTree）、分類演算法（C4.5、KNN、Logistic Regression、SVM等) 、聚類演算法（Kmeans、Spectral Clustering）。目標可以先吃透數據挖掘10大演算法各自的使用情況和優缺點。

相對SAS、SPSS來說R語言更適合科研人員The R Project for Statistical Computing，因為R軟體是完全免費的，而且開放的社區環境提供多種附加工具包支持，更適合進行統計計算分析研究。雖然目前在國內流行度不高，但是強烈推薦。
可以嘗試改進一些主流演算法使其更加快速高效，例如實現Hadoop平台下的SVM雲演算法調用平台--web 工程調用hadoop集群。

需要廣而深的閱讀世界著名會議論文跟蹤熱點技術。如KDD，ICML，IJCAI，Association for the Advancement of Artificial Intelligence，ICDM 等等；還有數據挖掘相關領域期刊：ACM Transactions on Knowledge Discovery from Data，IEEE Transactions on Knowledge and Data Engineering，Journal of Machine Learning Research Homepage，IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。

可以嘗試參加數據挖掘比賽培養全方面解決實際問題的能力。如Sig KDD ，Kaggle: Go from Big Data to Big Analytics等。

可以嘗試為一些開源項目貢獻自己的代碼，比如Apache Mahout: Scalable machine learning and data mining ,myrrix等（具體可以在SourceForge或GitHub.上發現更多好玩的項目）。

經
典圖書推薦：《機器學習》
《模式分類》《統計學習理論的本質》《統計學習方法》《數據挖掘實用機器學習技術》《R語言實踐》，英文素質是科研人才必備的《Machine
Learning: A Probabilistic Perspective》《Scaling up Machine Learning :
Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise
Miner : A Case Study Approach》《Python for Data Analysis》等。

三、以下是通信行業數據挖掘工程師的工作感受。

真
正從數據挖掘項目實踐的角度講，溝通能力對挖掘的興趣愛好是最重要的，有了愛好才可以願意鑽研，有了不錯的溝通能力，才可以正確理解業務問題，才能正確把
業務問題轉化成挖掘問題，才可以在相關不同專業人才之間清楚表達你的意圖和想法，取得他們的理解和支持。所以我認為溝通能力和興趣愛好是個人的數據挖掘的
核心競爭力，是很難學到的；而其他的相關專業知識誰都可以學，算不上個人發展的核心競爭力。

說到這里可能很多數據倉庫專家、程序員、統計
師等等都要扔磚頭了，對不起，我沒有別的意思，你們的專業對於數據挖掘都很重要，大家本來就是一個整體的，但是作為單獨一個個體的人來說，精力有限，時間
有限，不可能這些領域都能掌握，在這種情況下，選擇最重要的核心，我想應該是數據挖掘技能和相關業務能力吧（從另外的一個極端的例子，我們可以看，
比如一個迷你型的挖掘項目，一個懂得市場營銷和數據挖掘技能的人應該可以勝任。這其中他雖然不懂數據倉庫，但是簡單的Excel就足以勝任高打6萬個樣本
的數據處理；他雖然不懂專業的展示展現技能，但是只要他自己看的懂就行了，這就無需什麼展示展現；前面說過，統計技能是應該掌握的，這對一個人的迷你項目
很重要；他雖然不懂編程，但是專業挖掘工具和挖掘技能足夠讓他操練的；這樣在迷你項目中，一個懂得挖掘技能和市場營銷業務能力的人就可以圓滿完成了，甚至
在一個數據源中根據業務需求可以無窮無盡的挖掘不同的項目思路，試問就是這個迷你項目，單純的一個數據倉庫專家、單純的一個程序員、單純的一個展示展現技
師、甚至單純的一個挖掘技術專家，都是無法勝任的）。這從另一個方面也說明了為什麼溝通能力的重要，這些個完全不同的專業領域，想要有效有機地整合在一起
進行數據挖掘項目實踐，你說沒有好的溝通能力行嗎？

數據挖掘能力只能在項目實踐的熔爐中提升、升華，所以跟著項目學挖掘是最有效的捷徑。
國外學習挖掘的人都是一開始跟著老闆做項目，剛開始不懂不要緊，越不懂越知道應該學什麼，才能學得越快越有效果。我不知道國內的數據挖掘學生是怎樣學的，
但是從網上的一些論壇看，很多都是紙上談兵，這樣很浪費時間，很沒有效率。

另外現在國內關於數據挖掘的概念都很混亂，很多BI只是局限在
報表的展示和簡單的統計分析，卻也號稱是數據挖掘；另一方面，國內真正規模化實施數據挖掘的行業是屈指可數（銀行、保險公司、移動通訊），其他行業的應用
就只能算是小規模的，比如很多大學都有些相關的挖掘課題、挖掘項目，但都比較分散，而且都是處於摸索階段，但是我相信數據挖掘在中國一定是好的前景，因為
這是歷史發展的必然。

講到移動方面的實踐案例，如果你是來自移動的話，你一定知道國內有家叫華院分析的公司（申明，我跟這家公司沒有任何
關系，我只是站在數據挖掘者的角度分析過中國大多數的號稱數據挖掘服務公司，覺得華院還不錯，比很多徒有虛名的大公司來得更實際），他們的業務現在已經覆
蓋了絕大多數中國省級移動公司的分析挖掘項目，你上網搜索一下應該可以找到一些詳細的資料吧。我對華院分析印象最深的一點就是2002年這個公司白手起
家，自己不懂不要緊，一邊自學一邊開始拓展客戶，到現在在中國的移動通訊市場全面開花，的確佩服佩服呀。他們最開始都是用EXCEL處理數據，用肉眼比較
選擇比較不同的模型，你可以想像這其中的艱難吧。

至於移動通訊的具體的數據挖掘的應用，那太多了，比如不同話費套餐的制訂、客戶流失模
型、不同服務交叉銷售模型、不同客戶對優惠的彈性分析、客戶群體細分模型、不同客戶生命周期模型、渠道選擇模型、惡意欺詐預警模型，太多了，記住，從客戶
的需求出發，從實踐中的問題出發，移動中可以發現太多的挖掘項目。最後告訴你一個秘密，當你數據挖掘能力提升到一定程度時，你會發現無論什麼行業，其實數
據挖掘的應用有大部分是重合的相似的，這樣你會覺得更輕松。

四、成為一名數據科學家需要掌握的技能圖。（原文：Data Science: How do I become a data scientist?）

導航:首頁 > 源碼編譯 > hadoop演算法題

hadoop演算法題

與hadoop演算法題相關的資料