python分布式鎖_python爬蟲學習教程哪個好

Ⅰ python爬蟲學習教程哪個好

第一階段

Python開發基礎和核心特性1.變數及運算符2.分支及循環3.循環及字元串4.列表及嵌套列表5.字典及項目練習6.函數的使用7.遞歸及文件處理8.文件9.面向對象10.設計模式及異常處理11.異常及模塊的使用12.坦克大戰13.核心編程14.高級特性15.內存管理

第二階段

資料庫和linux基礎1.並發編程2.網路通信3.MySQL4.Linux5.正則表達式

第三階段

web前端開發基礎1.html基本標簽2.css樣式3.css浮動和定位4.js基礎5.js對象和函數6.js定時器和DOM7.js事件響應8.使用jquery9.jquery動畫特效10.Ajax非同步網路請求

第四階段

Python Web框架階段1.Django-Git版本控制2.Django-博客項目3.Django-商城項目4.Django模型層5.Django入門6.Django模板層7.Django視圖層8.Tornado框架

第五階段

Python 爬蟲實戰開發1.Python爬蟲基礎2.Python爬蟲Scrapy框架

Ⅱ 什麼是Redis

redis 就是一個資料庫，不過與傳統資料庫不同的是 redis 的數據是存在內存和部分文件中的，所以讀寫速度非常快，因此 redis 被廣泛應用於緩存方向。另外，redis 也經常用來做分布式鎖。redis 提供了多種數據類型來支持不同的業務場景。除此之外，redis 支持事務、持久化、LUA腳本、LRU驅動事件、多種集群方案。

Ⅲ 零基礎應該選擇學習 java、php、前端還是 python

這三門當中，首推Java。真的，Python當然是好，但是對於一個新入門的人，最重要的是先找到工作不是嗎?而找工作的話，Java無疑是最容易的。相比較PHP與Python而言，Java程序員的崗位需求要大的很多，對於跨行業的人而言，最困難的其實是第一步，那就是如何進入這個行業。如果你連進都進不來，第一份工作遲遲無法開始，那麼好好努力，補上數據結構，設計模式，演算法設計這些差距就根本無從說起，不是嗎?
接著，我來談談具體的規劃。
1.
了解Java的運行環境。搞清楚path和classpath是干什麼的，怎麼在命令行進行編譯，執行。知道IDE的各個按鈕後面真正發生了什麼事情。
2.
掌握Java的語法。搞清楚包，介面，類，繼承這些基本概念。掌握多態，overwrite，死背下IO的介面，包括InputStream/OutputStream和Writer/Reader，死背下網路編程和GUI編程的介面，背JDBC介面。這一步，推薦的書是《
瘋狂Java講義》。
3.
掌握多線程編程。弄明白ConcurrencyHashMap是怎麼實現的，搞清楚synchronized是怎麼回事，弄明白為什麼要有Runnable介面。
在第二步和第三步掌握到80%的時候，你就可以考慮找工作了。
4. 在工作中體會一下設計模式。推薦《輕量級Java
EE企業應用實戰》這本書。看完裡面的Decorator，IO介面你再也不會去死記硬背了。用的時候，根據Adaptor和Decorator的命名規則，自己臨時推都推得出來。
5. 惡補數據結構。搞清楚 LinkedList和
ArrayList的實現機制，了解它們的每一個介面的時間復雜度。同樣的還有其他容器，Map啊，Set啊，都是一樣的。棧，隊列，二叉樹，圖貫穿編程始終，如果這一步你邁不過去，那就只能在低階程序員里打轉。
6.
如果有可能，最好對一些演算法設計也有所涉獵。比如動態規則的思路，貪心演算法，諸如KMP這種奇妙的演算法等。這一步沒有數據結構那麼重要，學得好當然好，學不好也不用太挫敗。
到了這一步，你和科班程序員之間的差距就不大了。可以在工作中獨立承擔開發任務了。
瘋狂軟體教育中心專注於Java培訓，瘋狂軟體Java培訓可以有效的幫助你提升相關技能。名師講解Java設計和編程、Web前端開發、JavaEE進階、大數據核心知識等，讓你在5個半月內快速獲得理論和實踐的雙重提升。
7.
進階，這時候就可以有自己的思考了。Java發展到現在，被用在各種各樣的情景之中，說它是應用最廣泛的編程語言並不過分。你在打好基礎以後，就可以考慮應該向哪個方向發展了。比如服務端的架構，最好能學習一下JavaEE。JEE一直以來，都是讓人覺得門檻太高。這個其實可以從Spring入手，搞清楚反射，控制反轉，依賴注射都是什麼鬼(這些神叨叨的名詞其實都是為了解決Java本身不夠動態這個缺陷而出現的，這里不展開，我只想提醒的是，這些概念沒有什麼大不了的東西，不要被愛裝逼的傢伙嚇住了)。還有消息這個東西，還有ORM這個東西，都去搞搞清楚。想一下它們要解決什麼問題，再猜一下他們是怎麼實現的。我面試的時候發現，其實大多數優秀的開發者，即使以前沒思考過這個問題，讓他現場設計一下Hibernate，都能設計得差不多。這說明，這些框架性的東沒有什麼大不了的。有了基礎，你也能設計出來。關鍵是要去動腦筋想。以上是以服務端開發舉例，那麼對於客戶端，你就去思考事件響應機制是如何工作的(這個我不熟悉，就不再多說了)。還可以深入研究一下JVM的源代碼，以及其實現機制，了解一下垃圾回收演算法等等。
到了這一步，你就可以應聘Java高級開發了。如果運氣好，年薪30萬是有可能的。保底也要20萬了。
8.
架構。到了這一步，你就算是登堂入室，真正邁入高級開發人員了。這一步，你要思考更多的東西，比如，如何處理高並發，如何應對分布式系統，如何提供更健壯的數據服務。到了這一步，那就沒有什麼可以參考的，現成的東西了。全靠自己的悟性了。那最後能達到什麼高度，就不是我這個層次能點評的了。
編程的世界永遠向所有熱愛編程的人開放，這是一個自由，平等，共享的世界，我始終是這樣堅信的。

Ⅳ python面試之分布式

主要用於分散壓力，所以分布式的服務都是部署在不同的伺服器上的，再將服務做集群

根據「分層」的思想進行拆分。
例如，可以將一個項目根據「三層架構」拆分

然後再分開部署 ：

根據業務進行拆分。
例如，可以根據業務邏輯，將「電商項目」拆分成 「訂單項目」、「用戶項目」和「秒殺項目」 。顯然這三個拆分後的項目，仍然可以作為獨立的項目使用。像這種拆分的方法，就成為垂直拆分

主要用於分散能力，主要是將服務的顆粒度盡量細化，且自成一脈，壓力這塊並不是其關注的點，所以多個微服務是可以部署在同一台伺服器上的

微服務可以理解為一種 非常細粒度的垂直拆分 。例如，以上「訂單項目」本來就是垂直拆分後的子項目，但實際上「訂單項目」還能進一步拆分為「購物項目」、「結算項目」和「售後項目」，如圖

現在看圖中的「訂單項目」，它完全可以作為一個分布式項目的組成元素，但就不適合作為微服務的組成元素了（因為它還能再拆，而微服務應該是不能再拆的「微小」服務，類似於「原子性」）

分布式服務需要提供給別的分布式服務去調用，單獨拆出來 未必外部可用
微服務自成一脈，可以系統內部調用，也可以單獨提供服務

為什麼需要用分布式鎖，見下圖

變數A存在三個伺服器內存中（這個變數A主要體現是在一個類中的一個成員變數，是一個有狀態的對象），如果不加任何控制的話，變數A同時都會在分配一塊內存，三個請求發過來同時對這個變數操作，顯然結果是不對的！即使不是同時發過來，三個請求分別操作三個不同內存區域的數據，變數A之間不存在共享，也不具有可見性，處理的結果也是不對的。

分布式鎖應該具備哪些條件：

1、在分布式系統環境下，一個方法在同一時間只能被一個機器的一個線程執行；
2、高可用的獲取鎖與釋放鎖；
3、高性能的獲取鎖與釋放鎖；
4、具備可重入特性；
5、具備鎖失效機制，防止死鎖；
6、具備非阻塞鎖特性，即沒有獲取到鎖將直接返回獲取鎖失敗

Redis性能高
命令簡單，實現方便

使用setnx加鎖，key為鎖名，value隨意不重復就行（一般用uuid）
給鎖添加expire時間，超過該時間redis過期（即自動釋放鎖）
設置獲取鎖的超時時間，若超過時間，則放棄獲取鎖

通過鎖名獲取鎖值
比較鎖值和當前uuid是否一致，一致則釋放鎖（通過delete命令刪除redis鍵值對）

2PC：two phase commit protocol，二階段提交協議，是一種強一致性設計。
同步阻塞（導致長久的資源鎖定） ，只有第一階段全部正常完成（返回失敗，回字返回超時都會返回 「准備失敗」 ），才會進入第二階段

因為協調者可能會在任意一個時間點（發送准備命令之前，發送准備命令之後，發送回滾事務命令之前，發送回滾事務命令之後，發送提交事務命令之前，發送提交事務命令之後）故障，導致資源阻塞。

T：try，指的是預留，即資源的預留和鎖定，注意是預留
C：confirm，指的是確認操作，這一步其實就是真正的執行了
C：cancel，指的是撤銷操作，可以理解為把預留階段的動作撤銷了

從思想上看和 2PC 差不多，都是先試探性的執行，如果都可以那就真正的執行，如果不行就回滾。

適用於對實時性要求沒那麼高的業務場景，如：簡訊通知

Ⅳ php面試題 memcache和redis的區別

Redis與Memcached的區別

傳統MySQL+ Memcached架構遇到的問題

實際MySQL是適合進行海量數據存儲的，通過Memcached將熱點數據載入到cache，加速訪問，很多公司都曾經使用過這樣的架構，但隨著業務數據量的不斷增加，和訪問量的持續增長，我們遇到了很多問題：

1.MySQL需要不斷進行拆庫拆表，Memcached也需不斷跟著擴容，擴容和維護工作占據大量開發時間。

2.Memcached與MySQL資料庫數據一致性問題。

3.Memcached數據命中率低或down機，大量訪問直接穿透到DB，MySQL無法支撐。

4.跨機房cache同步問題。

眾多NoSQL百花齊放，如何選擇

最近幾年，業界不斷涌現出很多各種各樣的NoSQL產品，那麼如何才能正確地使用好這些產品，最大化地發揮其長處，是我們需要深入研究和思考的
問題，實際歸根結底最重要的是了解這些產品的定位，並且了解到每款產品的tradeoffs，在實際應用中做到揚長避短，總體上這些NoSQL主要用於解
決以下幾種問題

1.少量數據存儲，高速讀寫訪問。此類產品通過數據全部in-momery 的方式來保證高速訪問，同時提供數據落地的功能，實際這正是Redis最主要的適用場景。

2.海量數據存儲，分布式系統支持，數據一致性保證，方便的集群節點添加/刪除。

3.這方面最具代表性的是dynamo和bigtable 2篇論文所闡述的思路。前者是一個完全無中心的設計，節點之間通過gossip方式傳遞集群信息，數據保證最終一致性，後者是一個中心化的方案設計，通過類似一個分布式鎖服務來保證強一致性,數據寫入先寫內存和redo log，然後定期compat歸並到磁碟上，將隨機寫優化為順序寫，提高寫入性能。

4.Schema free，auto-sharding等。比如目前常見的一些文檔資料庫都是支持schema-free的，直接存儲json格式數據，並且支持auto-sharding等功能，比如mongodb。

面對這些不同類型的NoSQL產品,我們需要根據我們的業務場景選擇最合適的產品。

Redis適用場景，如何正確的使用

前面已經分析過，Redis最適合所有數據in-momory的場景，雖然Redis也提供持久化功能，但實際更多的是一個disk-
backed的功能，跟傳統意義上的持久化有比較大的差別，那麼可能大家就會有疑問，似乎Redis更像一個加強版的Memcached，那麼何時使用
Memcached,何時使用Redis呢?

如果簡單地比較Redis與Memcached的區別，大多數都會得到以下觀點：

1 Redis不僅僅支持簡單的k/v類型的數據，同時還提供list，set，zset，hash等數據結構的存儲。

2 Redis支持數據的備份，即master-slave模式的數據備份。

3 Redis支持數據的持久化，可以將內存中的數據保持在磁碟中，重啟的時候可以再次載入進行使用。

拋開這些，可以深入到Redis內部構造去觀察更加本質的區別，理解Redis的設計。

在
Redis中，並不是所有的數據都一直存儲在內存中的。這是和Memcached相比一個最大的區別。Redis只會緩存所有的
key的信息，如果Redis發現內存的使用量超過了某一個閥值，將觸發swap的操作，Redis根據「swappability =
age*log(size_in_memory)」計
算出哪些key對應的value需要swap到磁碟。然後再將這些key對應的value持久化到磁碟中，同時在內存中清除。這種特性使得Redis可以

保持超過其機器本身內存大小的數據。當然，機器本身的內存必須要能夠保持所有的key，畢竟這些數據是不會進行swap操作的。同時由於Redis將內存

中的數據swap到磁碟中的時候，提供服務的主線程和進行swap操作的子線程會共享這部分內存，所以如果更新需要swap的數據，Redis將阻塞這個
操作，直到子線程完成swap操作後才可以進行修改。

使用Redis特有內存模型前後的情況對比：
VM off: 300k keys, 4096 bytes values: 1.3G used
VM on: 300k keys, 4096 bytes values: 73M used
VM off: 1 million keys, 256 bytes values: 430.12M used
VM on: 1 million keys, 256 bytes values: 160.09M used
VM on: 1 million keys, values as large as you want, still: 160.09M used

當

從Redis中讀取數據的時候，如果讀取的key對應的value不在內存中，那麼Redis就需要從swap文件中載入相應數據，然後再返回給請求方。

這里就存在一個I/O線程池的問題。在默認的情況下，Redis會出現阻塞，即完成所有的swap文件載入後才會相應。這種策略在客戶端的數量較小，進行

批量操作的時候比較合適。但是如果將Redis應用在一個大型的網站應用程序中，這顯然是無法滿足大並發的情況的。所以Redis運行我們設置I/O線程
池的大小，對需要從swap文件中載入相應數據的讀取請求進行並發操作，減少阻塞的時間。

如果希望在海量數據的環境中使用好Redis，我相信理解Redis的內存設計和阻塞的情況是不可缺少的。

補充的知識點：

memcached和redis的比較

1 網路IO模型

Memcached是多線程，非阻塞IO復用的網路模型，分為監聽主線程和worker子線程，監聽線程監聽網路連接，接受請求後，將連接描述
字pipe 傳遞給worker線程，進行讀寫IO, 網路層使用libevent封裝的事件庫，多線程模型可以發揮多核作用，但是引入了cache
coherency和鎖的問題，比如，Memcached最常用的stats
命令，實際Memcached所有操作都要對這個全局變數加鎖，進行計數等工作，帶來了性能損耗。

(Memcached網路IO模型)

Redis使用單線程的IO復用模型，自己封裝了一個簡單的AeEvent事件處理框架，主要實現了epoll、kqueue和select，
對於單純只有IO操作來說，單線程可以將速度優勢發揮到最大，但是Redis也提供了一些簡單的計算功能，比如排序、聚合等，對於這些操作，單線程模型實
際會嚴重影響整體吞吐量，CPU計算過程中，整個IO調度都是被阻塞住的。

2.內存管理方面

Memcached使用預分配的內存池的方式，使用slab和大小不同的chunk來管理內存，Item根據大小選擇合適的chunk存儲，內
存池的方式可以省去申請/釋放內存的開銷，並且能減小內存碎片產生，但這種方式也會帶來一定程度上的空間浪費，並且在內存仍然有很大空間時，新的數據也可
能會被剔除，原因可以參考Timyang的文章：http://timyang.net/data/Memcached-lru-evictions/

Redis使用現場申請內存的方式來存儲數據，並且很少使用free-list等方式來優化內存分配，會在一定程度上存在內存碎片，Redis
跟據存儲命令參數，會把帶過期時間的數據單獨存放在一起，並把它們稱為臨時數據，非臨時數據是永遠不會被剔除的，即便物理內存不夠，導致swap也不會剔
除任何非臨時數據(但會嘗試剔除部分臨時數據)，這點上Redis更適合作為存儲而不是cache。

3.數據一致性問題

Memcached提供了cas命令，可以保證多個並發訪問操作同一份數據的一致性問題。 Redis沒有提供cas 命令，並不能保證這點，不過Redis提供了事務的功能，可以保證一串命令的原子性，中間不會被任何操作打斷。

4.存儲方式及其它方面

Memcached基本只支持簡單的key-value存儲，不支持枚舉，不支持持久化和復制等功能

Redis除key/value之外，還支持list,set,sorted set,hash等眾多數據結構，提供了KEYS

進行枚舉操作，但不能在線上使用，如果需要枚舉線上數據，Redis提供了工具可以直接掃描其mp文件，枚舉出所有數據，Redis還同時提供了持久化和復制等功能。

5.關於不同語言的客戶端支持

在不同語言的客戶端方面，Memcached和Redis都有豐富的第三方客戶端可供選擇，不過因為Memcached發展的時間更久一些，目
前看在客戶端支持方面，Memcached的很多客戶端更加成熟穩定，而Redis由於其協議本身就比Memcached復雜，加上作者不斷增加新的功能
等，對應第三方客戶端跟進速度可能會趕不上，有時可能需要自己在第三方客戶端基礎上做些修改才能更好的使用。

根據以上比較不難看出，當我們不希望數據被踢出，或者需要除key/value之外的更多數據類型時，或者需要落地功能時，使用Redis比使用Memcached更合適。

關於Redis的一些周邊功能

Redis除了作為存儲之外還提供了一些其它方面的功能，比如聚合計算、pubsub、scripting等，對於此類功能需要了解其實現原
理，清楚地了解到它的局限性後，才能正確的使用，比如pubsub功能，這個實際是沒有任何持久化支持的，消費方連接閃斷或重連之間過來的消息是會全部丟
失的，又比如聚合計算和scripting等功能受Redis單線程模型所限，是不可能達到很高的吞吐量的，需要謹慎使用。

總的來說Redis作者是一位非常勤奮的開發者，可以經常看到作者在嘗試著各種不同的新鮮想法和思路，針對這些方面的功能就要求我們需要深入了解後再使用。

總結：

1.Redis使用最佳方式是全部數據in-memory。

2.Redis更多場景是作為Memcached的替代者來使用。

3.當需要除key/value之外的更多數據類型支持時，使用Redis更合適。

4.當存儲的數據不能被剔除時，使用Redis更合適。

談談Memcached與Redis(一)

1. Memcached簡介

Memcached是以LiveJurnal旗下Danga Interactive公司的Bard
Fitzpatric為首開發的高性能分布式內存緩存伺服器。其本質上就是一個內存key-value資料庫，但是不支持數據的持久化，伺服器關閉之後數
據全部丟失。Memcached使用C語言開發，在大多數像Linux、BSD和Solaris等POSIX系統上，只要安裝了libevent即可使
用。在Windows下，它也有一個可用的非官方版本(http://code.jellycan.com/memcached/)。Memcached
的客戶端軟體實現非常多，包括C/C++, PHP, Java, Python, Ruby, Perl, Erlang,
Lua等。當前Memcached使用廣泛，除了LiveJournal以外還有Wikipedia、Flickr、Twitter、Youtube和
WordPress等。

在Window系統下，Memcached的安裝非常方便，只需從以上給出的地址下載可執行軟體然後運行memcached.exe –d
install即可完成安裝。在Linux等系統下，我們首先需要安裝libevent，然後從獲取源碼，make && make
install即可。默認情況下，Memcached的伺服器啟動程序會安裝到/usr/local/bin目錄下。在啟動Memcached時，我們可
以為其配置不同的啟動參數。

1.1 Memcache配置

Memcached伺服器在啟動時需要對關鍵的參數進行配置，下面我們就看一看Memcached在啟動時需要設定哪些關鍵參數以及這些參數的作用。

1）-p <num> Memcached的TCP監聽埠，預設配置為11211；

2）-U <num> Memcached的UDP監聽埠，預設配置為11211，為0時表示關閉UDP監聽；

3）-s <file> Memcached監聽的UNIX套接字路徑；

4）-a <mask> 訪問UNIX套接字的八進制掩碼，預設配置為0700；

5）-l <addr> 監聽的伺服器IP地址，默認為所有網卡；

6）-d 為Memcached伺服器啟動守護進程；

7）-r 最大core文件大小；

8）-u <username> 運行Memcached的用戶，如果當前為root的話需要使用此參數指定用戶；

9）-m <num> 分配給Memcached使用的內存數量，單位是MB；

10）-M 指示Memcached在內存用光的時候返回錯誤而不是使用LRU演算法移除數據記錄；

11）-c <num> 最大並發連數，預設配置為1024；

12）-v –vv –vvv 設定伺服器端列印的消息的詳細程度，其中-v僅列印錯誤和警告信息，-vv在-v的基礎上還會列印客戶端的命令和相應，-vvv在-vv的基礎上還會列印內存狀態轉換信息；

13）-f <factor> 用於設置chunk大小的遞增因子；

14）-n <bytes> 最小的chunk大小，預設配置為48個位元組；

15）-t <num> Memcached伺服器使用的線程數，預設配置為4個；

16）-L 嘗試使用大內存頁；

17）-R 每個事件的最大請求數，預設配置為20個；

18）-C 禁用CAS，CAS模式會帶來8個位元組的冗餘；

2. Redis簡介

Redis是一個開源的key-value存儲系統。與Memcached類似，Redis將大部分數據存儲在內存中，支持的數據類型包括：字
符串、哈希表、鏈表、集合、有序集合以及基於這些數據類型的相關操作。Redis使用C語言開發，在大多數像Linux、BSD和Solaris等
POSIX系統上無需任何外部依賴就可以使用。Redis支持的客戶端語言也非常豐富，常用的計算機語言如C、C#、C++、Object-C、PHP、
Python、Java、Perl、Lua、Erlang等均有可用的客戶端來訪問Redis伺服器。當前Redis的應用已經非常廣泛，國內像新浪、淘
寶，國外像Flickr、Github等均在使用Redis的緩存服務。

Redis的安裝非常方便，只需從http://redis.io/download獲取源碼，然後make && make

install即可。默認情況下，Redis的伺服器啟動程序和客戶端程序會安裝到/usr/local/bin目錄下。在啟動Redis伺服器時，我們
需要為其指定一個配置文件，預設情況下配置文件在Redis的源碼目錄下，文件名為redis.conf。

Ⅵ redis適合什麼場景

1、緩存。緩存現在幾乎是所有中大型網站都在用的必殺技，合理的利用緩存不僅能夠提升網站訪問速度，還能大大降低資料庫的壓力。Redis提供了鍵過期功能，也提供了靈活的鍵淘汰策略，所以，現在Redis用在緩存的場合非常多。（推薦：《 Redis視頻教程》）
2、排行榜。很多網站都有排行榜應用的，如京東的月度銷量榜單、商品按時間的上新排行榜等。Redis提供的有序集合數據類構能實現各種復雜的排行榜應用。
3、計數器。什麼是計數器，如電商網站商品的瀏覽量、視頻網站視頻的播放數等。為了保證數據實時效，每次瀏覽都得給+1，並發量高時如果每次都請求資料庫操作無疑是種挑戰和壓力。Redis提供的incr命令來實現計數器功能，內存操作，性能非常好，非常適用於這些計數場景。
4、分布式會話。集群模式下，在應用不多的情況下一般使用容器自帶的session復制功能就能滿足，當應用增多相對復雜的系統中，一般都會搭建以Redis等內存資料庫為中心的session服務，session不再由容器管理，而是由session服務及內存資料庫管理。
5、分布式鎖。在很多互聯網公司中都使用了分布式技術，分布式技術帶來的技術挑戰是對同一個資源的並發訪問，如全局ID、減庫存、秒殺等場景，並發量不大的場景可以使用資料庫的悲觀鎖、樂觀鎖來實現，但在並發量高的場合中，利用資料庫鎖來控制資源的並發訪問是不太理想的，大大影響了資料庫的性能。可以利用Redis的setnx功能來編寫分布式的鎖，如果設置返回1說明獲取鎖成功，否則獲取鎖失敗，實際應用中要考慮的細節要更多。

Ⅶ 大數據核心技術有哪些

大數據技術的體系龐大且復雜，基礎的技術包含數據的採集、數據預處理、分布式存儲、NoSQL資料庫、數據倉庫、機器學習、並行計算、可視化等各種技術范疇和不同的技術層面。首先給出一個通用化的大數據處理框架，主要分為下面幾個方面：數據採集與預處理、數據存儲、數據清洗、數據查詢分析和數據可視化。

一、數據採集與預處理

對於各種來源的數據，包括移動互聯網數據、社交網路的數據等，這些結構化和非結構化的海量數據是零散的，也就是所謂的數據孤島，此時的這些數據並沒有什麼意義，數據採集就是將這些數據寫入數據倉庫中，把零散的數據整合在一起，對這些數據綜合起來進行分析。數據採集包括文件日誌的採集、資料庫日誌的採集、關系型資料庫的接入和應用程序的接入等。在數據量比較小的時候，可以寫個定時的腳本將日誌寫入存儲系統，但隨著數據量的增長，這些方法無法提供數據安全保障，並且運維困難，需要更強壯的解決方案。

Flume NG作為實時日誌收集系統，支持在日誌系統中定製各類數據發送方，用於收集數據，同時，對數據進行簡單處理，並寫到各種數據接收方(比如文本，HDFS，Hbase等)。Flume NG採用的是三層架構：Agent層，Collector層和Store層，每一層均可水平拓展。其中Agent包含Source，Channel和 Sink，source用來消費（收集）數據源到channel組件中，channel作為中間臨時存儲，保存所有source的組件信息，sink從channel中讀取數據，讀取成功之後會刪除channel中的信息。

NDC，Netease Data Canal，直譯為網易數據運河系統，是網易針對結構化資料庫的數據實時遷移、同步和訂閱的平台化解決方案。它整合了網易過去在數據傳輸領域的各種工具和經驗，將單機資料庫、分布式資料庫、OLAP系統以及下游應用通過數據鏈路串在一起。除了保障高效的數據傳輸外，NDC的設計遵循了單元化和平台化的設計哲學。

Logstash是開源的伺服器端數據處理管道，能夠同時從多個來源採集數據、轉換數據，然後將數據發送到您最喜歡的「存儲庫」中。一般常用的存儲庫是Elasticsearch。Logstash 支持各種輸入選擇，可以在同一時間從眾多常用的數據來源捕捉事件，能夠以連續的流式傳輸方式，輕松地從您的日誌、指標、Web 應用、數據存儲以及各種 AWS 服務採集數據。

Sqoop，用來將關系型資料庫和Hadoop中的數據進行相互轉移的工具，可以將一個關系型資料庫(例如Mysql、Oracle)中的數據導入到Hadoop(例如HDFS、Hive、Hbase)中，也可以將Hadoop(例如HDFS、Hive、Hbase)中的數據導入到關系型資料庫(例如Mysql、Oracle)中。Sqoop 啟用了一個 MapRece 作業（極其容錯的分布式並行計算）來執行任務。Sqoop 的另一大優勢是其傳輸大量結構化或半結構化數據的過程是完全自動化的。

流式計算是行業研究的一個熱點，流式計算對多個高吞吐量的數據源進行實時的清洗、聚合和分析，可以對存在於社交網站、新聞等的數據信息流進行快速的處理並反饋，目前大數據流分析工具有很多，比如開源的strom，spark streaming等。

Strom集群結構是有一個主節點（nimbus）和多個工作節點（supervisor）組成的主從結構，主節點通過配置靜態指定或者在運行時動態選舉，nimbus與supervisor都是Storm提供的後台守護進程，之間的通信是結合Zookeeper的狀態變更通知和監控通知來處理。nimbus進程的主要職責是管理、協調和監控集群上運行的topology（包括topology的發布、任務指派、事件處理時重新指派任務等）。supervisor進程等待nimbus分配任務後生成並監控worker（jvm進程）執行任務。supervisor與worker運行在不同的jvm上，如果由supervisor啟動的某個worker因為錯誤異常退出（或被kill掉），supervisor會嘗試重新生成新的worker進程。

當使用上游模塊的數據進行計算、統計、分析時，就可以使用消息系統，尤其是分布式消息系統。Kafka使用Scala進行編寫，是一種分布式的、基於發布/訂閱的消息系統。Kafka的設計理念之一就是同時提供離線處理和實時處理,以及將數據實時備份到另一個數據中心，Kafka可以有許多的生產者和消費者分享多個主題，將消息以topic為單位進行歸納；Kafka發布消息的程序稱為procer，也叫生產者，預訂topics並消費消息的程序稱為consumer，也叫消費者；當Kafka以集群的方式運行時，可以由一個服務或者多個服務組成，每個服務叫做一個broker，運行過程中procer通過網路將消息發送到Kafka集群，集群向消費者提供消息。Kafka通過Zookeeper管理集群配置，選舉leader，以及在Consumer Group發生變化時進行rebalance。Procer使用push模式將消息發布到broker，Consumer使用pull模式從broker訂閱並消費消息。Kafka可以和Flume一起工作，如果需要將流式數據從Kafka轉移到hadoop，可以使用Flume代理agent，將Kafka當做一個來源source，這樣可以從Kafka讀取數據到Hadoop。

Zookeeper是一個分布式的，開放源碼的分布式應用程序協調服務，提供數據同步服務。它的作用主要有配置管理、名字服務、分布式鎖和集群管理。配置管理指的是在一個地方修改了配置，那麼對這個地方的配置感興趣的所有的都可以獲得變更，省去了手動拷貝配置的繁瑣，還很好的保證了數據的可靠和一致性，同時它可以通過名字來獲取資源或者服務的地址等信息，可以監控集群中機器的變化，實現了類似於心跳機制的功能。

二、數據存儲

Hadoop作為一個開源的框架，專為離線和大規模數據分析而設計，HDFS作為其核心的存儲引擎，已被廣泛用於數據存儲。

HBase，是一個分布式的、面向列的開源資料庫，可以認為是hdfs的封裝，本質是數據存儲、NoSQL資料庫。HBase是一種Key/Value系統，部署在hdfs上，克服了hdfs在隨機讀寫這個方面的缺點，與hadoop一樣，Hbase目標主要依靠橫向擴展，通過不斷增加廉價的商用伺服器，來增加計算和存儲能力。

Phoenix，相當於一個Java中間件，幫助開發工程師能夠像使用JDBC訪問關系型資料庫一樣訪問NoSQL資料庫HBase。

Yarn是一種Hadoop資源管理器，可為上層應用提供統一的資源管理和調度，它的引入為集群在利用率、資源統一管理和數據共享等方面帶來了巨大好處。Yarn由下面的幾大組件構成：一個全局的資源管理器ResourceManager、ResourceManager的每個節點代理NodeManager、表示每個應用的Application以及每一個ApplicationMaster擁有多個Container在NodeManager上運行。

Mesos是一款開源的集群管理軟體，支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等應用架構。

Redis是一種速度非常快的非關系資料庫，可以存儲鍵與5種不同類型的值之間的映射，可以將存儲在內存的鍵值對數據持久化到硬碟中，使用復制特性來擴展性能，還可以使用客戶端分片來擴展寫性能。

Atlas是一個位於應用程序與MySQL之間的中間件。在後端DB看來，Atlas相當於連接它的客戶端，在前端應用看來，Atlas相當於一個DB。Atlas作為服務端與應用程序通訊，它實現了MySQL的客戶端和服務端協議，同時作為客戶端與MySQL通訊。它對應用程序屏蔽了DB的細節，同時為了降低MySQL負擔，它還維護了連接池。Atlas啟動後會創建多個線程，其中一個為主線程，其餘為工作線程。主線程負責監聽所有的客戶端連接請求，工作線程只監聽主線程的命令請求。

Ku是圍繞Hadoop生態圈建立的存儲引擎，Ku擁有和Hadoop生態圈共同的設計理念，它運行在普通的伺服器上、可分布式規模化部署、並且滿足工業界的高可用要求。其設計理念為fast analytics on fast data。作為一個開源的存儲引擎，可以同時提供低延遲的隨機讀寫和高效的數據分析能力。Ku不但提供了行級的插入、更新、刪除API，同時也提供了接近Parquet性能的批量掃描操作。使用同一份存儲，既可以進行隨機讀寫，也可以滿足數據分析的要求。Ku的應用場景很廣泛，比如可以進行實時的數據分析，用於數據可能會存在變化的時序數據應用等。

在數據存儲過程中，涉及到的數據表都是成千上百列，包含各種復雜的Query，推薦使用列式存儲方法，比如parquent,ORC等對數據進行壓縮。Parquet 可以支持靈活的壓縮選項，顯著減少磁碟上的存儲。

三、數據清洗

MapRece作為Hadoop的查詢引擎，用於大規模數據集的並行計算，」Map（映射）」和」Rece（歸約）」，是它的主要思想。它極大的方便了編程人員在不會分布式並行編程的情況下，將自己的程序運行在分布式系統中。

隨著業務數據量的增多，需要進行訓練和清洗的數據會變得越來越復雜，這個時候就需要任務調度系統，比如oozie或者azkaban，對關鍵任務進行調度和監控。

Oozie是用於Hadoop平台的一種工作流調度引擎，提供了RESTful API介面來接受用戶的提交請求(提交工作流作業)，當提交了workflow後，由工作流引擎負責workflow的執行以及狀態的轉換。用戶在HDFS上部署好作業(MR作業)，然後向Oozie提交Workflow，Oozie以非同步方式將作業(MR作業)提交給Hadoop。這也是為什麼當調用Oozie 的RESTful介面提交作業之後能立即返回一個JobId的原因，用戶程序不必等待作業執行完成（因為有些大作業可能會執行很久(幾個小時甚至幾天)）。Oozie在後台以非同步方式，再將workflow對應的Action提交給hadoop執行。

Azkaban也是一種工作流的控制引擎，可以用來解決有多個hadoop或者spark等離線計算任務之間的依賴關系問題。azkaban主要是由三部分構成：Relational Database，Azkaban Web Server和Azkaban Executor Server。azkaban將大多數的狀態信息都保存在MySQL中，Azkaban Web Server提供了Web UI，是azkaban主要的管理者，包括project的管理、認證、調度以及對工作流執行過程中的監控等；Azkaban Executor Server用來調度工作流和任務，記錄工作流或者任務的日誌。

流計算任務的處理平台Sloth，是網易首個自研流計算平台，旨在解決公司內各產品日益增長的流計算需求。作為一個計算服務平台，其特點是易用、實時、可靠，為用戶節省技術方面（開發、運維）的投入，幫助用戶專注於解決產品本身的流計算需求。

四、數據查詢分析

Hive的核心工作就是把SQL語句翻譯成MR程序，可以將結構化的數據映射為一張資料庫表，並提供 HQL(Hive SQL)查詢功能。Hive本身不存儲和計算數據，它完全依賴於HDFS和MapRece。可以將Hive理解為一個客戶端工具，將SQL操作轉換為相應的MapRece jobs，然後在hadoop上面運行。Hive支持標準的SQL語法，免去了用戶編寫MapRece程序的過程，它的出現可以讓那些精通SQL技能、但是不熟悉MapRece 、編程能力較弱與不擅長Java語言的用戶能夠在HDFS大規模數據集上很方便地利用SQL 語言查詢、匯總、分析數據。

Hive是為大數據批量處理而生的，Hive的出現解決了傳統的關系型資料庫(MySql、Oracle)在大數據處理上的瓶頸。Hive 將執行計劃分成map->shuffle->rece->map->shuffle->rece…的模型。如果一個Query會被編譯成多輪MapRece，則會有更多的寫中間結果。由於MapRece執行框架本身的特點，過多的中間過程會增加整個Query的執行時間。在Hive的運行過程中，用戶只需要創建表，導入數據，編寫SQL分析語句即可。剩下的過程由Hive框架自動的完成。

Impala是對Hive的一個補充，可以實現高效的SQL查詢。使用Impala來實現SQL on Hadoop，用來進行大數據實時查詢分析。通過熟悉的傳統關系型資料庫的SQL風格來操作大數據，同時數據也是可以存儲到HDFS和HBase中的。Impala沒有再使用緩慢的Hive+MapRece批處理，而是通過使用與商用並行關系資料庫中類似的分布式查詢引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分組成），可以直接從HDFS或HBase中用SELECT、JOIN和統計函數查詢數據，從而大大降低了延遲。Impala將整個查詢分成一執行計劃樹，而不是一連串的MapRece任務，相比Hive沒了MapRece啟動時間。

Hive 適合於長時間的批處理查詢分析，而Impala適合於實時互動式SQL查詢，Impala給數據人員提供了快速實驗，驗證想法的大數據分析工具，可以先使用Hive進行數據轉換處理，之後使用Impala在Hive處理好後的數據集上進行快速的數據分析。總的來說：Impala把執行計劃表現為一棵完整的執行計劃樹，可以更自然地分發執行計劃到各個Impalad執行查詢，而不用像Hive那樣把它組合成管道型的map->rece模式，以此保證Impala有更好的並發性和避免不必要的中間sort與shuffle。但是Impala不支持UDF，能處理的問題有一定的限制。

Spark擁有Hadoop MapRece所具有的特點，它將Job中間輸出結果保存在內存中，從而不需要讀取HDFS。Spark 啟用了內存分布數據集，除了能夠提供互動式查詢外，它還可以優化迭代工作負載。Spark 是在 Scala 語言中實現的，它將 Scala 用作其應用程序框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。

Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬蟲。

Solr用Java編寫、運行在Servlet容器（如Apache Tomcat或Jetty）的一個獨立的企業級搜索應用的全文搜索伺服器。它對外提供類似於Web-service的API介面，用戶可以通過http請求，向搜索引擎伺服器提交一定格式的XML文件，生成索引；也可以通過Http Get操作提出查找請求，並得到XML格式的返回結果。

Elasticsearch是一個開源的全文搜索引擎，基於Lucene的搜索伺服器，可以快速的儲存、搜索和分析海量的數據。設計用於雲計算中，能夠達到實時搜索，穩定，可靠，快速，安裝使用方便。

還涉及到一些機器學習語言，比如，Mahout主要目標是創建一些可伸縮的機器學習演算法，供開發人員在Apache的許可下免費使用；深度學習框架Caffe以及使用數據流圖進行數值計算的開源軟體庫TensorFlow等，常用的機器學習演算法比如，貝葉斯、邏輯回歸、決策樹、神經網路、協同過濾等。

五、數據可視化

對接一些BI平台，將分析得到的數據進行可視化，用於指導決策服務。主流的BI平台比如，國外的敏捷BI Tableau、Qlikview、PowrerBI等，國內的SmallBI和新興的網易有數（可點擊這里免費試用）等。

在上面的每一個階段，保障數據的安全是不可忽視的問題。

基於網路身份認證的協議Kerberos，用來在非安全網路中，對個人通信以安全的手段進行身份認證，它允許某實體在非安全網路環境下通信，向另一個實體以一種安全的方式證明自己的身份。

控制許可權的ranger是一個Hadoop集群許可權框架，提供操作、監控、管理復雜的數據許可權，它提供一個集中的管理機制，管理基於yarn的Hadoop生態圈的所有數據許可權。可以對Hadoop生態的組件如Hive，Hbase進行細粒度的數據訪問控制。通過操作Ranger控制台，管理員可以輕松的通過配置策略來控制用戶訪問HDFS文件夾、HDFS文件、資料庫、表、欄位許可權。這些策略可以為不同的用戶和組來設置，同時許可權可與hadoop無縫對接。

導航:首頁 > 編程語言 > python分布式鎖

python分布式鎖

與python分布式鎖相關的資料