㈠ linux系統上安裝slurm來監控網路帶寬和控制節點
SLURM 是一個類似 Sun Grid Engine (SGE) 的開源分布式資源管理軟體,用於超級計算機和大型計算節點集群,可高度伸縮和容錯。SUN 被賣給 Oracle 後,好用的 SGE 變成 Oracle Grid Engine 並且從 6.2u6 版本開始成為商業軟體了(可以免費使用90天),所以我們不得不另尋其他的開源替代方案,SLURM 是上次在德班高性能會議的時候一位陌生人介紹的,聽上去不錯。
SLURM 通過一對冗餘集群控制節點(冗餘是可選的)來管理集群計算節點,是由一個名為 slurmctld 的管理守護程序實現的,slurmctld 提供了對計算資源的監視、分配和管理,並將進入的作業序列映射和分發到各個計算節點上。每個計算節點也有一個守護程序 slurmd,slurmd 管理在其上運行的節點,監視節點上運行的任務、接受來自控制節點的請求和工作、將工作映射到節點內部等等。圖示如下:
監控帶寬
選項
按 l 顯示 lx/tx 指示燈.
按 c 切換到經典模式.
按 r 刷新屏幕.
按 q 退出.
控制節點
在控制節點和計算結點分別安裝 slurm 包,這個包裡面既含有控制節點需要的 slurmctld 也含有計算結點需要的 slurmd:
㈡ linux 除了zabbix還有什麼監控軟體
第一:zabbix
zabbix是一個基於Web界面的提供分布式系統監視以及網路監視功能的企業級的開源解決方案。zabbix能監視各種網路參數,保證伺服器系統的安全運營,並提供靈活的通知機制以讓系統管理員快速定位或解決存在的各種問題。
第二:Nagios
Nagios是一款開源的的免費網路監視工具,能有效監控Windows、Linux和Unix的狀態,交換機路由器等網路設備,列印機等。在系統或服務狀態異常時發出郵件或簡訊報警時間通知運維人員,在狀態恢復後發出正常的郵件或簡訊通知。
第三:SeaLion
SeaLion是一個基於雲的Linux伺服器監控工具。也是通過統一的儀表盤監控所有伺服器指標,它只需幾分鍾即可完成設置,它具有即時報警功能,以便在發生問題時,可以快速收到通知和每日數據摘要等。
第四:Icinga
Icinga是一個免費的開源監控系統,可以檢查伺服器資源的可用性,它會記錄伺服器問題並在停機的時候通知您。
第五:Munin
Munin是一個網路和系統監控工具,可幫助您分析伺服器資源趨勢。它旨在成為一個即插即用的解決方案,安裝後無需太多額外工作即可收集關鍵信息。Munin主要功能是有效分析伺服器資源優勢,屬於網路及系統監控的工具。
第六:Monit
Monit是一個用於管理和監控Unix系統的開源工具。Monit可以進行自動維護和維修,如果出現錯誤情況,Monit可以自動觸發保護行為。
第七:Performance Co-Pilot
Performance Co-Pilot,簡稱PCP,是一個系統性能分析框架。它收集並分析來自多個主機的各種性能指標,可以通過它觀察指標走向的趨勢,以幫助您快速識別異常所在點。它提供API,可依據此來開發自定義的監控和報告解決方案。
㈢ 有什麼監控Linux伺服器的工具嗎
1、Ganglia
是一個集群監控軟體,可以監視和顯示集群中的節點的各種狀態信息,比如:CPU、mem、硬碟利用率、I/O負載、網路流量情況等,同時可以將歷史數據以曲線方式通過php頁面呈現,此軟體主要是用來監控系統性能的軟體,通過曲線可以很容易見到每個節點的工作狀態,對合理調整、分配系統資源,提高系統整體性能起到重要作用。
它是分布式的監控系統,有兩個Daemon,是一個Linux下圖形化監控系統運行性能的軟體,界面美觀、豐富,功能強大。
RRDtool是系統存放和顯示time-series (即網路帶寬、溫度、人數、伺服器負載等) 。並且它提出有用的圖表由處理數據強制執行有些數據密度。
2、Cacti
是一套基於PHP、MySQL、SNMP及RRDTool開發的網路流量監測圖形分析工具,通過snmpget來獲取數據,使用RRDTool繪畫圖形,提供了非常強大的數據和用戶管理功能,可以指定每一個用戶能查看樹狀結 構、host以及任何一張圖,還可以與LDAP結合進行用戶驗證,同時也能自己增加模板,功能非常強大完善。
cacti是用php語言實現的一個軟體,它的主要功能是用snmp服務獲取數據,然後用rrdtool儲存和更新數據,當用戶需要查看數據的時候用rrdtool生成圖表呈現給用戶。因此,snmp和rrdtool是cacti的關鍵。
3、Zenoss
是一款智能監控軟體,允許IT管理員依靠單一的WEB控制台來監控網路架構的狀態和健康度。Zenoss Core同時也是開源的網路與系統管理軟體。
Zenoss提供功能豐富的產品,以監測整個IT基礎設施:
網路 -路由器,交換機,防火牆,接入點;
伺服器 -微軟的Windows , Linux , Unix系統,惠普, NetApp,戴爾;
虛擬化 -完整虛擬機虛擬化基礎架構( VI3 )管理, XenSource監測;
應用領域 -Process(程序),Port,網路應用服務, Web服務,資料庫,中間件,商業企業應用方案 ;
4、Argus
是一個網路連接監控器,可以利用它來定製監控網路中符合某種條件的計算機,例如網路空閑、斷開等。
5、Monit
是一款功能非常豐富的進程、文件、目錄和設備的監測軟體,用於UNIX平台,可以自動修復那些已經停止運行的程序,適合處理那些由於多種原因導致的軟體錯誤。
6、Nagios
是一個監視系統運行狀態和網路信息的監視系統,能監視所指定的本地或遠程主機以及服務,同時提供異常通知功能等Nagios可運行在Linux/Unix平台之上,同時提供一個可選的基於瀏覽器的WEB界面以方便系統管理人員查看網路狀態,各種系統問題,以及日誌等等。
Nagios的主要功能特點:
監視網路服務(SMTP、POP3、HTTP、NNTP、PING等);
監視主機資源(進程、磁碟等);
簡單的插件設計可以輕松擴展Nagios的監視功能;
服務等監視的並發處理;
錯誤通知功能(通過email、pager或其他用戶自定義的方法)。