java決策樹演算法_python怎麼學習

Ⅰ 大數據核心技術有哪些

大數據技術的體系龐大且復雜，基礎的技術包含數據的採集、數據預處理、分布式存儲、NoSQL資料庫、數據倉庫、機器學習、並行計算、可視化等各種技術范疇和不同的技術層面。首先給出一個通用化的大數據處理框架，主要分為下面幾個方面：數據採集與預處理、數據存儲、數據清洗、數據查詢分析和數據可視化。

一、數據採集與預處理

對於各種來源的數據，包括移動互聯網數據、社交網路的數據等，這些結構化和非結構化的海量數據是零散的，也就是所謂的數據孤島，此時的這些數據並沒有什麼意義，數據採集就是將這些數據寫入數據倉庫中，把零散的數據整合在一起，對這些數據綜合起來進行分析。數據採集包括文件日誌的採集、資料庫日誌的採集、關系型資料庫的接入和應用程序的接入等。在數據量比較小的時候，可以寫個定時的腳本將日誌寫入存儲系統，但隨著數據量的增長，這些方法無法提供數據安全保障，並且運維困難，需要更強壯的解決方案。

Flume NG作為實時日誌收集系統，支持在日誌系統中定製各類數據發送方，用於收集數據，同時，對數據進行簡單處理，並寫到各種數據接收方(比如文本，HDFS，Hbase等)。Flume NG採用的是三層架構：Agent層，Collector層和Store層，每一層均可水平拓展。其中Agent包含Source，Channel和 Sink，source用來消費（收集）數據源到channel組件中，channel作為中間臨時存儲，保存所有source的組件信息，sink從channel中讀取數據，讀取成功之後會刪除channel中的信息。

NDC，Netease Data Canal，直譯為網易數據運河系統，是網易針對結構化資料庫的數據實時遷移、同步和訂閱的平台化解決方案。它整合了網易過去在數據傳輸領域的各種工具和經驗，將單機資料庫、分布式資料庫、OLAP系統以及下游應用通過數據鏈路串在一起。除了保障高效的數據傳輸外，NDC的設計遵循了單元化和平台化的設計哲學。

Logstash是開源的伺服器端數據處理管道，能夠同時從多個來源採集數據、轉換數據，然後將數據發送到您最喜歡的「存儲庫」中。一般常用的存儲庫是Elasticsearch。Logstash 支持各種輸入選擇，可以在同一時間從眾多常用的數據來源捕捉事件，能夠以連續的流式傳輸方式，輕松地從您的日誌、指標、Web 應用、數據存儲以及各種 AWS 服務採集數據。

Sqoop，用來將關系型資料庫和Hadoop中的數據進行相互轉移的工具，可以將一個關系型資料庫(例如Mysql、Oracle)中的數據導入到Hadoop(例如HDFS、Hive、Hbase)中，也可以將Hadoop(例如HDFS、Hive、Hbase)中的數據導入到關系型資料庫(例如Mysql、Oracle)中。Sqoop 啟用了一個 MapRece 作業（極其容錯的分布式並行計算）來執行任務。Sqoop 的另一大優勢是其傳輸大量結構化或半結構化數據的過程是完全自動化的。

流式計算是行業研究的一個熱點，流式計算對多個高吞吐量的數據源進行實時的清洗、聚合和分析，可以對存在於社交網站、新聞等的數據信息流進行快速的處理並反饋，目前大數據流分析工具有很多，比如開源的strom，spark streaming等。

Strom集群結構是有一個主節點（nimbus）和多個工作節點（supervisor）組成的主從結構，主節點通過配置靜態指定或者在運行時動態選舉，nimbus與supervisor都是Storm提供的後台守護進程，之間的通信是結合Zookeeper的狀態變更通知和監控通知來處理。nimbus進程的主要職責是管理、協調和監控集群上運行的topology（包括topology的發布、任務指派、事件處理時重新指派任務等）。supervisor進程等待nimbus分配任務後生成並監控worker（jvm進程）執行任務。supervisor與worker運行在不同的jvm上，如果由supervisor啟動的某個worker因為錯誤異常退出（或被kill掉），supervisor會嘗試重新生成新的worker進程。

當使用上游模塊的數據進行計算、統計、分析時，就可以使用消息系統，尤其是分布式消息系統。Kafka使用Scala進行編寫，是一種分布式的、基於發布/訂閱的消息系統。Kafka的設計理念之一就是同時提供離線處理和實時處理,以及將數據實時備份到另一個數據中心，Kafka可以有許多的生產者和消費者分享多個主題，將消息以topic為單位進行歸納；Kafka發布消息的程序稱為procer，也叫生產者，預訂topics並消費消息的程序稱為consumer，也叫消費者；當Kafka以集群的方式運行時，可以由一個服務或者多個服務組成，每個服務叫做一個broker，運行過程中procer通過網路將消息發送到Kafka集群，集群向消費者提供消息。Kafka通過Zookeeper管理集群配置，選舉leader，以及在Consumer Group發生變化時進行rebalance。Procer使用push模式將消息發布到broker，Consumer使用pull模式從broker訂閱並消費消息。Kafka可以和Flume一起工作，如果需要將流式數據從Kafka轉移到hadoop，可以使用Flume代理agent，將Kafka當做一個來源source，這樣可以從Kafka讀取數據到Hadoop。

Zookeeper是一個分布式的，開放源碼的分布式應用程序協調服務，提供數據同步服務。它的作用主要有配置管理、名字服務、分布式鎖和集群管理。配置管理指的是在一個地方修改了配置，那麼對這個地方的配置感興趣的所有的都可以獲得變更，省去了手動拷貝配置的繁瑣，還很好的保證了數據的可靠和一致性，同時它可以通過名字來獲取資源或者服務的地址等信息，可以監控集群中機器的變化，實現了類似於心跳機制的功能。

二、數據存儲

Hadoop作為一個開源的框架，專為離線和大規模數據分析而設計，HDFS作為其核心的存儲引擎，已被廣泛用於數據存儲。

HBase，是一個分布式的、面向列的開源資料庫，可以認為是hdfs的封裝，本質是數據存儲、NoSQL資料庫。HBase是一種Key/Value系統，部署在hdfs上，克服了hdfs在隨機讀寫這個方面的缺點，與hadoop一樣，Hbase目標主要依靠橫向擴展，通過不斷增加廉價的商用伺服器，來增加計算和存儲能力。

Phoenix，相當於一個java中間件，幫助開發工程師能夠像使用JDBC訪問關系型資料庫一樣訪問NoSQL資料庫HBase。

Yarn是一種Hadoop資源管理器，可為上層應用提供統一的資源管理和調度，它的引入為集群在利用率、資源統一管理和數據共享等方面帶來了巨大好處。Yarn由下面的幾大組件構成：一個全局的資源管理器ResourceManager、ResourceManager的每個節點代理NodeManager、表示每個應用的Application以及每一個ApplicationMaster擁有多個Container在NodeManager上運行。

Mesos是一款開源的集群管理軟體，支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等應用架構。

Redis是一種速度非常快的非關系資料庫，可以存儲鍵與5種不同類型的值之間的映射，可以將存儲在內存的鍵值對數據持久化到硬碟中，使用復制特性來擴展性能，還可以使用客戶端分片來擴展寫性能。

Atlas是一個位於應用程序與MySQL之間的中間件。在後端DB看來，Atlas相當於連接它的客戶端，在前端應用看來，Atlas相當於一個DB。Atlas作為服務端與應用程序通訊，它實現了MySQL的客戶端和服務端協議，同時作為客戶端與MySQL通訊。它對應用程序屏蔽了DB的細節，同時為了降低MySQL負擔，它還維護了連接池。Atlas啟動後會創建多個線程，其中一個為主線程，其餘為工作線程。主線程負責監聽所有的客戶端連接請求，工作線程只監聽主線程的命令請求。

Ku是圍繞Hadoop生態圈建立的存儲引擎，Ku擁有和Hadoop生態圈共同的設計理念，它運行在普通的伺服器上、可分布式規模化部署、並且滿足工業界的高可用要求。其設計理念為fast analytics on fast data。作為一個開源的存儲引擎，可以同時提供低延遲的隨機讀寫和高效的數據分析能力。Ku不但提供了行級的插入、更新、刪除API，同時也提供了接近Parquet性能的批量掃描操作。使用同一份存儲，既可以進行隨機讀寫，也可以滿足數據分析的要求。Ku的應用場景很廣泛，比如可以進行實時的數據分析，用於數據可能會存在變化的時序數據應用等。

在數據存儲過程中，涉及到的數據表都是成千上百列，包含各種復雜的Query，推薦使用列式存儲方法，比如parquent,ORC等對數據進行壓縮。Parquet 可以支持靈活的壓縮選項，顯著減少磁碟上的存儲。

三、數據清洗

MapRece作為Hadoop的查詢引擎，用於大規模數據集的並行計算，」Map（映射）」和」Rece（歸約）」，是它的主要思想。它極大的方便了編程人員在不會分布式並行編程的情況下，將自己的程序運行在分布式系統中。

隨著業務數據量的增多，需要進行訓練和清洗的數據會變得越來越復雜，這個時候就需要任務調度系統，比如oozie或者azkaban，對關鍵任務進行調度和監控。

Oozie是用於Hadoop平台的一種工作流調度引擎，提供了RESTful API介面來接受用戶的提交請求(提交工作流作業)，當提交了workflow後，由工作流引擎負責workflow的執行以及狀態的轉換。用戶在HDFS上部署好作業(MR作業)，然後向Oozie提交Workflow，Oozie以非同步方式將作業(MR作業)提交給Hadoop。這也是為什麼當調用Oozie 的RESTful介面提交作業之後能立即返回一個JobId的原因，用戶程序不必等待作業執行完成（因為有些大作業可能會執行很久(幾個小時甚至幾天)）。Oozie在後台以非同步方式，再將workflow對應的Action提交給hadoop執行。

Azkaban也是一種工作流的控制引擎，可以用來解決有多個hadoop或者spark等離線計算任務之間的依賴關系問題。azkaban主要是由三部分構成：Relational Database，Azkaban Web Server和Azkaban Executor Server。azkaban將大多數的狀態信息都保存在MySQL中，Azkaban Web Server提供了Web UI，是azkaban主要的管理者，包括project的管理、認證、調度以及對工作流執行過程中的監控等；Azkaban Executor Server用來調度工作流和任務，記錄工作流或者任務的日誌。

流計算任務的處理平台Sloth，是網易首個自研流計算平台，旨在解決公司內各產品日益增長的流計算需求。作為一個計算服務平台，其特點是易用、實時、可靠，為用戶節省技術方面（開發、運維）的投入，幫助用戶專注於解決產品本身的流計算需求。

四、數據查詢分析

Hive的核心工作就是把SQL語句翻譯成MR程序，可以將結構化的數據映射為一張資料庫表，並提供 HQL(Hive SQL)查詢功能。Hive本身不存儲和計算數據，它完全依賴於HDFS和MapRece。可以將Hive理解為一個客戶端工具，將SQL操作轉換為相應的MapRece jobs，然後在hadoop上面運行。Hive支持標準的SQL語法，免去了用戶編寫MapRece程序的過程，它的出現可以讓那些精通SQL技能、但是不熟悉MapRece 、編程能力較弱與不擅長Java語言的用戶能夠在HDFS大規模數據集上很方便地利用SQL 語言查詢、匯總、分析數據。

Hive是為大數據批量處理而生的，Hive的出現解決了傳統的關系型資料庫(MySql、Oracle)在大數據處理上的瓶頸。Hive 將執行計劃分成map->shuffle->rece->map->shuffle->rece…的模型。如果一個Query會被編譯成多輪MapRece，則會有更多的寫中間結果。由於MapRece執行框架本身的特點，過多的中間過程會增加整個Query的執行時間。在Hive的運行過程中，用戶只需要創建表，導入數據，編寫SQL分析語句即可。剩下的過程由Hive框架自動的完成。

Impala是對Hive的一個補充，可以實現高效的SQL查詢。使用Impala來實現SQL on Hadoop，用來進行大數據實時查詢分析。通過熟悉的傳統關系型資料庫的SQL風格來操作大數據，同時數據也是可以存儲到HDFS和HBase中的。Impala沒有再使用緩慢的Hive+MapRece批處理，而是通過使用與商用並行關系資料庫中類似的分布式查詢引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分組成），可以直接從HDFS或HBase中用SELECT、JOIN和統計函數查詢數據，從而大大降低了延遲。Impala將整個查詢分成一執行計劃樹，而不是一連串的MapRece任務，相比Hive沒了MapRece啟動時間。

Hive 適合於長時間的批處理查詢分析，而Impala適合於實時互動式SQL查詢，Impala給數據人員提供了快速實驗，驗證想法的大數據分析工具，可以先使用Hive進行數據轉換處理，之後使用Impala在Hive處理好後的數據集上進行快速的數據分析。總的來說：Impala把執行計劃表現為一棵完整的執行計劃樹，可以更自然地分發執行計劃到各個Impalad執行查詢，而不用像Hive那樣把它組合成管道型的map->rece模式，以此保證Impala有更好的並發性和避免不必要的中間sort與shuffle。但是Impala不支持UDF，能處理的問題有一定的限制。

Spark擁有Hadoop MapRece所具有的特點，它將Job中間輸出結果保存在內存中，從而不需要讀取HDFS。Spark 啟用了內存分布數據集，除了能夠提供互動式查詢外，它還可以優化迭代工作負載。Spark 是在 Scala 語言中實現的，它將 Scala 用作其應用程序框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。

Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬蟲。

Solr用Java編寫、運行在Servlet容器（如Apache Tomcat或Jetty）的一個獨立的企業級搜索應用的全文搜索伺服器。它對外提供類似於Web-service的API介面，用戶可以通過http請求，向搜索引擎伺服器提交一定格式的XML文件，生成索引；也可以通過Http Get操作提出查找請求，並得到XML格式的返回結果。

Elasticsearch是一個開源的全文搜索引擎，基於Lucene的搜索伺服器，可以快速的儲存、搜索和分析海量的數據。設計用於雲計算中，能夠達到實時搜索，穩定，可靠，快速，安裝使用方便。

還涉及到一些機器學習語言，比如，Mahout主要目標是創建一些可伸縮的機器學習演算法，供開發人員在Apache的許可下免費使用；深度學習框架Caffe以及使用數據流圖進行數值計算的開源軟體庫TensorFlow等，常用的機器學習演算法比如，貝葉斯、邏輯回歸、決策樹、神經網路、協同過濾等。

五、數據可視化

對接一些BI平台，將分析得到的數據進行可視化，用於指導決策服務。主流的BI平台比如，國外的敏捷BI Tableau、Qlikview、PowrerBI等，國內的SmallBI和新興的網易有數（可點擊這里免費試用）等。

在上面的每一個階段，保障數據的安全是不可忽視的問題。

基於網路身份認證的協議Kerberos，用來在非安全網路中，對個人通信以安全的手段進行身份認證，它允許某實體在非安全網路環境下通信，向另一個實體以一種安全的方式證明自己的身份。

控制許可權的ranger是一個Hadoop集群許可權框架，提供操作、監控、管理復雜的數據許可權，它提供一個集中的管理機制，管理基於yarn的Hadoop生態圈的所有數據許可權。可以對Hadoop生態的組件如Hive，Hbase進行細粒度的數據訪問控制。通過操作Ranger控制台，管理員可以輕松的通過配置策略來控制用戶訪問HDFS文件夾、HDFS文件、資料庫、表、欄位許可權。這些策略可以為不同的用戶和組來設置，同時許可權可與hadoop無縫對接。

Ⅱ KNIME是什麼

Knime是基於Eclipse的開源數據挖掘軟體，它通過工作流的方式來完成數據倉庫以及數據挖掘中數據的抽取-轉換-載入操作。

Ⅲ python怎麼學習

對於很多想學習Python的小夥伴來說，不知道從何開始，小蝸這里整理了一份Python全棧開發的學習路線，大家可按照以下這份大綱來進行學習：

第一階段：專業核心基礎

階段目標：
1. 熟練掌握Python的開發環境與編程核心知識
2. 熟練運用Python面向對象知識進行程序開發
3. 對Python的核心庫和組件有深入理解
4. 熟練應用SQL語句進行資料庫常用操作
5. 熟練運用Linux操作系統命令及環境配置
6. 熟練使用MySQL，掌握資料庫高級操作
7. 能綜合運用所學知識完成項目

知識點：
Python編程基礎、Python面向對象、Python高級進階、MySQL資料庫、Linux操作系統。
1、Python編程基礎，語法規則，函數與參數，數據類型，模塊與包，文件IO，培養扎實的Python編程基本功，同時對Python核心對象和庫的編程有熟練的運用。
2、Python面向對象，核心對象，異常處理，多線程，網路編程，深入理解面向對象編程，異常處理機制，多線程原理，網路協議知識，並熟練運用於項目中。
3、類的原理，MetaClass，下劃線的特殊方法，遞歸，魔術方法，反射，迭代器，裝飾器，UnitTest，Mock。深入理解面向對象底層原理，掌握Python開發高級進階技術，理解單元測試技術。
4、資料庫知識，範式，MySQL配置，命令，建庫建表，數據的增刪改查，約束，視圖，存儲過程，函數，觸發器，事務，游標，PDBC，深入理解資料庫管理系統通用知識及MySQL資料庫的使用與管理。為Python後台開發打下堅實基礎。
5、Linux安裝配置，文件目錄操作，VI命令，管理，用戶與許可權，環境配置，Docker，Shell編程Linux作為一個主流的伺服器操作系統，是每一個開發工程師必須掌握的重點技術，並且能夠熟練運用。

第二階段：PythonWEB開發

階段目標：
1. 熟練掌握Web前端開發技術，HTML，CSS，JavaScript及前端框架
2. 深入理解Web系統中的前後端交互過程與通信協議
3. 熟練運用Web前端和Django和Flask等主流框架完成Web系統開發
4. 深入理解網路協議，分布式，PDBC，AJAX，JSON等知識
5. 能夠運用所學知識開發一個MiniWeb框架，掌握框架實現原理
6. 使用Web開發框架實現貫穿項目

知識點：
Web前端編程、Web前端高級、Django開發框架、Flask開發框架、Web開發項目實戰。
1、Web頁面元素，布局，CSS樣式，盒模型，JavaScript，JQuery與Bootstrap掌握前端開發技術，掌握JQuery與BootStrap前端開發框架，完成頁面布局與美化。
2、前端開發框架Vue，JSON數據，網路通信協議，Web伺服器與前端交互熟練使用Vue框架，深入理解HTTP網路協議，熟練使用Swagger，AJAX技術實現前後端交互。
3、自定義Web開發框架，Django框架的基本使用，Model屬性及後端配置，Cookie與Session，模板Templates，ORM數據模型，Redis二級緩存，RESTful，MVC模型掌握Django框架常用API，整合前端技術，開發完整的WEB系統和框架。
4、Flask安裝配置，App對象的初始化和配置，視圖函數的路由，Request對象，Abort函數，自定義錯誤，視圖函數的返回值，Flask上下文和請求鉤子，模板，資料庫擴展包Flask-Sqlalchemy，資料庫遷移擴展包Flask-Migrate，郵件擴展包Flask-Mail。掌握Flask框架的常用API，與Django框架的異同，並能獨立開發完整的WEB系統開發。

第三階段：爬蟲與數據分析

階段目標：
1. 熟練掌握爬蟲運行原理及常見網路抓包工具使用，能夠對HTTP及HTTPS協議進行抓包分析
2. 熟練掌握各種常見的網頁結構解析庫對抓取結果進行解析和提取
3. 熟練掌握各種常見反爬機制及應對策略，能夠針對常見的反爬措施進行處理
4. 熟練使用商業爬蟲框架Scrapy編寫大型網路爬蟲進行分布式內容爬取
5. 熟練掌握數據分析相關概念及工作流程
6. 熟練掌握主流數據分析工具Numpy、Pandas和Matplotlib的使用
7. 熟練掌握數據清洗、整理、格式轉換、數據分析報告編寫
8. 能夠綜合利用爬蟲爬取豆瓣網電影評論數據並完成數據分析全流程項目實戰

知識點：
網路爬蟲開發、數據分析之Numpy、數據分析之Pandas。
1、爬蟲頁面爬取原理、爬取流程、頁面解析工具LXML，Beautifulfoup，正則表達式，代理池編寫和架構、常見反爬措施及解決方案、爬蟲框架結構、商業爬蟲框架Scrapy，基於對爬蟲爬取原理、網站數據爬取流程及網路協議的分析和了解，掌握網頁解析工具的使用，能夠靈活應對大部分網站的反爬策略，具備獨立完成爬蟲框架的編寫能力和熟練應用大型商業爬蟲框架編寫分布式爬蟲的能力。
2、Numpy中的ndarray數據結構特點、numpy所支持的數據類型、自帶的數組創建方法、算術運算符、矩陣積、自增和自減、通用函數和聚合函數、切片索引、ndarray的向量化和廣播機制，熟悉數據分析三大利器之一Numpy的常見使用，熟悉ndarray數據結構的特點和常見操作，掌握針對不同維度的ndarray數組的分片、索引、矩陣運算等操作。
3、Pandas裡面的三大數據結構，包括Dataframe、Series和Index對象的基本概念和使用，索引對象的更換及刪除索引、算術和數據對齊方法，數據清洗和數據規整、結構轉換，熟悉數據分析三大利器之一Pandas的常見使用，熟悉Pandas中三大數據對象的使用方法，能夠使用Pandas完成數據分析中最重要的數據清洗、格式轉換和數據規整工作、Pandas對文件的讀取和操作方法。
4、matplotlib三層結構體系、各種常見圖表類型折線圖、柱狀圖、堆積柱狀圖、餅圖的繪制、圖例、文本、標線的添加、可視化文件的保存，熟悉數據分析三大利器之一Matplotlib的常見使用，熟悉Matplotlib的三層結構，能夠熟練使用Matplotlib繪制各種常見的數據分析圖表。能夠綜合利用課程中所講的各種數據分析和可視化工具完成股票市場數據分析和預測、共享單車用戶群里數據分析、全球幸福指數數據分析等項目的全程實戰。

第四階段：機器學習與人工智慧

階段目標：
1. 理解機器學習相關的基本概念及系統處理流程
2. 能夠熟練應用各種常見的機器學習模型解決監督學習和非監督學習訓練和測試問題，解決回歸、分類問題
3. 熟練掌握常見的分類演算法和回歸演算法模型，如KNN、決策樹、隨機森林、K-Means等
4. 掌握卷積神經網路對圖像識別、自然語言識別問題的處理方式，熟悉深度學習框架TF裡面的張量、會話、梯度優化模型等
5. 掌握深度學習卷積神經網路運行機制，能夠自定義卷積層、池化層、FC層完成圖像識別、手寫字體識別、驗證碼識別等常規深度學習實戰項目

知識點：
1、機器學習常見演算法、sklearn數據集的使用、字典特徵抽取、文本特徵抽取、歸一化、標准化、數據主成分分析PCA、KNN演算法、決策樹模型、隨機森林、線性回歸及邏輯回歸模型和演算法。熟悉機器學習相關基礎概念，熟練掌握機器學習基本工作流程，熟悉特徵工程、能夠使用各種常見機器學習演算法模型解決分類、回歸、聚類等問題。
2、Tensorflow相關的基本概念，TF數據流圖、會話、張量、tensorboard可視化、張量修改、TF文件讀取、tensorflow playround使用、神經網路結構、卷積計算、激活函數計算、池化層設計，掌握機器學習和深度學習之前的區別和練習，熟練掌握深度學習基本工作流程，熟練掌握神經網路的結構層次及特點，掌握張量、圖結構、OP對象等的使用，熟悉輸入層、卷積層、池化層和全連接層的設計，完成驗證碼識別、圖像識別、手寫輸入識別等常見深度學習項目全程實戰。

Ⅳ 人工智慧是學習什麼

1、學習並掌握一些數學知識

高等數學是基礎中的基礎，一切理工科都需要這個打底，數據挖掘、人工智慧、模式識別此類跟數據打交道的又尤其需要多元微積分運算基礎。

線性代數很重要，一般來說線性模型是你最先要考慮的模型，加上很可能要處理多維數據，你需要用線性代數來簡潔清晰的描述問題，為分析求解奠定基礎。

概率論、數理統計、隨機過程更是少不了，涉及數據的問題，不確定性幾乎是不可避免的，引入隨機變數順理成章，相關理論、方法、模型非常豐富。很多機器學習的演算法都是建立在概率論和統計學的基礎上的，比如貝葉斯分類器、高斯隱馬爾可夫鏈。

再就是優化理論與演算法，除非你的問題是像二元一次方程求根那樣有現成的公式，否則你將不得不面對各種看起來無解但是要解的問題，優化將是你的GPS為你指路。

以上這些知識打底，就可以開拔了，針對具體應用再補充相關的知識與理論，比如說一些我覺得有幫助的是數值計算、圖論、拓撲，更理論一點的還有實/復分析、測度論，偏工程類一點的還有信號處理、數據結構。

2、掌握經典機器學習理論和演算法

如果有時間可以為自己建立一個機器學習的知識圖譜，並爭取掌握每一個經典的機器學習理論和演算法，我簡單地總結如下：

1) 回歸演算法：常見的回歸演算法包括最小二乘法（OrdinaryLeast Square），邏輯回歸（Logistic Regression），逐步式回歸（Stepwise Regression），多元自適應回歸樣條（MultivariateAdaptive Regression Splines）以及本地散點平滑估計（Locally Estimated Scatterplot Smoothing）；

2) 基於實例的演算法：常見的演算法包括 k-Nearest Neighbor(KNN), 學習矢量量化（Learning Vector Quantization， LVQ），以及自組織映射演算法（Self-Organizing Map ， SOM）；

3) 基於正則化方法：常見的演算法包括：Ridge Regression， Least Absolute Shrinkage and Selection Operator（LASSO），以及彈性網路（Elastic Net）；

4) 決策樹學習：常見的演算法包括：分類及回歸樹（ClassificationAnd Regression Tree， CART）， ID3 (Iterative Dichotomiser 3)， C4.5， Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 隨機森林（Random Forest），多元自適應回歸樣條（MARS）以及梯度推進機（Gradient Boosting Machine， GBM）；

5) 基於貝葉斯方法：常見演算法包括：樸素貝葉斯演算法，平均單依賴估計（AveragedOne-Dependence Estimators， AODE），以及Bayesian Belief Network（BBN）；

6) 基於核的演算法：常見的演算法包括支持向量機（SupportVector Machine， SVM），徑向基函數（Radial Basis Function ，RBF)，以及線性判別分析（Linear Discriminate Analysis ，LDA)等；

7) 聚類演算法：常見的聚類演算法包括 k-Means演算法以及期望最大化演算法（Expectation Maximization， EM）；

8) 基於關聯規則學習：常見演算法包括 Apriori演算法和Eclat演算法等；

9) 人工神經網路：重要的人工神經網路演算法包括：感知器神經網路（PerceptronNeural Network）, 反向傳遞（Back Propagation）， Hopfield網路，自組織映射（Self-OrganizingMap, SOM）。學習矢量量化（Learning Vector Quantization， LVQ）；

10) 深度學習：常見的深度學習演算法包括：受限波爾茲曼機（RestrictedBoltzmann Machine， RBN）， Deep Belief Networks（DBN），卷積網路（Convolutional Network）, 堆棧式自動編碼器（Stacked Auto-encoders）；

11) 降低維度的演算法：常見的演算法包括主成份分析（PrincipleComponent Analysis， PCA），偏最小二乘回歸（Partial Least Square Regression，PLS）， Sammon映射，多維尺度（Multi-Dimensional Scaling, MDS）, 投影追蹤（ProjectionPursuit）等；

12) 集成演算法：常見的演算法包括：Boosting， Bootstrapped Aggregation（Bagging），AdaBoost，堆疊泛化（Stacked Generalization， Blending），梯度推進機（GradientBoosting Machine, GBM），隨機森林（Random Forest）。

3、掌握一種編程工具，比如Python
一方面Python是腳本語言，簡便，拿個記事本就能寫，寫完拿控制台就能跑；另外，Python非常高效，效率比java、r、matlab高。matlab雖然包也多，但是效率是這四個裡面最低的。

4、了解行業最新動態和研究成果，比如各大牛的經典論文、博客、讀書筆記、微博微信等媒體資訊。

5、買一個GPU，找一個開源框架，自己多動手訓練深度神經網路，多動手寫寫代碼，多做一些與人工智慧相關的項目。

6、選擇自己感興趣或者工作相關的一個領域深入下去
人工智慧有很多方向，比如NLP、語音識別、計算機視覺等等，生命有限，必須得選一個方向深入的鑽研下去，這樣才能成為人工智慧領域的大牛，有所成就。

根據網路給的定義，人工智慧（Artificial Intelligence），英文縮寫為AI。它是研究、開發用於模擬、延伸和擴展人的還能的理論、方法、技術及應用系統的一門新的技術科學。
網路關於人工智慧的定義詳解中說道：人工智慧是計算機的一個分支，二十世紀七十年代以來被稱為世界三大尖端技術之一（空間技術、能源技術、人工智慧）。也被認為是二十一世紀三大尖端技術（基因工程、納米科學、人工智慧）之一。這是因為近三十年來它獲得了迅速的發展，在很多學科領域都獲得了廣泛應用，並取得了豐碩的成果，人工智慧已逐步成為一個獨立的分支，無論在理論和實踐上都已自成一個系統。
綜上，從定義上講，人工智慧是一項技術。

Ⅳ 如何使用Java Weka開源項目，實現J48決策樹、支持向量機演算法，在10個UCI數據集上對這兩個演算法進行性能

publicstaticvoidRegular()throwsException{
Fileinputfile=newFile("F:\weka\eucalyptus_Train.arff");
ArffLoaderloader=newArffLoader();
loader.setFile(inputfile);

InstancesinsTrain=loader.getDataSet();
insTrain.setClassIndex(insTrain.numAttributes()-1);

inputfile=newFile("F:\weka\eucalyptus_Test.arff");
loader.setFile(inputfile);
InstancesinsTest=loader.getDataSet();
insTest.setClassIndex(insTest.numAttributes()-1);

doublesum=insTest.numInstances();
intright=0;
Classifierclas=newJ48();
//Classifierclas=newweka.classifiers.bayes.BayesNet();
clas.buildClassifier(insTrain);

for(inti=0;i<sum;i++){
if(clas.classifyInstance(insTest.instance(i))==insTest.instance(i).classValue()){
right++;
}
System.out.println(clas.classifyInstance(insTest.instance(i))+":"+insTest.instance(i).classValue());
}
System.out.println("分類准確率："+right/sum);
}

svm的話，要用一個wlsvm的包。代碼是一樣的，就是Classifier class= new J48()這里要用svm的實例

Ⅵ 求教程序:判斷人種類的決策樹(C語言或Java)

用weka，開源的，包括多種決策樹演算法的源碼...java實現的

Ⅶ java問題

只要加到比較方法之中就可以
如：比較方法如下
for(int i=0;i<100;i++)
for(int j=i;j<100;j++){
if(array[i]>array[j]){
int temp=array[i];
array[i]=array[j];
array[j]=temp;
}
}
把：：
比較次數compare_count、交換次數exchange_count、探測次數probe_count）加到裡面就可以

for(int i=0,compare_count=0;i<100;i++)
for(int j=i;j<100;j++){
if(array[i]>array[j]){
compare_count++;
int temp=array[i];
array[i]=array[j];
array[j]=temp;
exchange_count++;
}
}

就可以了
各種排序方法的綜合比較

一、時間性能

按平均的時間性能來分，有三類排序方法：
時間復雜度為O(nlogn)的方法有：快速排序、堆排序和歸並排序，其中以快速排序為最好；

時間復雜度為O(n2)的有：直接插入排序、起泡排序和簡單選擇排序，其中以直接插入為最好，特別是對那些對關鍵字近似有序的記錄序列尤為如此；

時間復雜度為O(n)的排序方法只有，基數排序。

當待排記錄序列按關鍵字順序有序時，直接插入排序和起泡排序能達到O(n)的時間復雜度;而對於快速排序而言，這是最不好的情況，此時的時間性能蛻化為O(n2)，因此是應該盡量避免的情況。
簡單選擇排序、堆排序和歸並排序的時間性能不隨記錄序列中關鍵字的分布而改變。
二、空間性能

指的是排序過程中所需的輔助空間大小。

1. 所有的簡單排序方法(包括：直接插入、起泡和簡單選擇)和堆排序的空間復雜度為O(1)；

2. 快速排序為O(logn )，為棧所需的輔助空間;

3. 歸並排序所需輔助空間最多，其空間復雜度為O(n );

4.鏈式基數排序需附設隊列首尾指針，則空間復雜度為O(rd )。

三、排序方法的穩定性能

1. 穩定的排序方法指的是，對於兩個關鍵字相等的記錄，它們在序列中的相對位置，在排序之前和經過排序之後，沒有改變。

2. 當對多關鍵字的記錄序列進行LSD方法排序時，必須採用穩定的排序方法。

3. 對於不穩定的排序方法，只要能舉出一個實例說明即可。

4. 快速排序和堆排序是不穩定的排序方法。

四、關於「排序方法的時間復雜度的下限」

本章討論的各種排序方法，除基數排序外，其它方法都是基於「比較關鍵字」進行排序的排序方法，可以證明，這類排序法可能達到的最快的時間復雜度為O(n logn )。(基數排序不是基於「比較關鍵字」的排序方法,所以它不受這個限制)。

可以用一棵判定樹來描述這類基於「比較關鍵字」進行排序的排序方法。

例如，對三個關鍵字進行排序的判定樹如下：

描述排序的判定樹有兩個特點：

1.樹上的每一次「比較」都是必要的;

2.樹上的葉子結點包含所有可能情況。

則由上圖所示「判定樹的深度為4」可以推出「至多進行三次比較」即可完成對三個關鍵字的排序。反過來說，由此判定樹可見，考慮最壞情況，「至少要進行三次比較」才能完成對三個關鍵字的排序。

對三個關鍵字進行排序的判定樹深度是唯一的。即無論按什麼先後順序去進行比較，所得判定樹的深度都是3。

當關鍵字的個數超過3之後，不同的排序方法其判定樹的深度不同。例如，對4個關鍵字進行排序時，直接插入的判定樹的深度為6, 而折半插入的判定樹的深度為5。

可以證明，對4個關鍵字進行排序，至少需進行5次比較。因為，4個關鍵字排序的結果有4!=24種可能，即排序的判定樹上必須有24個葉子結點，其深度的最小值為6。

一般情況下，對n個關鍵字進行排序，可能得到的結果有n! 種，由於含n! 個葉子結點的二叉樹的深度不小於 , 則對n個關鍵字進行排序的比較次數至少是

。利用斯蒂林近似公式

所以，基於「比較關鍵字」進行排序的排序方法，可能達到的最快的時間復雜度為O(n logn )。

快速排序是對冒泡排序的一種改進。它的基本思想是：通過一躺排序將要排序的數據分割成獨立的兩部分，其中一部分的所有數據都比另外一不部分的所有數據都要小，然後再按次方法對這兩部分數據分別進行快速排序，整個排序過程可以遞歸進行，以此達到整個數據變成有序序列。

假設要排序的數組是A[1]……A[N]，首先任意選取一個數據（通常選用第一個數據）作為關鍵數據，然後將所有比它的數都放到它前面，所有比它大的數都放到它後面，這個過程稱為一躺快速排序。一躺快速排序的演算法是：

1）、設置兩個變數I、J，排序開始的時候I：=1，J：=N；

2）以第一個數組元素作為關鍵數據，賦值給X，即X：=A[1]；

3）、從J開始向前搜索，即由後開始向前搜索（J：=J-1），找到第一個小於X的值，兩者交換；

4）、從I開始向後搜索，即由前開始向後搜索（I：=I+1），找到第一個大於X的值，兩者交換；

5）、重復第3、4步，直到I=J；

例如：待排序的數組A的值分別是：（初始關鍵數據X：=49）

A[1] A[2] A[3] A[4] A[5] A[6] A[7]：

49 38 65 97 76 13 27

進行第一次交換後： 27 38 65 97 76 13 49

( 按照演算法的第三步從後面開始找

進行第二次交換後： 27 38 49 97 76 13 65

( 按照演算法的第四步從前面開始找>X的值，65>49,兩者交換，此時I：=3 )

進行第三次交換後： 27 38 13 97 76 49 65

( 按照演算法的第五步將又一次執行演算法的第三步從後開始找

進行第四次交換後： 27 38 13 49 76 97 65

( 按照演算法的第四步從前面開始找大於X的值，97>49,兩者交換，此時J：=4 )

此時再執行第三不的時候就發現I=J，從而結束一躺快速排序，那麼經過一躺快速排序之後的結果是：27 38 13 49 76 97 65，即所以大於49的數全部在49的後面，所以小於49的數全部在49的前面。

快速排序就是遞歸調用此過程——在以49為中點分割這個數據序列，分別對前面一部分和後面一部分進行類似的快速排序，從而完成全部數據序列的快速排序，最後把此數據序列變成一個有序的序列，根據這種思想對於上述數組A的快速排序的全過程如圖6所示：

初始狀態 {49 38 65 97 76 13 27}

進行一次快速排序之後劃分為 {27 38 13} 49 {76 97 65}

分別對前後兩部分進行快速排序 {13} 27 {38}

結束結束 {49 65} 76 {97}

49 {65} 結束

結束

圖6 快速排序全過程

1）、設有N（假設N=10）個數，存放在S數組中；
2）、在S[1。。N]中任取一個元素作為比較基準，例如取T=S[1]，起目的就是在定出T應在排序結果中的位置K，這個K的位置在：S[1。。K-1]<=S[K]<=S[K+1..N]，即在S[K]以前的數都小於S[K]，在S[K]以後的數都大於S[K]；

3）、利用分治思想（即大化小的策略）可進一步對S[1。。K-1]和S[K+1。。N]兩組數據再進行快速排序直到分組對象只有一個數據為止。 1 2 3 4 5 6 7 8 9 10

如具體數據如下，那麼第一躺快速排序的過程是：

數組下標：

45 36 18 53 72 30 48 93 15 36

5） 36 36 18 15 30 45 48 93 72 534） 36 36 18 15 45 30 48 93 72 533） 36 36 18 15 72 30 48 93 45 532） 36 36 18 45 72 30 48 93 15 53

program kuaisu(input,output);
const n=10;
var
s:array[1..10] of integer;
k,l,m:integer;

procere qsort(lx,rx:integer);
var
I,j,t:integer;
Begin
I:lx;j:rx;t:s[I];
Repeat
While (s[j]>t) and (j>I) do
Begin
k:=k+1;
j:=j-1
end;
if I<j then
begin
s[I]:=s[j];I:=I+1;l:=l+1;
while (s[I]<t) and (I<j) do
begin
k:=k+1;
I:=I+1
End;
If I<j then
begin
S[j]:=s[I];j:=j-1;l:=l+1;
End;
End;
Until I=j;
S[I]:=t;I:=I+1;j:=j-1;l:=l+1;
If lx<j then qsort(lx,j);
If I<rx then qsort(I,rx)
End;{過程qsort結束}

Begin
Writeln('input 10 integer num:');
For m:=1 to n do read(s[m]);
K:=0;l:=0;
Qsort(l,n);
Writeln('排序後結果是：')；
For m:=1 to n do write(s[m]:4)
End.

通過一躺排序將45放到應該放的位置K，這里K=6，那麼再對S[1。。5]和S[6。。10]分別進行快速排序。程序代碼如下：<49,兩者交換，此時J:=6>

Ⅷ java轉行大數據要學習哪些技術

對於Java程序員，大數據的主流平台hadoop是基於Java開發的，所以Java程序員往大數據開發方向轉行從語言環境上更為順暢，另外很多基於大數據的應用框架也是Java的，所以在很多大數據項目里掌握Java語言是有一定優勢的。
當然，hadoop核心價值在於提供了分布式文件系統和分布式計算引擎，對於大部分公司而言，並不需要對這個引擎進行修改。這時候除了熟悉編程，你通常還需要學習數據處理和數據挖掘的一些知識。尤其是往數據挖掘工程師方向發展，則你需要掌握更多的演算法相關的知識。
對於數據挖掘工程師而言，雖然也需要掌握編程工具，但大部分情況下是把hadoop當做平台和工具，藉助這個平台和工具提供的介面使用各種腳本語言進行數據處理和數據挖掘。因此，如果你是往數據挖掘工程方向發展，那麼，熟練掌握分布式編程語言如scala、spark-mllib等可能更為重要。
Java程序員轉大數據工程師的學習路線圖：
第一步：分布式計算框架
掌握hadoop和spark分布式計算框架，了解文件系統、消息隊列和Nosql資料庫，學習相關組件如hadoop、MR、spark、hive、hbase、redies、kafka等；
第二步：演算法和工具
學習了解各種數據挖掘演算法，如分類、聚類、關聯規則、回歸、決策樹、神經網路等，熟練掌握一門數據挖掘編程工具：Python或者Scala。目前主流平台和框架已經提供了演算法庫，如hadoop上的Mahout和spark上的Mllib，你也可以從學習這些介面和腳本語言開始學習這些演算法。
第三步：數學
補充數學知識：高數、概率論和線代
第四步：項目實踐
1)開源項目：tensorflow：Google的開源庫，已經有40000多個star，非常驚人，支持移動設備；
2)參加數據競賽
3)通過企業實習獲取項目經驗
如果你僅僅是做大數據開發和運維，則可以跳過第二步和第三步，如果你是側重於應用已有演算法進行數據挖掘，那麼第三步也可以先跳過。

Ⅸ 學人工智慧要學些什麼

、數學基礎。數學基礎知識蘊含著處理智能問題的基本思想與方法，也是理解復雜演算法的必備要素。這一模塊覆蓋了人工智慧必備的數學基礎知識，包括線性代數、概率論、最優化方法等。
2、機器學習。機器學習的作用是從數據中習得學習演算法，進而解決實際的應用問題，是人工智慧的核心內容之一。這一模塊覆蓋了機器學習中的主要方法，包括線性回歸、決策樹、支持向量機、聚類等。
3、人工神經網路。作為機器學習的一個分支，神經網路將認知科學引入機器學習中，以模擬生物神經系統對真實世界的交互反應，並取得了良好的效果。這一模塊覆蓋了神經網路中的基本概念，包括多層神經網路、前饋與反向傳播、自組織神經網路等。
4、深度學習。簡而言之，深度學習就是包含多個中間層的神經網路，數據爆炸和計算力飆升推動了深度學習的崛起。這一模塊覆蓋了深度學習的概念與實現，包括深度前饋網路、深度學習中的正則化、自編碼器等。
5、神經網路實例。在深度學習框架下，一些神經網路已經被用於各種應用場景，並取得了不俗的效果。這一模塊覆蓋了幾種神經網路實例，包括深度信念網路、卷積神經網路、循環神經網路等。
6、深度學習之外的人工智慧。深度學習既有優點也有局限，其他方向的人工智慧研究正是有益的補充。這一模塊覆蓋了與深度學習無關的典型學習方法，包括概率圖模型、集群智能、遷移學習、知識圖譜等。
7、應用場景。除了代替人類執行重復性的勞動，在諸多實際問題的處理中，人工智慧也提供了有意義的嘗試。這一模塊覆蓋了人工智慧技術在幾類實際任務中的應用，包括計算機視覺、語音處理、對話系統等。

Ⅹ java 分類器演算法問題！！急。。。。

SVM主要通過訓練集進行訓練之後，用來進行數據分類（通常是二分類）。在對SVM進行訓練之前你要確定輸入的特徵向量是什麼，期望輸出又是什麼，對於你的系統很顯然期望輸出可以假定為：+1和-1，其中+1表示正面的，-1表示負面的，訓練集就是那兩張英文詞列表，你可以用這兩英文詞列表來對SVM進行訓練從而得到一個SVM模型，然後就可以用這個模型來對新的英文序列（中文詞的英文翻譯序列）進行「極性」分類了。其實分類器並不只有SVM，你還可以使用BP神經網路，AdaBoost等來實現數據分類。如果還有不明白的地方可以給我留言：blog.sina.com.cn/kwapoong
建議你在Matlab下進行試驗，這樣效率會快些。

導航:首頁 > 編程語言 > java決策樹演算法

java決策樹演算法

與java決策樹演算法相關的資料