決策樹演算法java實現_演算法工程師應該學哪些

A. 演算法工程師應該學哪些

一、演算法工程師簡介
（通常是月薪15k以上，年薪18萬以上，只是一個概數，具體薪資可以到招聘網站如拉鉤，獵聘網上看看）
演算法工程師目前是一個高端也是相對緊缺的職位；
演算法工程師包括
音/視頻演算法工程師（通常統稱為語音/視頻/圖形開發工程師）、圖像處理演算法工程師、計算機視覺演算法工程師、通信基帶演算法工程師、信號演算法工程師、射頻/通信演算法工程師、自然語言演算法工程師、數據挖掘演算法工程師、搜索演算法工程師、控制演算法工程師（雲台演算法工程師，飛控演算法工程師，機器人控制演算法）、導航演算法工程師（
@之介
感謝補充）、其他【其他一切需要復雜演算法的行業】
專業要求：計算機、電子、通信、數學等相關專業；
學歷要求：本科及其以上的學歷，大多數是碩士學歷及其以上；
語言要求：英語要求是熟練，基本上能閱讀國外專業書刊，做這一行經常要讀論文；
必須掌握計算機相關知識，熟練使用模擬工具MATLAB等，必須會一門編程語言。
演算法工程師的技能樹（不同方向差異較大，此處僅供參考）
1 機器學習
2 大數據處理：熟悉至少一個分布式計算框架Hadoop/Spark/Storm/ map-rece/MPI
3 數據挖掘
4 扎實的數學功底
5 至少熟悉C/C++或者java，熟悉至少一門編程語言例如java/python/R
加分項：具有較為豐富的項目實踐經驗（不是水論文的哪種）
二、演算法工程師大致分類與技術要求
（一）圖像演算法/計算機視覺工程師類
包括
圖像演算法工程師，圖像處理工程師，音/視頻處理演算法工程師，計算機視覺工程師
要求
l
專業：計算機、數學、統計學相關專業；
l
技術領域：機器學習，模式識別
l
技術要求：
（1）精通DirectX HLSL和OpenGL GLSL等shader語言，熟悉常見圖像處理演算法GPU實現及優化；
（2）語言：精通C/C++；
（3）工具：Matlab數學軟體，CUDA運算平台，VTK圖像圖形開源軟體【醫學領域：ITK，醫學圖像處理軟體包】
（4）熟悉OpenCV/OpenGL/Caffe等常用開源庫；
（5）有人臉識別，行人檢測，視頻分析，三維建模，動態跟蹤，車識別，目標檢測跟蹤識別經歷的人優先考慮；
（6）熟悉基於GPU的演算法設計與優化和並行優化經驗者優先；
（7）【音/視頻領域】熟悉H.264等視頻編解碼標准和FFMPEG，熟悉rtmp等流媒體傳輸協議，熟悉視頻和音頻解碼演算法，研究各種多媒體文件格式，GPU加速；
應用領域：
（1）互聯網：如美顏app
（2）醫學領域：如臨床醫學圖像
（3）汽車領域
（4）人工智慧
相關術語：
（1） OCR：OCR （Optical Character Recognition，光學字元識別）是指電子設備（例如掃描儀或數碼相機）檢查紙上列印的字元，通過檢測暗、亮的模式確定其形狀，然後用字元識別方法將形狀翻譯成計算機文字的過程
（2） Matlab：商業數學軟體；
（3） CUDA： (Compute Unified Device Architecture)，是顯卡廠商NVIDIA推出的運算平台（由ISA和GPU構成）。 CUDA™是一種由NVIDIA推出的通用並行計算架構，該架構使GPU能夠解決復雜的計算問題
（4） OpenCL: OpenCL是一個為異構平台編寫程序的框架，此異構平台可由CPU，GPU或其他類型的處理器組成。
（5） OpenCV：開源計算機視覺庫；OpenGL：開源圖形庫；Caffe：是一個清晰，可讀性高，快速的深度學習框架。
（6） CNN：（深度學習）卷積神經網路（Convolutional Neural Network）CNN主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。
（7）開源庫：指的是計算機行業中對所有人開發的代碼庫，所有人均可以使用並改進代碼演算法。
（二）機器學習工程師
包括
機器學習工程師
要求
l
專業：計算機、數學、統計學相關專業；
l
技術領域：人工智慧，機器學習
l
技術要求：
（1）熟悉Hadoop/Hive以及Map-Rece計算模式，熟悉Spark、Shark等尤佳；
（2）大數據挖掘；
（3）高性能、高並發的機器學習、數據挖掘方法及架構的研發；
應用領域：
（1）人工智慧，比如各類模擬、擬人應用，如機器人
（2）醫療用於各類擬合預測
（3）金融高頻交易
（4）互聯網數據挖掘、關聯推薦
（5）無人汽車，無人機

相關術語：
（1） Map-Rece：MapRece是一種編程模型，用於大規模數據集（大於1TB）的並行運算。概念"Map（映射）"和"Rece（歸約）"，是它們的主要思想，都是從函數式編程語言里借來的，還有從矢量編程語言里借來的特性。
（三）自然語言處理工程師
包括
自然語言處理工程師
要求
l
專業：計算機相關專業；
l
技術領域：文本資料庫
l
技術要求：
（1）熟悉中文分詞標注、文本分類、語言模型、實體識別、知識圖譜抽取和推理、問答系統設計、深度問答等NLP 相關演算法；
（2）應用NLP、機器學習等技術解決海量UGC的文本相關性；
（3）分詞、詞性分析、實體識別、新詞發現、語義關聯等NLP基礎性研究與開發；
（4）人工智慧，分布式處理Hadoop；
（5）數據結構和演算法；
應用領域：
口語輸入、書面語輸入
、語言分析和理解、語言生成、口語輸出技術、話語分析與對話、文獻自動處理、多語問題的計算機處理、多模態的計算機處理、信息傳輸與信息存儲、自然語言處理中的數學方法、語言資源、自然語言處理系統的評測。

相關術語：
（2） NLP：人工智慧的自然語言處理，NLP (Natural Language Processing) 是人工智慧（AI）的一個子領域。NLP涉及領域很多，最令我感興趣的是「中文自動分詞」（Chinese word segmentation）：結婚的和尚未結婚的【計算機中卻有可能理解為結婚的「和尚「】

（四）射頻/通信/信號演算法工程師類
包括
3G/4G無線通信演算法工程師，通信基帶演算法工程師，DSP開發工程師（數字信號處理），射頻通信工程師，信號演算法工程師
要求
l
專業：計算機、通信相關專業；
l
技術領域：2G、3G、4G，BlueTooth（藍牙），WLAN，無線移動通信, 網路通信基帶信號處理
l
技術要求：
（1）了解2G，3G，4G，BlueTooth，WLAN等無線通信相關知識，熟悉現有的通信系統和標准協議，熟悉常用的無線測試設備；
（2）信號處理技術，通信演算法；
（3）熟悉同步、均衡、信道解碼等演算法的基本原理；
（4）【射頻部分】熟悉射頻前端晶元，扎實的射頻微波理論和測試經驗，熟練使用射頻電路模擬工具（如ADS或MW或Ansoft）；熟練使用cadence、altium designer PCB電路設計軟體；
（5）有扎實的數學基礎，如復變函數、隨機過程、數值計算、矩陣論、離散數學
應用領域：
通信
VR【用於快速傳輸視頻圖像，例如樂客靈境VR公司招募的通信工程師（數據編碼、流數據）】
物聯網，車聯網
導航，軍事，衛星，雷達
相關術語：
（1）基帶信號：指的是沒有經過調制（進行頻譜搬移和變換）的原始電信號。
（2）基帶通信（又稱基帶傳輸）：指傳輸基帶信號。進行基帶傳輸的系統稱為基帶傳輸系統。傳輸介質的整個信道被一個基帶信號佔用.基帶傳輸不需要數據機，設備化費小，具有速率高和誤碼率低等優點,.適合短距離的數據傳輸，傳輸距離在100米內，在音頻市話、計算機網路通信中被廣泛採用。如從計算機到監視器、列印機等外設的信號就是基帶傳輸的。大多數的區域網使用基帶傳輸，如乙太網、令牌環網。
（3）射頻：射頻（RF）是Radio Frequency的縮寫，表示可以輻射到空間的電磁頻率（電磁波），頻率范圍從300KHz～300GHz之間（因為其較高的頻率使其具有遠距離傳輸能力）。射頻簡稱RF射頻就是射頻電流，它是一種高頻交流變化電磁波的簡稱。每秒變化小於1000次的交流電稱為低頻電流，大於10000次的稱為高頻電流，而射頻就是這樣一種高頻電流。高頻(大於10K)；射頻（300K-300G）是高頻的較高頻段；微波頻段（300M-300G）又是射頻的較高頻段。【有線電視就是用射頻傳輸方式】
（4） DSP：數字信號處理，也指數字信號處理晶元
（五）數據挖掘演算法工程師類
包括
推薦演算法工程師，數據挖掘演算法工程師
要求
l
專業：計算機、通信、應用數學、金融數學、模式識別、人工智慧；
l
技術領域：機器學習，數據挖掘
l
技術要求：
（1）熟悉常用機器學習和數據挖掘演算法，包括但不限於決策樹、Kmeans、SVM、線性回歸、邏輯回歸以及神經網路等演算法；
（2）熟練使用SQL、Matlab、Python等工具優先；
（3）對Hadoop、Spark、Storm等大規模數據存儲與運算平台有實踐經驗【均為分布式計算框架】
（4）數學基礎要好，如高數，統計學，數據結構
l
加分項：數據挖掘建模大賽；
應用領域
（1）個性化推薦
（2）廣告投放
（3）大數據分析
相關術語
Map-Rece：MapRece是一種編程模型，用於大規模數據集（大於1TB）的並行運算。概念"Map（映射）"和"Rece（歸約）"，是它們的主要思想，都是從函數式編程語言里借來的，還有從矢量編程語言里借來的特性。
（六）搜索演算法工程師
要求
l
技術領域：自然語言
l
技術要求：
（1）數據結構，海量數據處理、高性能計算、大規模分布式系統開發
（2） hadoop、lucene
（3）精通Lucene/Solr/Elastic Search等技術，並有二次開發經驗
（4）精通Lucene/Solr/Elastic Search等技術，並有二次開發經驗；
（5）精通倒排索引、全文檢索、分詞、排序等相關技術；
（6）熟悉Java，熟悉Spring、MyBatis、Netty等主流框架；
（7）優秀的資料庫設計和優化能力，精通MySQL資料庫應用；
（8）了解推薦引擎和數據挖掘和機器學習的理論知識，有大型搜索應用的開發經驗者優先。
（七）控制演算法工程師類
包括了雲台控制演算法，飛控控制演算法，機器人控制演算法
要求
l
專業：計算機，電子信息工程，航天航空，自動化
l
技術要求：
（1）精通自動控制原理（如PID）、現代控制理論，精通組合導航原理，姿態融合演算法，電機驅動，電機驅動
（2）卡爾曼濾波，熟悉狀態空間分析法對控制系統進行數學模型建模、分析調試；
l
加分項：有電子設計大賽，機器人比賽，robocon等比賽經驗，有硬體設計的基礎；
應用領域
（1）醫療/工業機械設備
（2）工業機器人
（3）機器人
（4）無人機飛控、雲台控制等

（八）導航演算法工程師
要求
l 專業：計算機，電子信息工程，航天航空，自動化
l 技術要求（以公司職位JD為例）
公司一（1）精通慣性導航、激光導航、雷達導航等工作原理；
（2）精通組合導航演算法設計、精通卡爾曼濾波演算法、精通路徑規劃演算法；
（3）具備導航方案設計和實現的工程經驗；
（4）熟悉C/C++語言、熟悉至少一種嵌入式系統開發、熟悉Matlab工具；
公司二（1）熟悉基於視覺信息的SLAM、定位、導航演算法，有1年以上相關的科研或項目經歷；
（2）熟悉慣性導航演算法，熟悉IMU與視覺信息的融合;
應用領域
無人機、機器人等。

B. 決策樹分類演算法有哪些

問題一：決策樹演算法是按什麼來進行分類的決策樹演算法是一種逼近離散函數值的方法。它是一種典型的分類方法，首先對數據進行處理，利用歸納演算法生成可讀的規則和決策樹，然後使用決策對新數據進行分析。本質上決策樹是通過一系列規則對數據進行分類的過程。
決策樹方法最早產生於上世紀60年代，到70年代末。由J Ross Quinlan提出了ID3演算法，此演算法的目的在於減少樹的深度。但是忽略了葉子數目的研究。C4.5演算法在ID3演算法的基礎上進行了改進，對於預測變數的缺值處理、剪枝技術、派生規則等方面作了較大改進，既適合於分類問題，又適合於回歸問題。
決策樹演算法構造決策樹來發現數據中蘊涵的分類規則．如何構造精度高、規模小的決策樹是決策樹演算法的核心內容。決策樹構造可以分兩步進行。第一步，決策樹的生成：由訓練樣本集生成決策樹的過程。一般情況下，訓練樣本數據集是根據實際需要有歷史的、有一定綜合程度的，用於數據分析處理的數據集。第二步，決策樹的剪枝：決策樹的剪枝是對上一階段生成的決策樹進行檢驗、校正和修下的過程，主要是用新的樣本數據集（稱為測試數據集）中的數據校驗決策樹生成過程中產生的初步規則，將那些影響預衡准確性的分枝剪除。

問題二：數據挖掘分類方法決策樹可以分多類么數據挖掘,也稱之為資料庫中知識發現是一個可以從海量數據中智能地和自動地抽取一些有用的、可信的、有效的和可以理解的模式的過程.分類是數據挖掘的重要內容之一.目前,分類已廣泛應用於許多領域,如醫療診斷、天氣預測、信用證實、顧客區分、欺詐甄別. 現己有多種分類的方法,其中決策樹分類法在海量數據環境中應用最為廣泛.其原因如下：
1、決策樹分類的直觀的表示方法較容易轉化為標準的資料庫查詢
2、決策樹分類歸納的方法行之有效,尤其適合大型數據集.
3、決策樹在分類過程中,除了數據集中已包括的信息外,不再需要額外的信息.
4、決策樹分類模型的精確度較高. 該文首先研究了評估分類模型的方法.在此基礎上著重研究了決策樹分類方法,並對決策樹演算法的可伸縮性問題進行了具體分析,最後給出了基於OLE DB for DM開發決策樹分類預測應用程序.

問題三：基於規則的分類器（比如用RIPPER演算法）和決策樹的區別在哪，使用場景有什麼不同？決策樹實際上是規則分類器。基於轉換的錯誤驅動學習方法的提出者曾經在論文中論證過這個問題，他的學習方法是規則學習器，但和決策樹等價。

問題四：決策樹的優缺點是什麼啊決策樹(Decision Tree)是在已知各種情況發生概率的基礎上，通過構成決策樹來求取凈現值的期望值大於等於零的概率，評價項目風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種圖解法。
決策樹的優缺點：
優點：

1) 可以生成可以理解的規則。

2) 計算量相對來說不是很大。

3) 可以處理連續和種類字穿。

4) 決策樹可以清晰的顯示哪些欄位比較重要

缺點：

1) 對連續性的欄位比較難預測。

2) 對有時間順序的數據，需要很多預處理的工作。

3) 當類別太多時，錯誤可能就會增加的比較快。

4) 一般的演算法分類的時候，只是根據一個欄位來分類。

問題五：c4.5決策樹演算法怎麼得到分類結果決策樹主要有ID3，C4.5，CART等形式。ID3選取信息增益的屬性遞歸進行分類，C4.5改進為使用信息增益率來選取分類屬性。CART是Classfication and Regression Tree的縮寫。表明CART不僅可以進行分類，也可以進行回歸。

問題六：決策樹分類演算法的適用領域，不要概括成經濟、社會、醫療領域，具體到實際問題。且用什麼軟體實現較方便。決策樹演算法主要用於數據挖掘和機器學習，數據挖掘就是從海量數據中找出規律。一個有名的例子就是啤酒和尿布的例子，這是數據挖掘的典型。決策樹演算法包括ID3，C4.5，CART等，各種演算法都是利用海量的數據來生成決策樹的，決策樹能幫助人或者機器做出決策。最簡單的一個例子就是你去看病，根據決策樹，醫生能夠判斷這是什麼病。軟體的話用VISUAL STUDIO就可以，C語言，C++,C#，java都可以。

問題七：貝葉斯網路和貝葉斯分類演算法的區別貝葉斯分類演算法是統計學的一種分類方法，它是一類利用概率統計知識進行分類的演算法。在許多場合，樸素貝葉斯(Na?ve Bayes，NB)分類演算法可以與決策樹和神經網路分類演算法相媲美，該演算法能運用到大型資料庫中，而且方法簡單、分類准確率高、速度快。
由於貝葉斯定理假設一個屬性值對給定類的影響獨立於其它屬性的值，而此假設在實際情況中經常是不成立的，因此其分類准確率可能會下降。為此，就衍生出許多降低獨立性假設的貝葉斯分類演算法，如TAN(tree augmented Bayes network)演算法。

導航:首頁 > 源碼編譯 > 決策樹演算法java實現

決策樹演算法java實現

與決策樹演算法java實現相關的資料