深度聲音識別演算法等非視覺演算法_計算機視覺領域主流的演算法和方向有哪些

A. 深度解析：為什麼人工智慧領域中深度學習這么火

深度學習首先在圖像、聲音和語義識別取得了長足的進步，特別是在圖像和聲音領域相比傳統的演算法大大提升了識別率，其實也很容易理解，深度學習是仿人來大腦神經感知外部世界的演算法，而最直接的外部自然信號莫過於圖像、聲音和文字（非語義）。
圖像識別：圖像是深度學習最早嘗試的領域，大牛Yann LeCun早在1989年就開始了卷積神經網路的研究，取得了在一些小規模（手寫字）的圖像識別的成果，但在像素豐富的圖片上遲遲沒有突破，直到2012年Hinton和他學生在ImageNet上的突破，使識別精度提高了一大步。2014年，香港中文大學教授湯曉鷗領導的計算機視覺研究組開發了名為DeepID的深度學習模型，在LFW (Labeled Faces in the Wild，人臉識別使用非常廣泛的測試基準)資料庫上獲得了99.15%的識別率，人用肉眼在LFW上的識別率為97.52%，深度學習在學術研究層面上已經超過了人用肉眼的識別。
當然在處理真實場景的人臉識別時還是差強人意，例如人臉不清晰，光照條件，局部遮擋等因素都會影響識別率，所以在實際操作中機器學習與人工確認相結合，更加妥當。國內做人臉識別的公司眾多，其中Face++、中科奧森、Sensetime、Linkface、飛搜科技都是走在前面的，在真實環境運用或者在垂直細分領域中有著深厚的數據積累。在基於面部特徵識別技術的情緒識別領域，閱面科技與Facethink（Facethink為天使灣早期投資項目）是國內少數進入該領域的初創公司。
語音識別：語音識別長期以來都是使用混合高斯模型來建模，在很長時間內都是占據壟斷地位的建模方式，但盡管其降低了語音識別的錯誤率，但面向商業級別的應用仍然困難，也就是在實際由噪音的環境下達不到可用的級別。直到深度學習的出現，使得識別錯誤率在以往最好的基礎上相對下降30%以上，達到商業可用的水平。微軟的俞棟博士和鄧力博士是這一突破的最早的實踐者，他們與Hinton一起最早將深度學習引入語音識別並取得成功。由於語音識別的演算法成熟，科大訊飛、雲知聲、思必馳在通用識別上識別率都相差不大，在推廣上科大訊飛是先行者，從軍用到民用，包括移動互聯網、車聯網、智能家居都有廣泛涉及。
自然語言處理（NLP）：即使現在深度學習在NLP領域並沒有取得像圖像識別或者語音識別領域的成績，基於統計的模型仍然是NLP的主流，先通過語義分析提取關鍵詞、關鍵詞匹配、演算法判定句子功能（計算距離這個句子最近的標識好的句子），最後再從提前准備的資料庫里提供用戶輸出結果。顯然，這明顯談不上智能，只能算一種搜索功能的實現，而缺乏真正的語言能力。蘋果的Siri、微軟的小冰、安望的小靈靈都在發力智能聊天機器人領域。小靈靈眾多競爭對手中還是蠻有意思的，她的設想就是「你隨便和我聊天吧」，而其他競爭對手則專注於某些細分領域卻面臨著在細分領域仍是需要通用的聊天系統。
為什麼深度學習在NLP領域進展緩慢：對語音和圖像來說，其構成元素（輪廓、線條、語音幀）不用經過預處理都能清晰的反映出實體或者音素，可以簡單的運用到神經網路里進行識別工作。而語義識別大不相同：首先一段文本一句話是經過大腦預處理的，並非自然信號；其次，詞語之間的相似並不代表其意思相近，而且簡單的片語組合起來之後意思也會有歧義（特別是中文，比如說「萬萬沒想到」，指的是一個叫萬萬的人沒想到呢，還是表示出乎意料的沒想到呢，還是一部電影的名字呢）；對話需要上下文的語境的理解，需要機器有推理能力；人類的語言表達方式靈活，而很多交流是需要知識為依託的。很有趣，仿人類大腦識別機制建立的深度學習，對經過我們人類大腦處理的文字信號，反而效果差強人意。根本上來說，現在的演算法還是弱人工智慧，可以去幫人類快速的自動執行（識別），但還是不能理解這件事情本身。

B. 最近聽到的深度學習是什麼

深度學習(Deep Learning)源於人工神經網路的研究，是機器學習的一個分支。深度學習主要依賴於深度神經元網路，這種神經網路類似於人類的大腦，其學習過程也與人類十分相似。
基本上，你輸入海量的數據給它以後，它就會通過訓練，學習到海量數據的特徵。舉例來說，有兩組神經元，第一組神經元接收到信息後，用演算法將其抽象化，而後再將簡化的信息傳入到第二組神經元。第二組神經元通過相同或是其他的演算法再將信息進行簡化，就得出了一定的結果。
深度學習使機器更加聰明，帶給我們更加智能的服務。
在深度學習中，現在效果最好的是在計算機視覺，語音識別領域，也就是對應的人臉識別，物體識別，語音識別，深度學習針對圖片，視頻，音頻領域數據類型應用效果最好，跟傳統方法相比提升了30~50%。

C. 什麼是深度學習與機器視覺

深度學習框架，尤其是基於人工神經網路的框架可以追溯到1980年福島邦彥提出的新認知機[2]，而人工神經網路的歷史更為久遠。1989年，燕樂存（Yann LeCun）等人開始將1974年提出的標准反向傳播演算法[3]應用於深度神經網路，這一網路被用於手寫郵政編碼識別。盡管演算法可以成功執行，但計算代價非常巨大，神經網路的訓練時間達到了3天，因而無法投入實際使用[4]。許多因素導致了這一緩慢的訓練過程，其中一種是由於爾根·施密德胡伯（Jürgen Schmidhuber）的學生賽普·霍克賴特（Sepp Hochreiter）於1991年提出的梯度消失問題[5][6]。與此同時，神經網路也受到了其他更加簡單模型的挑戰，支持向量機等模型在20世紀90年代到21世紀初成為更加流行的機器學習演算法。
「深度學習」這一概念從2007年前後開始受到關注。當時，傑弗里·辛頓（Geoffrey Hinton）和魯斯蘭·薩拉赫丁諾夫（Ruslan Salakhutdinov）提出了一種在前饋神經網路中進行有效訓練的演算法。這一演算法將網路中的每一層視為無監督的受限玻爾茲曼機，再使用有監督的反向傳播演算法進行調優[7]。在此之前的1992年，在更為普遍的情形下，施密德胡伯也曾在遞歸神經網路上提出一種類似的訓練方法，並在實驗中證明這一訓練方法能夠有效提高有監督學習的執行速度[8][9].
自深度學習出現以來，它已成為很多領域，尤其是在計算機視覺和語音識別中，成為各種領先系統的一部分。在通用的用於檢驗的數據集，例如語音識別中的TIMIT和圖像識別中的ImageNet, Cifar10上的實驗證明，深度學習能夠提高識別的精度。
硬體的進步也是深度學習重新獲得關注的重要因素。高性能圖形處理器的出現極大地提高了數值和矩陣運算的速度，使得機器學習演算法的運行時間得到了顯著的縮短[10][11]。
基本概念[編輯]
深度學習的基礎是機器學習中的分散表示（distributed representation）。分散表示假定觀測值是由不同因子相互作用生成。在此基礎上，深度學習進一步假定這一相互作用的過程可分為多個層次，代表對觀測值的多層抽象。不同的層數和層的規模可用於不同程度的抽象[1]。
深度學習運用了這分層次抽象的思想，更高層次的概念從低層次的概念學習得到。這一分層結構常常使用貪婪演算法逐層構建而成，並從中選取有助於機器學習的更有效的特徵[1].
不少深度學習演算法都以無監督學習的形式出現，因而這些演算法能被應用於其他演算法無法企及的無標簽數據，這一類數據比有標簽數據更豐富，也更容易獲得。這一點也為深度學習贏得了重要的優勢[1]。
人工神經網路下的深度學習[編輯]
一部分最成功的深度學習方法涉及到對人工神經網路的運用。人工神經網路受到了1959年由諾貝爾獎得主大衛·休伯爾（David H. Hubel）和托斯坦·威澤爾（Torsten Wiesel）提出的理論啟發。休伯爾和威澤爾發現，在大腦的初級視覺皮層中存在兩種細胞：簡單細胞和復雜細胞，這兩種細胞承擔不同層次的視覺感知功能。受此啟發，許多神經網路模型也被設計為不同節點之間的分層模型[12]。
福島邦彥提出的新認知機引入了使用無監督學習訓練的卷積神經網路。燕樂存將有監督的反向傳播演算法應用於這一架構[13]。事實上，從反向傳播演算法自20世紀70年代提出以來，不少研究者都曾試圖將其應用於訓練有監督的深度神經網路，但最初的嘗試大都失敗。賽普·霍克賴特（Sepp Hochreiter）在其博士論文中將失敗的原因歸結為梯度消失，這一現象同時在深度前饋神經網路和遞歸神經網路中出現，後者的訓練過程類似深度網路。在分層訓練的過程中，本應用於修正模型參數的誤差隨著層數的增加指數遞減，這導致了模型訓練的效率低下[14][15]。
為了解決這一問題，研究者們提出了一些不同的方法。於爾根·施密德胡伯（Jürgen Schmidhuber）於1992年提出多層級網路，利用無監督學習訓練深度神經網路的每一層，再使用反向傳播演算法進行調優。在這一模型中，神經網路中的每一層都代表觀測變數的一種壓縮表示，這一表示也被傳遞到下一層網路[8]。
另一種方法是賽普·霍克賴特和於爾根·施密德胡伯提出的長短期記憶神經網路（long short term memory，LSTM）[16]。2009年，在ICDAR 2009舉辦的連筆手寫識別競賽中，在沒有任何先驗知識的情況下，深度多維長短期記憶神經網路取得了其中三場比賽的勝利[17][18]。
斯文·貝克提出了在訓練時只依賴梯度符號的神經抽象金字塔模型，用以解決圖像重建和人臉定位的問題[19]。
其他方法同樣採用了無監督預訓練來構建神經網路，用以發現有效的特徵，此後再採用有監督的反向傳播以區分有標簽數據。辛頓等人於2006年提出的深度模型提出了使用多層隱變數學習高層表示的方法。這一方法使用斯摩棱斯基於1986年提出的受限玻爾茲曼機[20]對每一個包含高層特徵的層進行建模。模型保證了數據的對數似然下界隨著層數的提升而遞增。當足夠多的層數被學習完畢，這一深層結構成為一個生成模型，可以通過自上而下的采樣重構整個數據集[21]。辛頓聲稱這一模型在高維結構化數據上能夠有效低提取特徵[22]。
吳恩達和傑夫·迪恩（Jeff Dean）領導的谷歌大腦（英語：Google Brain）團隊創建了一個僅通過YouTube視頻學習高層概念（例如貓）的神經網路[23] [24]。
其他方法依賴了現代電子計算機的強大計算能力，尤其是GPU。2010年，在於爾根·施密德胡伯位於瑞士人工智慧實驗室IDSIA的研究組中，丹·奇雷尚（Dan Ciresan）和他的同事展示了利用GPU直接執行反向傳播演算法而忽視梯度消失問題的存在。這一方法在燕樂存等人給出的手寫識別MNIST數據集上戰勝了已有的其他方法[10]。
截止2011年，前饋神經網路深度學習中最新的方法是交替使用卷積層（convolutional layers）和最大值池化層（max-pooling layers）並加入單純的分類層作為頂端。訓練過程也無需引入無監督的預訓練[25][26]。從2011年起，這一方法的GPU實現[25]多次贏得了各類模式識別競賽的勝利，包括IJCNN 2011交通標志識別競賽[27]和其他比賽。
這些深度學習演算法也是最先在某些識別任務上達到和人類表現具備同等競爭力的演算法[28]。
深度學習結構[編輯]
深度神經網路是一種具備至少一個隱層的神經網路。與淺層神經網路類似，深度神經網路也能夠為復雜非線性系統提供建模，但多出的層次為模型提供了更高的抽象層次，因而提高了模型的能力。深度神經網路通常都是前饋神經網路，但也有語言建模等方面的研究將其拓展到遞歸神經網路[29]。卷積深度神經網路（Covolutional Neuron Networks, CNN）在計算機視覺領域得到了成功的應用[30]。此後，卷積神經網路也作為聽覺模型被使用在自動語音識別領域，較以往的方法獲得了更優的結果[31]。
深度神經網路[編輯]
深度神經網路（deep neuron networks, DNN）是一種判別模型，可以使用反向傳播演算法進行訓練。權重更新可以使用下式進行隨機梯度下降求解：

其中，為學習率，為代價函數。這一函數的選擇與學習的類型（例如監督學習、無監督學習、增強學習）以及激活函數相關。例如，為了在一個多分類問題上進行監督學習，通常的選擇是使用Softmax函數作為激活函數，而使用交叉熵作為代價函數。Softmax函數定義為，其中代表類別的概率，而和分別代表對單元和的輸入。交叉熵定義為，其中代表輸出單元的目標概率，代表應用了激活函數後對單元的概率輸出[32]。
深度神經網路的問題[編輯]
與其他神經網路模型類似，如果僅僅是簡單地訓練，深度神經網路可能會存在很多問題。常見的兩類問題是過擬合和過長的運算時間。
深度神經網路很容易產生過擬合現象，因為增加的抽象層使得模型能夠對訓練數據中較為罕見的依賴關系進行建模。對此，權重遞減（正規化）或者稀疏（-正規化）等方法可以利用在訓練過程中以減小過擬合現象[33]。另一種較晚用於深度神經網路訓練的正規化方法是丟棄法（"dropout" regularization），即在訓練中隨機丟棄一部分隱層單元來避免對較為罕見的依賴進行建模[34]。
反向傳播演算法和梯度下降法由於其實現簡單，與其他方法相比能夠收斂到更好的局部最優值而成為神經網路訓練的通行方法。但是，這些方法的計算代價很高，尤其是在訓練深度神經網路時，因為深度神經網路的規模（即層數和每層的節點數）、學習率、初始權重等眾多參數都需要考慮。掃描所有參數由於時間代價的原因並不可行，因而小批量訓練（mini-batching），即將多個訓練樣本組合進行訓練而不是每次只使用一個樣本進行訓練，被用於加速模型訓練[35]。而最顯著地速度提升來自GPU，因為矩陣和向量計算非常適合使用GPU實現。但使用大規模集群進行深度神經網路訓練仍然存在困難，因而深度神經網路在訓練並行化方面仍有提升的空間。
深度信念網路[編輯]

一個包含完全連接可見層和隱層的受限玻爾茲曼機（RBM）。注意到可見層單元和隱層單元內部彼此不相連。
深度信念網路（deep belief networks，DBN）是一種包含多層隱單元的概率生成模型，可被視為多層簡單學習模型組合而成的復合模型[36]。
深度信念網路可以作為深度神經網路的預訓練部分，並為網路提供初始權重，再使用反向傳播或者其他判定演算法作為調優的手段。這在訓練數據較為缺乏時很有價值，因為不恰當的初始化權重會顯著影響最終模型的性能，而預訓練獲得的權重在權值空間中比隨機權重更接近最優的權重。這不僅提升了模型的性能，也加快了調優階段的收斂速度[37]。
深度信念網路中的每一層都是典型的受限玻爾茲曼機（restricted Boltzmann machine，RBM），可以使用高效的無監督逐層訓練方法進行訓練。受限玻爾茲曼機是一種無向的基於能量的生成模型，包含一個輸入層和一個隱層。圖中對的邊僅在輸入層和隱層之間存在，而輸入層節點內部和隱層節點內部則不存在邊。單層RBM的訓練方法最初由傑弗里·辛頓在訓練「專家乘積」中提出，被稱為對比分歧（contrast divergence, CD）。對比分歧提供了一種對最大似然的近似，被理想地用於學習受限玻爾茲曼機的權重[35]。當單層RBM被訓練完畢後，另一層RBM可被堆疊在已經訓練完成的RBM上，形成一個多層模型。每次堆疊時，原有的多層網路輸入層被初始化為訓練樣本，權重為先前訓練得到的權重，該網路的輸出作為新增RBM的輸入，新的RBM重復先前的單層訓練過程，整個過程可以持續進行，直到達到某個期望中的終止條件[38]。
盡管對比分歧對最大似然的近似十分粗略（對比分歧並不在任何函數的梯度方向上），但經驗結果證實該方法是訓練深度結構的一種有效的方法[35]。
卷積神經網路[編輯]
主條目：卷積神經網路
卷積神經網路（convolutional neuron networks，CNN）由一個或多個卷積層和頂端的全連通層（對應經典的神經網路）組成，同時也包括關聯權重和池化層（pooling layer）。這一結構使得卷積神經網路能夠利用輸入數據的二維結構。與其他深度學習結構相比，卷積神經網路在圖像和語音識別方面能夠給出更優的結果。這一模型也可以使用反向傳播演算法進行訓練。相比較其他深度、前饋神經網路，卷積神經網路需要估計的參數更少，使之成為一種頗具吸引力的深度學習結構[39]。
卷積深度信念網路[編輯]
卷積深度信念網路（convolutional deep belief networks，CDBN）是深度學習領域較新的分支。在結構上，卷積深度信念網路與卷積神經網路在結構上相似。因此，與卷積神經網路類似，卷積深度信念網路也具備利用圖像二維結構的能力，與此同時，卷積深度信念網路也擁有深度信念網路的預訓練優勢。卷積深度信念網路提供了一種能被用於信號和圖像處理任務的通用結構，也能夠使用類似深度信念網路的訓練方法進行訓練[40]。
結果[編輯]
語音識別[編輯]
下表中的結果展示了深度學習在通行的TIMIT數據集上的結果。TIMIT包含630人的語音數據，這些人持八種常見的美式英語口音，每人閱讀10句話。這一數據在深度學習發展之初常被用於驗證深度學習結構[41]。TIMIT數據集較小，使得研究者可以在其上實驗不同的模型配置。

方法
聲音誤差率 (PER, %)

隨機初始化RNN 26.1
貝葉斯三音子GMM-HMM 25.6
單音子重復初始化DNN 23.4
單音子DBN-DNN 22.4
帶BMMI訓練的三音子GMM-HMM 21.7
共享池上的單音子DBN-DNN 20.7
卷積DNN 20.0
圖像分類[編輯]
圖像分類領域中一個公認的評判數據集是MNIST數據集。MNIST由手寫阿拉伯數字組成，包含60,000個訓練樣本和10,000個測試樣本。與TIMIT類似，它的數據規模較小，因而能夠很容易地在不同的模型配置下測試。Yann LeCun的網站給出了多種方法得到的實驗結果[42]。截至2012年，最好的判別結果由Ciresan等人在當年給出，這一結果的錯誤率達到了0.23%[43]。
深度學習與神經科學[編輯]
計算機領域中的深度學習與20世紀90年代由認知神經科學研究者提出的大腦發育理論（尤其是皮層發育理論）密切相關[44]。對這一理論最容易理解的是傑弗里·艾爾曼（Jeffrey Elman）於1996年出版的專著《對天賦的再思考》（Rethinking Innateness）[45]（參見斯拉格和約翰遜[46]以及奎茲和賽傑諾維斯基[47]的表述）。由於這些理論給出了實際的神經計算模型，因而它們是純計算驅動的深度學習模型的技術先驅。這些理論指出，大腦中的神經元組成了不同的層次，這些層次相互連接，形成一個過濾體系。在這些層次中，每層神經元在其所處的環境中獲取一部分信息，經過處理後向更深的層級傳遞。這與後來的單純與計算相關的深度神經網路模型相似。這一過程的結果是一個與環境相協調的自組織的堆棧式的轉換器。正如1995年在《紐約時報》上刊登的那樣，「……嬰兒的大腦似乎受到所謂『營養因素』的影響而進行著自我組織……大腦的不同區域依次相連，不同層次的腦組織依照一定的先後順序發育成熟，直至整個大腦發育成熟。」[48]
深度結構在人類認知演化和發展中的重要性也在認知神經學家的關注之中。發育時間的改變被認為是人類和其他靈長類動物之間智力發展差異的一個方面[49]。在靈長類中，人類的大腦在出生後的很長時間都具備可塑性，但其他靈長類動物的大腦則在出生時就幾乎完全定型。因而，人類在大腦發育最具可塑性的階段能夠接觸到更加復雜的外部場景，這可能幫助人類的大腦進行調節以適應快速變化的環境，而不是像其他動物的大腦那樣更多地受到遺傳結構的限制。這樣的發育時間差異也在大腦皮層的發育時間和大腦早期自組織中從刺激環境中獲取信息的改變得到體現。當然，伴隨著這一可塑性的是更長的兒童期，在此期間人需要依靠撫養者和社會群體的支持和訓練。因而這一理論也揭示了人類演化中文化和意識共同進化的現象[50]。
公眾視野中的深度學習[編輯]
深度學習常常被看作是通向真正人工智慧的重要一步[51]，因而許多機構對深度學習的實際應用抱有濃厚的興趣。2013年12月，Facebook宣布僱用燕樂存為其新建的人工智慧實驗室的主管，這一實驗室將在加州、倫敦和紐約設立分支機構，幫助Facebook研究利用深度學習演算法進行類似自動標記照片中用戶姓名這樣的任務[52]。
2013年3月，傑弗里·辛頓和他的兩位研究生亞歷克斯·克里澤夫斯基和伊利婭·蘇特斯科娃被谷歌公司僱用，以提升現有的機器學習產品並協助處理谷歌日益增長的數據。谷歌同時並購了辛頓創辦的公司DNNresearch[53]。
批評[編輯]
對深度學習的主要批評是許多方法缺乏理論支撐。大多數深度結構僅僅是梯度下降的某些變式。盡管梯度下降已經被充分地研究，但理論涉及的其他演算法，例如對比分歧演算法，並沒有獲得充分的研究，其收斂性等問題仍不明確。深度學習方法常常被視為黑盒，大多數的結論確認都由經驗而非理論來確定。
也有學者認為，深度學習應當被視為通向真正人工智慧的一條途徑，而不是一種包羅萬象的解決方案。盡管深度學習的能力很強，但和真正的人工智慧相比，仍然缺乏諸多重要的能力。理論心理學家加里·馬庫斯（Gary Marcus）指出：
就現實而言，深度學習只是建造智能機器這一更大挑戰中的一部分。這些技術缺乏表達因果關系的手段……缺乏進行邏輯推理的方法，而且遠沒有具備集成抽象知識，例如物品屬性、代表和典型用途的信息。最為強大的人工智慧系統，例如IBM的人工智慧系統沃森，僅僅把深度學習作為一個包含從貝葉斯推理和演繹推理等技術的復雜技術集合中的組成部分[54]。

D. 計算機視覺領域主流的演算法和方向有哪些

人工智慧是當下很火熱的話題，其與大數據的完美結合應用於多個場景，極大的方便了人類的生活。而人工智慧又包含深度學習和機器學習兩方面的內容。深度學習又以計算機視覺和自然語言處理兩個方向發展的最好，最火熱。大家對於自然語言處理的接觸可能不是很多，但是說起計算機視覺，一定能夠馬上明白，因為我們每天接觸的刷臉支付等手段就會和計算機視覺掛鉤。可以說計算機視覺的應用最為廣泛。

目標跟蹤，就是在某種場景下跟蹤特定對象的過程，在無人駕駛領域中有很重要的應用。目前較為流行的目標跟蹤演算法是基於堆疊自動編碼器的DLT。語義分割，則是將圖像分為像素組，再進行標記和分類。目前的主流演算法都使用完全卷積網路的框架。實例分割，是指將不同類型的實例分類，比如用4種不同顏色來標記4隻貓。目前用於實例分割的主流演算法是Mask R-CNN。

E. 深度學習主要是學習哪些演算法

深度學習（也稱為深度結構化學習或分層學習）是基於人工神經網路的更廣泛的機器學習方法族的一部分。學習可以是有監督的、半監督的或無監督的。
深度學習架構，例如深度神經網路、深度信念網路、循環神經網路和卷積神經網路，已經被應用於包括計算機視覺、語音識別、自然語言處理、音頻識別、社交網路過濾、機器翻譯、生物信息學、葯物設計、醫學圖像分析、材料檢查和棋盤游戲程序在內的領域，在這些領域中，它們的成果可與人類專家媲美，並且在某些情況下勝過人類專家。
神經網路受到生物系統中信息處理和分布式通信節點的啟發。人工神經網路與生物大腦有各種不同。具體而言，神經網路往往是靜態和象徵性的，而大多數生物的大腦是動態(可塑)和模擬的。
定義
深度學習是一類機器學習演算法：使用多個層逐步從原始輸入中逐步提取更高級別的特徵。例如，在圖像處理中，較低層可以識別邊緣，而較高層可以識別對人類有意義的部分，例如數字/字母或面部。

F. 深度學習，包括哪些

作為人工智慧最稀缺的人才之一，深度學習工程師面臨近百萬的缺口，成為了各大企業競相爭奪的香餑餑，月薪大都在30K-80K之間。越來越多的程序員、院校學生開始學習深度學習演算法。

可以說，如果你想要提升技能，在專業領域更上一步，《AI深度學習》可以成為你當下的選擇！

G. 人工智慧包括哪些方面

人工智慧學科研究的主要內容包括：知識表示、自動推理和搜索方法、機器學習和知識獲取、知識處理系統、自然語言理解、計算機視覺、智能機器人、自動程序設計等方面。

用來研究人工智慧的主要物質基礎以及能夠實現人工智慧技術平台的機器就是計算機，人工智慧的發展歷史是和計算機科學技術的發展史聯系在一起的。除了計算機科學以外，人工智慧還涉及資訊理論、控制論、自動化、仿生學、生物學、心理學、數理邏輯、語言學、醫學和哲學等多門學科。

H. 深度學習是什麼

深度學習（人工神經網路的研究的概念）
深度學習(DL, Deep Learning)是機器學習(ML, Machine Learning)領域中一個新的研究方向，它被引入機器學習使其更接近於最初的目標——人工智慧(AI, Artificial Intelligence)。
深度學習是學習樣本數據的內在規律和表示層次，這些學習過程中獲得的信息對諸如文字，圖像和聲音等數據的解釋有很大的幫助。它的最終目標是讓機器能夠像人一樣具有分析學習能力，能夠識別文字、圖像和聲音等數據。深度學習是一個復雜的機器學習演算法，在語音和圖像識別方面取得的效果，遠遠超過先前相關技術。
深度學習在搜索技術，數據挖掘，機器學習，機器翻譯，自然語言處理，多媒體學習，語音，推薦和個性化技術，以及其他相關領域都取得了很多成果。深度學習使機器模仿視聽和思考等人類的活動，解決了很多復雜的模式識別難題，使得人工智慧相關技術取得了很大進步。

導航:首頁 > 源碼編譯 > 深度聲音識別演算法等非視覺演算法

深度聲音識別演算法等非視覺演算法

與深度聲音識別演算法等非視覺演算法相關的資料