視頻跟蹤演算法用FPGA加速_如何用fpga實現演算法的硬體加速

① fpga加速神經網路研究點多麼

多。
隨著AI、神經網路技術等產業的迅猛發展，對計算力的要求越來越高，因為FPGA具有資源豐富、配置靈活以及DSP、MCU等IP集成到一起的巨大優勢，所以基於FPGA的NN加速器的研究和產業化，十分火熱。比如微軟的Bing搜素業務等就使用了基於FPGA的NN加速器。

② 如何用FPGA加速卷積神經網路

深度學習本身是一個非常龐大的知識體系。本文更多想從程序員的視角出發，讓大家觀察一下深度學習對程序員意味著什麼，以及我們如何利用這樣一個高速發展的學科，來幫助程序員提升軟體開發的能力。
本文根據費良宏在2016QCon全球軟體開發大會（上海）上的演講整理而成。
前言
1973年，美國上映了一部熱門的科幻電影《WestWorld》，三年之後又有一個續集叫做《FutureWorld》。這部電影在80年代初被引進到中國叫《未來世界》。那部電影對我來講簡直可以說得上是震撼。影片中出現了很多機器人，表情豐富的面部下面都是集成電路板。這讓那時候的我覺得未來世界都是那麼遙遠、那麼神秘。
時間到了2016年，很多朋友可能都在追看HBO斥巨資拍攝的同一題材的系列劇《WestWorld》。如果前兩部電影還是局限在機器人、人工智慧這樣的話題，2016年的新劇則在劇情和人工智慧的思考方面有了很大的突破。不再渲染機器人是否會威脅到人類，而是在探討「Dreamsaremainlymemories」這一類更具哲理的問題。
「記憶究竟如何影響了智能」這個話題非常值得我們去思考，也給我們一個很好的啟示——今天，人工智慧領域究竟有了怎樣的發展和進步。
今天我們探討的話題不僅僅是簡單的人工智慧。如果大家對深度學習感興趣，我相信各位一定會在搜索引擎上搜索過類似相關的關鍵字。我在Google上以deeplearning作為關鍵字得到了2,630萬個搜索的結果。這個數字比一周之前足足多出了300多萬的結果。這個數字足以看得出來深度學習相關的內容發展的速度，人們對深度學習的關注也越來越高。
從另外的一個角度，我想讓大家看看深度學習在市場上究竟有多麼熱門。從2011年到現在一共有140多家專注人工智慧、深度學習相關的創業公司被收購。僅僅在2016年這種並購就發生了40多起。
其中最瘋狂的是就是Google，已經收購了 11 家人工智慧創業公司，其中最有名的就是擊敗了李世石九段的 DeepMind。排名之後的就要數 Apple、Intel以及Twitter。以Intel 公司為例，僅在今年就已經收購了 3 家創業公司，Itseez、Nervana 和 Movidius。這一系列大手筆的並購為了布局人工智慧以及深度學習的領域。
當我們去搜索深度學習話題的時候，經常會看到這樣的一些晦澀難懂的術語：Gradient descent（梯度下降演算法）、Backpropagation（反向傳播演算法）、Convolutional Neural Network（卷積神經網路）、受限玻耳茲曼機（Restricted Boltzmann Machine）等。
如打開任何一篇技術文章，你看到的通篇都是各種數學公式。大家看到如下左邊的圖，其實並不是一篇高水準的學術論文，而僅僅是維基網路關於玻耳茲曼機的介紹。維基網路是科普層面的內容，內容復雜程度就超過了大多數數學知識的能力。
在這樣的背景之下，我今天的的話題可以歸納成三點：第一，我們為什麼要學習深度學習；第二，深度學習最核心的關鍵概念就是神經網路，那麼究竟什麼是神經網路；第三，作為程序員，當我們想要成為深度學習開發者的時候，我們需要具備怎樣的工具箱，以及從哪裡著手進行開發。
為什麼要學習深度學習
首先，我們談談為什麼要學習深度學習。在這個市場當中，最不缺乏的就是各種概念以及各種時髦新技術的詞彙。深度學習有什麼不一樣的地方？我非常喜歡AndrewNg（吳恩達）曾經用過的一個比喻。
他把深度學習比喻成一個火箭。這個火箭有一個最重要的部分，就是它的引擎，目前來看在這個領域裡面，引擎的核心就是神經網路。大家都知道，火箭除了引擎之外還需要有燃料，那麼大數據其實就構成了整個火箭另外的重要組成部分——燃料。以往我們談到大數據的時候，更多是強調存儲和管理數據的能力，但是這些方法和工具更多是對於以往歷史數據的統計、匯總。
而對於今後未知的東西，這些傳統的方法並不能夠幫助我們可以從大數據中得出預測的結論。如果考慮到神經網路和大數據結合，我們才可能看清楚大數據真正的價值和意義。AndrewNg就曾經說過「我們相信（神經網路代表的深度學習）是讓我們獲得最接近於人工智慧的捷徑」。這就是我們要學習深度學習的一個最重要的原因。
其次，隨著我們進行數據處理以及運算能力的不斷提升，深度學習所代表的人工智慧技術和傳統意義上人工智慧技術比較起來，在性能上有了突飛猛進的發展。這主要得益於在過去幾十間計算機和相關產業不斷發展帶來的成果。在人工智慧的領域，性能是我們選擇深度學習另一個重要的原因。
這是一段Nvidia在今年公布的關於深度學習在無人駕駛領域應用的視頻。我們可以看到，將深度學習應用在自動駕駛方面，僅僅經歷了3千英里的訓練，就可以達到什麼樣的程度。在今年年初進行的實驗上，這個系統還不具備真正智能能力，經常會出現各種各樣的讓人提心吊膽的狀況，甚至在某些情況下還需要人工干預。
但經過了3千英里的訓練之後，我們看到在山路、公路、泥地等各種復雜的路況下面，無人駕駛已經有了一個非常驚人的表現。請大家注意，這個深度學習的模型只經過了短短幾個月、3千英里的訓練。
如果我們不斷完善這種模型的話，這種處理能力將會變得何等的強大。這個場景裡面最重要的技術無疑就是深度學習。我們可以得出一個結論：深度學習可以為我們提供強大的能力，如果程序員擁有了這個技術的話，無異於會讓每個程序員如虎添翼。
神經網路快速入門
如果我們對於學習深度學習沒有任何疑慮的話，接下來就一定會關心我需要掌握什麼樣的知識才能讓我進入到這個領域。這裡面最重要的關鍵技術就是「神經網路」。說起「神經網路」，容易混淆是這樣兩個完全不同的概念。
一個是生物學神經網路，第二個才是我們今天要談起的人工智慧神經網路。可能在座的各位有朋友在從事人工智慧方面的工作。當你向他請教神經網路的時候，他會拋出許多陌生的概念和術語讓你聽起來雲里霧里，而你只能望而卻步了。
對於人工智慧神經網路這個概念，大多數的程序員都會覺得距離自己有很大的距離。因為很難有人願意花時間跟你分享神經網路的本質究竟是什麼。而你從書本上讀的到的理論和概念，也很讓你找到一個清晰、簡單的結論。
今天就我們來看一看，從程序員角度出發神經網路究竟是什麼。我第一次知道神經網路這個概念是通過一部電影——1991年上映的《終結者2》。男主角施瓦辛格有一句台詞：
「MyCPUisaneural-netprocessor;alearningcomputer.」（我的處理器是一個神經處理單元，它是一台可以學習的計算機)。從歷史來看人類對自身智力的探索，遠遠早於對於神經網路的研究。
1852年，義大利學者因為一個偶然的失誤，將人類的頭顱掉到硝酸鹽溶液中，從而獲得第一次通過肉眼關注神經網路的機會。這個意外加速了對人類智力奧秘的探索，開啟了人工智慧、神經元這樣概念的發展。
生物神經網路這個概念的發展，和今天我們談的神經網路有什麼關系嗎？我們今天談到的神經網路，除了在部分名詞上借鑒了生物學神經網路之外，跟生物學神經網路已經沒有任何關系，它已經完全是數學和計算機領域的概念，這也是人工智慧發展成熟的標志。這點大家要區分開，不要把生物神經網路跟我們今天談到的人工智慧有任何的混淆。
90年代中期，由Vapnik等人提出了支持向量機演算法（Support Vector Machines，支持向量機）。很快這個演算法就在很多方面體現出了對比神經網路的巨大優勢，例如：無需調參、高效率、全局最優解等。基於這些理由，SVM演算法迅速打敗了神經網路演算法成為那個時期的主流。而神經網路的研究則再次陷入了冰河期。
在被人摒棄的十年裡面，有幾個學者仍然在堅持研究。其中很重要的一個人就是加拿大多倫多大學的Geoffery Hinton教授。2006年，他的在著名的《Science》雜志上發表了論文，首次提出了「深度信念網路」的概念。
與傳統的訓練方式不同，「深度信念網路」有一個「預訓練」（pre-training）的過程，這可以方便的讓神經網路中的權值找到一個接近最優解的值，之後再使用「微調」(fine-tuning)技術來對整個網路進行優化訓練。這兩個技術的運用大幅度減少了訓練多層神經網路的時間。在他的論文裡面，他給多層神經網路相關的學習方法賦予了一個新名詞— 「深度學習」。
很快，深度學習在語音識別領域嶄露頭角。接著在2012年，深度學習技術又在圖像識別領域大展拳腳。Hinton與他的學生在ImageNet競賽中，用多層的卷積神經網路成功地對包含一千個類別的一百萬張圖片進行了訓練，取得了分類錯誤率15%的好成績，這個成績比第二名高了將近11個百分點。
這個結果充分證明了多層神經網路識別效果的優越性。從那時起，深度學習就開啟了新的一段黃金時期。我們看到今天深度學習和神經網路的火熱發展，就是從那個時候開始引爆的。
利用神經網路構建分類器，這個神經網路的結構是怎樣的？
其實這個結構非常簡單，我們看到這個圖就是簡單神經網路的示意圖。神經網路本質上就是一種「有向圖」。圖上的每個節點借用了生物學的術語就有了一個新的名詞 – 「神經元」。連接神經元的具有指向性的連線（有向弧）則被看作是「神經」。這這個圖上神經元並不是最重要的，最重要的是連接神經元的神經。每個神經部分有指向性，每一個神經元會指向下一層的節點。
節點是分層的，每個節點指向上一層節點。同層節點沒有連接，並且不能越過上一層節點。每個弧上有一個值，我們通常稱之為」權重「。通過權重就可以有一個公式計算出它們所指的節點的值。這個權重值是多少？我們是通過訓練得出結果。它們的初始賦值往往通過隨機數開始，然後訓練得到的最逼近真實值的結果作為模型，並可以被反復使用。這個結果就是我們說的訓練過的分類器。
節點分成輸入節點和輸出節點，中間稱為隱層。簡單來說，我們有數據輸入項，中間不同的多個層次的神經網路層次，就是我們說的隱層。之所以在這樣稱呼，因為對我們來講這些層次是不可見的。輸出結果也被稱作輸出節點，輸出節點是有限的數量，輸入節點也是有限數量，隱層是我們可以設計的模型部分，這就是最簡單的神經網路概念。
如果簡單做一個簡單的類比，我想用四層神經網路做一個解釋。左邊是輸入節點，我們看到有若干輸入項，這可能代表不同蘋果的RGB值、味道或者其它輸入進來的數據項。中間隱層就是我們設計出來的神經網路，這個網路現在有不同的層次，層次之間權重是我們不斷訓練獲得一個結果。
最後輸出的結果，保存在輸出節點裡面，每一次像一個流向一樣，神經是有一個指向的，通過不同層進行不同的計算。在隱層當中，每一個節點輸入的結果計算之後作為下一層的輸入項，最終結果會保存在輸出節點上，輸出值最接近我們的分類，得到某一個值，就被分成某一類。這就是使用神經網路的簡單概述。
除了從左到右的形式表達的結構圖，還有一種常見的表達形式是從下到上來表示一個神經網路。這時候，輸入層在圖的最下方，輸出層則在圖的最上方。從左到右的表達形式以AndrewNg和LeCun的文獻使用較多。而在Caffe框架里則使用的則是從下到上的表達。
簡單來說，神經網路並不神秘，它就是有像圖，利用圖的處理能力幫助我們對特徵的提取和學習的過程。2006年Hinton的那篇著名的論文中，將深度學習總結成三個最重要的要素：計算、數據、模型。有了這三點，就可以實現一個深度學習的系統。
程序員需要的工具箱
對於程序員來說，掌握理論知識是為了更好的編程實踐。那就讓我們看看，對於程序員來說，著手深度學習的實踐需要准備什麼樣的工具。
硬體
從硬體來講，我們可能需要的計算能力，首先想到的就是CPU。除了通常的CPU架構以外，還出現了附加有乘法器的CPU，用以提升計算能力。此外在不同領域會有DSP的應用場景，比如手寫體識別、語音識別、等使用的專用的信號處理器。還有一類就是GPU，這是一個目前深度學習應用比較熱門的領域。最後一類就是FPGA（可編程邏輯門陣列）。
這四種方法各有其優缺點，每種產品會有很大的差異。相比較而言CPU雖然運算能力弱一些，但是擅長管理和調度，比如讀取數據，管理文件，人機交互等，工具也豐富。DSP相比而言管理能力較弱，但是強化了特定的運算能力。
這兩者都是靠高主頻來解決運算量的問題，適合有大量遞歸操作以及不便拆分的演算法。GPU的管理能力更弱一些，但是運算能力更強。但由於計算單元數量多，更適合整塊數據進行流處理的演算法。
FPGA在管理與運算處理方面都很強，但是開發周期長，復雜演算法開發難度較大。就實時性來說，FPGA是最高的。單從目前的發展來看，對於普通程序員來說，現實中普遍採用的計算資源就還是是CPU以及GPU的模式，其中GPU是最熱門的領域。
這是我前天為這次分享而准備的一個AWS 上p2的實例。僅僅通過幾條命令就完成了實例的更新、驅動的安裝和環境的設置，總共的資源創建、設置時間大概在10分鍾以內。而之前，我安裝調試前面提到的那台計算機，足足花了我兩天時間。
另外，從成本上還可以做一個對比。p2.8xLarge 實例每小時的費用是7.2美元。而我自己那台計算機總共的花費了是￥16,904元。這個成本足夠讓我使用350多個小時的p2.8xLarge。在一年裡使用AWS深度學習站就可以抵消掉我所有的付出。隨著技術的不斷的升級換代，我可以不斷的升級我的實例，從而可以用有限的成本獲得更大、更多的處理資源。這其實也是雲計算的價值所在。
雲計算和深度學習究竟有什麼關系？今年的8月8號，在IDG網站上發表了一篇文章談到了這個話題。文章中做了這樣一個預言：如果深度學習的並行能力不斷提高，雲計算所提供的處理能力也不斷發展，兩者結合可能會產生新一代的深度學習，將帶來更大影響和沖擊。這是需要大家考慮和重視的一個方向！
軟體
深度學習除了硬體的基礎環境之外。程序員會更關心與開發相關的軟體資源。這里我羅列了一些曾經使用過的軟體框架和工具。
Scikit-learn是最為流行的一個python機器學習庫。它具有如下吸引人的特點：簡單、高效且異常豐富的數據挖掘/數據分析演算法實現；基於NumPy、SciPy以及matplotlib，從數據探索性分析，數據可視化到演算法實現，整個過程一體化實現；開源，有非常豐富的學習文檔。
Caffe專注在卷及神經網路以及圖像處理。不過Caffe已經很久沒有更新過了。這個框架的一個主要的開發者賈揚清也在今年跳槽去了Google。也許曾經的霸主地位要讓位給他人了。
Theano 是一個非常靈活的Python 機器學習的庫。在研究領域非常流行，使用上非常方便易於定義復雜的模型。Tensorflow 的API 非常類似於Theano。我在今年北京的QCon 大會上也分享過關於Theano 的話題。
Jupyter notebook 是一個很強大的基於ipython的python代碼編輯器，部署在網頁上，可以非常方便的進行互動式的處理，很適合進行演算法研究合數據處理。
Torch 是一個非常出色的機器學習的庫。它是由一個比較小眾的lua語言實現的。但是因為LuaJIT 的使用，程序的效率非常出色。Facebook在人工智慧領域主打Torch，甚至現在推出了自己的升級版框架Torchnet。
深度學習的框架非常之多，是不是有一種亂花漸欲迷人眼的感覺？我今天向各位程序員重點介紹的是將是TensorFlow。這是2015年穀歌推出的開源的面向機器學習的開發框架，這也是Google第二代的深度學習的框架。很多公司都使用了TensorFlow開發了很多有意思的應用，效果很好。
用TensorFlow可以做什麼？答案是它可以應用於回歸模型、神經網路以深度學習這幾個領域。在深度學習方面它集成了分布式表示、卷積神經網路(CNN)、遞歸神經網路(RNN) 以及長短期記憶人工神經網路（Long-Short Term Memory, LSTM）。
關於Tensorflow 首先要理解的概念就是Tensor。在辭典中對於這個詞的定義是張量，是一個可用來表示在一些向量、標量和其他張量之間的線性關系的多線性函數。實際上這個表述很難理解，用我自己的語言解釋Tensor 就是「N維數組」而已。
使用 TensorFlow, 作為程序員必須明白 TensorFlow這樣幾個基礎概念：它使用圖 (Graph) 來表示計算任務；在被稱之為會話 (Session) 的上下文 (context) 中執行圖；使用 Tensor 表示數據；通過變數 (Variable) 維護狀態；使用 feed 和 fetch 可以為任意的操作(arbitrary operation) 賦值或者從其中獲取數據。
一句話總結就是，TensorFlow 就是有狀態圖的數據流圖計算環境，每個節點就是在做數據操作，然後提供依賴性和指向性，提供完整數據流。
TensorFlow安裝非常簡單，但官網提供下載的安裝包所支持的CUDA 的版本是7.5。考慮到CUDA 8 的讓人心動的新特以及不久就要正式發布的現狀。或許你想會考慮立即體驗CUDA 8，那麼就只能通過編譯Tensorflow源代碼而獲得。目前TensorFlow已經支持了Python2.7、3.3+。
此外，對於使用Python 語言的程序員還需要安裝所需要的一些庫，例如：numpy、protobuf等等。對於卷積處理而言，cuDNN是公認的性能最好的開發庫，請一定要安裝上。常規的Tensorsorflow的安裝很簡單，一條命令足矣：
$ pip3 install —upgrade
如果想評估一下或者簡單學習一下，還可以通過Docker進行安裝，安裝的命令如下：
$ docker run -it -p 8888:8888 gcr.io/tensorflow/tensorflow
TensorFlow有很多優點。首先，目前為止，深度學習的開發框架裡面TensorFlow的文檔做的最好，對程序員學習而言是非常好的一點。第二，TensorFlow有豐富的參考實例，作為參考學習起來非常容易。
第三，開發者社區活躍，在任何一個深度學習的社區里，都有大量關於TensorFlow的討論。第四，谷歌的支持力度非常大，從2015年到現在升級速度非常快，這是其他開源框架遠遠達不到的結果。
參考TensorFlow的白皮書，我們會看到未來TensorFlow還將會有巨大的發展潛力。讓我特別感興趣是這兩個方向。第一，支持跨多台機器的 parallelisation。盡管在0.8版本中推出了並行化的能力，但是目前還不完善。隨著未來不斷發展，依託雲計算的處理能力的提升這個特性將是非常讓人振奮的。
第二，支持更多的開發語言，對於開發者來說這是一個絕大的利好，通過使用自己擅長的語言使用TensorFlow應用。這些開發語言將會擴展到Java、Lua以及R 等。
在這里我想給大家展示一個應用Tensorflow 的例子。這個例子的代碼託管在這個網址上。白俄羅斯的現代印象派藝術家Leonid Afremov善於用濃墨重彩來表現都市和風景題材，尤其是其雨景系列作品。他習慣用大色塊的鋪陳來營造光影效果，對反光物體和環境色的把握非常精準。
於是我就找到了一張上海東方明珠電視塔的一張攝影作品，我希望通過Tensorflow 去學習一下Leonid Afremov 的繪畫風格，並將這張東方明珠的照片處理成那種光影色彩豐富的作品風格。利用Tensorflow 以及上面提到的那個項目的代碼，在一個AWS 的p2類型的實例上進行了一個一千次的迭代，於是就得到了下圖這樣的處理結果。
這個處理的代碼只有350行里，模型使用了一個成名於2014年ImageNet比賽中的明星 VGG。這個模型非常好，特點就是「go depper」。
TensorFlow 做出這樣的作品，並不僅僅作為娛樂供大家一笑，還可以做更多有意思的事情。將剛才的處理能力推廣到視頻當中，就可以看到下圖這樣的效果，用梵高著名的作品」星月夜「的風格就加工成了這樣新的視頻風格。
可以想像一下，如果這種處理能力在更多領域得以應用，它會產生什麼樣的神奇結果？前景是美好的，讓我們有無限遐想。事實上我們目前所從事的很多領域的應用開發都可以通過使用神經網路和深度學習來加以改變。對於深度學習而言，掌握它並不是難事。每一個程序員都可以很容易的掌握這種技術，利用所具備的資源，讓我們很快成為深度學習的程序開發人員。
結束語
未來究竟是什麼樣，我們沒有辦法預言。有位作家Ray Kurzweil在2005年寫了《奇點臨近》一書。在這本書裡面他明確告訴我們，那個時代很快到來。作為那個時代曙光前的人群，我們是不是有能力加速這個過程，利用我們學習的能力實現這個夢想呢？
中國人工智慧的發展
人工智慧的時代無疑已經到來，這個時代需要的當然就是掌握了人工智慧並將其解決具體問題的工程師。坦率的說，市場上這一類的工程師還屬於鳳毛麟角。職場上的薪酬待遇可以看得出來這樣的工程師的搶手的程度。人工智慧這門學科發展到今天，就學術自身而言已經具備了大規模產業化的能力。
所以說，對於工程師而言當務之急就是盡快的掌握應用人工智慧的應用技術。當下在互聯網上關於人工智慧的學習資料可以說已經是「汗牛充棟」，那些具備了快速學習能力的工程師一定會在人工智慧的大潮當中脫穎而出。
中國發展人工智慧產業的環境已經具備。無論從創業環境、人員的素質乃至市場的機遇而言完全具備了產生產業變革的一切條件。與美國相比較，在人工智慧的許多領域中國團隊的表現也可以說是不逞多讓。就人工智慧的技術層面而言，中國的工程師與全球最好的技術團隊正處於同一個起跑線上。
時不我待，中國的工程師是有機會在這個領域大展身手的。不過值得注意的是，要切忌兩點：一是好高騖遠，盲目與國外攀比。畢竟積累有長短，術業有專攻，我們要立足於已有的積累，尋求逐步的突破。二是一擁而上，盲目追求市場的風口。人工智慧的工程化需要大量的基礎性的積累，並非一蹴而就簡單復制就可以成功。
中國的科研技術人員在人工智慧領域的成就有目共睹。在王詠剛的一篇文章裡面，他統計了從2013年到2015年SCI收錄的「深度學習」論文，中國在2014年和2015年超已經超過了美國居於領跑者的位置。
另外一讓我感到驚訝的事情，Google的JeffDean在2016年發表過一篇名為《TensorFlow:Asystemforlarge-scalemachinelearning》的論文。文章的22個作者裡面，明顯是中國名字的作者占已經到了1/5。如果要列舉中國人/華人在人工智慧領域里的大牛，吳恩達、孫劍、楊強、黃廣斌、馬毅、張大鵬……很容易就可以說出一大串。
對於中國來說目前的當務之急是人工智慧技術的產業化，唯有如此我們才可以講科研／智力領域的優勢轉化為整體的、全面的優勢。在這一點上，中國是全球最大的消費市場以及製造業強國，我們完全有機會藉助市場的優勢成為這個領域的領先者。
矽谷創新企業
矽谷雖然去過許多回，但一直無緣在那裡長期工作。在人工智慧領域的市場我們聽到的更多是圍繞Google、Apple、Intel、Amazon這樣的一些大型科技公司的一舉一動。但是在美國市場上還有一大批小型的創業企業在人工智慧這個領域有驚艷的表現。僅以矽谷區域的公司為例：
Captricity，提供了手寫數據的信息提取；
VIVLab，針對語音識別開發了虛擬助手服務；
TERADEEP，利用FPGA提供了高效的卷積神經網路的方案；
還有提供無人駕駛解決方案的NetraDyne。
這個名單還可以很長，還有許許多多正在利用人工智慧技術試圖去創造歷史的團隊正在打造他們的夢想。這些團隊以及他們正在專注的領域是值得我們去學習和體會的。

③ 自動跟蹤的光電跟蹤技術要點

應突破傳統的視頻目標取差器的設計理念，融合捕獲和自動跟蹤兩種模式下的平台運動控制、感測器視場和指向等諸多信息對目標運動加以預測，使得跟蹤更加可靠平穩，並具有良好的普適性。
內置多種圖像增強預處理演算法：白熱、黑熱、雙極性、移動目標檢測等。
視頻捕獲：可根據目標的亮度、尺寸、外形比例、速度、運動方向等自動獲取目標。
視頻跟蹤：內置多種跟蹤演算法且支持多目標檢測和多目標跟蹤；目標短暫丟失智能鎖定和重捕獲演算法。
可編程兩軸平台驅動控制（PID）；支持速率和位置控制。
演算法的FPGA實現，使得模塊具有極低的延遲：輸出偏差或平台運動參數延遲小於1場時間（PAL一場時間是20ms、NTSC為16.7ms），可同步輸出，也可即時輸出。
圖像處理功能：基於場景鎖定的極低延遲實時電子穩像。
OSD功能，支持標準的和用戶自定義的字元和符號，如：跟蹤窗口、符號標記、瞄準線、狀態等等。
圖像平移、縮放和旋轉功能，以糾正感測器安裝位置對視頻的影響。
支持固定視場、可切換視場、連續變化（ZOOM）視場的攝像機，從而實現在自動跟蹤狀態下可以進行視場改變或切換操作，並保持跟蹤不會因此而中斷。
結構緊湊、功耗低。

④ 如何把深度學習的跟蹤方法用於fpga

深度學習的概念源於人工神經網路的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵，以發現數據的分布式特徵表示。[1]
深度學習的概念由Hinton等人於2006年提出。基於深度置信網路(DBN)提出非監督貪心逐層訓練演算法，為解決深層結構相關的優化難題帶來希望，隨後提出多層自動編碼器深層結構。此外Lecun等人提出的卷積神經網路是第一個真正多層結構學習演算法，它利用空間相對關系減少參數數目以提高訓練性能。[1]
深度學習是機器學習研究中的一個新的領域，其動機在於建立、模擬人腦進行分析學習的神經網路，它模仿人腦的機制來解釋數據，例如圖像，聲音和文本。[2]

⑤ 為什麼CPU主頻比FPGA快那麼多，但是卻說FPGA可以加速

我想你走進了一個誤區。顯然你分不清FPGA與通用CPU的本質區別。說實話FPGA可以做成CPU，例如一些32位RSIC軟核，但是也僅限於此. 1:FPGA不能單純的看做一個晶元，更准確的應該做一個實現台，是粘合介面邏輯，數據流處理，做簡單處理運算的平台。沒有人傻著會拿一個高端FPGA做一款匹敵英特爾的處理器，高端的晶元動輒上萬塊，你認為它是用來實現英特爾i7的么?何況通用處理器並不只是數字單元的堆疊。用FPGA去實現一個奔騰?得不償失。當然我們可以用FPGA去實現一個簡單的ARM內核。 2:FPGA主要用在數據流處理，視頻處理，數據採集等方面，所以在數據交換傳輸。數字機頂盒，數據採集卡等領域用的最多，目前高端FPGA集成了更多的DSP模塊，高速串列收發器，嵌入式硬核，嵌入式RAM,或者FLASH，這些措施增強了它強大的系統集成功能。也就是說，FPGA功能越來越多，它可以替代系統更多的部分，把它們融入到FPGA中去。加大了系統的集成度，加上FPGA的靈活性，使他在當今板級設計領域變得越來越重要。 3:問這個問題，其實並沒有實際意義，但是可以看出來你只是個新新人類而已。在FPGA中形容性能的詞是資源，也就是說去衡量一個FPGA的高與低，主要是看內部資源容量(等效門)，看邏輯總量，看時鍾管理單元個數，看PLL，看分布式RAM容量，看硬核個數，看DSP數目，看高速串列個數，看硬核介面塊......等等，而不是單單看最高工作頻率。而通用CPU最主要的參數就是浮點運算速度和主頻了。一個側重於數據流處理，一個側重於指令運算。 4:總之:FPGA和通用CPU沒什麼可比性，也沒有必要誰去實現誰，因為各自側重不一樣。目前，FPGA不會去替代通用CPU，通用CPU更不會去替代FPGA。可以告訴你，現在集成到FPGA里最強的CPU也就是ARM9處理器硬核了，你會拿它去拼什麼CPU?不要糾結了，洗洗睡吧!

⑥ FPGA做視頻處理需要哪些資料

我常年擔任多個有關FPGA學習研討的QQ群管理員，長期以來很多新入群的菜鳥們總是在重復的問一些非常簡單但是又讓新手困惑不解的問題。作為管理員經常要給這些菜鳥們普及基礎知識，但是非常不幸的是很多菜鳥懷著一種浮躁的心態來學習FPGA，總是急於求成。再加上國內大量有關FPGA的垃圾教材的誤導，所以很多菜鳥始終無法入門。

為什麼大量的人會覺得FPGA難學？作為著名FPGA提供商Altera授權的金牌培訓師，本管理員決心開貼來詳細講一下菜鳥覺得FPGA難學的幾大原因。
1、不熟悉FPGA的內部結構，不了解可編程邏輯器件的基本原理。
FPGA為什麼是可以編程的？恐怕很多菜鳥不知道，他們也不想知道。因為他們覺得這是無關緊要的。他們潛意識的認為可編程嘛，肯定就是像寫軟體一樣啦。軟體編程的思想根深蒂固，看到Verilog或者VHDL就像看到C語言或者其它軟體編程語言一樣。一條條的讀，一條條的分析。如果這些菜鳥們始終拒絕去了解為什麼FPGA是可以編程的，不去了解FPGA的內部結構，要想學會FPGA恐怕是天方夜譚。雖然現在EDA軟體已經非常先進，像寫軟體那樣照貓畫虎也能綜合出點東西，但也許只有天知道EDA軟體最後綜合出來的到底是什麼。也許點個燈，跑個馬還行。這樣就是為什麼很多菜鳥學了N久以後依然是一個菜鳥的原因。
那麼FPGA為什麼是可以「編程」的呢？首先來了解一下什麼叫「程」。啟示「程」只不過是一堆具有一定含義的01編碼而已。編程，其實就是編寫這些01編碼。只不過我們現在有了很多開發工具，通常都不是直接編寫這些01編碼，而是以高級語言的形式來編寫，最後由開發工具轉換為這種01編碼而已。對於軟體編程而言，處理器會有一個專門的解碼電路逐條把這些01編碼翻譯為各種控制信號，然後控制其內部的電路完成一個個的運算或者是其它操作。所以軟體是一條一條的讀，因為軟體的操作是一步一步完成的。
而FPGA得可編程，本質也是依靠這些01編碼實現其功能的改變，但不同的是FPGA之所以可以完成不同的功能，不是依靠像軟體那樣將01編碼翻譯出來再去控制一個運算電路，FPGA裡面沒有這些東西。FPGA內部主要三塊：可編程的邏輯單元、可編程的連線和可編程的IO模塊。可編程的邏輯單元是什麼？其基本結構某種存儲器（SRAM、FLASH等）製成的4輸入或6輸入1輸出地「真值表」加上一個D觸發器構成。任何一個4輸入1輸出組合邏輯電路，都有一張對應的「真值表」，同樣的如果用這么一個存儲器製成的4輸入1輸出地「真值表」，只需要修改其「真值表」內部值就可以等效出任意4輸入1輸出的組合邏輯。這些「真值表」內部值是什麼？就是那些01編碼而已。如果要實現時序邏輯電路怎麼辦？這不又D觸發器嘛，任何的時序邏輯都可以轉換為組合邏輯 D觸發器來完成。但這畢竟只實現了4輸入1輸出的邏輯電路而已，通常邏輯電路的規模那是相當的大哦。那怎麼辦呢？這個時候就需要用到可編程連線了。在這些連線上有很多用存儲器控制的鏈接點，通過改寫對應存儲器的值就可以確定哪些線是連上的而哪些線是斷開的。者就可以把很多可編程邏輯單元組合起來形成大型的邏輯電路。最後就是可編程的IO，這其實是FPGA作為晶元級使用必須要注意的。任何晶元都必然有輸入引腳和輸出引腳。有可編程的IO可以任意的定義某個非專用引腳（FPGA中有專門的非用戶可使用的測試、下載用引腳）為輸入還是輸出，還可以對IO的電平標准進行設置。
總歸一句話，FPGA之所以可編程是因為可以通過特殊的01代碼製作成一張張「真值表」，並將這些「真值表」組合起來以實現大規模的邏輯功能。不了解FPGA內部結構，就不能明白最終代碼如何變到FPGA裡面去的。也就無法深入的了解如何能夠充分運用FPGA。現在的FPGA，不單單是有前面講的那三塊，還有很多專用的硬體功能單元，如何利用好這些單元實現復雜的邏輯電路設計，是從菜鳥邁向高手的路上必須要克服的障礙。而這一切，還是必須先從了解FPGA內部邏輯及其工作原理做起。
2、錯誤理解HDL語言，怎麼看都看不出硬體結構。
HDL語言的英語全稱是：Hardware Description Language，注意這個單詞Description，而不是Design。老外為什麼要用Description這個詞而不是Design呢？因為HDL確實不是用用來設計硬體的，而僅僅是用來描述硬體的。描述這個詞精確地反映了HDL語言的本質，HDL語言不過是已知硬體電路的文本表現形式而已，只是將以後的電路用文本的形式描述出來而已。而在編寫語言之前，硬體電路應該已經被設計出來了。語言只不過是將這種設計轉化為文字表達形式而已。但是很多人就不理解了，既然硬體都已經被設計出來了，直接拿去製作部就完了，為什麼還要轉化為文字表達形式再通過EDA工具這些麻煩的流程呢？其實這就是很多菜鳥沒有了解設計的抽象層次的問題，任何設計包括什麼服裝、機械、廣告設計都有一個抽象層次的問題。就拿廣告設計來說吧，最初的設計也許就是一個概念，設計出這個概念也是就是一個點子而已，離最終拍成廣告還差得很遠。
硬體設計也是有不同的抽象層次，沒一個層次都需要設計。最高的抽象層次為演算法級、然後依次是體系結構級、寄存器傳輸級、門級、物理版圖級。使用HDL的好處在於我們已經設計好了一個寄存器傳輸級的電路，那麼用HDL描述以後轉化為文本的形式，剩下的向更低層次的轉換就可以讓EDA工具去做了，者就大大的降低了工作量。這就是可綜合的概念，也就是說在對這一抽象層次上硬體單元進行描述可以被EDA工具理解並轉化為底層的門級電路或其他結構的電路。在FPGA設計中，就是在將這以抽象層級的意見描述成HDL語言，就可以通過FPGA開發軟體轉化為問題1中所述的FPGA內部邏輯功能實現形式。HDL也可以描述更高的抽象層級如演算法級或者是體系結構級，但目前受限於EDA軟體的發展，EDA軟體還無法理解這么高的抽象層次，所以HDL描述這樣抽象層級是無法被轉化為較低的抽象層級的，這也就是所謂的不可綜合。
所以在閱讀或編寫HDL語言，尤其是可綜合的HDL，不應該看到的是語言本身，而是要看到語言背後所對應的硬體電路結構。如果看到的HDL始終是一條條的代碼，那麼這種人永遠擺脫不了菜鳥的宿命。假如哪一天看到的代碼不再是一行行的代碼而是一塊一塊的硬體模塊，那麼恭喜脫離了菜鳥的級別，進入不那麼菜的鳥級別。
3、FPGA本身不算什麼，一切皆在FPGA之外
這一點恐怕也是很多學FPGA的菜鳥最難理解的地方。FPGA是給誰用的？很多學校解釋為給學微電子專業或者集成電路設計專業的學生用的，其實這不過是很多學校受資金限制，賣不起專業的集成電路設計工具而用FPGA工具替代而已。其實FPGA是給設計電子系統的工程師使用的。這些工程師通常是使用已有的晶元搭配在一起完成一個電子設備，如基站、機頂盒、視頻監控設備等。當現有晶元無法滿足系統的需求時，就需要用FPGA來快速的定義一個能用的晶元。前面說了，FPGA裡面無法就是一些「真值表」、觸發器、各種連線以及一些硬體資源，電子系統工程師使用FPGA進行設計時無非就是考慮如何將這些以後資源組合起來實現一定的邏輯功能而已，而不必像IC設計工程師那樣一直要關注到最後晶元是不是能夠被製造出來。本質上和利用現有晶元組合成不同的電子系統沒有區別，只是需要關注更底層的資源而已。
要想把FPGA用起來還是簡單的，因為無法就是那些資源，在理解了前面兩點再搞個實驗板，跑跑實驗，做點簡單的東西是可以的。而真正要把FPGA用好，那光懂點FPGA知識就遠遠不夠了。因為最終要讓FPGA裡面的資源如何組合，實現何種功能才能滿足系統的需要，那就需要懂得更多更廣泛的知識。
目前FPGA的應用主要是三個方向：第一個方向，也是傳統方向主要用於通信設備的高速介面電路設計，這一方向主要是用FPGA處理高速介面的協議，並完成高速的數據收發和交換。這類應用通常要求採用具備高速收發介面的FPGA，同時要求設計者懂得高速介面電路設計和高速數字電路板級設計，具備EMC/EMI設計知識，以及較好的模擬電路基礎，需要解決在高速收發過程中產生的信號完整性問題。FPGA最初以及到目前最廣的應用就是在通信領域，一方面通信領域需要高速的通信協議處理方式，另一方面通信協議隨時在修改，非常不適合做成專門的晶元。因此能夠靈活改變功能的FPGA就成為首選。到目前為止FPGA的一半以上的應用也是在通信行業。
第二個方向，可以稱為數字信號處理方向或者數學計算方向，因為很大程度上這一方向已經大大超出了信號處理的范疇。例如早就在2006年就聽說老美將FPGA用於金融數據分析，後來又見到有將FPGA用於醫學數據分析的案例。在這一方向要求FPGA設計者有一定的數學功底，能夠理解並改進較為復雜的數學演算法，並利用FPGA內部的各種資源使之能夠變為實際的運算電路。目前真正投入實用的還是在通信領域的無線信號處理、信道編解碼以及圖像信號處理等領域，其它領域的研究正在開展中，之所以沒有大量實用的主要原因還是因為學金融的、學醫學的不了解這玩意。不過最近發現歐美有很多電子工程、計算機類的博士轉入到金融行業，開展金融信號處理，相信隨著轉入的人增加，FPGA在其它領域的數學計算功能會更好的發揮出來，而我也有意做一些這些方面的研究。不過國內學金融的、學醫的恐怕連數學都很少用到，就不用說用FPGA來幫助他們完成數學運算了，這個問題只有再議了。
第三個方向就是所謂的SOPC方向，其實嚴格意義上來說這個已經在FPGA設計的范疇之內，只不過是利用FPGA這個平台搭建的一個嵌入式系統的底層硬體環境，然後設計者主要是在上面進行嵌入式軟體開發而已。設計對於FPGA本身的設計時相當少的。但如果涉及到需要在FPGA做專門的演算法加速，實際上需要用到第二個方向的知識，而如果需要設計專用的介面電路則需要用到第一個方向的知識。就目前SOPC方向發展其實遠不如第一和第二個方向，其主要原因是因為SOPC以FPGA為主，或者是在FPGA內部的資源實現一個「軟」的處理器，或者是在FPGA內部嵌入一個處理器核。但大多數的嵌入式設計卻是以軟體為核心，以現有的硬體發展情況來看，多數情況下的介面都已經標准化，並不需要那麼大的FPGA邏輯資源去設計太過復雜的介面。而且就目前看來SOPC相關的開發工具還非常的不完善，以ARM為代表的各類嵌入式處理器開發工具卻早已深入人心，大多數以ARM為核心的SOC晶元提供了大多數標準的介面，大量成系列的單片機/嵌入式處理器提供了相關行業所需要的硬體加速電路，需要專門定製硬體場合確實很少。通常是在一些特種行業才會在這方面有非常迫切的需求。即使目前Xilinx將ARM的硬核加入到FPGA裡面，相信目前的情況不會有太大改觀，不要忘了很多老掉牙的8位單片機還在嵌入式領域混呢，嵌入式主要不是靠硬體的差異而更多的是靠軟體的差異來體現價值的。我曾經看好的是cypress的Psoc這一想法。和SOPC系列不同，Psoc的思想史載SOC晶元裡面去嵌入那麼一小塊FPGA，那這樣其實可以滿足嵌入式的那些微小的硬體介面差異，比如某個運用需要4個USB，而通常的處理器不會提供那麼多，就可以用這么一塊FPGA來提供多的USB介面。而另一種運用需要6個UART，也可以用同樣的方法完成。對於嵌入式設計公司來說他們只需要備貨一種晶元，就可以滿足這些設計中各種微小的差異變化。其主要的差異化仍然是通過軟體來完成。但目前cypress過於封閉，如果其採用ARM作為處理器內核，藉助其完整的工具鏈。同時開放IP合作，讓大量的第三方為它提供IP設計，其實是很有希望的。但目前cypress的日子怕不太好過，Psoc的思想也不知道何時能夠發光。
4、數字邏輯知識是根本。
無論是FPGA的哪個方向，都離不開數字邏輯知識的支撐。FPGA說白了是一種實現數字邏輯的方式而已。如果連最基本的數字邏輯的知識都有問題，學習FPGA的願望只是空中樓閣而已。而這，恰恰是很多菜鳥最不願意去面對的問題。數字邏輯是任何電子電氣類專業的專業基礎知識，也是必須要學好的一門課。很多人無非是學習了，考個試，完了。如果不能將數字邏輯知識爛熟於心，養成良好的設計習慣，學FPGA到最後仍然是霧里看花水中望月，始終是一場空的。

以上四條只是我目前總結菜鳥們在學習FPGA時所最容易跑偏的地方，FPGA的學習其實就像學習圍棋一樣，學會如何在棋盤上落子很容易，成為一位高手卻是難上加難。要真成為李昌鎬那樣的神一般的選手，除了靠刻苦專研，恐怕還確實得要一點天賦。

⑦ 如何用FPGA加速機器學習

不能說「學FPGA是不是就是學Verilog語言」， 1. 語言是工具，要實現你的目標(工程)，必須使用工具，但工具不是最主要的，關鍵在於思想。 2. 使用FPGA，Verilog語言不是唯一工具，還有VHDL等其他語言。 3. Verilog語言只是一種規范，工程中還有其他的東西要學要用。學好一種語言還只是基礎。 4. 學FPGA，可能還會用到C/C++等高級語言。 5. 為了達到更高的要求，有時會對FPGA內部資源做人為調整，則內部資源必須要學。 6. FPGA內部資源很豐富，不一定要全部都會，你只要學會一定方法，實際使用的時候，查查資料即可。

⑧ 如何用fpga實現演算法的硬體加速

首先，利用傳統的軟體技巧來優化演算法，然後將其轉向定製指令以加速演算法。我們將討論不同實現方法的性能比較和折衷。
CRC演算法可用來校驗數據在傳輸過程中是否被破壞。這些演算法很流行，因為它們具有很高的檢錯率，而且不會對數據吞吐量造成太大影響，因為CRC校驗位被添加進數據信息中。但是，CRC演算法比一些簡單的校驗和演算法有更大的計算量要求。盡管如此，檢錯率的提高使得這種演算法值得去實施。
一般說來，發送端對要被發送的消息執行CRC演算法，並將CRC結果添加進該消息中。消息的接收端對包括CRC結果在內的消息執行同樣的CRC操作。如果接收端的結果與發送端的不同，這說明數據被破壞了。
CRC演算法是一種密集的數學運算，涉及到二元模數除法(molo-2 division)，即數據消息被16或32位多項式(取決於所用CRC標准)除所得的余數。這種操作一般通過異或和移位的迭代過程來實現，當採用16位多項式時，這相當於每數據位元組要執行數百條指令。如果發送數百個位元組，計算量就會高達數萬條指令。因此，任何優化都會大幅提高吞吐量。
代碼列表1中的CRC函數有兩個自變數(消息指針和消息中的位元組數)，它可返回所計算的CRC值(余數)。盡管該函數的自變數是一些位元組，但計算要逐位來執行。該演算法並不高效，因為所有操作(與、移位、異或和循環控制)都必須逐位地執行。
列表1：逐位執行的CRC演算法C代碼。
/*
* The width of the CRC calculation and result.
* Modify the typedef for a 16 or 32-bit CRC standard.
*/
typedef unsigned char crc;
#define WIDTH (8 * sizeof(crc))
#define TOPBIT (1 << (WIDTH - 1))
crc crcSlow(unsigned char const message[], int nBytes)
{
crc remainder = 0;
/*
* Perform molo-2 division, a byte at a time.
*/
for (int byte = 0; byte < nBytes; ++byte)
{
/*
* Bring the next byte into the remainder.
*/
remainder ^= (message[byte] << (WIDTH - 8));
/*
* Perform molo-2 division, a bit at a time.
*/
for (unsigned char bit = 8; bit > 0; "bit)
{
/*
* Try to divide the current data bit.
*/
if (remainder & TOPBIT)
{
remainder = (remainder << 1) ^ POLYNOMIAL;
}
else
{
remainder = (remainder << 1);
}
}
}
/*
* The final remainder is the CRC result.
*/
return (remainder);
}
1.傳統的軟體優化
圖3：帶CRC外圍電路和DMA的系統模塊示意圖。
讓我們看一下如何利用傳統的軟體技巧來優化CRC演算法。因為CRC操作中的一個操作數，即多項式(除數)是常數，位元組寬CRC操作的所有可能結果都可以預先計算並存儲在一個查找表中。這樣，通過一個讀查找表動作就可讓操作按逐個位元組執行下去。
採用這一演算法時，需要將這些預先計算好的值存儲在存儲器中。選擇ROM或RAM都可以，只要在啟動CRC計算之前將存儲器初始化就行。查找表有256個位元組，表中每個位元組位置包含一個CRC結果，共有256種可能的8位消息(與多項式大小無關)。
列表2示出了採用查找表方法的C代碼，包括生成查找表crcInit()中數值的代碼。
列表2：採用查找表方法的CRC演算法C代碼。
crc crcTable[256];
void crcInit(void)
{
crc remainder;
/*
* Compute the remainder of each possible dividend.
*/
for (int dividend = 0; dividend < 256; ++dividend)
{
/*
* Start with the dividend followed by zeros.
*/
remainder = dividend << (WIDTH - 8);
/*
* Perform molo-2 division, a bit at a time.
*/
for (unsigned char bit = 8; bit > 0; "bit)
{
/*
* Try to divide the current data bit.
*/
if (remainder & TOPBIT)
{
remainder = (remainder << 1) ^ POLYNOMIAL;
}
else
{
remainder = (remainder << 1);
}
}
/*
* Store the result into the table.
*/
crcTable[dividend] = remainder;
}
} /* crcInit() */
crc crcFast(unsigned char const message[], int nBytes)
{
unsigned char data;
crc remainder = 0;
/*
* Divide the message by the polynomial, a byte at a time.
*/
for (int byte = 0; byte < nBytes; ++byte)
{
data = message[byte] ^ (remainder >> (WIDTH - 8));
remainder = crcTable[data] ^ (remainder << 8);
}
/*
* The final remainder is the CRC.
*/
return (remainder);
} /* crcFast() */
整個計算減少為一個循環，每位元組(不是每位)有兩個異或、兩個移位操作和兩個裝載指令。基本上，這里是用查找表的存儲空間來換取速度。該方法比逐位計算的方法要快9.9倍，這一提高對某些應用已經足夠。如果需要更高的性能，可以嘗試編寫匯編代碼或增加查找表容量以擠出更多性能來。但是，如果需要20、50甚至500倍的性能提高，就要考慮採用硬體加速來實現該演算法了。
表1：各種規模的數據模塊下CRC演算法測試比較結果。
2.採用定製指令方法
CRC演算法由連續的異或和移位操作構成，用很少的邏輯即可在硬體中簡單實現。由於這一硬體模塊僅需幾個周期來計算CRC，採用定製指令來實現CRC計算要比採用外圍電路更好。此外，無須涉及系統中任何其它外圍電路或存儲器。僅需要一個微處理器來支持定製指令即可，一般是指可配置微處理器。
當在硬體中實現時，演算法應該每次執行16或32位計算，這取決於所採用的CRC標准。如果採用CRC-CCITT標准(16位多項式)，最好每次執行16位計算。如果使用8位微處理器，效率可能不太高，因為裝載操作數值及返回CRC值需要額外的周期。圖2示出了用硬體實現16位CRC演算法的內核。
信號msg(15..0)每次被移入異或/移位硬體一位。列表3示出了在64KB數據模塊上計算CRC的一些C代碼例子。該實例是針對Nios嵌入式處理器。
列表3：採用定製指令的CRC計算C代碼。
unsigned short crcCompute(unsigned short *data_block, unsigned int nWords)
{
unsigned short* pointer;
unsigned short word;
/*
* initialize crc reg to 0xFFFF
*/
word = nm_crc (0xFFFF, 1); /* nm_crc() is the CRC custom instruction */
/*
* calculate CRC on block of data
* nm_crc() is the CRC custom instruction
*
*/
for (pointer = data_block; pointer < (data_block + nWords); pointer ++)
word = nm_crc(*pointer, 0) return (word);
}
int main(void)
{
#define data_block_begin (na_onchip_memory)
#define data_block_end (na_onchip_memory + 0xffff)
unsigned short crc_result;
unsigned int data_block_length = (unsigned short *)data_block_end - (unsigned short
*)data_block_begin + 1;
crc_result = crcCompute((unsigned short *)data_block_begin, data_block_length);
}
採用定製指令時，用於計算CRC值的代碼是一個函數調用，或宏。當針對Nios處理器實現定製指令時，系統構建工具會生成一個宏。在本例中為nm_crc()，可用它來調用定製指令。
在啟動CRC計算之前，定製指令內的CRC寄存器需要先初始化。裝載初始值是CRC標準的一部分，而且每種CRC標准都不一樣。接著，循環將為數據模塊中的每16位數據調用一次CRC定製指令。這種定製指令實現方式要比逐位實現的方法快27倍。
3.CRC外圍電路方法
如果將CRC演算法作為硬體外圍電路來實現，並利用DMA將數據從存儲器轉移到外圍電路，這樣還可以進一步提高速度。這種方法將省去處理器為每次計算而裝載數據所需要的額外周期。DMA可在此外圍電路完成前一次CRC計算的時鍾周期內提供新的數據。圖3示出了利用DMA、CRC外圍電路來實現加速的系統模塊示意圖。
在64KB數據模塊上，利用帶DMA的定製外圍電路可獲得比逐位計算的純軟體演算法快500倍的性能。要知道，隨著數據模塊規模的增加，使用DMA所獲得的性能也隨之提高。這是因為設置DMA僅需很少的開銷，設置之後DMA運行得特別快，因為每個周期它都可以傳遞數據。因此，若只有少數位元組的數據，用DMA並不劃算。
這里所討論的所有採用CRC-CCITT標准(16位多項式)的演算法都是在Altera Stratix FPGA的Nios處理器上實現的。表1示出了各種數據長度的測試比較結果，以及大致的硬體使用情況(FPGA中的存儲器或邏輯單元)。
可以看出，演算法所用的硬體越多，演算法速度越快。這是用硬體資源來換取速度。

⑨ 如何使用FPGA加速機器學習演算法

FPGA入門: 第一步:了解FPGA基本硬體知識，例如:FPGA的含義及內部結構，現有的FPGA晶元種類，以及如何區分FPGA晶元。第二步:了解掌握FPGA的硬體設計語言，從vhdl開始，也可以從其他開始，第三步:熟悉vhdl語言編譯環境MAXBLUS ii或者Quartus II，第四步:購買開發板(這可以在一開始就買好)，建議初期購買一個一般的就行，像FLEX10K系列等等，價錢大約100左右， (如果需要開發板我這代理的開發中FLEX10K系列有現貨)

⑩ 急！！我現在做一個基於FPGA的步進電機的控制系統，但不知道如何加速減速，求高人指點！

你留下郵箱~ 我有一個控制步進電機的程序可以給你參考~

導航:首頁 > 源碼編譯 > 視頻跟蹤演算法用FPGA加速

視頻跟蹤演算法用FPGA加速

與視頻跟蹤演算法用FPGA加速相關的資料