视频跟踪算法用FPGA加速_如何用fpga实现算法的硬件加速

① fpga加速神经网络研究点多么

多。
随着AI、神经网络技术等产业的迅猛发展，对计算力的要求越来越高，因为FPGA具有资源丰富、配置灵活以及DSP、MCU等IP集成到一起的巨大优势，所以基于FPGA的NN加速器的研究和产业化，十分火热。比如微软的Bing搜素业务等就使用了基于FPGA的NN加速器。

② 如何用FPGA加速卷积神经网络

深度学习本身是一个非常庞大的知识体系。本文更多想从程序员的视角出发，让大家观察一下深度学习对程序员意味着什么，以及我们如何利用这样一个高速发展的学科，来帮助程序员提升软件开发的能力。
本文根据费良宏在2016QCon全球软件开发大会（上海）上的演讲整理而成。
前言
1973年，美国上映了一部热门的科幻电影《WestWorld》，三年之后又有一个续集叫做《FutureWorld》。这部电影在80年代初被引进到中国叫《未来世界》。那部电影对我来讲简直可以说得上是震撼。影片中出现了很多机器人，表情丰富的面部下面都是集成电路板。这让那时候的我觉得未来世界都是那么遥远、那么神秘。
时间到了2016年，很多朋友可能都在追看HBO斥巨资拍摄的同一题材的系列剧《WestWorld》。如果前两部电影还是局限在机器人、人工智能这样的话题，2016年的新剧则在剧情和人工智能的思考方面有了很大的突破。不再渲染机器人是否会威胁到人类，而是在探讨“Dreamsaremainlymemories”这一类更具哲理的问题。
“记忆究竟如何影响了智能”这个话题非常值得我们去思考，也给我们一个很好的启示——今天，人工智能领域究竟有了怎样的发展和进步。
今天我们探讨的话题不仅仅是简单的人工智能。如果大家对深度学习感兴趣，我相信各位一定会在搜索引擎上搜索过类似相关的关键字。我在Google上以deeplearning作为关键字得到了2,630万个搜索的结果。这个数字比一周之前足足多出了300多万的结果。这个数字足以看得出来深度学习相关的内容发展的速度，人们对深度学习的关注也越来越高。
从另外的一个角度，我想让大家看看深度学习在市场上究竟有多么热门。从2011年到现在一共有140多家专注人工智能、深度学习相关的创业公司被收购。仅仅在2016年这种并购就发生了40多起。
其中最疯狂的是就是Google，已经收购了 11 家人工智能创业公司，其中最有名的就是击败了李世石九段的 DeepMind。排名之后的就要数 Apple、Intel以及Twitter。以Intel 公司为例，仅在今年就已经收购了 3 家创业公司，Itseez、Nervana 和 Movidius。这一系列大手笔的并购为了布局人工智能以及深度学习的领域。
当我们去搜索深度学习话题的时候，经常会看到这样的一些晦涩难懂的术语：Gradient descent（梯度下降算法）、Backpropagation（反向传播算法）、Convolutional Neural Network（卷积神经网络）、受限玻耳兹曼机（Restricted Boltzmann Machine）等。
如打开任何一篇技术文章，你看到的通篇都是各种数学公式。大家看到如下左边的图，其实并不是一篇高水准的学术论文，而仅仅是维基网络关于玻耳兹曼机的介绍。维基网络是科普层面的内容，内容复杂程度就超过了大多数数学知识的能力。
在这样的背景之下，我今天的的话题可以归纳成三点：第一，我们为什么要学习深度学习；第二，深度学习最核心的关键概念就是神经网络，那么究竟什么是神经网络；第三，作为程序员，当我们想要成为深度学习开发者的时候，我们需要具备怎样的工具箱，以及从哪里着手进行开发。
为什么要学习深度学习
首先，我们谈谈为什么要学习深度学习。在这个市场当中，最不缺乏的就是各种概念以及各种时髦新技术的词汇。深度学习有什么不一样的地方？我非常喜欢AndrewNg（吴恩达）曾经用过的一个比喻。
他把深度学习比喻成一个火箭。这个火箭有一个最重要的部分，就是它的引擎，目前来看在这个领域里面，引擎的核心就是神经网络。大家都知道，火箭除了引擎之外还需要有燃料，那么大数据其实就构成了整个火箭另外的重要组成部分——燃料。以往我们谈到大数据的时候，更多是强调存储和管理数据的能力，但是这些方法和工具更多是对于以往历史数据的统计、汇总。
而对于今后未知的东西，这些传统的方法并不能够帮助我们可以从大数据中得出预测的结论。如果考虑到神经网络和大数据结合，我们才可能看清楚大数据真正的价值和意义。AndrewNg就曾经说过“我们相信（神经网络代表的深度学习）是让我们获得最接近于人工智能的捷径”。这就是我们要学习深度学习的一个最重要的原因。
其次，随着我们进行数据处理以及运算能力的不断提升，深度学习所代表的人工智能技术和传统意义上人工智能技术比较起来，在性能上有了突飞猛进的发展。这主要得益于在过去几十间计算机和相关产业不断发展带来的成果。在人工智能的领域，性能是我们选择深度学习另一个重要的原因。
这是一段Nvidia在今年公布的关于深度学习在无人驾驶领域应用的视频。我们可以看到，将深度学习应用在自动驾驶方面，仅仅经历了3千英里的训练，就可以达到什么样的程度。在今年年初进行的实验上，这个系统还不具备真正智能能力，经常会出现各种各样的让人提心吊胆的状况，甚至在某些情况下还需要人工干预。
但经过了3千英里的训练之后，我们看到在山路、公路、泥地等各种复杂的路况下面，无人驾驶已经有了一个非常惊人的表现。请大家注意，这个深度学习的模型只经过了短短几个月、3千英里的训练。
如果我们不断完善这种模型的话，这种处理能力将会变得何等的强大。这个场景里面最重要的技术无疑就是深度学习。我们可以得出一个结论：深度学习可以为我们提供强大的能力，如果程序员拥有了这个技术的话，无异于会让每个程序员如虎添翼。
神经网络快速入门
如果我们对于学习深度学习没有任何疑虑的话，接下来就一定会关心我需要掌握什么样的知识才能让我进入到这个领域。这里面最重要的关键技术就是“神经网络”。说起“神经网络”，容易混淆是这样两个完全不同的概念。
一个是生物学神经网络，第二个才是我们今天要谈起的人工智能神经网络。可能在座的各位有朋友在从事人工智能方面的工作。当你向他请教神经网络的时候，他会抛出许多陌生的概念和术语让你听起来云里雾里，而你只能望而却步了。
对于人工智能神经网络这个概念，大多数的程序员都会觉得距离自己有很大的距离。因为很难有人愿意花时间跟你分享神经网络的本质究竟是什么。而你从书本上读的到的理论和概念，也很让你找到一个清晰、简单的结论。
今天就我们来看一看，从程序员角度出发神经网络究竟是什么。我第一次知道神经网络这个概念是通过一部电影——1991年上映的《终结者2》。男主角施瓦辛格有一句台词：
“MyCPUisaneural-netprocessor;alearningcomputer.”（我的处理器是一个神经处理单元，它是一台可以学习的计算机)。从历史来看人类对自身智力的探索，远远早于对于神经网络的研究。
1852年，意大利学者因为一个偶然的失误，将人类的头颅掉到硝酸盐溶液中，从而获得第一次通过肉眼关注神经网络的机会。这个意外加速了对人类智力奥秘的探索，开启了人工智能、神经元这样概念的发展。
生物神经网络这个概念的发展，和今天我们谈的神经网络有什么关系吗？我们今天谈到的神经网络，除了在部分名词上借鉴了生物学神经网络之外，跟生物学神经网络已经没有任何关系，它已经完全是数学和计算机领域的概念，这也是人工智能发展成熟的标志。这点大家要区分开，不要把生物神经网络跟我们今天谈到的人工智能有任何的混淆。
90年代中期，由Vapnik等人提出了支持向量机算法（Support Vector Machines，支持向量机）。很快这个算法就在很多方面体现出了对比神经网络的巨大优势，例如：无需调参、高效率、全局最优解等。基于这些理由，SVM算法迅速打败了神经网络算法成为那个时期的主流。而神经网络的研究则再次陷入了冰河期。
在被人摒弃的十年里面，有几个学者仍然在坚持研究。其中很重要的一个人就是加拿大多伦多大学的Geoffery Hinton教授。2006年，他的在着名的《Science》杂志上发表了论文，首次提出了“深度信念网络”的概念。
与传统的训练方式不同，“深度信念网络”有一个“预训练”（pre-training）的过程，这可以方便的让神经网络中的权值找到一个接近最优解的值，之后再使用“微调”(fine-tuning)技术来对整个网络进行优化训练。这两个技术的运用大幅度减少了训练多层神经网络的时间。在他的论文里面，他给多层神经网络相关的学习方法赋予了一个新名词— “深度学习”。
很快，深度学习在语音识别领域崭露头角。接着在2012年，深度学习技术又在图像识别领域大展拳脚。Hinton与他的学生在ImageNet竞赛中，用多层的卷积神经网络成功地对包含一千个类别的一百万张图片进行了训练，取得了分类错误率15%的好成绩，这个成绩比第二名高了将近11个百分点。
这个结果充分证明了多层神经网络识别效果的优越性。从那时起，深度学习就开启了新的一段黄金时期。我们看到今天深度学习和神经网络的火热发展，就是从那个时候开始引爆的。
利用神经网络构建分类器，这个神经网络的结构是怎样的？
其实这个结构非常简单，我们看到这个图就是简单神经网络的示意图。神经网络本质上就是一种“有向图”。图上的每个节点借用了生物学的术语就有了一个新的名词 – “神经元”。连接神经元的具有指向性的连线（有向弧）则被看作是“神经”。这这个图上神经元并不是最重要的，最重要的是连接神经元的神经。每个神经部分有指向性，每一个神经元会指向下一层的节点。
节点是分层的，每个节点指向上一层节点。同层节点没有连接，并且不能越过上一层节点。每个弧上有一个值，我们通常称之为”权重“。通过权重就可以有一个公式计算出它们所指的节点的值。这个权重值是多少？我们是通过训练得出结果。它们的初始赋值往往通过随机数开始，然后训练得到的最逼近真实值的结果作为模型，并可以被反复使用。这个结果就是我们说的训练过的分类器。
节点分成输入节点和输出节点，中间称为隐层。简单来说，我们有数据输入项，中间不同的多个层次的神经网络层次，就是我们说的隐层。之所以在这样称呼，因为对我们来讲这些层次是不可见的。输出结果也被称作输出节点，输出节点是有限的数量，输入节点也是有限数量，隐层是我们可以设计的模型部分，这就是最简单的神经网络概念。
如果简单做一个简单的类比，我想用四层神经网络做一个解释。左边是输入节点，我们看到有若干输入项，这可能代表不同苹果的RGB值、味道或者其它输入进来的数据项。中间隐层就是我们设计出来的神经网络，这个网络现在有不同的层次，层次之间权重是我们不断训练获得一个结果。
最后输出的结果，保存在输出节点里面，每一次像一个流向一样，神经是有一个指向的，通过不同层进行不同的计算。在隐层当中，每一个节点输入的结果计算之后作为下一层的输入项，最终结果会保存在输出节点上，输出值最接近我们的分类，得到某一个值，就被分成某一类。这就是使用神经网络的简单概述。
除了从左到右的形式表达的结构图，还有一种常见的表达形式是从下到上来表示一个神经网络。这时候，输入层在图的最下方，输出层则在图的最上方。从左到右的表达形式以AndrewNg和LeCun的文献使用较多。而在Caffe框架里则使用的则是从下到上的表达。
简单来说，神经网络并不神秘，它就是有像图，利用图的处理能力帮助我们对特征的提取和学习的过程。2006年Hinton的那篇着名的论文中，将深度学习总结成三个最重要的要素：计算、数据、模型。有了这三点，就可以实现一个深度学习的系统。
程序员需要的工具箱
对于程序员来说，掌握理论知识是为了更好的编程实践。那就让我们看看，对于程序员来说，着手深度学习的实践需要准备什么样的工具。
硬件
从硬件来讲，我们可能需要的计算能力，首先想到的就是CPU。除了通常的CPU架构以外，还出现了附加有乘法器的CPU，用以提升计算能力。此外在不同领域会有DSP的应用场景，比如手写体识别、语音识别、等使用的专用的信号处理器。还有一类就是GPU，这是一个目前深度学习应用比较热门的领域。最后一类就是FPGA（可编程逻辑门阵列）。
这四种方法各有其优缺点，每种产品会有很大的差异。相比较而言CPU虽然运算能力弱一些，但是擅长管理和调度，比如读取数据，管理文件，人机交互等，工具也丰富。DSP相比而言管理能力较弱，但是强化了特定的运算能力。
这两者都是靠高主频来解决运算量的问题，适合有大量递归操作以及不便拆分的算法。GPU的管理能力更弱一些，但是运算能力更强。但由于计算单元数量多，更适合整块数据进行流处理的算法。
FPGA在管理与运算处理方面都很强，但是开发周期长，复杂算法开发难度较大。就实时性来说，FPGA是最高的。单从目前的发展来看，对于普通程序员来说，现实中普遍采用的计算资源就还是是CPU以及GPU的模式，其中GPU是最热门的领域。
这是我前天为这次分享而准备的一个AWS 上p2的实例。仅仅通过几条命令就完成了实例的更新、驱动的安装和环境的设置，总共的资源创建、设置时间大概在10分钟以内。而之前，我安装调试前面提到的那台计算机，足足花了我两天时间。
另外，从成本上还可以做一个对比。p2.8xLarge 实例每小时的费用是7.2美元。而我自己那台计算机总共的花费了是￥16,904元。这个成本足够让我使用350多个小时的p2.8xLarge。在一年里使用AWS深度学习站就可以抵消掉我所有的付出。随着技术的不断的升级换代，我可以不断的升级我的实例，从而可以用有限的成本获得更大、更多的处理资源。这其实也是云计算的价值所在。
云计算和深度学习究竟有什么关系？今年的8月8号，在IDG网站上发表了一篇文章谈到了这个话题。文章中做了这样一个预言：如果深度学习的并行能力不断提高，云计算所提供的处理能力也不断发展，两者结合可能会产生新一代的深度学习，将带来更大影响和冲击。这是需要大家考虑和重视的一个方向！
软件
深度学习除了硬件的基础环境之外。程序员会更关心与开发相关的软件资源。这里我罗列了一些曾经使用过的软件框架和工具。
Scikit-learn是最为流行的一个python机器学习库。它具有如下吸引人的特点：简单、高效且异常丰富的数据挖掘/数据分析算法实现；基于NumPy、SciPy以及matplotlib，从数据探索性分析，数据可视化到算法实现，整个过程一体化实现；开源，有非常丰富的学习文档。
Caffe专注在卷及神经网络以及图像处理。不过Caffe已经很久没有更新过了。这个框架的一个主要的开发者贾扬清也在今年跳槽去了Google。也许曾经的霸主地位要让位给他人了。
Theano 是一个非常灵活的Python 机器学习的库。在研究领域非常流行，使用上非常方便易于定义复杂的模型。Tensorflow 的API 非常类似于Theano。我在今年北京的QCon 大会上也分享过关于Theano 的话题。
Jupyter notebook 是一个很强大的基于ipython的python代码编辑器，部署在网页上，可以非常方便的进行交互式的处理，很适合进行算法研究合数据处理。
Torch 是一个非常出色的机器学习的库。它是由一个比较小众的lua语言实现的。但是因为LuaJIT 的使用，程序的效率非常出色。Facebook在人工智能领域主打Torch，甚至现在推出了自己的升级版框架Torchnet。
深度学习的框架非常之多，是不是有一种乱花渐欲迷人眼的感觉？我今天向各位程序员重点介绍的是将是TensorFlow。这是2015年谷歌推出的开源的面向机器学习的开发框架，这也是Google第二代的深度学习的框架。很多公司都使用了TensorFlow开发了很多有意思的应用，效果很好。
用TensorFlow可以做什么？答案是它可以应用于回归模型、神经网络以深度学习这几个领域。在深度学习方面它集成了分布式表示、卷积神经网络(CNN)、递归神经网络(RNN) 以及长短期记忆人工神经网络（Long-Short Term Memory, LSTM）。
关于Tensorflow 首先要理解的概念就是Tensor。在辞典中对于这个词的定义是张量，是一个可用来表示在一些向量、标量和其他张量之间的线性关系的多线性函数。实际上这个表述很难理解，用我自己的语言解释Tensor 就是“N维数组”而已。
使用 TensorFlow, 作为程序员必须明白 TensorFlow这样几个基础概念：它使用图 (Graph) 来表示计算任务；在被称之为会话 (Session) 的上下文 (context) 中执行图；使用 Tensor 表示数据；通过变量 (Variable) 维护状态；使用 feed 和 fetch 可以为任意的操作(arbitrary operation) 赋值或者从其中获取数据。
一句话总结就是，TensorFlow 就是有状态图的数据流图计算环境，每个节点就是在做数据操作，然后提供依赖性和指向性，提供完整数据流。
TensorFlow安装非常简单，但官网提供下载的安装包所支持的CUDA 的版本是7.5。考虑到CUDA 8 的让人心动的新特以及不久就要正式发布的现状。或许你想会考虑立即体验CUDA 8，那么就只能通过编译Tensorflow源代码而获得。目前TensorFlow已经支持了Python2.7、3.3+。
此外，对于使用Python 语言的程序员还需要安装所需要的一些库，例如：numpy、protobuf等等。对于卷积处理而言，cuDNN是公认的性能最好的开发库，请一定要安装上。常规的Tensorsorflow的安装很简单，一条命令足矣：
$ pip3 install —upgrade
如果想评估一下或者简单学习一下，还可以通过Docker进行安装，安装的命令如下：
$ docker run -it -p 8888:8888 gcr.io/tensorflow/tensorflow
TensorFlow有很多优点。首先，目前为止，深度学习的开发框架里面TensorFlow的文档做的最好，对程序员学习而言是非常好的一点。第二，TensorFlow有丰富的参考实例，作为参考学习起来非常容易。
第三，开发者社区活跃，在任何一个深度学习的社区里，都有大量关于TensorFlow的讨论。第四，谷歌的支持力度非常大，从2015年到现在升级速度非常快，这是其他开源框架远远达不到的结果。
参考TensorFlow的白皮书，我们会看到未来TensorFlow还将会有巨大的发展潜力。让我特别感兴趣是这两个方向。第一，支持跨多台机器的 parallelisation。尽管在0.8版本中推出了并行化的能力，但是目前还不完善。随着未来不断发展，依托云计算的处理能力的提升这个特性将是非常让人振奋的。
第二，支持更多的开发语言，对于开发者来说这是一个绝大的利好，通过使用自己擅长的语言使用TensorFlow应用。这些开发语言将会扩展到Java、Lua以及R 等。
在这里我想给大家展示一个应用Tensorflow 的例子。这个例子的代码托管在这个网址上。白俄罗斯的现代印象派艺术家Leonid Afremov善于用浓墨重彩来表现都市和风景题材，尤其是其雨景系列作品。他习惯用大色块的铺陈来营造光影效果，对反光物体和环境色的把握非常精准。
于是我就找到了一张上海东方明珠电视塔的一张摄影作品，我希望通过Tensorflow 去学习一下Leonid Afremov 的绘画风格，并将这张东方明珠的照片处理成那种光影色彩丰富的作品风格。利用Tensorflow 以及上面提到的那个项目的代码，在一个AWS 的p2类型的实例上进行了一个一千次的迭代，于是就得到了下图这样的处理结果。
这个处理的代码只有350行里，模型使用了一个成名于2014年ImageNet比赛中的明星 VGG。这个模型非常好，特点就是“go depper”。
TensorFlow 做出这样的作品，并不仅仅作为娱乐供大家一笑，还可以做更多有意思的事情。将刚才的处理能力推广到视频当中，就可以看到下图这样的效果，用梵高着名的作品”星月夜“的风格就加工成了这样新的视频风格。
可以想象一下，如果这种处理能力在更多领域得以应用，它会产生什么样的神奇结果？前景是美好的，让我们有无限遐想。事实上我们目前所从事的很多领域的应用开发都可以通过使用神经网络和深度学习来加以改变。对于深度学习而言，掌握它并不是难事。每一个程序员都可以很容易的掌握这种技术，利用所具备的资源，让我们很快成为深度学习的程序开发人员。
结束语
未来究竟是什么样，我们没有办法预言。有位作家Ray Kurzweil在2005年写了《奇点临近》一书。在这本书里面他明确告诉我们，那个时代很快到来。作为那个时代曙光前的人群，我们是不是有能力加速这个过程，利用我们学习的能力实现这个梦想呢？
中国人工智能的发展
人工智能的时代无疑已经到来，这个时代需要的当然就是掌握了人工智能并将其解决具体问题的工程师。坦率的说，市场上这一类的工程师还属于凤毛麟角。职场上的薪酬待遇可以看得出来这样的工程师的抢手的程度。人工智能这门学科发展到今天，就学术自身而言已经具备了大规模产业化的能力。
所以说，对于工程师而言当务之急就是尽快的掌握应用人工智能的应用技术。当下在互联网上关于人工智能的学习资料可以说已经是“汗牛充栋”，那些具备了快速学习能力的工程师一定会在人工智能的大潮当中脱颖而出。
中国发展人工智能产业的环境已经具备。无论从创业环境、人员的素质乃至市场的机遇而言完全具备了产生产业变革的一切条件。与美国相比较，在人工智能的许多领域中国团队的表现也可以说是不逞多让。就人工智能的技术层面而言，中国的工程师与全球最好的技术团队正处于同一个起跑线上。
时不我待，中国的工程师是有机会在这个领域大展身手的。不过值得注意的是，要切忌两点：一是好高骛远，盲目与国外攀比。毕竟积累有长短，术业有专攻，我们要立足于已有的积累，寻求逐步的突破。二是一拥而上，盲目追求市场的风口。人工智能的工程化需要大量的基础性的积累，并非一蹴而就简单复制就可以成功。
中国的科研技术人员在人工智能领域的成就有目共睹。在王咏刚的一篇文章里面，他统计了从2013年到2015年SCI收录的“深度学习”论文，中国在2014年和2015年超已经超过了美国居于领跑者的位置。
另外一让我感到惊讶的事情，Google的JeffDean在2016年发表过一篇名为《TensorFlow:Asystemforlarge-scalemachinelearning》的论文。文章的22个作者里面，明显是中国名字的作者占已经到了1/5。如果要列举中国人/华人在人工智能领域里的大牛，吴恩达、孙剑、杨强、黄广斌、马毅、张大鹏……很容易就可以说出一大串。
对于中国来说目前的当务之急是人工智能技术的产业化，唯有如此我们才可以讲科研／智力领域的优势转化为整体的、全面的优势。在这一点上，中国是全球最大的消费市场以及制造业强国，我们完全有机会借助市场的优势成为这个领域的领先者。
硅谷创新企业
硅谷虽然去过许多回，但一直无缘在那里长期工作。在人工智能领域的市场我们听到的更多是围绕Google、Apple、Intel、Amazon这样的一些大型科技公司的一举一动。但是在美国市场上还有一大批小型的创业企业在人工智能这个领域有惊艳的表现。仅以硅谷区域的公司为例：
Captricity，提供了手写数据的信息提取；
VIVLab，针对语音识别开发了虚拟助手服务；
TERADEEP，利用FPGA提供了高效的卷积神经网络的方案；
还有提供无人驾驶解决方案的NetraDyne。
这个名单还可以很长，还有许许多多正在利用人工智能技术试图去创造历史的团队正在打造他们的梦想。这些团队以及他们正在专注的领域是值得我们去学习和体会的。

③ 自动跟踪的光电跟踪技术要点

应突破传统的视频目标取差器的设计理念，融合捕获和自动跟踪两种模式下的平台运动控制、传感器视场和指向等诸多信息对目标运动加以预测，使得跟踪更加可靠平稳，并具有良好的普适性。
内置多种图像增强预处理算法：白热、黑热、双极性、移动目标检测等。
视频捕获：可根据目标的亮度、尺寸、外形比例、速度、运动方向等自动获取目标。
视频跟踪：内置多种跟踪算法且支持多目标检测和多目标跟踪；目标短暂丢失智能锁定和重捕获算法。
可编程两轴平台驱动控制（PID）；支持速率和位置控制。
算法的FPGA实现，使得模块具有极低的延迟：输出偏差或平台运动参数延迟小于1场时间（PAL一场时间是20ms、NTSC为16.7ms），可同步输出，也可即时输出。
图像处理功能：基于场景锁定的极低延迟实时电子稳像。
OSD功能，支持标准的和用户自定义的字符和符号，如：跟踪窗口、符号标记、瞄准线、状态等等。
图像平移、缩放和旋转功能，以纠正传感器安装位置对视频的影响。
支持固定视场、可切换视场、连续变化（ZOOM）视场的摄像机，从而实现在自动跟踪状态下可以进行视场改变或切换操作，并保持跟踪不会因此而中断。
结构紧凑、功耗低。

④ 如何把深度学习的跟踪方法用于fpga

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。[1]
深度学习的概念由Hinton等人于2006年提出。基于深度置信网络(DBN)提出非监督贪心逐层训练算法，为解决深层结构相关的优化难题带来希望，随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目以提高训练性能。[1]
深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。[2]

⑤ 为什么CPU主频比FPGA快那么多，但是却说FPGA可以加速

我想你走进了一个误区。显然你分不清FPGA与通用CPU的本质区别。说实话FPGA可以做成CPU，例如一些32位RSIC软核，但是也仅限于此. 1:FPGA不能单纯的看做一个芯片，更准确的应该做一个实现台，是粘合接口逻辑，数据流处理，做简单处理运算的平台。没有人傻着会拿一个高端FPGA做一款匹敌英特尔的处理器，高端的芯片动辄上万块，你认为它是用来实现英特尔i7的么?何况通用处理器并不只是数字单元的堆叠。用FPGA去实现一个奔腾?得不偿失。当然我们可以用FPGA去实现一个简单的ARM内核。 2:FPGA主要用在数据流处理，视频处理，数据采集等方面，所以在数据交换传输。数字机顶盒，数据采集卡等领域用的最多，目前高端FPGA集成了更多的DSP模块，高速串行收发器，嵌入式硬核，嵌入式RAM,或者FLASH，这些措施增强了它强大的系统集成功能。也就是说，FPGA功能越来越多，它可以替代系统更多的部分，把它们融入到FPGA中去。加大了系统的集成度，加上FPGA的灵活性，使他在当今板级设计领域变得越来越重要。 3:问这个问题，其实并没有实际意义，但是可以看出来你只是个新新人类而已。在FPGA中形容性能的词是资源，也就是说去衡量一个FPGA的高与低，主要是看内部资源容量(等效门)，看逻辑总量，看时钟管理单元个数，看PLL，看分布式RAM容量，看硬核个数，看DSP数目，看高速串行个数，看硬核接口块......等等，而不是单单看最高工作频率。而通用CPU最主要的参数就是浮点运算速度和主频了。一个侧重于数据流处理，一个侧重于指令运算。 4:总之:FPGA和通用CPU没什么可比性，也没有必要谁去实现谁，因为各自侧重不一样。目前，FPGA不会去替代通用CPU，通用CPU更不会去替代FPGA。可以告诉你，现在集成到FPGA里最强的CPU也就是ARM9处理器硬核了，你会拿它去拼什么CPU?不要纠结了，洗洗睡吧!

⑥ FPGA做视频处理需要哪些资料

我常年担任多个有关FPGA学习研讨的QQ群管理员，长期以来很多新入群的菜鸟们总是在重复的问一些非常简单但是又让新手困惑不解的问题。作为管理员经常要给这些菜鸟们普及基础知识，但是非常不幸的是很多菜鸟怀着一种浮躁的心态来学习FPGA，总是急于求成。再加上国内大量有关FPGA的垃圾教材的误导，所以很多菜鸟始终无法入门。

为什么大量的人会觉得FPGA难学？作为着名FPGA提供商Altera授权的金牌培训师，本管理员决心开贴来详细讲一下菜鸟觉得FPGA难学的几大原因。
1、不熟悉FPGA的内部结构，不了解可编程逻辑器件的基本原理。
FPGA为什么是可以编程的？恐怕很多菜鸟不知道，他们也不想知道。因为他们觉得这是无关紧要的。他们潜意识的认为可编程嘛，肯定就是像写软件一样啦。软件编程的思想根深蒂固，看到Verilog或者VHDL就像看到C语言或者其它软件编程语言一样。一条条的读，一条条的分析。如果这些菜鸟们始终拒绝去了解为什么FPGA是可以编程的，不去了解FPGA的内部结构，要想学会FPGA恐怕是天方夜谭。虽然现在EDA软件已经非常先进，像写软件那样照猫画虎也能综合出点东西，但也许只有天知道EDA软件最后综合出来的到底是什么。也许点个灯，跑个马还行。这样就是为什么很多菜鸟学了N久以后依然是一个菜鸟的原因。
那么FPGA为什么是可以“编程”的呢？首先来了解一下什么叫“程”。启示“程”只不过是一堆具有一定含义的01编码而已。编程，其实就是编写这些01编码。只不过我们现在有了很多开发工具，通常都不是直接编写这些01编码，而是以高级语言的形式来编写，最后由开发工具转换为这种01编码而已。对于软件编程而言，处理器会有一个专门的译码电路逐条把这些01编码翻译为各种控制信号，然后控制其内部的电路完成一个个的运算或者是其它操作。所以软件是一条一条的读，因为软件的操作是一步一步完成的。
而FPGA得可编程，本质也是依靠这些01编码实现其功能的改变，但不同的是FPGA之所以可以完成不同的功能，不是依靠像软件那样将01编码翻译出来再去控制一个运算电路，FPGA里面没有这些东西。FPGA内部主要三块：可编程的逻辑单元、可编程的连线和可编程的IO模块。可编程的逻辑单元是什么？其基本结构某种存储器（SRAM、FLASH等）制成的4输入或6输入1输出地“真值表”加上一个D触发器构成。任何一个4输入1输出组合逻辑电路，都有一张对应的“真值表”，同样的如果用这么一个存储器制成的4输入1输出地“真值表”，只需要修改其“真值表”内部值就可以等效出任意4输入1输出的组合逻辑。这些“真值表”内部值是什么？就是那些01编码而已。如果要实现时序逻辑电路怎么办？这不又D触发器嘛，任何的时序逻辑都可以转换为组合逻辑 D触发器来完成。但这毕竟只实现了4输入1输出的逻辑电路而已，通常逻辑电路的规模那是相当的大哦。那怎么办呢？这个时候就需要用到可编程连线了。在这些连线上有很多用存储器控制的链接点，通过改写对应存储器的值就可以确定哪些线是连上的而哪些线是断开的。者就可以把很多可编程逻辑单元组合起来形成大型的逻辑电路。最后就是可编程的IO，这其实是FPGA作为芯片级使用必须要注意的。任何芯片都必然有输入引脚和输出引脚。有可编程的IO可以任意的定义某个非专用引脚（FPGA中有专门的非用户可使用的测试、下载用引脚）为输入还是输出，还可以对IO的电平标准进行设置。
总归一句话，FPGA之所以可编程是因为可以通过特殊的01代码制作成一张张“真值表”，并将这些“真值表”组合起来以实现大规模的逻辑功能。不了解FPGA内部结构，就不能明白最终代码如何变到FPGA里面去的。也就无法深入的了解如何能够充分运用FPGA。现在的FPGA，不单单是有前面讲的那三块，还有很多专用的硬件功能单元，如何利用好这些单元实现复杂的逻辑电路设计，是从菜鸟迈向高手的路上必须要克服的障碍。而这一切，还是必须先从了解FPGA内部逻辑及其工作原理做起。
2、错误理解HDL语言，怎么看都看不出硬件结构。
HDL语言的英语全称是：Hardware Description Language，注意这个单词Description，而不是Design。老外为什么要用Description这个词而不是Design呢？因为HDL确实不是用用来设计硬件的，而仅仅是用来描述硬件的。描述这个词精确地反映了HDL语言的本质，HDL语言不过是已知硬件电路的文本表现形式而已，只是将以后的电路用文本的形式描述出来而已。而在编写语言之前，硬件电路应该已经被设计出来了。语言只不过是将这种设计转化为文字表达形式而已。但是很多人就不理解了，既然硬件都已经被设计出来了，直接拿去制作部就完了，为什么还要转化为文字表达形式再通过EDA工具这些麻烦的流程呢？其实这就是很多菜鸟没有了解设计的抽象层次的问题，任何设计包括什么服装、机械、广告设计都有一个抽象层次的问题。就拿广告设计来说吧，最初的设计也许就是一个概念，设计出这个概念也是就是一个点子而已，离最终拍成广告还差得很远。
硬件设计也是有不同的抽象层次，没一个层次都需要设计。最高的抽象层次为算法级、然后依次是体系结构级、寄存器传输级、门级、物理版图级。使用HDL的好处在于我们已经设计好了一个寄存器传输级的电路，那么用HDL描述以后转化为文本的形式，剩下的向更低层次的转换就可以让EDA工具去做了，者就大大的降低了工作量。这就是可综合的概念，也就是说在对这一抽象层次上硬件单元进行描述可以被EDA工具理解并转化为底层的门级电路或其他结构的电路。在FPGA设计中，就是在将这以抽象层级的意见描述成HDL语言，就可以通过FPGA开发软件转化为问题1中所述的FPGA内部逻辑功能实现形式。HDL也可以描述更高的抽象层级如算法级或者是体系结构级，但目前受限于EDA软件的发展，EDA软件还无法理解这么高的抽象层次，所以HDL描述这样抽象层级是无法被转化为较低的抽象层级的，这也就是所谓的不可综合。
所以在阅读或编写HDL语言，尤其是可综合的HDL，不应该看到的是语言本身，而是要看到语言背后所对应的硬件电路结构。如果看到的HDL始终是一条条的代码，那么这种人永远摆脱不了菜鸟的宿命。假如哪一天看到的代码不再是一行行的代码而是一块一块的硬件模块，那么恭喜脱离了菜鸟的级别，进入不那么菜的鸟级别。
3、FPGA本身不算什么，一切皆在FPGA之外
这一点恐怕也是很多学FPGA的菜鸟最难理解的地方。FPGA是给谁用的？很多学校解释为给学微电子专业或者集成电路设计专业的学生用的，其实这不过是很多学校受资金限制，卖不起专业的集成电路设计工具而用FPGA工具替代而已。其实FPGA是给设计电子系统的工程师使用的。这些工程师通常是使用已有的芯片搭配在一起完成一个电子设备，如基站、机顶盒、视频监控设备等。当现有芯片无法满足系统的需求时，就需要用FPGA来快速的定义一个能用的芯片。前面说了，FPGA里面无法就是一些“真值表”、触发器、各种连线以及一些硬件资源，电子系统工程师使用FPGA进行设计时无非就是考虑如何将这些以后资源组合起来实现一定的逻辑功能而已，而不必像IC设计工程师那样一直要关注到最后芯片是不是能够被制造出来。本质上和利用现有芯片组合成不同的电子系统没有区别，只是需要关注更底层的资源而已。
要想把FPGA用起来还是简单的，因为无法就是那些资源，在理解了前面两点再搞个实验板，跑跑实验，做点简单的东西是可以的。而真正要把FPGA用好，那光懂点FPGA知识就远远不够了。因为最终要让FPGA里面的资源如何组合，实现何种功能才能满足系统的需要，那就需要懂得更多更广泛的知识。
目前FPGA的应用主要是三个方向：第一个方向，也是传统方向主要用于通信设备的高速接口电路设计，这一方向主要是用FPGA处理高速接口的协议，并完成高速的数据收发和交换。这类应用通常要求采用具备高速收发接口的FPGA，同时要求设计者懂得高速接口电路设计和高速数字电路板级设计，具备EMC/EMI设计知识，以及较好的模拟电路基础，需要解决在高速收发过程中产生的信号完整性问题。FPGA最初以及到目前最广的应用就是在通信领域，一方面通信领域需要高速的通信协议处理方式，另一方面通信协议随时在修改，非常不适合做成专门的芯片。因此能够灵活改变功能的FPGA就成为首选。到目前为止FPGA的一半以上的应用也是在通信行业。
第二个方向，可以称为数字信号处理方向或者数学计算方向，因为很大程度上这一方向已经大大超出了信号处理的范畴。例如早就在2006年就听说老美将FPGA用于金融数据分析，后来又见到有将FPGA用于医学数据分析的案例。在这一方向要求FPGA设计者有一定的数学功底，能够理解并改进较为复杂的数学算法，并利用FPGA内部的各种资源使之能够变为实际的运算电路。目前真正投入实用的还是在通信领域的无线信号处理、信道编解码以及图像信号处理等领域，其它领域的研究正在开展中，之所以没有大量实用的主要原因还是因为学金融的、学医学的不了解这玩意。不过最近发现欧美有很多电子工程、计算机类的博士转入到金融行业，开展金融信号处理，相信随着转入的人增加，FPGA在其它领域的数学计算功能会更好的发挥出来，而我也有意做一些这些方面的研究。不过国内学金融的、学医的恐怕连数学都很少用到，就不用说用FPGA来帮助他们完成数学运算了，这个问题只有再议了。
第三个方向就是所谓的SOPC方向，其实严格意义上来说这个已经在FPGA设计的范畴之内，只不过是利用FPGA这个平台搭建的一个嵌入式系统的底层硬件环境，然后设计者主要是在上面进行嵌入式软件开发而已。设计对于FPGA本身的设计时相当少的。但如果涉及到需要在FPGA做专门的算法加速，实际上需要用到第二个方向的知识，而如果需要设计专用的接口电路则需要用到第一个方向的知识。就目前SOPC方向发展其实远不如第一和第二个方向，其主要原因是因为SOPC以FPGA为主，或者是在FPGA内部的资源实现一个“软”的处理器，或者是在FPGA内部嵌入一个处理器核。但大多数的嵌入式设计却是以软件为核心，以现有的硬件发展情况来看，多数情况下的接口都已经标准化，并不需要那么大的FPGA逻辑资源去设计太过复杂的接口。而且就目前看来SOPC相关的开发工具还非常的不完善，以ARM为代表的各类嵌入式处理器开发工具却早已深入人心，大多数以ARM为核心的SOC芯片提供了大多数标准的接口，大量成系列的单片机/嵌入式处理器提供了相关行业所需要的硬件加速电路，需要专门定制硬件场合确实很少。通常是在一些特种行业才会在这方面有非常迫切的需求。即使目前Xilinx将ARM的硬核加入到FPGA里面，相信目前的情况不会有太大改观，不要忘了很多老掉牙的8位单片机还在嵌入式领域混呢，嵌入式主要不是靠硬件的差异而更多的是靠软件的差异来体现价值的。我曾经看好的是cypress的Psoc这一想法。和SOPC系列不同，Psoc的思想史载SOC芯片里面去嵌入那么一小块FPGA，那这样其实可以满足嵌入式的那些微小的硬件接口差异，比如某个运用需要4个USB，而通常的处理器不会提供那么多，就可以用这么一块FPGA来提供多的USB接口。而另一种运用需要6个UART，也可以用同样的方法完成。对于嵌入式设计公司来说他们只需要备货一种芯片，就可以满足这些设计中各种微小的差异变化。其主要的差异化仍然是通过软件来完成。但目前cypress过于封闭，如果其采用ARM作为处理器内核，借助其完整的工具链。同时开放IP合作，让大量的第三方为它提供IP设计，其实是很有希望的。但目前cypress的日子怕不太好过，Psoc的思想也不知道何时能够发光。
4、数字逻辑知识是根本。
无论是FPGA的哪个方向，都离不开数字逻辑知识的支撑。FPGA说白了是一种实现数字逻辑的方式而已。如果连最基本的数字逻辑的知识都有问题，学习FPGA的愿望只是空中楼阁而已。而这，恰恰是很多菜鸟最不愿意去面对的问题。数字逻辑是任何电子电气类专业的专业基础知识，也是必须要学好的一门课。很多人无非是学习了，考个试，完了。如果不能将数字逻辑知识烂熟于心，养成良好的设计习惯，学FPGA到最后仍然是雾里看花水中望月，始终是一场空的。

以上四条只是我目前总结菜鸟们在学习FPGA时所最容易跑偏的地方，FPGA的学习其实就像学习围棋一样，学会如何在棋盘上落子很容易，成为一位高手却是难上加难。要真成为李昌镐那样的神一般的选手，除了靠刻苦专研，恐怕还确实得要一点天赋。

⑦ 如何用FPGA加速机器学习

不能说“学FPGA是不是就是学Verilog语言”， 1. 语言是工具，要实现你的目标(工程)，必须使用工具，但工具不是最主要的，关键在于思想。 2. 使用FPGA，Verilog语言不是唯一工具，还有VHDL等其他语言。 3. Verilog语言只是一种规范，工程中还有其他的东西要学要用。学好一种语言还只是基础。 4. 学FPGA，可能还会用到C/C++等高级语言。 5. 为了达到更高的要求，有时会对FPGA内部资源做人为调整，则内部资源必须要学。 6. FPGA内部资源很丰富，不一定要全部都会，你只要学会一定方法，实际使用的时候，查查资料即可。

⑧ 如何用fpga实现算法的硬件加速

首先，利用传统的软件技巧来优化算法，然后将其转向定制指令以加速算法。我们将讨论不同实现方法的性能比较和折衷。
CRC算法可用来校验数据在传输过程中是否被破坏。这些算法很流行，因为它们具有很高的检错率，而且不会对数据吞吐量造成太大影响，因为CRC校验位被添加进数据信息中。但是，CRC算法比一些简单的校验和算法有更大的计算量要求。尽管如此，检错率的提高使得这种算法值得去实施。
一般说来，发送端对要被发送的消息执行CRC算法，并将CRC结果添加进该消息中。消息的接收端对包括CRC结果在内的消息执行同样的CRC操作。如果接收端的结果与发送端的不同，这说明数据被破坏了。
CRC算法是一种密集的数学运算，涉及到二元模数除法(molo-2 division)，即数据消息被16或32位多项式(取决于所用CRC标准)除所得的余数。这种操作一般通过异或和移位的迭代过程来实现，当采用16位多项式时，这相当于每数据字节要执行数百条指令。如果发送数百个字节，计算量就会高达数万条指令。因此，任何优化都会大幅提高吞吐量。
代码列表1中的CRC函数有两个自变量(消息指针和消息中的字节数)，它可返回所计算的CRC值(余数)。尽管该函数的自变量是一些字节，但计算要逐位来执行。该算法并不高效，因为所有操作(与、移位、异或和循环控制)都必须逐位地执行。
列表1：逐位执行的CRC算法C代码。
/*
* The width of the CRC calculation and result.
* Modify the typedef for a 16 or 32-bit CRC standard.
*/
typedef unsigned char crc;
#define WIDTH (8 * sizeof(crc))
#define TOPBIT (1 << (WIDTH - 1))
crc crcSlow(unsigned char const message[], int nBytes)
{
crc remainder = 0;
/*
* Perform molo-2 division, a byte at a time.
*/
for (int byte = 0; byte < nBytes; ++byte)
{
/*
* Bring the next byte into the remainder.
*/
remainder ^= (message[byte] << (WIDTH - 8));
/*
* Perform molo-2 division, a bit at a time.
*/
for (unsigned char bit = 8; bit > 0; "bit)
{
/*
* Try to divide the current data bit.
*/
if (remainder & TOPBIT)
{
remainder = (remainder << 1) ^ POLYNOMIAL;
}
else
{
remainder = (remainder << 1);
}
}
}
/*
* The final remainder is the CRC result.
*/
return (remainder);
}
1.传统的软件优化
图3：带CRC外围电路和DMA的系统模块示意图。
让我们看一下如何利用传统的软件技巧来优化CRC算法。因为CRC操作中的一个操作数，即多项式(除数)是常数，字节宽CRC操作的所有可能结果都可以预先计算并存储在一个查找表中。这样，通过一个读查找表动作就可让操作按逐个字节执行下去。
采用这一算法时，需要将这些预先计算好的值存储在存储器中。选择ROM或RAM都可以，只要在启动CRC计算之前将存储器初始化就行。查找表有256个字节，表中每个字节位置包含一个CRC结果，共有256种可能的8位消息(与多项式大小无关)。
列表2示出了采用查找表方法的C代码，包括生成查找表crcInit()中数值的代码。
列表2：采用查找表方法的CRC算法C代码。
crc crcTable[256];
void crcInit(void)
{
crc remainder;
/*
* Compute the remainder of each possible dividend.
*/
for (int dividend = 0; dividend < 256; ++dividend)
{
/*
* Start with the dividend followed by zeros.
*/
remainder = dividend << (WIDTH - 8);
/*
* Perform molo-2 division, a bit at a time.
*/
for (unsigned char bit = 8; bit > 0; "bit)
{
/*
* Try to divide the current data bit.
*/
if (remainder & TOPBIT)
{
remainder = (remainder << 1) ^ POLYNOMIAL;
}
else
{
remainder = (remainder << 1);
}
}
/*
* Store the result into the table.
*/
crcTable[dividend] = remainder;
}
} /* crcInit() */
crc crcFast(unsigned char const message[], int nBytes)
{
unsigned char data;
crc remainder = 0;
/*
* Divide the message by the polynomial, a byte at a time.
*/
for (int byte = 0; byte < nBytes; ++byte)
{
data = message[byte] ^ (remainder >> (WIDTH - 8));
remainder = crcTable[data] ^ (remainder << 8);
}
/*
* The final remainder is the CRC.
*/
return (remainder);
} /* crcFast() */
整个计算减少为一个循环，每字节(不是每位)有两个异或、两个移位操作和两个装载指令。基本上，这里是用查找表的存储空间来换取速度。该方法比逐位计算的方法要快9.9倍，这一提高对某些应用已经足够。如果需要更高的性能，可以尝试编写汇编代码或增加查找表容量以挤出更多性能来。但是，如果需要20、50甚至500倍的性能提高，就要考虑采用硬件加速来实现该算法了。
表1：各种规模的数据模块下CRC算法测试比较结果。
2.采用定制指令方法
CRC算法由连续的异或和移位操作构成，用很少的逻辑即可在硬件中简单实现。由于这一硬件模块仅需几个周期来计算CRC，采用定制指令来实现CRC计算要比采用外围电路更好。此外，无须涉及系统中任何其它外围电路或存储器。仅需要一个微处理器来支持定制指令即可，一般是指可配置微处理器。
当在硬件中实现时，算法应该每次执行16或32位计算，这取决于所采用的CRC标准。如果采用CRC-CCITT标准(16位多项式)，最好每次执行16位计算。如果使用8位微处理器，效率可能不太高，因为装载操作数值及返回CRC值需要额外的周期。图2示出了用硬件实现16位CRC算法的内核。
信号msg(15..0)每次被移入异或/移位硬件一位。列表3示出了在64KB数据模块上计算CRC的一些C代码例子。该实例是针对Nios嵌入式处理器。
列表3：采用定制指令的CRC计算C代码。
unsigned short crcCompute(unsigned short *data_block, unsigned int nWords)
{
unsigned short* pointer;
unsigned short word;
/*
* initialize crc reg to 0xFFFF
*/
word = nm_crc (0xFFFF, 1); /* nm_crc() is the CRC custom instruction */
/*
* calculate CRC on block of data
* nm_crc() is the CRC custom instruction
*
*/
for (pointer = data_block; pointer < (data_block + nWords); pointer ++)
word = nm_crc(*pointer, 0) return (word);
}
int main(void)
{
#define data_block_begin (na_onchip_memory)
#define data_block_end (na_onchip_memory + 0xffff)
unsigned short crc_result;
unsigned int data_block_length = (unsigned short *)data_block_end - (unsigned short
*)data_block_begin + 1;
crc_result = crcCompute((unsigned short *)data_block_begin, data_block_length);
}
采用定制指令时，用于计算CRC值的代码是一个函数调用，或宏。当针对Nios处理器实现定制指令时，系统构建工具会生成一个宏。在本例中为nm_crc()，可用它来调用定制指令。
在启动CRC计算之前，定制指令内的CRC寄存器需要先初始化。装载初始值是CRC标准的一部分，而且每种CRC标准都不一样。接着，循环将为数据模块中的每16位数据调用一次CRC定制指令。这种定制指令实现方式要比逐位实现的方法快27倍。
3.CRC外围电路方法
如果将CRC算法作为硬件外围电路来实现，并利用DMA将数据从存储器转移到外围电路，这样还可以进一步提高速度。这种方法将省去处理器为每次计算而装载数据所需要的额外周期。DMA可在此外围电路完成前一次CRC计算的时钟周期内提供新的数据。图3示出了利用DMA、CRC外围电路来实现加速的系统模块示意图。
在64KB数据模块上，利用带DMA的定制外围电路可获得比逐位计算的纯软件算法快500倍的性能。要知道，随着数据模块规模的增加，使用DMA所获得的性能也随之提高。这是因为设置DMA仅需很少的开销，设置之后DMA运行得特别快，因为每个周期它都可以传递数据。因此，若只有少数字节的数据，用DMA并不划算。
这里所讨论的所有采用CRC-CCITT标准(16位多项式)的算法都是在Altera Stratix FPGA的Nios处理器上实现的。表1示出了各种数据长度的测试比较结果，以及大致的硬件使用情况(FPGA中的存储器或逻辑单元)。
可以看出，算法所用的硬件越多，算法速度越快。这是用硬件资源来换取速度。

⑨ 如何使用FPGA加速机器学习算法

FPGA入门: 第一步:了解FPGA基本硬件知识，例如:FPGA的含义及内部结构，现有的FPGA芯片种类，以及如何区分FPGA芯片。第二步:了解掌握FPGA的硬件设计语言，从vhdl开始，也可以从其他开始，第三步:熟悉vhdl语言编译环境MAXBLUS ii或者Quartus II，第四步:购买开发板(这可以在一开始就买好)，建议初期购买一个一般的就行，像FLEX10K系列等等，价钱大约100左右， (如果需要开发板我这代理的开发中FLEX10K系列有现货)

⑩ 急！！我现在做一个基于FPGA的步进电机的控制系统，但不知道如何加速减速，求高人指点！

你留下邮箱~ 我有一个控制步进电机的程序可以给你参考~

导航:首页 > 源码编译 > 视频跟踪算法用FPGA加速

视频跟踪算法用FPGA加速

与视频跟踪算法用FPGA加速相关的资料