‘壹’ 智能视频增强单元是怎么现实效果的
也不是很明白,有图像增强算法技术的,像云哨智能就有智能视频增强单元这个产品,很智能都不需要人工干预。
‘贰’ 视频检索的智能视频
智能视频处理成为视频监控的“救命稻草”
智能视频源自计算机视觉技术,计算机视觉技术是人工智能研究的分支之一,它能够在图像及图像内容描述之间建立映射关系,从而使计算机能够通过数字图像处理和分析来有限理解视频画面中的内容。运用智能视频分析技术,当系统发现符合某种规则的行为(如定向运动、越界、游荡、遗留等)发生时,自动向监控系统发出报警信号(如声光报警),提示相关工作人员及时处理可疑事件。
智能视频算法的实现
目前,智能视频技术实现对移动目标的实时检测、识别、分类以及多目标跟踪等功能的主要算法分为以下五类:目标检测、目标跟踪、目标识别、行为分析、基于内容的视频检索和数据融合等。 目标检测(Object Detection)是按一定时间间隔从视频图像中抽取像素,采用软件技术来分析数字化的像素,将运动物体从视频序列中分离出来。运动目标检测技术是智能化分析的基础。常用的目标检测技术可以分为背景减除法(Background Subtraction)、时间差分法(Temporal Difference)和光流法(Optic Flow)三类。
背景减除法利用当前图像与背景图像的差分检测运动区域。背景减除法假设视频场景中有一个背景,而背景和前景并未给出严格定义,背景在实际使用中是变化的,所以背景建模是背景减除法中非常关键的一步。常用的背景建模方法有时间平均法、自适应更新法、高斯模型等。背景减除法能够提供相对来说比较完全的运动目标特征数据,但对于动态场景的变化,如光线照射情况、摄像机抖动和外来无关事件的干扰特别敏感。
时间差分法充分利用了视频图像的时域特征,利用相邻帧图像的相减来提取出前景移动目标的信息。该方法对于动态环境具有较强的自适应性,不对场景做任何假设,但一般不能完全提取出所有相关的特征像素点,在运动实体内部容易产生空洞现象,只能够检测到目标的边缘。当运动目标停止时,一般时间差分法便失效。 光流法通过比较连续帧为每个图像中的像素赋予一个运动矢量从而分割出运动物体。
光流法能够在摄像机运动的情况下检测出独立的运动目标,然而光流法运算复杂度高并且对噪声很敏感,所以在没有专门硬件支持下很难用于实时视频流检测中。 目标跟踪(Object Tracking)算法根据不同的分类标准,有着以下两种分类方法:根据目标跟踪与目标检测的时间关系分类和根据目标跟踪的策略分类。 根据目标跟踪与目标检测的时间关系的分类有三种:
一是先检测后跟踪(Detect before Track),先检测每帧图像上的目标,然后将前后两帧图像上目标进行匹配,从而达到跟踪的目的。这种方法可以借助很多图像处理和数据处理的现有技术,但是检测过程没有充分利用跟踪过程提供的信息。
二是先跟踪后检测(Track before Detect),先对目标下一帧所在的位置及其状态进行预测或假设,然后根据检测结果来矫正预测值。这一思路面临的难点是事先要知道目标的运动特性和规律。三是边检测边跟踪(Track while Detect),图像序列中目标的检测和跟踪相结合,检测要利用跟踪来提供处理的对象区域,跟踪要利用检测来提供目标状态的观察数据。
根据目标跟踪的策略来分类,通常可分为3D方法和2D方法。相对3D方法而言,2D方法速度较快,但对于遮挡问题难以处理。基于运动估计的跟踪是最常用的方法之一。 目标识别(Object Recognize)利用物体颜色、速度、形状、尺寸等信息进行判别,区分人、交通工具和其他对象。目标识别常用人脸识别和车辆识别。
视频人脸识别的通常分为四个步骤:人脸检测、人脸跟踪、特征提取和比对。人脸检测指在动态的场景与复杂的背景中判断是否存在面像,并分离出这种面像。人脸跟踪指对被检测到的面貌进行动态目标跟踪。常用方法有基于模型的方法、基于运动与模型相结合的方法、肤色模型法等。
人脸特征提取方法归纳起来分为三类:第一类是基于边缘、直线和曲线的基本方法;第二类是基于特征模板的方法;第三类是考虑各种特征之间几何关系的结构匹配法。单一基于局部特征的提取方法在处理闭眼、眼镜和张嘴等情景时遇到困难,相对而言,基于整体特征统计的方法对于图像亮度和特征形变的鲁棒性更强。人脸比对是将抽取出的人脸特征与面像库中的特征进行比对,并找出最佳的匹配对象。
车辆识别主要分为车牌照识别、车型识别和车辆颜色识别等,应用最广泛和技术较成熟的是车牌照识别。 车牌照识别的步骤分别为:车牌定位、车牌字符分割、车牌字符特征提取和车牌字符识别。
车牌定位是指从车牌图像中找到车牌区域并把其分离出来。字符分割是将汉字、英文字母和数字字符从牌照中提取出来。车牌特征提取的基本任务是从众多特征中找出最有效的特征,常用的方法有逐像素特征提取法、骨架特征提取法、垂直水平方向数据统计特征提取法、特征点提取法和基于统计特征的提取法。车牌字符识别可以使用贝叶斯分离器、支持向量机(SVM)和神经网络分类器(NNC)等算法。 基于内容的图像检索技术是由用户提交检索样本,系统根据样本对象的底层物理特征生成特征集,然后在视频库中进行相似性匹配,得到检索结果的过程。现有基于内容的检索方法主要分为:基于颜色的检索方法、基于形状的检索方法和基于纹理的检索方法等。数据融合是将来自不同视频源的数据进行整合,以获得更丰富的数据分析结果。
‘叁’ 国内 智能视频识别算法 领先的公司有哪些
江苏视图科技,专业图像识别视频监控识别,技术水平是国内领先者。
‘肆’ 智能视频与普通视频有什么区别吗
智能视频识别算法先进,安全性高于普通视频。且能通过手机,电脑实现远程控制,看店,看家,看工厂,智美达的智能视频反应灵敏,外观专利,监控软件可以升级维护,
用户只要懂简单的网络知识就可以操作哒。
‘伍’ 人工智能算法是什么
人工智能算法主要是机器学习的算法
积极学习是一种通过数据来调优模型的方法论,模型的精度达到可以使用了,那么他就能够完成一些预判的任务,很多现实问题都可以转化成一个一个的预判类型
人工智能算法,尤其是深度学习,需要大量的数据,算法其实就是模型
‘陆’ 智能视频监控系统详细设计思路
随着宽带有线和无线网络基础设施的完善以及全球安防市场需求的增长,视频监控的应用正呈爆发性的增长态势。视频监控系统的发展趋势非常明显,在经历了数字化和网络化之后,下一个重要的趋势就是智能化,即智能监控和视频分析技术的应用。
传统的视频监控由人工进行视频监测发现安全隐患或异常状态,或者用于事后分析,这种应用具有其固有的缺点,难以实现实时的安全监控和检测管理。带有智能分析功能的监控系统可以通过区分监控对象的外形、动作等特征,做到主动收集、分析数据,并根据预设条件执行报警、记录、分析等动作。智能监控系统可以运行于服务器,也可以运行在基于DSP的嵌入式系统上,而后者已逐渐成为主流。
智能视频的应用大体上可以分安防、人体行为检测和智能交通三方面的应用。其中安防应用是被广泛认为是最具潜力的市场,它包括以下几个应用类别:入侵检测,可以自动检测出视频画面中的运动行为特征;物品移除检测,可以自动检测物品搬移事件——当防区内某特定位置的物品被拿走或搬走时发出报警;遗留物检测,可以对遗弃物进行自动检测——当物品在某个防区内被放置或遗弃的时候自动报警;智能跟踪,可以使摄像机对自身的云台和变焦镜头进行自主PTZ驱动。人体行为检测应用包括脱岗检测(可以实现自动检测岗哨人员就位情况)、徘徊检测(对重要区域人体徘徊检测)。智能交通应用包括:对非法停留的交通工具进行检测,当交通工具在防区内非法停留时发出报警;车辆逆行检测,及时辨别逆行车辆。
随着准确率和可靠性逐步提高及产品成本的下降,智能视频在越来越多的场合得到了应用,它能够替代部分安防设备,降低安保人员的工作强度,提高工作效率,减少管理成本。事实上,智能视频的应用具有非常巨大的潜力。随着技术日趋成熟,智能视频技术的应用领域正在迅速扩展,这些应用主要包括上述的安防、交通以及零售、服务等行业,如人数统计、人脸识别、人群控制、注意力控制和交通流量控制等。
实时视频监测的需求正在快速增长,特别是随着实时安全监控应用的需求增加,实时发现安全隐患或目标异常行为的功能已经具有越来越重要的现实意义,智能视频监测系统产品在这种日益增长的需求带动下,正在成为视频监控应用的新热点。特别是随着半导体技术的进步,例如以Blackfin汇聚式处理器为代表的先进嵌入式解决平台方案的推出,具有极高性价比和极高实用性的智能视频分析设备不断推出,并在一些关键应用中发挥极为重要的作用。 图1:传统的视频监控应用示意图。
智能视频应用设计攻略
硬件平台方案的选择往往决定了系统的整体方案成本、性能、开发工具和方法的可用性,以及方案未来持续升级的可行性等,因此方案平台选型至关重要。智能视频应用自身的独特性要求在硬件平台的选择上进行综合权衡。视频监控系统的网络化和智能分析要求,以及大规模工程安装对成本、体积和功耗的限制,非标准化的智能视频分析方法和几乎定制化的方案优化方式,使得结合了MCU和DSP优势、具有软件设计灵活性和强大处理能力的汇聚式处理器方案平台体现出更加明显的优势。本文将结合ADI公司独特的Blackfin汇聚式DSP处理器的特点,分析智能视频设计中主要的设计技术要点。
一、硬件平台选型
可定制化能力非常重要。有很多因素制约着视频监控系统智能化的应用步伐:首先是智能监控的视频算法比较复杂,难于标准化,各个系统提供商的视频分析软件都有自己的独特算法,导致市场上的产品没有统一的标准;其次,视频监控系统的应用场景比较复杂,用户的要求多样化,所以定制化的要求比较多。因此,视频分析方案通常需要针对客户的应用特点和需求进行方案优化,采用的算法千差万别。此外,由于智能视频应用的高复杂性,对方案的处理能力提出了更高的要求。MCU+ASIC的视频监控传统方案难以实现各种个性化的设计和高运算能力要求,即使选择普通DSP+MCU的双芯片方案通常也难以满足智能视频监控应用的复杂运算需求,需要增加协处理器,这种复杂的解决方案无论是BOM成本、功耗还是开发难度都不足取。Blackfin处理器充分发挥了MCU+DSP汇聚式架构的优势,满足了智能视频应用的系统控制和高强度的运算需求,特别是以BF561为代表的高性能双内核架构已经成为智能视频应用的首选方案平台。
方案的可扩展性也是需要考虑的因素。智能视频分析应用除了需要针对应用环境、应用目的进行方案优化外,不同的客户可能还有其他方面的不同需求。例如,当前一些领先的数字视频监控方案实现了H.264基本类@Level3.0和MPEG4 D1+CIF双码流的支持,未来可能扩展到支持H.264 D1+CIF的双码流。随着智能视频分析的更广泛应用,如IP摄像机、无线视频监控、智能交通系统等,不同应用都可能对各种接口功能、通信标准、用户界面等的需求有较大的差异化,硬件平台方案对各种需求的灵活扩展性非常重要。同时,正如前文所述,智能视频分析技术发展不过数年的时间,随着技术的不断成熟以及一些相关的标准的出台和改进,产品的可升级特性至关重要,既是开发者须关注的问题也是终端客户关切的重要特性。Blackfin DSP在算法并行处理上具有独特优势,特别是ADSP-BF561采用双DSP核,能够实现很复杂的智能视频处理算法。
视频应用优化特性。一些方案尽管具有较强的处理能力和可扩展性,方案是否主要针对视频应用进行过优化设计也值得关注,因为这直接关系到设计工程师可用的软硬件设计资源以及系统设计难度和可实现的性能。以Blackfin处理器为例,Blackfin为高强度、高数据率的数字和媒体处理做了专门优化:Blackfin的几十个DMA通道和可灵活配置的Cache很好地满足了视频监控系统对大运算量、高数据吞吐率的要求;ADI专门开发了完全优化的音视频编解码器,并免费提供给大客户;针对视频应用Blackfin集成了很多硬件驱动,包括WiFi的驱动、音/视频编解码器的驱动;Blackfin的4个视频算术运算单元和视频象素指令集大大加速了视频运算速度;在智能视频分析的一些基础算子中,例如直方图统计、中值运算、Sobel运算、形态学中的膨胀运算等都可以利用Blackfin的MIN、MAX指令来消除条件跳转,节省处理器周期。不仅如此,Blackfin还支持13种非视频数据的向量运算。适当设计数据结构,在前背景分离、阈值计算和更新等多个环节都可以运用Blackfin的特色指令让智能视频分析算法更快捷。这些本身就很有效的指令中,大部分指令都能够并行执行,使得Blackfin的处理能力再加倍。
低功耗和稳定性很重要。考虑到智能视频监控设备通常都是一周7天,每天24小时运行的,稳定性和功耗也比较重要。在低功耗上,Blackfin处理器采用了多种节能技术:基于一种选通时钟内核设计,可按照逐条指令来选择性地切断功能单元的电源;支持多种针对所需CPU动作极少期间的断电模式;Blackfin处理器支持一种自含动态电源管理电路,借助该电路即可对工作频率和电压进行独立控制,以满足正在执行的算法的性能要求;大多数Blackfin处理器都提供片上内核稳压电路,并可在低至0.8V的电压下工作。而Blackfin独特的汇聚式处理架构、90nm工艺等打下了其领先的低功耗处理的基础。由于高处理能力,基于Blackfin平台的系统方案可以减少主芯片数量,丰富的功能和接口可以满足各种外设和功能扩展需求,降低元器件数量,从而保证更高的稳定可靠性。目前在同价位DSP中Blackfin DSP的低功耗特性和稳定性是最好的。
支持哪些嵌入式操作系统。智能视频分析通常是基于网络的应用,必须要操作系统的支持,因此选择具有广泛嵌入式系统支持能力的解决方案非常重要,这样能确保未来产品在更换操作系统时不至于必须更换硬件平台,保证研发成果的持续可用性。目前可用的嵌入式操作系统众多,各具优势,硬件平台方案对这些操作系统的支持能力是进行方案选型的考虑要点之一。例如,Blackfin处理器可以支持目前主流的操作系统,包括uClinux、ThreadX、Nucleus,uCOS-II等十多种嵌入式操作系统,客户完全可以根据其自身要求选择其熟悉的或更具成本效益的软件架构基础。 图2:基于BF561的智能监控终端框图。
二、开发工具和可用资源
智能视频监控设备是一个复杂的系统,涉及到复杂的软硬件设计、人机界面、通信连接等,具有较高的系统设计难度。因此,所选择的硬件平台方案是否能提供完善的开发工具套件、必要的软件模块、成熟的参考设计、系统设计支持,以及是否有完整的设计生态系统等,对于是否能按期高质量地完成系统设计非常关键。事实上,并不是所有平台方案提供商都能提供这些支持。
以Blackfin系列处理器为例,采用Blackfin处理器的硬件平台从一般的DVR、IP摄像机、数字视频监控到智能视频监控,已经被全球大量的设备企业的广泛采用。Blackfin处理器获得众多企业的青睐,具有完整的开发工具和参考设计等支持是其受广泛欢迎的重要原因之一。ADI提供业界一流的工具、初学套件与支持,包括人们熟知的、能够支持其他Blackfin处理器的ADI CROSSCORE?软件与硬件工具,这些工具包括获奖的VisualDSP++?集成开发与调试环境(IDDE)、仿真器,以及EZ-KIT Lite?评估版硬件。
为提高开发效率,降低开发难度,开发时应尽量在已有的资源上进行,比如开放的例程,ADI为此提供了非常丰富的例程和资料。例如,ADI提供免费的“Image Tool Box”图像处理函数库软件包,该软件包专门针对图像处理应用常用的数学函数进行了优化,供客户在进行应用开发时调用。ADI还提供完整的参考设计,以及由本地合作伙伴开发的评估板、开发工具、算法IP、应用模块,以及由第三方合作伙伴提供包括软硬件在内的全套交钥匙方案。Blackfin处理器的视频监控应用目前在中国已经有多家具有丰富工程经验的第三方合作伙伴,已经建立完善的生态系统。
以ADI在今年三月份宣布提供基于该公司Blackfin BF526C的完整的IP监控和机器视觉摄像头参考设计为例,该参考设计在单个汇聚处理器上提供了强大的视频和音频处理能力,为工程师提供了一个统一的软件开发环境,可以实现更快的系统调试和部署,以及更低的系统成本。该处理器提供了集成的音频编解码器、流式视频和IP协议、片上DRAM存储器以及针对10/100以太网、USB和SD存储和本地RS-232端口的接口。这种完全可编程的解决方案可以满足多种视频压缩标准,例如H.264和MPEG4,支持音频G.729标准的编码。支持从控制中心到相机的双向语音通信,以及利用Pelo-P或Pelo-D协议的镜头平移、倾斜和拉伸动作。该参考设计还提供一块带双核BF561处理器的子卡,使系统能实现更高视频分辨率,并提供实现高级视频分析功能,如运动检测和跟踪。
应用方案揭秘——亿维东方智能网络摄像机
北京亿维东方科技有限公司(Emvideo)是专业智能安防产品的方案提供商,也是美国ADI公司授权的第三方合作伙伴。亿维东方目前有多款基于ADI Blackfin处理器为核心的硬件平台的产品,其中“软件+硬件”交钥匙的WiFi无线视频监控整体解决方案基于BF536+BF561的双处理器架构,方案硬件结构图如图3所示。
其中BF536处理器作为主处理器,除负责完成音频编码、远程控制以及用户交互控制等一些基本的管理与控制外,还负责嵌入式操作系统uClinux的运行,以及先进的智能视频分析功能,可以完成安防、人体行为、智能交通等多种智能视频分析。双核BF561作为协处理器负责视频编码算法,其强大的视频处理能力使得该方案实现了H.264基本类@Level3.0和MPEG4 D1+CIF双码流的支持,未来更将可能扩展到能够支持H.264 D1+CIF的双码流。两个处理器之间可以通过高速同步串行接口通讯,视频信号首先进入BF561处理器,采集编码后的码流发送到BF536处理器,然后通过网络发送到客户端进行解码显示。 图3:采用Blackfin BF536和BF561的解决方案硬件结构图。
该方案采用了先进的背景建模方法,能有效地克服光线变化、树叶摆动以及水面波纹等背景对前景目标分析产生的干扰,实现准确的前景检测,同时在目标跟踪上采用了独特的优化算放,实现了在入侵检测(包括区域警戒、绊线检测)的应用上超过90%的准确率。而所有这些都是基于BF536+BF561双处理器的硬件架构所具有的强大处理能力来实现的。
该方案的智能视频分析功能由亿维东方公司自主开发,独特的算法和丰富的智能视频分析技术开发经验确保实现客户的智能识别应用需求,并为客户提供包括软件升级在内的完善服务。由于智能视频识别应用目前并没有任何可循的需求标准和测试标准,因此视频分析方案通常需要针对客户的应用特点和需求进行方案优化。例如有些用户是地铁系统的,他们需要的功能是检测是否跨越候车的黄线、人群密度是否过大、是否有可疑的遗留物体等;有些用户是银行系统的,他们所需要的是ATM机的智能监控如分析是否有安装假键盘、安装吞卡器,在ATM机是否有暴力行为,是否出现犯罪分子的人脸等。利用该方案,客户可以根据用户的需求方便地进行调整算法。智能视频处理要求芯片具有强大的处理能力,有许多算法实现时得采用并行处理,Blackfin DSP在算法并行处理上具有独特的优势,特别是ADSP-BF561的双DSP核能够实现很复杂的智能视频处理算法。这是传统的MCU+ASIC或采用一般DSP方案所难以实现的。
该方案的软硬件都经过了应用验证,目前已经由多家客户进行生产,目标应用将主要是政府行政效能监测、教育系统等行业用户。
‘柒’ 小米10如何制作循环视频
二月中旬,小米10系列手机正式发布,作为小米10周年的诚意之作,“科技突破极限”正式进军高端市场。小米10系列不仅搭载了目前为止性能最为强劲的高通骁龙865处理器,更拥有LPDDR5内存,1亿像素主摄,横向振动马达等顶级配置。
相比配置,智能视频剪辑技术在小米10系列上有更突出的体现。进入后4G时代,用户对于影像的记录,不仅仅的满足于单个画面的拍摄,而是更多地往视频等方向延伸。如近几年流行的Vlog已经成为当下年轻人记录生活的主流方式之一。利用智能视频剪辑技术,通过智能算法,让以往需要滑轨、手摇等技巧才能实现的镜头效果,不用动手机就能完成运镜,制作vlog。用户在使用小米10拍视频,后期制作的成本可大大减轻。
据悉,智能视频剪辑技术是由小米与美摄科技深度技术合作研发。作为一家专注于视音频领域开发20年的互联网技术服务商,美摄科技最新推出的智能剪辑解决方案是以AI识别为基础的视频智能剪辑处理为框架,通过自然语言处理算法对用户试图表达的内容主题和关键词进行自动分析,并产生具有分幕的影片剧本。分析过后,智能视频剪辑系统会根据分析结果自动选取用户素材库中相对应的图像或影像内容,在设定好的算法之下,匹配符合场景氛围的字幕滤镜,并加入动感卡点的音乐节奏,自动将其整合成视频短片。后期还可以对视频进行二次编辑,滤镜、音乐、剪辑、字幕可以作进一步的自定义调整,整个方案已在Android平台运行应用,IOS及服务器等平台也可部署落地,满足各种类型场景用户的需求。
美摄科技的智能剪辑解决方案已在众多行业有了实际应用场景。对于旅行Vlog视频制作,可以非常快速的选取合成出一段15秒-1分钟左右的视频,方便在各大视频社交平台分享转发。对于美食制作类博主,通过AI识别美食制作的各个环节或者是讲解的声音,可以快速精选,抽取每个环节中的重要片段,为更多的用户提供标准化的美食视频生产工具。在游戏视频领域,各大游戏直播平台上的实时直播视频无法留存,内容是很难产生二次价值。可以通过智能剪辑,快速识别直播中精彩操作片段,智能合成视频内容。方便游戏平台进行游戏传播推广及运营。在传统广电行业,视频内容在从传统大屏像互联网快速传播的过程中,可以采用AI智能剪辑方案去提升效率,节省人工。实现在电视直播后快速的截取事件亮点,在各大平台高效的分发。传统媒资库的高效管理,内容拆条等,也可以利用AI智能方案,去快速实现关键信息识别拆分。
美摄科技近年来成就斐然,已成为互联网视音频领域领军企业。作为智能视音频整体解决方案的服务商,美摄科技曾与OPPO、ViVO、哔哩哔哩、猎豹移动、国家电网、Amino、KEEP、美柚等各领域头部客户开展深度技术合作,凭借其灵活的技术架构,自有的底层设计和独家的性能优化,提供完整的产品服务受到了一致认可。
未来,美摄科技会利用AI与传统视音频处理、图形图像处理的技术优势,为更多行业赋能,应用到更广泛的场景,实现跨平台价值!
‘捌’ 人工智能专业主要的课程是什么呀
人工智能技术关系到人工智能产品是否可以顺利应用到我们的生活场景中。在人工智能领域,它普遍包含了机器学习、知识图谱、自然语言处理、人机交互、计算机视觉、生物特征识别、AR/VR七个关键技术。
一、机器学习
机器学习(MachineLearning)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能技术的核心。基于数据的机器学习是现代智能技术中的重要方法之一,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。根据学习模式、学习方法以及算法的不同,机器学习存在不同的分类方法。
根据学习模式将机器学习分类为监督学习、无监督学习和强化学习等。
根据学习方法可以将机器学习分为传统机器学习和深度学习。
二、知识图谱
知识图谱本质上是结构化的语义知识库,是一种由节点和边组成的图数据结构,以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关“属性—值”对。不同实体之间通过关系相互联结,构成网状的知识结构。在知识图谱中,每个节点表示现实世界的“实体”,每条边为实体与实体之间的“关系”。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,提供了从“关系”的角度去分析问题的能力。
知识图谱可用于反欺诈、不一致性验证、组团欺诈等公共安全保障领域,需要用到异常分析、静态分析、动态分析等数据挖掘方法。特别地,知识图谱在搜索引擎、可视化展示和精准营销方面有很大的优势,已成为业界的热门工具。但是,知识图谱的发展还有很大的挑战,如数据的噪声问题,即数据本身有错误或者数据存在冗余。随着知识图谱应用的不断深入,还有一系列关键技术需要突破。
三、自然语言处理
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译、机器阅读理解和问答系统等。
机器翻译
机器翻译技术是指利用计算机技术实现从一种自然语言到另外一种自然语言的翻译过程。基于统计的机器翻译方法突破了之前基于规则和实例翻译方法的局限性,翻译性能取得巨大提升。基于深度神经网络的机器翻译在日常口语等一些场景的成功应用已经显现出了巨大的潜力。随着上下文的语境表征和知识逻辑推理能力的发展,自然语言知识图谱不断扩充,机器翻译将会在多轮对话翻译及篇章翻译等领域取得更大进展。
语义理解
语义理解技术是指利用计算机技术实现对文本篇章的理解,并且回答与篇章相关问题的过程。语义理解更注重于对上下文的理解以及对答案精准程度的把控。随着MCTest数据集的发布,语义理解受到更多关注,取得了快速发展,相关数据集和对应的神经网络模型层出不穷。语义理解技术将在智能客服、产品自动问答等相关领域发挥重要作用,进一步提高问答与对话系统的精度。
问答系统
问答系统分为开放领域的对话系统和特定领域的问答系统。问答系统技术是指让计算机像人类一样用自然语言与人交流的技术。人们可以向问答系统提交用自然语言表达的问题,系统会返回关联性较高的答案。尽管问答系统目前已经有了不少应用产品出现,但大多是在实际信息服务系统和智能手机助手等领域中的应用,在问答系统鲁棒性方面仍然存在着问题和挑战。
自然语言处理面临四大挑战:
一是在词法、句法、语义、语用和语音等不同层面存在不确定性;
二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;
三是数据资源的不充分使其难以覆盖复杂的语言现象;
四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算
四、人机交互
人机交互主要研究人和计算机之间的信息交换,主要包括人到计算机和计算机到人的两部分信息交换,是人工智能领域的重要的外围技术。人机交互是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。传统的人与计算机之间的信息交换主要依靠交互设备进行,主要包括键盘、鼠标、操纵杆、数据服装、眼动跟踪器、位置跟踪器、数据手套、压力笔等输入设备,以及打印机、绘图仪、显示器、头盔式显示器、音箱等输出设备。人机交互技术除了传统的基本交互和图形交互外,还包括语音交互、情感交互、体感交互及脑机交互等技术。
五、计算机视觉
计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。自动驾驶、机器人、智能医疗等领域均需要通过计算机视觉技术从视觉信号中提取并处理信息。近来随着深度学习的发展,预处理、特征提取与算法处理渐渐融合,形成端到端的人工智能算法技术。根据解决的问题,计算机视觉可分为计算成像学、图像理解、三维视觉、动态视觉和视频编解码五大类。
目前,计算机视觉技术发展迅速,已具备初步的产业规模。未来计算机视觉技术的发展主要面临以下挑战:
一是如何在不同的应用领域和其他技术更好的结合,计算机视觉在解决某些问题时可以广泛利用大数据,已经逐渐成熟并且可以超过人类,而在某些问题上却无法达到很高的精度;
二是如何降低计算机视觉算法的开发时间和人力成本,目前计算机视觉算法需要大量的数据与人工标注,需要较长的研发周期以达到应用领域所要求的精度与耗时;
三是如何加快新型算法的设计开发,随着新的成像硬件与人工智能芯片的出现,针对不同芯片与数据采集设备的计算机视觉算法的设计与开发也是挑战之一。
六、生物特征识别
生物特征识别技术是指通过个体生理特征或行为特征对个体身份进行识别认证的技术。从应用流程看,生物特征识别通常分为注册和识别两个阶段。注册阶段通过传感器对人体的生物表征信息进行采集,如利用图像传感器对指纹和人脸等光学信息、麦克风对说话声等声学信息进行采集,利用数据预处理以及特征提取技术对采集的数据进行处理,得到相应的特征进行存储。
识别过程采用与注册过程一致的信息采集方式对待识别人进行信息采集、数据预处理和特征提取,然后将提取的特征与存储的特征进行比对分析,完成识别。从应用任务看,生物特征识别一般分为辨认与确认两种任务,辨认是指从存储库中确定待识别人身份的过程,是一对多的问题;确认是指将待识别人信息与存储库中特定单人信息进行比对,确定身份的过程,是一对一的问题。
生物特征识别技术涉及的内容十分广泛,包括指纹、掌纹、人脸、虹膜、指静脉、声纹、步态等多种生物特征,其识别过程涉及到图像处理、计算机视觉、语音识别、机器学习等多项技术。目前生物特征识别作为重要的智能化身份认证技术,在金融、公共安全、教育、交通等领域得到广泛的应用。
七、VR/AR
虚拟现实(VR)/增强现实(AR)是以计算机为核心的新型视听技术。结合相关科学技术,在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近似的数字化环境。用户借助必要的装备与数字化环境中的对象进行交互,相互影响,获得近似真实环境的感受和体验,通过显示设备、跟踪定位设备、触力觉交互设备、数据获取设备、专用芯片等实现。
虚拟现实/增强现实从技术特征角度,按照不同处理阶段,可以分为获取与建模技术、分析与利用技术、交换与分发技术、展示与交互技术以及技术标准与评价体系五个方面。获取与建模技术研究如何把物理世界或者人类的创意进行数字化和模型化,难点是三维物理世界的数字化和模型化技术;分析与利用技术重点研究对数字内容进行分析、理解、搜索和知识化方法,其难点是在于内容的语义表示和分析;交换与分发技术主要强调各种网络环境下大规模的数字化内容流通、转换、集成和面向不同终端用户的个性化服务等,其核心是开放的内容交换和版权管理技术;展示与交换技术重点研究符合人类习惯数字内容的各种显示技术及交互方法,以期提高人对复杂信息的认知能力,其难点在于建立自然和谐的人机交互环境;标准与评价体系重点研究虚拟现实/增强现实基础资源、内容编目、信源编码等的规范标准以及相应的评估技术。
目前虚拟现实/增强现实面临的挑战主要体现在智能获取、普适设备、自由交互和感知融合四个方面。在硬件平台与装置、核心芯片与器件、软件平台与工具、相关标准与规范等方面存在一系列科学技术问题。总体来说虚拟现实/增强现实呈现虚拟现实系统智能化、虚实环境对象无缝融合、自然交互全方位与舒适化的发展趋势