导航:首页 > 源码编译 > 感知算法招聘北京

感知算法招聘北京

发布时间:2022-08-16 19:13:48

1. 地平线与觉非科技达成生态战略合作 布局自动驾驶量产方案

易车讯 5月11日,地平线与觉非科技正式成为生态战略合作伙伴,双方将基于地平线征程系列车规级AI芯片,结合觉非科技多传感器融合算法能力,面向全场景智能驾驶应用落地进行深度合作,并以“芯片+解决方案”集成的形式面向市场,携手推进中国自动驾驶的量产落地。

觉非科技视觉融合定位量产解决方案——基于地平线征程3车规级AI芯

此次,双方进一步达成基于地平线征程5芯片的深度合作,联合布局高级别智能驾驶的量产解决方案,觉非科技也将成为首个将融合定位算法适配部署于征程5的软件供应商。未来双方将持续拓展与深化合作,探讨自动驾驶、自主泊车、车路协同等市场领域与应用机会,携手推动智能驾驶技术面向全业务场景的量产落地。

2. 不依赖高精地图毫末智行顾维灏揭秘为何毫末选择重感知路线

易车讯 “针对自动驾驶存在的很多问题,我们应当以第一性原理去思考它们的本质,由此才有可能做出不一样的产品。”7月8日,毫末智行CEO顾维灏受邀参加了2022第十四届中国汽车蓝皮书论坛,并对“用户需要何种自动驾驶”展开交流讨论。顾维灏表示,产品能力的持续进步,只有一条路,就是大数据的驱动,坐在办公室里靠几个人的设想,是做不出好产品的。


本届论坛以“刷新”为主题,有超过60场主题演讲、12场议题讨论。大会邀请了东风汽车、上汽集团、北汽集团、一汽集团、长城汽车、奇瑞汽车、戴姆勒、蔚来、小鹏、网络、华为、地平线等上百位中国汽车业最具思考深度的领袖和精英为行业发展贡献年度思想盛宴与脑力激荡风暴。



一款满足用户诉求的城市域高级辅助驾驶产品应该是什么样的?在此之前,很多自动驾驶企业都将竞争的核心放在了感知硬件的和高精地图上,但顾维灏则提出了自动驾驶行业的发展趋势,发表了自己的看法,“高精地图与激光雷达最早之所以出现,是因为当时自动驾驶技术的摄像头感知能力较弱,并且算力性能也并不足以支撑感知算法;如今不仅摄像头像素有了大幅提升,大算力芯片也开始不断涌现,感知能力得到了大幅度提升,甚至成本昂贵的激光雷达成本也逐渐开始了下探。”


由此,毫末智行提出了“重感知”技术方案。其以数据智能体系MANA为核心,通过海量数据哺育,令MANA学习时长超过了24万小时,虚拟驾龄相当于人类司机驾驶2万年,这能够让毫末城市NOH摸索并掌握应对各类复杂城市场景的驾驶要诀,由此实现从“新手”到“老司机”的蜕变,让驾驶者与乘客享受安全、舒适与高效的出行。


优秀的用户体验并不仅限于安全、舒适与高效,事实上,用户在使用自动驾驶产品的过程中依旧有很多值得自动驾驶企业关注与改进的细节。对此,顾维灏指出了一个典型的例子,“在开启高速NOH的车辆经过大型货车时,驾驶者往往会因为对大车的恐惧,本能地接管车辆,即使车辆此时并不会与大车发生碰撞。”


对此,顾维灏介绍毫末NOH“智慧躲闪”的功能,“如果右侧是大车,我们会设置车辆在左侧车道向左偏移10—15厘米。同时毫末NOH会在交互界面进行标注,告知用户车辆的规避动作,给用户心理上预期。”顾维灏提到,“这一功能起初会使用模拟人工语音提醒用户,但当道路上遭遇大量大车时,频繁的提示语音又会给用户带来更多困扰。后来我们就把这个交互改成了低声的短声音,这样就比之前的语音提醒更容易让用户接受。”这个案例可以看出,通过对细节的关注与调整,毫末智行逐渐让辅助驾驶产品更成熟,正逐步实现产品的差异化。


顾维灏清晰且独到的观点,也引发现场不少嘉宾的讨论与热议。本届中国汽车蓝皮书论坛本届以“刷新”为主题,背后展示了行业的高速发展,携手破界创新,穿越周期。

3. 怎么找相似图

有时候收藏了一些有趣的图片,想查找一下这些图片的来源和一些类似这样的图片,但是不知道如何去找,其实网络就有这个查找功能,一起来试一试吧。
材料/工具
电脑
方法
1/4
首先用360浏览器打开网络,可以看到搜索框有一个照相机的小图标。

2/4
然后点击一下相机的小图标,会出现提示拖拽一张照片或者上传一张照片。

3/4
这里选择上传,选一张自己想找的相似的图片,然后双击图片。

4/4
好了,这个时候强大的360浏览器网络就为我们搜索出了图片的来源和出处,还有类似的很多图片哦,快去试一试吧。

一 在游览网页时看见一些图片我们想多了解图片的更多信息用网络搜图,打开网络首页。
二 选择图片

三 在输入框后面 点击识图图标。

四 如果你要搜索的图片在本地就选择本地,点击从本地上传。

五 在本地找到想要查找的图片,点击要找的图片。

六 在文件名后面点击打开,图片开始上传。

七 稍等片刻,图片搜索成功

4. 汇集5家头部激光雷达企业,畅谈激光雷达的机遇与挑战

通过此次论坛上的各位激光雷达领域的大佬发言我们对这个行业,对这个领域的技术都有一个更深入的理解和认识,自动驾驶的元年无论到底何时,确定的是就在眼前并且我们会一同见证,技术路线的比较还要依照可靠性、成本以及不同主机厂的不同需求来决定,行业内的竞争一定是促进整个行业共同发展的必要因素,各家在最终之战打响之前要做的就是不断丰富自己的产品以及满足主机厂和用户的需求,尽可能的在保证可靠性的同时降低成本。我们可以看到中国的初创科技公司在用他们的智慧与胆识与全世界的智能驾驶同行展开着激烈竞争与激辩,未来我们能否实现弯道超车,打造我们中国的硅谷?让我们拭目以待。

5. “高分”无人机比拼人工智能“大脑”,15支劲旅在上海交大一决高下

一架金色的无人机在精细入微的3D场景中自由穿行,密林、河流、峡谷构成了变幻莫测的室内外场景地形,无人机从停机坪自主起飞后,非常流畅地穿越障碍圈,对树桩上的二维码进行识别并拍照,最后安全地降落在树林后的停机坪上。

神奇的是这一切都是无人机自主实现的,没有任何人为操控的操作。这一切正是第三届全国“高分”无人飞行器智能感知技术竞赛的线上仿真比赛场景,结合人工智能和深度学习的控制感知算法,模糊了科幻未来与现实技术的界限。

经过7月中旬线上仿真赛(初赛)的激烈比拼,来自全国各地的参赛队伍中,上海交通大学、中国电子 科技 集团公司第二十研究所、长安大学、浙江大学、大连理工大学、华东理工大学、北斗西虹桥新智道枢公司、北京航空航天大学、上海工程技术大学、南昌大学、上海七宝中学等15支学生及企业队伍脱颖而出。

8月25日,参赛队伍来到上海交通大学闵行校区微电子大楼,在真实场景中进行速度与激情的比拼。决赛中的无人机都融入了各个参赛队伍自主设计的智能感知算法,从停机坪自动起飞后,机载传感器就是无人机的“千里眼”,配合拥有人工智能算法的“大脑”,对需要穿越的障碍圈标签一一进行目标检测,在尽可能短的时间内做出自主决策,调整好无人机的姿态快速穿越障碍圈,进入人造小树林后对所有抽签得到的二维码进行搜索拍照,完成以上任务后无人机将自动返回停机坪。

在无人机的一些应用场景中,例如搜索和救援或包裹递送,更快的速度将是非常有益的,因此无人机的“自主”与“竞速”两者均是比赛的重点与难点。如何做到让无人机又快又好地完成各项挑战,很大程度上依赖于各支参赛队伍自主设计的高效智能算法,尽可能用较少的信息来预测周围的环境信息从而做出决策。

第三届全国“高分”无人飞行器智能感知技术竞赛,由高分辨率对地观测系统重大专项管理办公室、教育部科学技术司、中国电子学会、上海交通大学共同组织推动。以“自主感知 竞速未来”为主题,旨在加强智能感知技术的研发、人才培养、创新孵化、技术应用、产学研合作。希望借助本次比赛,为国家培养人工智能技术创新人才,实现高校科研成果转化,进一步加深与产业界之间的联系,推进新一轮的 科技 革命和产业变革。

竞赛同时还开展相关技术创新课程建设和竞赛培训,协同推动无人飞行器智能感知领域的创新创业,拟通过三至五年努力,以及 社会 化推广和市场化运作,使竞赛成为青年人才培养、创新和创业有影响力的品牌,共同推动高分无人飞行器智能感知技术的创新发展。

上海交大电子信息与电气工程学院高分无人飞行器智能感知技术竞赛实验室致力于在无人系统和智能感知领域打造具有全球影响力和国际先进水平的专业赛事;通过竞赛合作联盟,共同构建标准化的无人飞行器智能感知技术创新竞赛场景、测试流程规范和统一的竞赛服务平台。

作者:卢思语 袁婧摄影摄像:袁婧

6. 戴姆勒金融机构在中国的分公司在什么地方

摘要 (一)招聘岗位

7. 蒋京芳:禾多科技如何探索自动驾驶全场景落地| 汽车产经

2021年12月16日,由中国汽车工程学会和中国智能网联汽车产业联盟联合主办的2021第三届国际汽车智能共享出行大会在广州花都开幕。禾多科技合伙人、高级副总裁蒋京芳在会上发表主题演讲,分享了禾多科技在自动驾驶全场景落地方面的探索。

禾多科技由倪凯博士创立于2017年,其使命是通过自动驾驶技术,赋能和升级人们的移动出行,专注于行车、泊车两个方面的自动驾驶解决方案探索。目前,其领航辅助功能以及可以实现高速公路的自动跟车,主动变道,以及实现上下匝道切换,明年将在广汽实现量产。而自动泊车功能则可以自主学习,实现记忆泊车。

在实现自动驾驶功能的路上,如何做到安全好用,蒋京芳也分享了禾多科技的经验,会通过不断的验证,场景与数据的回传,持续对模型加以训练,优化算法,再通过远程刷新的方式反馈给车辆,实现闭环。

以下为演讲实录:

女士们,先生们,大家下午好,首先感谢主办方的邀请,今天有机会跟大家分享禾多在自动驾驶全场景落地方面的探索,首先请允许我简单介绍一下禾多,禾多的名字很好记,就是移动的移,禾多是2017年由倪凯博士创立的,所以是一个年轻的科技公司,从字面上不难解读到禾多的使命,就是通过自动驾驶技术,赋能和升级人们的移动出行。

禾多创立四年以来,先后经历过我们的投资,融资,两轮都发生在今年,今年的4月份第一轮和10月份新一论,特别值得一提的就是10月份有幸得到了广汽资本的战略投资,广汽集团成为禾多的重要股东。

禾多在过去的四年中,最近两年取得飞速发展,我们成立了两个闭环300多人的团队,四大认证体系,以及在五个地区都有相关的办事处,两个闭环怎么说呢,就是在北京,武汉的团队,主要专注于算法,专注于平台的开发以及创新,由倪凯博士亲自负责,位于苏州,广州,以及上海的团队,我们主要打造的是量产、交付。所以我们在苏州、上海以及广州更多的是工程化的人员。

我们除了有地图资质以外,也申请甲级的资质,我们获得了16949等质量体系认证。

介绍了禾多公司,接下来谈谈禾多的产品,因为禾多在整个的四年中还是非常专注的,不忘初心,致力于本地数据的自动驾驶解决方案,专注于两个方案,一个行车,一个泊车,当然了,再细分的话,又分为高速公路的自动驾驶,低速的泊车功能,这里有几个视频,跟大家简单分享一下我们目前的开发状态,这个是我们的智能领航辅助功能,主要结合多个摄像头,前视,侧视,毫米波雷达,前向毫米波雷达,侧向毫米波雷达,同时结合导航的信息,针对这些传感器的信息进行融合,规划以及控制,这里可以看到,可以实现高速公路的自动跟车,主动变道,以及实现上下匝道切换,在弯道,隧道以及施工场景的话,也是基于传感信息和地图信息,可以很好地应对。

这个功能如果再往下延伸的话,就是城区自动驾驶功能,这还需要更多的传感器,比如说激光雷达,通过对红绿灯的识别可以实现无保护左转等等,刚才讲到的高速公路的自动驾驶,在明年在广汽量产,明年把程序功能量产,这是自动驾驶的功能,叫做HOLOMATIC,第一遍车辆需要自主学习,然后就可以泊入应泊的地方,上班的时候可以到你住的地方来接你去上班,这就是记忆泊车,再往上的话,就是代客泊车,人直接下车,这辆车自动找它的车位停下来,等你购物之后,这辆车到你的身边,可以通过手机定位,接你回家。所以这些功能的话,应该对消费者都是非常有用的。

同样,在自动泊车功能方面,记忆泊车会首发在明年10月份左右量产,自动泊车也会投放量产。刚才说到相关的功能,是靠多种传感器的感知,然后通过域控制器,计算平台进行处理,接下来进行规划和控制,当然所有的这些技术的最基础的技术,就是它的感知,就像人的眼睛,看不到做什么都没有用。

禾多一直在提升我们的感知能力,包括我们与清华大学有一个联合的实验室合作,我们分成两大类,就是静态感知和动态感知,静态感知比如说对车道线的感知,对Free Space的感知,灯杆,红绿灯,以及我在停车场的车位的感知,动态感知包括对行人,车辆,两轮车等等的激光雷达,ODD区域的感知,以及相关的融合和预测。

那么我看到很多的Demo,在公共机上做的,我们一直就是稳扎稳打,把项目投放量产,我们都是基于嵌入式的平台,我们在华为的MDC610部署了神经网络,同时经过后处理和融合,就是全栈感知算法,可以从这张图看到,前面是基于前视的输出,这是侧左和侧右的输出,这是我们对障碍物的检测,2D、3D检测的结果,后面的这些激光雷达相比的话,还是非常的稳定的,非常精准的。

同样算法,我们也部署在TI的TDA4上,对车辆,对车道线,对灯杆,对路牌的感知,除了需要有神经网络的模型之外,还要对这个模型裁剪和优化,这方面我们做的效率还是非常不错的。

基于激光雷达我们把量产的激光雷达部署在车上,然后基于公开的数据做了后处理,其实这块的话,主要是可以看到对前面的比如说障碍物,或者是车辆以及行人的一些探测和追踪,也是比较稳定的,激光雷达的算法还是持续优化当中。

同样在低速的泊车环境下,需要用到鱼眼摄像头,这也是基于环视相机的算法,已经开发完成,而且部署在TI的TDA4的嵌入式平台上,进行了相关的训练,所以我刚才讲到的,接下来要量产的行车,泊车的功能都是基于嵌入式的平台,要么是MDC要么是TI的TDA4。刚才说到泊车的功能需要对你的车辆在停车场进行定位,禾多的定位技术也是相当不错的,基于前视摄像头,探测到车辆,探测到行人,在停车场的地图进行实时更新,使得我们刚才讲到的泊车功能有比较好的表现。

大家可能注意到了,应该说从去年开始,之前不会谈到域控制器,都是一个雷达一个摄像头,或者五个雷达一个摄像头,或者超声波雷达和环视摄像头这样的传感器,但是从去年开始就是各种各样的域控制器,我们有大算力的,华为的MDC,有英伟达的,地平线的J5,有高通,中低算力的TDAA,有J4以及等等其它的芯片,所以作为禾多的话,作为软件的Tier1,我们的目标就在不同的域控制器,部署功能的算法,所以我们目前的话也在不停地加强不同平台的适配能力。

有一点可能很多人不知道,现在很多车上都有自动驾驶功能,但是消费者都觉得不好用,我们觉得在主机厂,智能座舱和自动驾驶是两个功能,不知道怎么把这个功能在智能座舱上做很好的演示,做智能座舱的人不懂自动驾驶,我们的目标就是打通自动驾驶,智能座舱,我们的一个叫HOLOHMI,不是你主动激活它,而是卡片式的弹出,也更加的友好。比如说开车的时候,有座椅A座椅B,自动驾驶也可以这样做,通过自动驾驶的模型,可以分为自动驾驶A,B,本人的模型,或者是明星模型,或者是赛车手的模型,所以我们也开发了一个CID1,就是把行车,泊车,城区的自动驾驶的功能把人机交互,做成统一,合一,把做重要的信息高光出来,比如是传感器的信息,什么时候要变道,变道的原因也展示出来,对于超视距的信息,前方的隧道,也通过人机交互的方式,给用户很好的体验,帮助用户对自动驾驶的功能建立更高的信心,这也是禾多提供的技术支持之一。

刚才讲到,自动驾驶功能实现,应该来说,我们需要一点时间就可以实现了,但是怎么做到安全好用的话,就是我们常说的效应,功能比如说经过一段时间的验证,可以释放,但是大批量的验证,需要投放市场之后,通过影子模式,把相关的场景,传回到系统中,同时比如说我有自动驾驶数据,我搭建了场景库,再对现在的模型进行训练,优化我的算法,最后通过远程刷新的方式刷到我们的车上,所以整个闭环的话,需要软件公司与主机场的深度的合作,在右边的话,需要更多的合作伙伴的合作,通过众包的形式对地图进行实时更新,需要更多搭载自动驾驶的车辆,并且打通车与车之间,还有跟云端的交互,时间关系我就不一一赘述了。

我有两个比较简单的案例,自动驾驶的功能做得好与不好,就是对机械场景的节约能力强与不强,比如说在后台发现一辆车总是在压线行驶,后来发现这不是一个车道线,而是一个电线杆的阴影,右边也是的,发现这个车一直是有车道线,但实际上是车在地面上的一个箭头,一个标识,像这样的场景的话,我们都必须要靠后台的监控,发现这些场景之后,优化我们的算法,最终我们就把这种错误减少。

大家都说自动驾驶现在很火,也很卷,所以禾多从建立到现在都秉承着开放合作共赢的心态,因为我们需要传感器平台的支持,需要计算平台的支持,包括芯片的支持,同时在上面部署功能,云端的大数据功能的支持,合作伙伴除了主机厂,有域控制器的公司,芯片的公司,传感器的公司。包括我们在一些项目上,也与我们的友商一起合作,共同推进自动驾驶。

总结一下,禾多的主要专注于行泊一体的全场景的解决方案,我们的目标是适配于多域控制器,除了软件,我们以软件的开发为主,目前也在开发相关的硬件平台,我们更需要做的就是不断提升我们的核心能力,支持主机厂,把更多更好用的功能投放市场,以及与行业的合作伙伴共建生态,我也非常期待与在座的各位大家一起交流,是否有合作的潜力。所以再次感谢主办方的邀请,希望我们共同推动自动驾驶的发展,让中国的自动驾驶领跑全球,谢谢大家!

8. 核心算法是什么它对机器人有多重要

核心算法是什么?

机器人的算法大方向可以分为感知算法与控制算法,感知算法一般是环境感知、路径规划,而控制算法一般分为决策算法、运动控制算法。环境感知算法获取环境各种数据,通常指以机器人的视觉所见的图像识别等 。

核心算法对机器人的重要性

虽然对于工业机器人来说,要想实现高速下稳定精确的运动轨迹,精密的配件必不可少,如电机,伺服系统,还有非常重要的减速机等等。但是这些都只是硬件的需求,仅仅只有好的硬件,没有相应的核心算法,也就是缺少了控制硬件的大脑,那么工业机器人使用再好的硬件,也只能完成一些精确度要求不高的简单工作,而且还容易出问题。而这就是中国机器人制造商面临的最大问题。

作为工业级产品,衡量机器人优劣主要有两个标准:稳定性和精确性。核心控制器是影响稳定性的关键部件,有着工业机器人“大脑”之称。而软件相当于语言,把“大脑”的想法传递出去。 要讲好这门“语言”,就需要底层核心算法。

好的算法,几千行就能让机器人稳定运行不出故障;差的算法,几万行也达不到人家的水准。不掌握核心算法,生产精度需求不高的产品还勉强可以,但倘若应用到航天航空、军工等高端领域,就只能依赖进口工业机器人了。

对于机器人来说,每一个动作都需要核心控制器、伺服驱动器和伺服电机协同动作,而现在的机器人通常拥用多个服务器,因此多台伺服系统更需要核心算法提前进行计算。只有通过底层算法,国外核心控制器才可以通过伺服系统的电流环直接操作电机,实现高动态多轴非线性条件下的精密控制,同时还能满足极短响应延时的需求。这也是为何如今在中国的机器人市场上,6轴以上的高端机器人几乎被国外的机器人公司垄断。

9. 小米自动驾驶目标2024年进入第一阵营,他们累积了哪些技术优势

首先小米自动驾驶能够加速行驶。汽车产业链企业涵盖智能驾驶、车载芯片、动力电池等多个领域。关于汽车的内容只占用了很短的一部分时间。小米放出了一段自动驾驶路测的视频,已经向外界宣布,自动驾驶将是小米造车的关键战略。之所以选择自动驾驶作为突破点,不仅是因为自动驾驶技术的高密度,还因为它与安全性高度相关,这也是智能电动汽车取胜的关键。目标看似激进,但实际上是小米造车时必须面对的考验。

要知道的是由于需求疲软可能会持续很长一段时间,智能手机供应链的紧张局势将加剧,市场将面临极具挑战性的商业环境。因此,在未来几个季度,制造商在与供应链和渠道合作伙伴合作时应寻求提高透明度和信任度。尽管各大厂商即将推出新品并有多个假期促销,但地缘政治问题、消费者信心下降、高通胀等因素将继续影响大盘未来的市场表现。

10. Transformer为什么适合自动驾驶毫末智行CEO顾维灏亲自揭秘

作为在自然语言处理(NLP)领域应用广泛的深度学习模型,Transformer 近两年强势来袭,不仅横扫 NLP 领域,而且在 CV 上也锋芒毕露。江湖传言,Transformer 架构就像是绝世高手的武林秘籍,得秘籍者得天下!

毫末智行作为国内首先大规模使用 Vision Transformer 技术的公司,CEO顾维灏第一时间在内部推动了此项技术的落地,力求在智能驾驶的赛道上能抢占先机。

Transformer 的杀手锏

据顾维灏介绍,最初的 Transformer 来自于 NLP,它的出现将 NLP 领域向前推动了一大步。其中的关键要素就是Transformer 具备:超强的序列建模能力、全局信息感知能力。

得益于这两点优势,Transformer 几乎取代了基于 RNN 的算法在 NLP 中的地位,也被引入到 CV 领域。但值得深入思考的是,Transformer 如何利用优势在视觉领域发挥作用呢?

要知道 NLP 中处理的是语句,句子是天然的序列数据,所以很容易理解 Transformer 是如何处理它们的。可在视觉领域,“序列”的概念并不是显式的,因此可以从空间和时间两个维度去理解。

首先是空间维度,静态图像从空间上可以被划分成多个区域(block),一种典型的划分方式就是按照高和宽进行划分,例如,一幅图像的高和宽分别是 H 和 W,如果要求 block 的长宽均为 M,那么最终会得到 (H/M W/M) 个 block。

其实可以把 block 看成是 NLP 句子中的词,这里的只不过是“视觉词”(visual words)。这样一来,就可以将一幅图像转化成一个按照空间顺序排列的 block 集合,一方面这样的视角转换保证了不丢失视觉信息,另一方面让应用 Transformer 变得非常容易。

另一种则是通过时间维度去理解视觉中的序列,即视频。视频是由静态的图像帧组成,把每一帧看成是一个基本单元(同样可以类别成句子中的词),那么就可以很自然地按照时间序列把一个片段组织起来,从而应用 Transformer 进行后续的特征提取。

图引自论文《An Image is Worth 16x16 Words Transformer for Image Recognition at scale”》

除了强大的序列建模能力,Transformer 的主要模块 Multi-Head Self-Attention 可以同时感知到输入序列的全局信息,这是 Transformer 相比于 CNN 的巨大优势。在 CNN 中,信息只能从局部开始,随着层数的增加,能够被感知到的区域逐步增大。然而 Transformer 从输入开始,每一层结构都可以看到所有的信息,并且建立基本单元之间的关联,也意味着Transformer 能够处理更加复杂的问题。

Transformer 的优化升级

目前处于 Transformer 在视觉中应用的早期,大家使用 Transformer 的方式主要参考了其在 NLP 中的应用经验。但是,如果直接将 Transformer 应用到视觉上,也会存在一些难题。

其一,核心模块多头注意力机制(Multi-Head Self-Attention )的计算量与 block 的个数成正比,因此在视觉中 block 数量要远多于 NLP 中句子的词数,这就造成了计算量的陡增。

其二,Transformer 擅长全局关系的学习,对于局部细节信息关注有限,然而视觉中很多任务需要足够丰富的细节信息做判断,比如语义分割。

针对上述的问题, 毫末智行人工智能研发团队对核心模块多头注意力机制(Multi-Head Self-Attention)进行了优化,同时采用了金字塔的结构增强 Transformer 对于细节信息的感知。

图引自论文《LeViT a Vision Transformer in ConvNet Clothing for Faster Inference》

Transformer 的未来演化

尽管我们在上面提到了 Transformer 的一些不尽如意之处,但随着研究的深入,大家逐步发现在同一结构中结合 CNN 和 Transformer 各自的优势,即可做到相互的扬长避短。在未来,把CNN 和 Transformer 进行整合将成为 Transformer 的演化路径之一。

具体来说,主干网使用 CNN,Head 使用 Transformer 结构,可以有效提升网络的速度(相比纯使用 Transformer);相反,主干网使用 Transformer 结构,Head 使用 CNN 的结构,可以有效提升结果精度(相比于纯使用 CNN)。

其次,核心模块 Multi-Head Self-Attention 内部也可以通过降低子空间的维度、对输入 block 进行分组等手段降低其计算量且不至于损失过多精度。

最后,通过控制 block 的粒度,使 Transformer 能够感知到不同尺度的信息,从而达到局部和全局的信息融合。

毫末智行团队已经将上述的改进逐步添加到了毫末智行自己的模型中。未来,我们将不断在提升速度的同时保证出色的精度,让 Transformer 在实际的业务中生根发芽。

图引自论文《End to End Object Detection with Transformers》

基于 Transformer 的感知算法表现出了极强的泛化性和鲁棒性,也因此顾维灏坚定认为,Transformer 的优秀特性极有可能在智能驾驶的场景中发挥出传统 CNN 算法所不能企及的感知能力。

目前, 毫末智行的人工智能团队正在逐步将基于 Transformer 的感知算法应用到实际的道路感知问题,例如车道线检测、障碍物检测、可行驶区域分割、红绿灯检测&识别、道路交通标志检测、点云检测&分割等。 未来,相关 Transformer 感知算法更加和稳定成熟后,逐步替换基于 CNN 的感知算法。

Transformer 技术的进一步应用,不仅为毫末智行在各条智能驾驶产品线上的视觉算法落地带来成倍的效率提升,还能够让各项视觉性能指标快速达到业内领先水平。

阅读全文

与感知算法招聘北京相关的资料

热点内容
web和php有什么区别 浏览:120
加密的电梯卡怎么复制苹果手机 浏览:218
warez压缩 浏览:137
黑马程序员培训机构官网天津 浏览:904
mainjavasrc 浏览:58
如何买服务器挖矿 浏览:292
php批量上传文件夹 浏览:560
安卓固件怎么更新 浏览:169
单片机代码例程网站 浏览:923
UG编程如何多平面轮廓2D倒角 浏览:438
视频压缩渐变纹 浏览:852
什么app能看财经新闻 浏览:40
数学奇迹神奇运算法 浏览:360
大厂的程序员的水平如何 浏览:701
遗传算法入门经典书籍 浏览:879
源码炮台脚本 浏览:621
在位编辑命令 浏览:348
曲式分析基础教程pdf 浏览:15
php生成静态html页面 浏览:965
怎么分割pdf 浏览:813