近日,特斯拉AI(人工智能)高级总监Andrej Karpathy在CVPR2021(计算机视觉顶级峰会)上公布了特斯拉全新自研超级计算机——DojoPrototype(原型机),目标是超越日本fukagu(富岳),成为世界第一超算。
目前,特斯拉已开始向纯视觉自动驾驶路线转变,甚至从上月开始,部分在北美生产的特斯拉车型,已停止安装雷达传感器,而全新的FSD Beta V9.0(完全自动驾驶测试版)也将在近期更新,而这一切的背后,都离不开Dojo。
什么是Dojo?
Dojo来源于日语,意思是“道场”,翻译成中文应该叫做训练场。顾名思义,这个训练场就是专门用来训练特斯拉汽车的,来自全球超100万辆特斯拉的数据将汇聚于此,通过Dojo训练深度神经网络,以此来帮助特斯拉的Autopilot不断进化,最终实现以纯视觉为基础的完全自动驾驶(FSD)。
顶级人工智能
作为特斯拉实现完全自动驾驶(FSD)之路上必不可少的一环,Dojo将肩负起全球特斯拉汽车视觉神经网络的训练任务。就像AlphaGo专攻围棋领域一样,Dojo则被设计为专攻自动驾驶领域,通过深度学习和分析海量的特斯拉车队数据,Dojo可以自动模拟开车、自动寻找问题最优解,从而完成自我进化。你可以理解为,这台电脑最初不会开车,但在学习人类开车和模拟开车1000年后(影子模式),他已经可以在人类世界开车了,随着经验的积累,驾驶技术还越来越好了。
为何要使用纯视觉路线?
目前,全球自动驾驶领域主要分为两派,即纯视觉路线与高精地图+雷达路线。后者认为,多传感器与摄像头可以优势互补,更可依靠高精度地图与多激光雷达来完成全自动驾驶。而作为纯视觉路线领头者的特斯拉,则坚定的认为,纯视觉是唯一正确的出路,特斯拉老板Elon musk发推说:“当雷达和摄像头不一致时,你相信哪一个?视觉的精度要高得多,所以比多传感器融合更加可靠。”
特斯拉坚信Dojo超级计算机最终将帮助车辆获得完全自动驾驶能力。
人脑VS硅脑
Andrej Karpathy在演讲中表示,视觉自动驾驶与人类驾驶员的开车方式相似,但最重要的是,计算机更加的可靠。为此,他举了几个例子,首先,人类的反应速度太慢,即使是优秀的驾驶员也要250ms(0.25秒)的反应速度,很多人甚至超过460ms(0.46秒),而电脑的反应速度全部低于100ms(0.1秒);其次,人类驾驶员经常在开车时玩手机,而电脑则会全神贯注,不会一会看看微信,一会刷刷抖音;再次,人类驾驶员的视野范围太窄,并道时如果不回头,则完全看不到位于后视镜盲区的来车,而电脑拥有360度视野……
触发条件
特斯拉车辆并不会将每分每秒的视频数据都发送给Dojo,也不会随机发送视频数据,更多的情况是发送一个“案例”(10秒)。比如在Autopilot驾驶时,驾驶员突然介入,改为人工驾驶,Dojo就会分析这个视频案例,试图找出驾驶员中断Autopilot的原因,又或者司机在高速路上突然刹车、堵车时有人插队、雷达与摄像头判断结果不一致、车辆发生事故/险些发生事故等等,将这些具体的案例,交给Dojo来分析,通过不断的学习和改进,Dojo将帮助Autopilot持续成长。
为了训练系统,特斯拉的超级计算机从特斯拉汽车上的八个摄像头收集视频,每个摄像头以每秒 36 帧的速度运行。
纠错功能
通过海量的案例,Dojo将帮助驾驶员更安全的驾驶车辆,包括利用视觉计算机来纠正人类错误和不安全的驾驶行为。比如,信号灯警告,系统识别到远处的红灯或黄灯,如驾驶员不减速会发出警告;紧急制动场景,系统判断车辆在障碍物前减速度不足或没有减速,会自动帮助车辆制动;躲避障碍,系统侦测到周围有突然出现的动物、行人、车辆、异物等,会自动控制方向盘来进行躲避。
另外,特斯拉还发明了一项“防止踏板误用”的功能。在计算机视觉识别到行人,且系统判断无法躲避时,即使司机将油门踩到底,车辆也无法加速,这项功能可能会拯救无辜者的生命。(包括恶意报复社会行为)
完全自动驾驶
Andrej Karpathy说,“毫米波雷达或激光雷达方案有着无法解决的弊端。首先雷达精度、反应速度都不如纯视觉方案,而高精地图则严重限制了可使用自动驾驶的范围。这意味着他们除了需要非常详细的使用地点地图外,还需要所有车道及其连接方式、实时交通灯等额外信息。但特斯拉的纯视觉方式不同,特斯拉的自动驾驶依靠8个摄像头和背后的Dojo超算,原则上我们可以在地球上任何地方(的道路上)使用。”
面临的挑战
虽然纯视觉方案比在世界各地收集、构建和维护高清地图更具可扩展性,但它依然面临挑战。Karpathy 说,测试这项技术的工程师发现,他们可以在人少的地方实现完全自动驾驶,零干预,但在人流、自行车、电动车较密集的复杂环境下,目前还不敢保证万无一失,这不但需要更多的时间来让dojo学习,还需要比现阶段更加强大的dojo超算。
4D视图
Dojo超算的人工智能还会自动标记物体,通过它可以自动标记车辆在特斯拉相机上拍摄的数百万视频中的道路危险和其他物体。之前的大型 AI 数据集通常需要大量手动标记,这非常耗时,尤其是在尝试获得使神经网络上的监督学习系统良好运行所需的那种标记清晰的数据集时。这些数据包括信号灯、车道线、动物、行人、天气、马路牙子、指示牌、路灯、桩桶、可行车区域、不可行车区域等等,通过8个摄像完成360度环影,以鸟瞰的方式来展示一个4D视图(三维空间+时间戳)。
已经取得的成果
解决了之前特斯拉车主反馈较多的一些问题,比如
桥下阴影造成的无故刹车;
高速跟车时,自动刹车踩得太死;
遇到路边占用部分车道停放车辆的规避问题。
目标世界第一
现在的Dojo虽然是Prototype(原型机),但已是特斯拉的第三代超算,Andrej Karpathy表示:“按照算力来看,Dojo原型机目前能在全球超算排名中位列第五。这个位置目前由英伟达超算Selene占据,这个集群具有着与Dojo相似的架构,但GPU数量没有我们多,Selene有4480个,Dojo有5760个。”而特斯拉老板Elon Musk则表示,最终版的Dojo将战胜日本Fukagu(富岳)超算,从而成为世界排名第一的超级计算机。
结语
目前,特斯拉已拥有1百万个10秒视频数据、60亿个标记物体,总计达1.5petabytes的数据集,这些数据会留在Dojo道场刻苦修炼,而Dojo超算就像扬起的巨帆,将带着特斯拉这艘大船,乘风破浪!