“70多年前,宝丽来相机拍摄出第一张即时照片,是人类第一次以逼真的二维图像快速捕捉三维世界,具有划时代的意义。而今天,我们需要做一件相反的事情,用尽可能少的相片重新构筑三维世界。”孟繁岐上台后,首先复读了一遍当初跟黄仁勋展示时的说辞。
这个例子和对比实在妙极,话还没说完,底下就已经有几位大佬开始了窃窃私语。
“这就是那个谁是吧。”周志华教授思索了一下,对着旁边的人询问道:“听说鄂院士的关门弟子就是跟他跑了?”
百闻不如一见,周教授还是第一次见到孟繁岐真人。
一旁,鄂维南听了这话表情微妙,跟别人跑了...这话怎么听着怪怪的。
不过都说是关门弟子,这门的确没关上:“你们别光顾着笑,想跟着人家跑也不是谁都有机会的,换了你们的徒弟,就是想跟他跑,人家也未必肯要呢!”
鄂院士起初对这件事情感觉有些不好接受,毕竟关门弟子是有些特殊的学生,跑到别的地方交换,总有点显得自己做得不够到位。
但这都是自己心里的事情,对外当然得硬气一点。很快,他就调整了策略,转而采用了如今的这套策略,【你们的学生想去还去不了呢】!
你别说,心里一下就好受多了。
周志华听完大笑,也不争辩什么。
此时此刻,四个视界公司的员工突然迅速跑上台去,每个人均对着孟繁岐拍摄了两张照片,获取了孟繁岐演讲状态下的八个不同的视角的相片。
“我们先来看一下,这八张图片本身的效果。”孟繁岐想要在演讲的时候,现场直接演示神经辐射场的重建效果,而非是拿已经准备好的素材来进行展示。
这样的效果显然会震撼许多。
而这项操作私下里也已经进行了多次的排练,几人相对于孟繁岐的距离和角度,都是经过了一番计算和设计的。
他们的设备也经过了对齐,拍摄完成之后,很快就上传到了服务器上。
孟繁岐将这八张图片进行了逐一的展示,这些照片本身平平无奇。
随后开始了训练和渲染的过程。
“他想干什么?直接通过这几张图片就重现三维世界的真实情景吗?啊?直接现拍吗?不用进行任何分析,调整参数什么的?”此时,已经有人意识到了问题的严重性。
虽然孟繁岐刚刚已经说了,要从尽量少的照片中取重建三维世界...但大家所想的少量图片可不是个位数的几张图片啊!
你是不是对少量图片有什么误解??现场马上拍几张,直接就能够开始重建吗??
这也太离谱了吧。
众人此时还不知道的是,八张,已经是孟繁岐相当保守的策略了,如果追求极限的话,四五张图片,甚至三张也未尝不可。
“这是应该算是人工智能范畴的事情吗?怎么感觉更像是属于图形学的内容?”一旁的邱教授觉得这个过程听起来似乎AI的含量比较小,主要还是图形学的经典任务。
他还不知道等待他的将会是什么。
“神经辐射场是一种基于人工神经网络的3d重建方法。它可以通过图像数据来重建高维度的物体场景,提供更加真实的感知和环境理解能力。”孟繁岐的下一句话就解答了他的疑惑。
此次为了展示的效果更加震撼,孟繁岐采用了非常大量的计算设备对这个单一场景进行并行运算。
因此就在说话的同时,不足一分钟的时间,三维世界就已经重建完成,并实时在大屏幕上展示了出来。
在算法结果的弹窗当中,孟繁岐非常随意地将算法重构出的自己三百六十度地转着圈,各个角度看上去,都与真实无异。
真的实现了,从平面到立体的直接转换。
随着结果的展示,场中躁动了起来,人群中惊呼的声音此起彼伏。
这个成果给人的感觉,不亚于相机第一次出现的那种震撼。
【从二维重建三维】,听起来毕竟还是太过复杂了,远没有图片到三维立体模型这个直观的过程来得震撼。
尤其是对场中不大了解这方面技术的人来说,这简直就是魔术。
从八个视角,就生成了三百六十度无死角的三维新世界。
随着孟繁岐的继续展示,现场逐渐开始喧哗,交头接耳起来。
看得懂的学界大佬们一脸惊叹,或面面相觑,或在猜测其中的可能和原理,他们深知其中的困难与含金量。
看不懂的那批人,虽然完全搞不明白,却一点也不耽误他们鼓掌。一个个都狠狠地拍起手来,掌声雷动。
气氛和场合都到这了,这能是什么寻常的技术吗?
鼓掌!都给我鼓掌!不鼓掌岂不是显得咱们不懂?
那多跌份啊!
台下大佬们几十上百,听懂的估计不足一成,但一个个都在热烈地拍手,表情若有所思,频频点头,很像那么回事。
“传统的计算机图形学允许我们生成高质量的可控场景图像,但场景的所有物理参数,例如相机参数、照度和物体的材料都需要作为输入提供。”
“但我们现在拥有了全新的神经辐射场渲染,它让一切都变得不同了。很显然,这样全新的从平面图形重构三维世界的全新技术有着诸多的应用场景。由于本次时间有限,我在报告上,主要从自动驾驶方面进行讨论。其他方向的应用呢,大家会后有空的话,可以前往视界公司的展台,那边有非常多应用方向的展示。”
虽然带着任务而来,要替官方做一些宣传,但孟繁岐仍旧没有忘记给自己的公司打打广告。
“之所以选择神经辐射场在自动驾驶领域的应用作为这次汇报的主题,一是因为两者的相性极佳,这种新的感知方式在自动驾驶领域具有极其广阔的前景。另一方面,就像汪秘书所说的,在今后的发展当中,万物互联、物联网的概念也会更加迅速的发展...”
“...”
“...可以说,神经辐射场提供了一种新的方式来帮助车辆去理解和建模环境。”
“在传统的方法当中,比如激光雷达(LidAR)和立体视觉虽然可以提供一定的深度信息,但是一旦情况变得复杂,它们就很有可能无法做到提供足够详细的信息以供算法系统进行相应的操作判断。”
孟繁岐与马斯克撞坏特斯拉电车,很大程度上就是因为马斯克采用的传统算法,错误地估计了大面积白色的形状和成分,如果能够正确判断侧翻白色大货车的纹理,算法系统是应当正常制动,停下车辆的。
而另一个关键词,【连续】则又是神经辐射场相比原本图像识别技术的一大优势了。
“神经辐射场的生成模型可以用于预测未来的场景变化。由于神经辐射场模型是连续的,因此我们可以通过插值和外推来预测新的视点或者动态物体的未来状态。这对于自动驾驶非常重要,因为车辆需要对未来的环境变化做出预测,以便提前做出决策。”
孟繁岐在此处,展示了一些与特斯拉对接后的真实街景测试,相比原本的传统方法,只能识别平面图像内某些区域到底是什么。
新的辐射场办法已经协助实现了相当范围内行车路况的三维重构,就像是网格于平面一样,用立体方块来表示三维世界空间的占用情况。
并且用不同的颜色可以标注空间内物体的移动情况,是静止不动,还是正在移动,乃至于速度大约是多少,都可以做到估算。
这对于现阶段的自动驾驶图像办法来说,几乎是无法想象的,来参会的那几个搞自动驾驶方法的初创公司高层,坐在下面人都看傻了,一个个面如死灰。
麻了,彻底麻掉了。
这都不是一个维度的事情了,你这么搞,我们还做个p啊!