电脑显示器拍创意照片好吗(对着显示器拍照)

时间: 2023-09-19 本站作者

上周，华强智造在上海卓美亚喜玛拉雅酒店举办了“IC China2016虚拟现实(AR/VR)应用与发展研讨会”。会议现场，上海图漾信息科技有限公司的CEO费浙平先生发表了《计算视觉连接虚拟和现实》的演讲，赢得一片掌声。

在此，小编炮整理了费浙平先生演讲的部分内容，带你走近计算视觉和三维视觉。

——————

今天我准备从视觉、软件、算法以及内容的角度，讲一些比较轻松的话题。

之前的嘉宾也提到，VR的精髓是从2D到3D的沉浸式用户体验，这跟我们目前在做的计算视觉是非常紧密相关的。事实上，尽管业内人士谁都知道计算视觉、三维视觉非常重要，但全世界都还做得不好，目前整个行业最领先的水平也做得马马虎虎，离普通消费者的预期差距仍然比较大。

过去两年多时间里，我们一直在计算视觉（CV）上做了很多工作，但现阶段我们的产品和技术，其实和VR结合得并不紧密。所以今天我要讲的东西可能会虚一点。即使我们很明确这个行业我们在做什么、现阶段是什么样子、我们想要解决什么问题、想要带给AR/VR什么样的用户体验，但很可惜目前还没有做好。

不过，我相信（计算视觉）这个点仍是非常值得关注的，因为如果未来这个问题没有解决，那么AR/VR不过就是一种新型的显示器而已。

数字化内容的产生

从内容上，所有内容的产生或者获取不外乎两种渠道。

第一种是从物理世界里获取，通过传感器、设备把物理世界数字化。现在的DV、电视机、手机、PC的显示器，内容的数字化其实很简单，说穿了就是拍照和拍视频。

第二种：在PC尤其是游戏里面，还有一种内容产生方法：CG（computer cenerated）。比如大量的三维游戏，比如科幻电影里的人物、场景，其实都是电脑+美工师+程序员产生的出来的。

通过这两种方式产生的内容，最终将通过某种设备呈现给人。我认为，从物理世界拍摄而来的内容，加上CG产生的内容的结合，在将来的任何AR、VR、MR等设备里都是非常重要的。

现在我们来关注一下，从物理世界怎么样通过传感器和设备来产生内容。第一种是比较常见的：平面格式内容，就比如用相机、DV来拍照片、视频等等。

但今天我想着重讲另外一种：三维格式内容。三维化的数字内容是目前这个阶段经常被忽视、用处也不太大的一种内容表达形式。但是在AR/VR里，三维格式的内容是很重要的一点，这是将来AR/VR普及后一种关键的内容方式。

目前，AR/VR行业里面比较重要和主流的有两种平面格式内容：全景视频和立体视频。但不管是照片、视频、全景视频或者立体视频，本质上都是两维的平面数据。因为所有的这些内容，其数据本质都是一个个像素，每个像素存着的数据都是RGB（red、green、blue，红绿蓝三基色），每个像素点都是RGB的分量,它的内容本质上不包含任何空间几何信息。

三维信息数据是什么

什么样的内容才是三维数据？一定是在每个点上面，除了RGB数据，还要包含空间的位置信息，也就是还要有XYZ（三维坐标轴）信息。只有RGB和XYZ同时呈现，才是一种真正的、完整意义上的三维。

人的眼睛看外面的世界，通过视觉渠道，是能够同时获得RGB和XYZ信息的。比如大家在看我时，能够看到衣服、头发等颜色信息，也有对我的身高、体型、我们之间的距离等空间几何感。当然人的视觉系统有个缺陷，对空间几何信息的量化比较差，比如你可以看出我们之间的距离是三米左右，但没办法看出是3.1米还是3.45米这样精确的信息。

现阶段所有的照片、视频把RGB信息采集回来后，是既服务于人，也服务于机器。比如机器里的人脸识别算法，处理的基础都是RGB信息；而人眼对RGB信息比较敏感，直接看RGB信息的视觉效果也是可以的。

至于XYZ信息，就有个特点：它主要是服务于机器的。因为每个点的XYZ数据是没办法直接给人眼识别的，视网膜还是只能感觉到量化的颜色信息。

举个例子，这是拍摄电脑包在某个咖啡馆里的一个场景。我把每个点的RGB信息量化出来，大家一看就知道这是个照片；但如果我把每个点的XYZ想办法显示出来，其实就很难。这个图我表达的意思是，XYZ信息怎样让人也有这种感觉？通常是XY先不管，把Z这个距离信息用着色方案先显示出来，但这只是给人一种感觉。

XYZ三维视觉信息的重要性

所以，XYZ数据直接丢给人眼是没有太大价值的，它主要是服务于机器。机器如果要做三维视觉，一定要有显性的RGB和XYZ数据。人的距离感可以自动脑补的，而机器拍摄只能拍摄到RGB信息，目前没有什么单一传感器可以把XYZ量化出来。机器如果有了RGB和XYZ信息，就可以发挥很强的视觉处理能力，比如说做三维建模，视觉效果增强处理等等。

机器拿到XYZ数据之后，可以真正把三维视觉的能力发挥出来，处理完了，再以某种方式输出到设备给人的眼睛和大脑。这时候，人就能够被AR/VR设备带到一个非常有沉浸感的虚拟或者混合世界里面去。

举例子说，这是一个视觉错感照片。

如果我此时问大家一个问题：这张图片里，是人离我近还是圆形物体离我近？如果是人来回答，那非常简单，我们都知道这个圆形物体是非常远的，而人不管是十公里还是二十公里，总是比月亮离我们近的。但是这样回答有个重要的前提，就是人其实已经把月亮的特征识别出来了，我们知道它是月亮。

如果把这个问题丢给机器，就会变得困难，因为机器只能识别出这里面有一个圆形物体和一个人形。进一步说，现在的人工智能或许能用最厉害的图像识别能力去识别出月亮，然后判断距离，回答我说人离我近。

但这已经是目前最先进的算法了。假如我们把问题变难，把月亮的特征抹去，只剩一个圆形，这时候再问：是人离我近还是圆形物体离我近？这下子人和计算机都没法回答了。所以如果要让机器处理这个问题，就要把每个点详细的XYZ数据显性地报告给机器。如果圆形物体的XYZ数据有了，人形的XYZ数据也有，这时候要判断距离谁近谁远，或者它们之间的距离，问题都变得极其简单。

所以计算视觉里最关键的问题就是，要做三维视觉，一定要通过某种传感器的方法，把显性的XYZ数据拿回来，否则三维视觉肯定是做不好的。

怎么获取三维视觉信息

这件事情目前在行业里怎么做？

我们现在的拍照手段还拿不到XYZ信息，因为现在的图像传感器就是个平面的光电传感器而已，每个点只能感应到RGB三个颜色的量化，拍照时是把物理世界的三维信息压到一个平面上，这是整个照片成像的物理基础原理，导致距离信息被天然损失掉了。

现在并没有一种魔术传感器能把XYZ数据拍下来，我们能用的只有图像传感器。图像传感器是目前可用的、唯一的能够把物理世界通过视觉方法拍摄回来并进行量化的渠道。

XYZ数据怎么获取，目前主流的方法只能是通过视觉的手段，使用图像传感器，辅助以一定的光学手段进行视觉计算。这就是我们讲的计算视觉里非常基础的一个技术点。

从原理上讲，只要两个摄像头，立体视觉就能够进行测距。但在现实当中，双目摄像头的测距方案存在非常大的使用局限，只有在非常良好的特定工作条件下才能勉强应用。所以从实际上讲，要做好一个三维传感器或者XYZ数据的量化测量，一定是要应用至少两个摄像头，或者一个摄像头、两个摄像头加一套复杂的光学系统，再加上专门的视觉计算方法，才能计算和测量完成。

三维信息和AR/VR的联系

有了这些三维信息，可以做什么事情，跟AR/VR又有什么联系呢？虚拟内容必须要跟物理世界完美贴合才能给人带来“真实感”，需要3D传感器对外部物理世界进行三维重建。

微软可以说是在民用的三维视觉技术点上，全世界积累得最多的公司，它做三维相关的硬件软件已经超过十年了。在这里举例微软的HoloPortation，一个很黑科技的东西。

当我和一个朋友一起带上微软的HoloPortation系统，在我的视野里面就会出现远程那个人的画面，那个人真实站在我面前，我可以围着他转，做动作等等。这其实就是把远程那个人的实时三维模型建立出来了，每一个时刻的三维模型，每一帧都是完整、准确的，然后通过AR/VR设备显示出来。

尽管对于普通消费者来看，这样建立出来的“人”视觉效果并不是很好，不高清，颜色也太过鲜艳，但微软的建模能力确实很厉害，这其中的技术难度是很大的，在行业里都称之为黑科技。这也是技术行业的边界和消费者需求边界的问题，需要有一个渐近的过程。

现阶段面临的问题

最后做个总结，目前我们存在的问题有：

第一，3D传感器，也就是XYZ的获取较困难，这个点是个薄弱环节。

第二，把RGB和XYZ数据采集回来后，怎么去承载和实现三维视觉算法的处理器，对处理器的要求非常大，目前的都不够用。

第三，视觉算法的软件实现、以及算法本身也还有很多问题需要解决。比如说怎么把三维模型建得又快又好。

第四，如果要做更多的智能识别，三维的物体样本库还没有，跟人工智能、深度学习还没有结合起来。

——————

以上就是费总讲的有RGB信息和XYZ信息的重要性、如何获取三维视觉、三维视觉对AR/VR发展的重要性以及现阶段面临的问题。作为曾在世界顶尖处理器技术公司ARM、MIPS和Imagination工作超过10年的资深人士，费总的见解非常深刻，也帮想要在这个领域发展的同行理清了方向，我们非常期待在这些问题解决后为AR/VR带来的变革。

文章来自：华强智造Hi空间（微信公众号：HQ-Innovator）

“小编炮”搜罗的极客爆品、智能硬件领域最新数据趋势，创业圈内一起嗨的活动，你都想知道的话，来找小编炮咯~~ 长按 HQ-Innovator 复制到微信搜索关注！大声说Hi！！

猜你喜欢