【核心技术】先标定，后锚定Azure Spatial Anchors，再交互(清华大学人工智能人机交...

2024-05-06 14:20:28

头戴式AR/VR 光学标定

增强现实核心技术产业联盟

文章：A Survey of Calibration Methods for Optical See-Through Head-Mounted Displays

作者：Jens Grubert , Yuta Itoh, Kenneth Moser

编译：点云PCL

本文仅做学术分享，如有侵权，请联系删除。内容如有错误欢迎评论留言！

来源：点云PCL（ID:dianyunPCL）

摘要

头戴式显示器（OST-hmd）是虚拟增强现实的主要显示方式，由于面向消费者的产品（如Microsoft Hololens）的不断发布，增强现实在普通公众中的普及和使用率显著增长。与虚拟现实耳机不同，OST-hmd本质上支持将计算机生成的图形直接添加到用户眼睛和用户眼中的物理世界的视图之中。与大多数虚拟增强和虚拟现实系统一样，OST-HMD的物理位置通常由外部或嵌入式6自由度跟踪系统确定。为了正确地呈现被认为在空间上与物理环境对齐的虚拟对象，还需要精确地测量用户眼睛在跟踪系统的坐标系中的位置。

20多年来，研究人员提出了各种各样的标定方法来确定穿戴者的眼睛位置。然而，到目前为止，还没有全面概述这些程序及其要求。因此，本文对OST-hmd的标定方法进行了综述。具体来说，它提供了对标定技术的基本原理的见解，并概述了手动和自动标定的方法，以及评估方法和度量。最后，探讨了未来研究的可能性。

SPAAM方法中的数据收集。左：单个2D点uk与3D点xk手动对齐。中间：通过OST-HMD将虚拟的2D十字线与3D跟踪标记对齐的自我中心视图。右：绿色虚拟正方形覆盖在校准前后的物理标记上。

介绍

增强现实（AR）是一种交互式的、实时的技术，它让用户感觉到虚拟增强现实（AR）是一种交互式的、实时的、存在于现实世界中的物体。例如，用户可能会看到一个虚拟玻璃杯放在在桌面上的真实的玻璃杯旁边。AR的一个主要目标是使虚拟的玻璃杯的位置看起来与真实的玻璃杯一样真实、可靠和可信。本文将这一概念称为 locational realism。这里对比了位置真实感和更广为人知的术语 photorealism，这种传统的计算机图形学的目标渲染对象和真实场景的物体是视觉上无法区分的。

在AR中，主要目标可能不是以照片级真实感渲染玻璃杯，但我们通常对玻璃杯的真实位置感兴趣，虽然它可能明显是卡通玻璃，具有不正确的照明和颜色，但我们仍然希望其位置能够以与真实玻璃杯以无法区分的方式被感知。

为了实现任意程度的位置真实感，AR系统必须知道6自由度（6DoF）姿势，即渲染虚拟相机在物理世界中的位置（x、y、z）和方向（滚动、俯仰、偏航）。根据这些信息，系统可以确定在相应的3D位置显示虚拟对象需要哪些2D屏幕像素。这个姿势越准确，位置的真实感就越强。渲染相机的姿势通常使用跟踪系统测量，为了报告准确的姿势估计，需要对其进行校准。跟踪系统可以直接使用AR系统内的物理摄像机；或者，跟踪系统跟踪连接到AR系统的基准点。在这种情况下，即使跟踪系统需要AR系统反馈渲染相机的姿势，跟踪器也会反馈基准点的姿势，但是这导致了需要执行二次校准的附加要求，这产生了跟踪基准点和渲染相机之间的转换。

另外，有两种主要的显示AR内容的方法。在视频的透视AR（VST-AR）系统中，用户通过AR系统中的相机看到物理世界。系统接收来自真实世界的恒定图像帧流，并将虚拟内容组合到这些图像帧中，VST-AR可以与标准视频监视器、手持设备（如平板电脑或手机）以及不透明的VR头戴式显示器（也称为混合现实（MR）显示器）一起使用。相比之下，光学透视 AR（OST-AR）直接向用户提供物理世界的视图，而虚拟对象则通过光学组合器同时施加到用户的视图中。OST-AR几乎都是通过头戴式显示器来完成的，尽管显微镜和其他光学设备也是可能的，虽然这两种AR形式都有各自的优点和缺点以及各种应用，但本文的重点是OST-AR，虽然在VST AR中，可以使用一个相机同时用于视频流和跟踪相机，但这在OST-AR中是不可能的，因为“视频流”来自用户的眼睛。相反，在OST-AR中，跟踪头戴式显示器的姿势，AR系统需要知道显示器和用户眼睛之间的转换。因此，在OST-AR中，标定程序始终是必要的，本文调查并总结了截至2017年9月发布的校准程序，首先，它概述了头戴式OST-AR显示器的标定的基础。然后介绍了标定方法的概述，按手动、半自动和自动方法分类。接下来，讨论如何评估这些标定方法以及如何进行度量和分析。最后，本文讨论了未来研究的可能性。

头戴式OST AR显示器标定的基础

命名方法

通过本文使用以下术语，小写字母表示标量值，例如焦距fu。大写字母表示坐标系，例如眼睛坐标系E。小写粗体字母表示向量，例如眼睛坐标系x_E 属于R3中的3D点，或2D图像点u属于R2。大写字母表示矩阵，例如旋转矩阵R属于R3×3。我们现在定义一个从一个坐标系到另一个坐标系的6自由度变换。给定坐标系A和B，定义A到B的变换（abr；abt），其中abr是旋转矩阵，abt是平移向量。例如，我们可以通过

轴外的针孔相机模型

在计算机视觉中，内参矩阵k属于R3×3,定义了从三维坐标空间到二维坐标空间的投影变换。该矩阵的元素描述了针孔相机的特性。如果读者希望获得一个完整且透彻的理解投影背后的物理和数学原理，请阅读引用的出版书籍。然而，这里我们提供一个简短的概述，目的是提高读者对eye-HMD转换的理解。eye-HMD系统通常被建模为轴外针孔相机。我们将其内在矩阵定义为：

E^K的参数直接针孔相机模型。焦距fu和fv表示成像平面和相机中心之间的距离。在理想的针孔相机模型中，方程（2）中的fu和fv分量是相同的，这意味着图像的像素是完全正方形的。例如，给定眼睛坐标系xE中的3D点，该点被投影到HMD屏幕空间S中的2D点u_S

图1 轴外针孔相机模型的y-z平面。

图2：图像平面的三维表示，以及针孔相机模型的相关固有特性。

在实践中，我们首先在HMD坐标系中获得世界坐标系下的x_E作为3D点x_H。因此，我们首先通过

其中，旋转矩阵HER属于 R3×3和平移向量HEt 属于R3，表示从附在头盔显示器上的显示器坐标系H到用户眼睛坐标系E的变换。通过将该变换集成到相机模型EK中，我们得到3×4投影矩阵HEP，从显示器（HMD）坐标到用户眼睛坐标:

下图这些坐标系的一个图示（个人理解：就是说传统的针孔相机下的图像坐标系的中心为透过屏幕上光心的中点，而AR设备中将图像坐标系分解成成像坐标系和显示坐标系，因为设备中的屏幕坐标系和成像坐标系不再是同一个坐标系了）

头盔显示器的坐标系通常由一个内向外看的相机或一个外向外看的跟踪系统来定义，该系统决定了一个虚拟人的姿态。

因此，所有标定方法必须能够产生HEP，或者一次求解所有矩阵分量，或者系统地确定方程（5）中的参数。通常，当一次求解HEP的所有分量时，最常用的方法是直接线性变换（DLT）。该方法通过求解一个由最少6个3D-2D对应关系构成的线性方程来估计HEP。给定线性解作为初始估计，然后可以应用非线性优化方法，如Levenberg-Marquardt。

自动校准方法

本节介绍了工作人员完全不必手动操作的标定方法。下表的底部总结了这些方法。

Luo等人为类似眼镜的OST HMD开发了一种轴上相机模型，理论上无需手动校准。然而，由于光学设计的小尺寸，相机必须放置在用户眼睛位置后面20毫米处，这可能导致近距离的配准错误。

在2007年，Priese等人在进行了初步的校准之后，提出了使用眼球跟踪来估计眼球位置的方法。然而，他们只使用眼睛的静态图像来测试了他们的方法，并没有用实际用户来验证系统。

Figl等人提出了一种使用全自动配置（包括用于改变校准模式距离的步进电机）确定双目医疗头盔（Varioscope M5）焦距和眼睛位置的方法。

2014年，Itoh和Klinger提出了无交互显示校准（INDICA）方法，该方法利用安装在OST头盔显示器上的眼动跟踪器，他们的方法在线测量眼睛中心并自动生成投影矩阵。使用与SPAAM相同的针孔相机模型，显示参数从投影矩阵中分解，投影矩阵是从预先离线执行的SPAAM校准中获得的。他们的后续工作评估了INDICA，通过摄像头离线校准显示参数，这意味着该方法完全不需要额外的用户输入。

对于每个方法，下图给出了一个关键的缩略图。

在之前的章节中，提到SPAAM2的假设导致了不同的解释。基于这个假设，我们得到

其中EK0表示缩放和位移参数。这意味着SPAAM2将屏幕参数矩阵重新定义为EK0 EK。由于屏幕参数应该保持不变，这种解释是不正确的。SPAAM2的一个隐含假设是只有眼睛中心位置改变，三个参数E0t可以通过两个2D-3D数据对应来估计。

模型总结

眼睛模型

Plopski等人提出了另一种自动化方法：角膜成像校准（CIC）。与INDICA不同，CIC使用基于虹膜的方法进行眼睛跟踪，CIC通过利用图像在用户眼睛角膜上的反射来估计眼睛位置，这种效果称为角膜反射。

在CIC中，一个基准模式显示在HMD屏幕上，眼睛摄像头捕捉到它的角膜反射，CIC然后计算反射在眼角膜上的光线并通过相应的显示像素，给定显示器在HMD坐标系下的三维姿态、双环眼模型下角膜球的直径和最少两条光线，该方法计算眼球角膜球的位置，然后，给定眼球旋转时的三个角膜球位置，CIC估计眼球的3D中心。这种基于反射特征和眼睛结构简化模型的眼睛位置估计，比直接虹膜检测产生更精确的三维定位估计。

然而，INDICA和CIC使用的3D眼睛模型可以改进。该模型假设眼球可以被示意性地建模为两个相交的三维球体，其中第一个球体建模眼球的球形部分（包括巩膜），第二个球体建模角膜曲率。在这个模型下，人眼相机的光学中心假设位于巩膜（眼球）球体的中心。然而，眼睛的节点——光线穿过瞳孔的交叉点——是光学眼睛中心更合适的位置。

显示器模型

到目前为止，提到的大多数方法都将OST-HMD的图像屏幕视为平面面板，然而，这个模型忽略了这样一个事实，即光学组合系统可以在入射光线到达眼睛之前对其进行扭曲，其方式类似于矫正眼镜。这种失真既可以影响显示器的虚拟图像（增强视图），也可以影响通过组合光学器件看到的真实世界的视图（直接视图）。为了校正增强视图，Lee和Hua提出了一种基于摄像机的校正方法，即在屏幕图像空间学习校正的2D畸变图，为了校正直视。

Itoh和Klinger提出将畸变建模为穿过光学元件的4D光线束（光场）的偏移，然后估计原始光场和畸变光场之间的4D到4D映射。因为它使用光场，这种方法可以处理视点相关的失真。

Itoh和Klinger接着扩展了这种方法来校正增强视图的扭曲。他们用OST-HMD进行的评估显示，去除直接视野和增强视野畸变可以提供与20/50视力相当的整体配准精度。除了Itoh和Klinger提出的失真估计之外，进一步提出了OST头盔的视相关色差（点扩散函数）建模。该方法将图像模糊建模为4D到4D畸变映射中的高斯函数，并通过测量不同视角下显示器的脉冲响应来估计图像模糊。

显然，自动校准方法是OST-hmd的未来。除了使操作人员不必手动执行校准程序外，自动方法还可以以闭环方式操作，不断调整校准，从而校正用户头上的头盔显示器的微小移动。此外，将眼睛跟踪器集成到OST-HMD中允许许多有用的交互技术，例如基于注视的交互，并且还允许优化的渲染方法，例如中心凹渲染。然而，正如所讨论的，自动校准方法仍然面临挑战，特别是涉及眼睛模型和显示模型。

来源：点云PCL（ID:dianyunPCL）

注：本文内容仅作为行业资讯分享，不代表增强现实核心技术产业联盟立场，如有侵权，烦请联系删除。

RECOMMEND

推荐阅读

作者梦秋 · 分类微软 / 研发映维网

锚定是一种将数字对象附加到物理世界的机制

（映维网 2021年08月17日）锚定是一种将数字对象附加到物理世界的机制。日前，来自微软的丹妮埃拉·霍尔金（Daniela Encarnacion Holguin）撰文介绍了通过Azure Mixed Reality Services提供的两种锚定：将内容附加到“物理位置”的Azure Spatial Anchors；以及将内容附加到“物理对象”的Azure Object Anchors。下面是映维网的具体整理：

1. 什么是Azure Spatial Anchors？

Azure Spatial Anchors（空间锚）表示存在于云中的物理点。像本地空间锚一样，全息图可以附着到空间锚。空间锚的独特地方在于，它能够在云中存储和持久化，并在以后由创建它的设备或任何其他受支持设备进行查询。这能够实现锚的云备份和基于云的锚共享。

想象一下这个场景：你和一个朋友在家，你们同意通过混合现实设备开玩国际象棋，并在桌面定位全息棋盘。在设备端，两人可以在现实世界中的同一位置（桌面）查看棋盘。无论在物理空间中移动到何处，棋盘都将固定到一个点。你甚至可以结束会话并在第二天重新启动，无需再次放置锚。Azure Spatial Anchors有助于构建这样的多用户跨平台体验。

在幕后，全息国际象棋应用使用一个空间锚保存棋盘的位置。这包括有关环境点的特征信息。全息国际象棋应用与云中的Azure Spatial Anchors共享空间锚信息。然后，你朋友的HoloLens、iOS或Android设备端的应用程序可以查询Azure Spatial Anchors的位置。一旦确定锚点，任意多个设备的应用程序就可以在相同的物理位置呈现棋盘。

空间锚可以实现的另一种体验是寻路。例如，开发者可以使用顺序放置的多个Azure Spatial Anchors以创建路径。所述锚点在视觉上相互连接，从而构建锚点图。这有助于在现实世界中引导用户。

通过使用所述功能，Azure Spatial Anchors可以帮助开发者构建在真实世界中实现持久化和共享体验的全息内容。

2. 什么是Azure Object Anchor？

Azure Object Anchor（对象锚）表示一个相对于环境真实对象的位置和方向。它提供了一个通用的参考框架，允许你将数字内容放置在与真实对象相同的物理位置。使用这种方法，你可以避免使用物理标记（如二维码）或手动对齐。

想象这样一个场景：服务中心员工正通过HoloLens 2对汽车进行维护。指向汽车各个零件的视觉叠加和标记帮助操作员遵循合理的工作流程和直接显示在面前的分步说明。这是通过将汽车的3D模型提交给Azure Object Anchor服务来实现。所述服务能够输出一个对象锚模型，以帮助系统理解其形状。利用HoloLens的深度照头，系统可以通过形状来探测对象。使用Azure Object Anchor运行时SDK，HoloLens应用程序加载汽车的对象锚模型，然后使用它在现实世界中检测汽车。现在，应用程序已经知道汽车的精确位置，并可以通过突出显示各种组件或叠加数字指令来构建全息版维护体验。

通过自动检测环境中的对象，Azure Object Anchors有助于改进用户学习并减少错误。

Azure Object Anchors的一个独特功能是：它可以在各种不同的位置或环境中检测单个对象锚模型。在上面的示例中，用户可以在车库的不同位置，甚至在完全不同的服务中心检测车型。如果汽车的所有副本具有相同的物理形状，则对象锚将能正确标识每个副本的位置。这与空间锚不同：空间锚是绑定到单个物理位置，并且只能在创建它的同一物理位置找到。

3. 跨Azure Spatial Anchors和Azure Object Anchors的混合用例

下面两个示例演示了如何同时利用Azure Spatial Anchors和Azure Object Anchors，从而解锁更多空间感知的混合现实体验。

情景1

场景：在工厂车间使用“边做边学”方法对员工进行交互式培训

Azure Object Anchors：使用对象检测来识别工厂地板的给定机器，这样员工就可以看到特定指令的数字叠加。

Azure Spatial Anchors：使用空间锚，员工可以将锚定应用到不同位置，而且它们能够随时间保持不变。空间锚能够帮助员工在室内导航，并在空间中找到关心的内容。

两者结合：当使用对象锚在环境中检测到一个对象时，我们可以在所述位置放置一个空间锚（其包含关于对象的元数据）。当员工在空间中行走时，这个空间锚可以引导他们寻找找到目标机器。一旦到达指示机器的空间锚，系统就可以检测对象锚。你同时可以通过空间锚将用户直接引导到要检测的对象，从而增强对象检测体验。

情景2

场景：剧院道具团队的活动安排和日常维护协助（在设置场景时，使用的道具需要非常具体和详细）。

Azure Object Anchors：对象锚可用于识别场景中的对象（如沙发），并将其3D全息表示与真实对象对齐。

Azure Spatial Anchors：空间锚可以帮助员工跟踪舞台上不同道具的位置。由于一出戏包含多个场景，在短时间内记住每个对象的位置可能会令人感到困惑和相当费时。空间锚帮助绘制舞台映射，并确定需要在舞台放置不同对象的位置。

两者结合：Azure Object Anchors可以扫描每件家具以进行对象检测，并通过Azure Spatial Anchors定位到特定位置，亦即相对于其相应位置定位每件家具。当剧场舞台因场景的变化而需要重新安排时，系统可以帮助将对象重新定位到预先编写的位置。利用Azure Object Anchors和Azure Spatial Anchors，剧院道具员工不必记住所有道具的具体位置，只需穿戴HoloLens 2即可，剩下的工作可以交给系统自动完成。

4. 总结

如上所示，Azure Object Anchors和Azure Spatial Anchors可以通过各种不同的锚定机制解锁沉浸式混合现实体验。

Azure Spatial Anchors目前支持HoloLens 1、HoloLens 2、以及使用ARKit的iOS设备和使用ARCore的Android设备。Azure Object Anchors目前支持Hololens 2。另外，有兴趣的开发者可以参阅Azure Spatial Anchors示例代码和Azure Object Anchors示例代码。本文链接：https://news.nweon.com/88536

Nreal AR眼镜拆解：Birdbath光学结构解析

原创前沿科技新媒体青亭网

hi188｜编辑

本文出自Karl Guttag博客，这一次Karl带来了对Nreal Light眼镜的拆解，以及Bird Bath光学结构解析。

本文基于Nreal在韩国LG U＋发售的版本和开发者版来拆解。众所周知，Birdbath成为如今AR眼镜中常见的光学方案，本文重点是通过Nreal来帮助作者向大家讲解Birdbath光学方案的优劣势和限制，非谈论Nreal AR眼镜本身设计的好和坏。

Karl讲到，Nreal AR眼镜的图像质量比很多AR眼镜都要好很多，但是也有些缺点，下面展开来讲。

1，Lumus Maximus亮度/功耗比是Nreal 30倍

Karl首先指出，Lumus Maximus的光效比Nreal高出一个数量级。相关阅读：《Lumus Maximus二维扩瞳阵列光波导，比HoloLens 2强在哪？》

关于亮度很多人首先联想到的是电池和续航，但对AR眼镜来讲更大的问题在于热管理，因为AR眼镜的体积往往非常小，而显示模组的亮度往往被压缩到镜框或镜腿的一小部分，首先散热效率就会变差，如果这一部分靠近用户脸部那么用户体验就会更糟糕。下图中红圈为镁铝合金导热垫。

如果显示模组亮度需要满足日常大部分使用需求，那么它需要具备更高的光学效率。

Karl在Lumus Maximus文章对比中提到，Maximus光效比WaveOptics衍射光波导高10倍，同时Maximus仅需1W（瓦）LED即可实现大于4500nit亮度。而根据测试，Nreal显示模组功耗约0.85W，入眼亮度在110nit左右。由此估算，两者同样覆盖约50度FOV，但Maximus的亮度/功耗比是Nreal的30倍以上。

2，Birdbath光学大爆发

Nreal自从2019年CES开始被更多人关注后，很多类似光学设计的产品接连发布，例如太平洋未来科技、OPPO、联想等品牌，以及惠牛科技、耐德佳等光学厂商也都在跟进。

不过严格来讲，Nreal的光学设计和Karl在2017年分析的ODG方案也很类似。Karl还表示：目前至少两名ODG前员工在联想负责类似Birdbath光学的AR眼镜。

这些产品设计大抵相同，有些差异无法从图片来区分，有些则比较明显。如左下方AM Glass底部有遮光罩，采用封闭式设计，而高通AR参考设计底部有明显突出。

光学周围实体包围（自由曲面方案，也可以看作是Birdbath实心版本）。

其中AM Glass下方的遮光罩作用很明显，就是防止底部反光，引入杂像。

例如在2019 CES上试戴Nreal时就可以看到佩戴在胸前的CES媒体证件的反射画面（上图）。

其中，Nreal、ODG、联想的Birdbath并没有底部遮光设计。而Nreal此前公布的企业版本（上图），则在底部增加遮光设计。

3，Birdbath类型

“Birdbath”是光学结构的通用名称，通俗的讲就是带有光束分离功能的曲面镜，垂直于曲面镜的光则通过分束器反射到曲面镜上。

从反射类型看，Birdbath有两种，一种是曲面镜半反射（部分反射），佩戴者可以透过镜片看到外部环境；另一种是曲面镜全反射，只能看到分束器反射后的画面。

Karl此前对大量Birdbath光学结构进行分析，包括Nreal、ODG R6/R8/R9、联想A3、高通AR眼镜参考设计都是半反射（部分反射）。

3-1 Nreal Birdbath结构解析

下方是Nreal AR眼镜光学机构示意图，来自顶部OLED屏幕（1）的光通过透镜（2）放大、变焦后，经由偏振分束器（3）反射到曲面镜（60%透过，40%反射），光穿过曲面镜（5，右侧蓝色曲线）在薄塑料片组成的四分之一波片（4、6，紫色）反射，经过两次四分之一波片使光相位旋转90度（四分之一波片通常用于线偏振光与圆偏振光的转换），然后经过偏振分束器（7、8）。根据测量，最终入眼亮度仅为屏幕亮度的15%左右。

通过结构图看，真实环境的光线需经过前偏振器（右侧红色虚线）、四分之一波片、60%透过率的曲面镜、第二个四分之一波片。前偏振器和两组四分之一波片作用是将现实环境光线转换成偏振光，经过偏振片理论上只有偏振的损耗。实际情况是，入眼的真实光线约为26%。

另外还有一个四分之一波片和偏振膜，作用是防止前偏振光的图像透过（有效率约95%）。这里需注意，真实环境光线也是必须通过前偏振膜、两组四分之一波片、曲面镜、偏振分束器才能到达人眼。

整个光学模组重量很轻，只有外侧镜片等少部分是玻璃材质，其它都是塑料，中间是空心的。

3-2 厚度、FOV

根据肖特公司Ruediger Sprengard在SPIE 2021的演讲中提到了Birdbath光学设计，如下图。Sprengard还在右侧画线，说明分束器厚度需要随着FOV增大而变大。而在Nreal Birdbath方案，还必须使用曲面镜。

Nreal模组厚度约25mm，而常见的光波导模组仅几毫米。除了厚度差异外，Nreal光机和模组大部分重量都集中在鼻梁前方，从而导致AR眼镜前端很重，佩戴后也就给鼻子带来更大的压力。

3-3 防止前向漏光

上面结构图还显示了紫色路径是存在漏光的可能性。如果没有偏振膜，那么OLED屏幕60%未被反射镜发射的偏振光将向前投射（也就是漏光），前偏振膜的作用就是阻挡约95%的漏光。对此进行试验，上图左侧拿掉偏振膜，右侧保留，可见左侧漏光、漏像非常明显。

前偏振膜另一个用途就是让镜面反光变暗，如上图中就是去掉了前偏振膜的效果，看上去就像是广角的镜子一样，反光明显。

3-4 无法看到佩戴者的眼睛

AR眼镜能够看到佩戴者的眼睛也是一个衡量指标。Lumus Maximus透光率很高，可以清晰地看到眼神和眼球动作；HoloLens 2大约有40%透过率，眼睛看上去就会暗淡；而Birdbath透过率为25%，再加上镜面反射因素，导致几乎无法看到佩戴者的眼睛和眼神动作等。

3-5 联想ThinkReality A3反光情况

联想在CES 2021上发布的Birdbath方案，就存在上文提到的广角镜面反光情况。也可以说明这里没有外侧偏光膜，但依然看不到用户眼睛。Karl表示，视频中光机可能为未开启状态。

在另一张图中，在没有画面显示的情况下，整个光学模组很通透。Karl表示：开始我以为这可能是一个模型，现在我认为这是一种特殊光线环境的结果，从眼镜后侧可以透过更多光线，因为很多透镜工作方式就像是玻璃一样。但是，真正戴上AR眼镜之后就不会这样，因为佩戴者头部阻挡了大部分的光线。

3-6 联想A3重量支撑貌似不足

在CES 2021公布的视频中，我注意到它说有一个可拆卸的人体工学套件，从图中看镜腿尾部弯曲到后脑勺，但并非封闭设计。A3的重量约130g，Nreal为85g，比后者重约50%。

不过Nreal消费者版因为重量集中在前端，依然会很“重”，不能长时间佩戴。因为Birdbath设计的本质就是让大部分重量集中在鼻梁上，如上图。Karl也弄不清楚联想的人体工学设计，因为本机比Nreal重1.5倍，希望通过后脑勺提供部分支撑，来弥补重量上的不足。但是Karl认为Nreal企业版设计更合理。

4，为什么Birdbath如今很常见

成本更低。大部分都基于塑料薄膜，唯一高成本在于显示模组（Micro OLED屏幕）；
重量更轻。尤其是第一种空心的方案；
成像质量佳。光学模组基本上只是对图像放大；
搭配朗伯光分布的屏幕（如OLED类屏幕）效果出色。且效率比光波导更高，图像质量也很好。

5，Birdbath方案劣势

模组较厚。至少分束器需要和图像宽度接近（Nreal分束器约18mm，加上曲面镜导致最终约25mm）；
透光率低。以Nreal为例，它隔绝了约75%真实环境中的光线，接近于戴上一副中等深色墨镜；
无法看到佩戴者眼睛。其他人看到的是深灰色镜片或者反光等；
阻碍视野。因为顶部视野几乎被眼镜本体遮挡，用户只能直视或者向下看；
出瞳距离较小。为了提高观看舒适性，提高出瞳，需要更大、更厚的设计；
因尺寸、重量因素在OLED亮度选择上受限。Birdbath光效通常在15%左右，800nit亮度的OLED入眼就更低；
漏光。即便使用前偏振膜，入眼的光仍有5%向前方反射。

6，结论

Nreal似乎是Birdbath方案中一个不错的代表，它基本上能将Bridbath方案的优缺点呈现出来，这里并不是针对Nreal，联想A3、AM Glass等类似方案也会有类似问题。下篇文章，将重点分析限制Birdbath设计，以及限制透过率因素等。

本文中要感谢Pulsar公司CEO David Bonelli为本文审核，他于2015-2018年期间在ODG工作，负责R8、R9开发，这两款产品和Nreal设计很相似。

7，附：第二种Bridbath

本文讲述了第一种部分反光的设计，而第二种Birdbath是全反射曲面镜（并不常见）。最知名的还是谷歌眼镜，同时三星和Raontech也有类似产品。

第二种Bribbath方案的优点是，用户只需要观看分束器，还尽可能引入更多外部光线。同时，因为全反射因素光效也会更高。例如谷歌眼镜的棱镜方案，曲面镜就是右侧的反射涂层。

因为谷歌眼镜FOV很小，因此光机可以放在侧面，但很难把FOV做大。想要做大FOV，通常只能改变位置关系，也就是向下反射，类似Nreal的方案。

第二种Birdbath缺点也明显，通常光学模组是固态的，并非空心设计，这样也就导致重量更高。

原文：Karl Guttag

https://kguttag.com/2021/06/01/nreal-teardown-part-1-clones-and-birdbath-basics/

清华大学领衔，99 页报告揭秘人机交互的发展状况及未来发展趋势｜人工智能人机交互报告

雷锋网鲲鹏计划获奖作者,优质科技领域创作者

第一次使用手机语音助手的时候，它总是会在我兴冲冲地问一个问题之后，令人失望地回答一句：“我好像听不懂你在说什么……”

后来技术演进，它终于能够通过我的一些关键词，听懂我说什么了。但一板一眼，一字一句，程式化十足。

不可否认，人工智能正在变得越来越“聪明”，也越来越贴近人类，未来它会是什么样子呢？

近日，清华由清华大学人工智能研究院、北京智源人工智能研究院和清华-中国工程知识智能联合研究中心发布了《人工智能之人机交互》报告（以下简称《报告》），《报告》梳理了其概念定义和发展历程，重点研究了主要技术的发展情况、领域专家现状和应用领域，并探讨了人机交互未来发展趋势。

文档来源：清华大学人工智能研究院

一、人机交互发展史

1、概念

人机交互（Human-Computer Interaction, HCI），作为一个术语，首次使用是在由 Stuart K. Card，Allen Newell 和 Thomas P. Moran 撰写的著作“The Psychology of Human-Computer Interaction”里，它是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。

人机交互界面通常是指用户可见的部分，用户通过人机交互界面与系统交流，并进行操作。人机交互技术是计算机用户界面设计中的重要内容之一，它与认知学、人机工程学、心理学等学科领域有密切的联系。

人机交互技术的发展与国民经济发展有着直接的联系，它是使信息技术融入社会、深入群体，达到广泛应用的技术门槛。任何一种新交互技术的诞生，都会带来其新的应用人群、新的应用领域，带来巨大的社会经济效益。

从企业的角度，改善人机交互能够提高员工的生产效率，学习人机交互能够降低产品的后续支持成本。

在个人的角度，可以帮助用户有效地降低错误发生的概率，避免由于错误引发的损失。

在现代和未来的社会里，只要有人利用通信、计算机等信息处理技术进行社会活动，人机交互都是永恒的主题，鉴于它对科技发展的重要性，人机交互是现代信息技术、人工智能技术研究的热门方向。

2、发展历程

过去的几十年间，人机界面经历了从命令行界面到图形用户界面两个主要发展阶段的演变；近年来，人机界面的发展越来越强调交互的自然性，即用户的交互行为与其生理和认知的习惯相吻合，随之出现的主要的交互界面形式为触摸交互界面和三维交互界面。

命令行界面基于命令行界面（Command-line Interface, CLI），用户使用键盘按照一定的规则输入字符，以形成可供机器识别的命令和参数，并触发计算机进行执行。

其优点是由于键盘输入相对较高的准确率，以及几乎不需要冗余的操作，所以熟练的用户可以达到非常高的交互效率，同时，通过规则的设计，命令行界面也能支持丰富灵活的指令形式。

命令行界面的缺点在于交互非常不直观，由于机器命令与自然语言的构造规则往往相去甚远，所以用户需要记忆大量的指令，有时甚至需要具备计算机领域的专业知识和技能，才能达到较高的使用效率。这对于新手用户而言大大提升了学习成本，也显著影响了普通用户使用命令行界面时的体验。

图形用户界面图形用户界面一般包括窗口（Window）、图标（Icon）、菜单（Menu）和指针（Pointer）这四类主要的交互元素。用户通过控制指针来对窗口、图标和菜单等显示元素进行指点（Pointing）操作，从而完成交互任务。广义的图形用户界面泛指一切用图形表征程序命令和数据的界面系统，但在狭义上，图形用户界面一般指个人电脑（PC）上的二维 WIMP 界面。此时，用户与界面交互的设备一般是键盘和鼠标。

图形用户界面的一大优势是摆脱了抽象的命令，通过利用人们与物理世界交互的经验来与计算机交互，从而显著降低了用户的学习和认知成本。然而，由于图形用户界面的基本操作是指点，即用户需要使用指针来选择交互目标，因而其往往对用户指点操作的精度有较高的要求。此外，由于鼠标设备所在的控制域（Motor Space）与界面显现的显示域（Visual Space）是分离的，因而用户需要对目标进行间接的交互操作（Indirect Manipulation），从而更加增加了交互的难度。

触摸交互界面触摸交互界面一般包括页面（Page）、控件（Widget）、图标（Icon）和手势（Gesture）这四类主要的交互元素。用户通过触摸、长按、拖拽等方式直接操控手指接触的目标，或者通过绘制手势的方式触发交互指令。

目前，触摸界面主要存在于智能手机和可穿戴设备（如智能手表）等设备上。触摸交互界面的优势是充分利用了人们触摸物理世界中物体的经验，将间接的交互操作转化为直接的交互操作（ Direct Manipulation），从而在保留了一部分触觉反馈的同时，进一步降低了用户的学习和认知成本。

然而，触摸操作受困于著名的“胖手指问题”，即由于手指本身的柔软，以及手指点击时对于屏幕显示内容的遮挡，在触屏上点击时往往难以精确地控制落点的位置，输入信号的粒度远远低于交互元素的响应粒度。同时，由于触摸交互界面的形态仍然为二维界面，所以这限制了一些与三维交互元素的交互操作。

三维交互界面用户一般通过身体（如手部或身体关节）做出一些动作（如空中的指点行为，或者肢体的运动轨迹等），以与三维空间中的界面元素进行交互，计算机通过捕捉用户的动作并进行意图推理，以触发对应的交互功能。

目前，三维交互界面主要存在于体感交互、虚拟现实、增强现实等交互场景中。

三维交互界面的优势是进一步突破了二维交互界面的限制，将交互扩展到三维空间中。因此，用户可以按照与物理世界中相同的交互方式，与虚拟的三维物体进行交互，从而进一步提升交互自然度，降低学习成本。

不过，三维交互的挑战在于由于完全缺乏触觉反馈，所以用户动作行为中的噪声相对较大，而且交互动作与身体的自然运动较难区分，因而输入信号的信噪比相对较低，较难进行交互意图的准确推理，限制了交互输入的准确度。

此外，由于相对于图形用户界面和触摸交互界面，动作交互的幅度一般较大，所以交互的效率也较低，同时更容易让用户感到疲劳。

二、技术发展方向

目前，人机交互技术主要发展方向包括以下几个类别：

触控交互、声控交互、动作交互、眼动交互、虚拟现实输入、多模式交互以及智能交互等。

1、触控交互

显示器从仅向用户输出可视信息到成为一种交互界面装置主要是归因于触控功能与显示器的一体化模式，尤其是在移动装置上的使用。

目前有四种技术方式能实现触控交互。

电阻式触控技术电阻触摸屏通过压力感应原理来实现对屏幕进行操作和控制。当手指触摸屏幕时，薄膜下层的 ITO 会和玻璃上层的 ITO 有一个接触点，在 X 轴方向就其中一面导电层导通了 5V 均匀电压场，此时采样得到的电压由零变为一个正电压值，感应器检测到电压导通，传出相应的电信号，进行模/数转换，最终将转换后的电压值与 5V 相比，即可计算出触摸点的 X 轴坐标值。同理可以计算出 Y 轴的坐标值，这样就完成了点选的动作，并呈现在屏幕上。

电容式触控技术当手指触摸电容式触摸屏时，在工作面接通高频信号，此时手指与触摸屏工作面形成一个耦合电容，这相当于导体，因为工作面上有高频信号，手指触摸时在触摸点吸走一个小电流，这个小电流分别从触摸屏的四个角上的电极流出，流经四个电极的电流与手指到四角的直线距离成比例，控制器通过对四个电流比例的计算，即可得出接触点坐标值。

红外触控技术当手指触摸屏幕时，红外光线将被阻断，依次选通红外发射管及其对应的红外接收管，在屏幕上方形成一个红外线矩阵平面，从而致使红外接收端的电压产生变化，红外接收端的电压经过 A/D 转换送达控制端，控制端将据此进行计算得出触摸位置。

表面声波触控技术表面声波式触摸屏主要依靠安装在强化玻璃边角上的超声波换能器来实现触摸控制的。当手指触摸显示屏时，手指阻挡了一部分声波能量的传播，此时接收波形将会发生变化，在波形图上可以看见即某一时刻波形发生衰减，通过这个衰减信号控制器就可以计算出触摸点位置。

2、声控交互

语音识别语音识别是将音频数据转化为文本或其他计算机可以处理的信息的技术。主要由 4 个部分组成：特征提取、声学模型、语言模型和解码器搜索。

语音合成语音合成就是将一系列的输入文字信号序列经过适当的韵律处理后，送入合成器，产生出具有尽可能丰富表现力和高自然度的语音输出，从而使计算机或相关的系统能够发出像“人”一样自然流利声音的技术。

语音合成的发展经历了机械式语音合成、电子式语音合成和基于计算机的语音合成发展阶段。语音合成具体分为规则驱动方和数据驱动方。

3、动作交互

目标获取是人机交互过程中的最基本的交互任务，用户向计算机指明想要交互的目标，其他的交互命令均在此基础上完成。随着交互界面的发展，在很多自然交互界面上，如远距离大屏幕，虚拟现实和增强现实设备等，传统的交互设备（如鼠标，键盘）无法继续用来完成目标获取任务。

因此，在这些界面上，研究者探索使用动作交互完成目标获取任务的可能方式。主要的输入方式分为直接和间接两种。

直接的动作选取要求用户通过接触目标位置的方式对其进行选取，例如在增强现实应用中，用户通过以手部接触的方式完成虚拟物体的选取。

间接的目标选取方式则需要用户通过身体部分的位置和姿态来控制和移动光标，再借助光标指示目标的位置进行选取。其中，一个广泛应用的光标控制方法是光线投射。

手势识别手势可定义为人手或者手和手臂相结合所产生的各种姿态和动作，它分为静态手势（指姿态，单个手形）和动态手势（指动作，由一系列姿态组成），前者对应模型空间里的一个点，后者对应一条轨迹。相应地，可以将手势识别分为静态手势识别和动态手势识别。

姿势识别姿势识别常用的算法有三类：（1）基于模板匹配的身体姿势识别方法；（2）基于状态空间的身体姿势识别方法；（3）基于语义描述的身体姿势识别方法。

4、眼动交互

利用人工智能技术提高眼动计算的精度和效率，对人的感知和认知状态进行深入理解，构建“人在回路”的智能人机交互框架，实现用户主导的自动化系统、基于人机共生的 AI 系统。

常用的几种眼动交互方式主要有一下几种：

驻留时间触发驻留时间触发是指当注视点的驻留时间达到一定程度后，可以利用视线代替鼠标点击或键盘按钮等传统输入设备，触发相应的执行操作。驻留时间触发多用于控制图形界面或定位鼠标光标等，是一种较为流行的眼动交互方式，它也能够反映用户有意识的控制意图，以更好地完成交互。

平滑追随运动平滑追随运动多发生于观察场景中有缓慢移动的物体或目标，视线会产生平滑追随的运动状态。平滑追随运动是一种连续反馈的状态，眼睛捕捉运动目标的信号，将目标运动速度、方向、角度等信息反馈给大脑，再控制眼球跟随目标物体发生相对运动。在此过程中也会存在一些无意识眼跳等其他行为，在没有运动目标的场景下，一般不会产生该眼动行为，因此平滑追踪触发一般不是一种常用的眼动交互方式。

眨眼使用眨眼行为进行交互时，需要识别有意识的眨眼，例如眨眼频率超过一定程度，或一次眨眼过程中眼睛闭合的时间超过某个阈值。眨眼触发较为简单，但是当人眼处于长时间闭合状态时，由于眼动追踪仪无法捕捉瞳孔，可能会导致注视点的丢失，在一定程度上会影响眼控系统精度。

眼势眼势是在眼跳的基础上提出的，但与眼跳的不同之处在于，眼跳往往是人在观察场景或对象时发生的一种无意识的视线转移，其眼跳的起点和终点都未知，依赖于人的视觉注意。而眼势被定义为一系列有序的视线行程，每一个行程是两个固定注视点或注视区域的有意的视线移动。因此，眼势作为一种新的眼动交互方式，可以反映人的有意识触发意图。不同路径的行程可以定义不同的眼势，不同的眼势可以映射为不同的交互指令。眼势可以分为单行程眼势和多行程眼势。

5、虚拟现实输入

文本输入作为应用中重要的交互技术，为应用提供了重要的交互体验。目前已经开发了多种适用于虚拟现实的文本输入技术，现有的 VR 文本输入技术主要有实体键盘技术、虚拟键盘技术、新型输入技术（手部输入技术、圆形键盘输入技术、立体输入技术）。

6、多模态交互

不同形式的输入组合（例如，语音、手势、触摸、凝视等）被称为多模态交互模式，其目标是向用户提供与计算机进行交互的多种选择方式，以支持自然的用户选择。相比于传统的单一界面，多模态界面可以被定义为多个输入模态的组合，这些组合可以分为 6 种基本类型：

互补型：当两个或多个输入模态联合发布一个命令时，它们便会相得益彰。

重复型：当两个或多个输入模态同时向某个应用程序发送信息时，它们的输入模态是冗余的。通过让每个模态发出相同的命令，多重的信息可以帮助解决识别错误的问题，并加强系统需要执行的操作。

等价型：当用户具有使用多个模态的选择时，两个或多个输入模态是等价的。例如，用户可以通过发出一个语音命令，或从一个虚拟的调色板中选择对象来创建一个虚拟对象。这两种模态呈现的是等效的交互，且最终的结果是相同的。

专业型：当某一个模态总是用于一个特定的任务时它就成了专业的模态，因为它是比较合适该任务的，或者说对于该任务来说它是当仁不让的。

并发型：当两个或多个以上的输入模态在同一时间发出不同的命令时，它们是并发的。例如，用户在虚拟环境用手势来导航，与此同时，使用语音命令在该环境中询问关于对象的问题。并发型让用户可以发出命令并执行命令，其体现为在做晚餐的同时也可也以打电话的真实世界的任务。

转化型：当两个输入模态分别从对方获取到信息时它们就会将信息转化，并使用此信息来完成一个给定的任务。多模态交互转化的最佳例子之一是在一键通话界面里，语音模态从一个手势动作获得信息，告诉它应激活通话。

7、信息无障碍中的智能交互技术

信息无障碍（information accessibility）是一个学科交叉的技术和应用领域，旨在用信息技术弥补残障人士生理和认知能力的不足，让他们可以顺畅地与他人、物理世界和信息设备进行交互。

从研究和应用水平上看，信息无障碍总体还处于比较初步的状态。

在应用上，针对信息访问和设备使用，具有基本功能的技术可以被应用，但效果和效率等可用性指标都不高；在现实生活中，针对听障人士与他人交流、盲人独立出行等，能支撑的新技术还处于原型和概念阶段。

三、未来趋势分析

1、技术趋势

技术趋势分析描述了技术的出现、变迁和消亡的全过程，可以帮助研究人员理解领域的研究历史和现状，快速识别研究的前沿热点问题。通过技术趋势分析可以发现当前该领域的热点研究话题 TOP10 是：Virtual Reality、 Augmented Reality、Social Media、Social Interaction、Interaction Design、Mobile Device、Social Network、Ubiquitous Computing、Mobile Phone、Interaction Technique.

2、国家趋势

国家趋势分析显示当前人机交互领域研究热度 TOP10 的国家分别是：United States、United Kingdom、Germany、Canada、China、Japan、South Korea、Australia、France、Netherla.

3、机构趋势

机构趋势分析显示当前人机交互领域研究热度 TOP10 的机构分别是：Carnegie Mellon University、Washington College、University of California、Stanford University、University of Michigan、Massachusetts Institute of Technology、Georgia Institute of Technology、Cornell University、Seoul National University、Yonsei University.

人机交互作为终端产品引领技术，其作用已经为产业界所普遍认识，多种自然交互技术和新型交互终端相继面世，但图形用户界面仍是交互的主导模式。计算无所不在，人机交互的研究和开发空间很大，自然高效的交互是发展趋势，需要综合地探索自然交互技术的科学原理，建立明确的优化目标，结合智能技术，发展高效可用的自然交互技术。雷锋网

作者梦秋 · 分类交互 / 微软 · 映维网

探索更具沉浸感的全息交互方式

（映维网 2021年05月15日）日前，微软旗下混合现实工作室（Microsoft Mixed Reality Studio）的奥斯卡·萨兰玎（Oscar Salandin）撰文介绍了团队是如何探索更具沉浸感的全息交互方式。下面是映维网的具体整理：

“我可以用手指弹一下它吗？”

当用户通过HoloLens 2测试我们的沉浸式交互原型时，其经常会询问这样的问题。基于模拟而不是单个功能的全息图交互可以带来有趣的测试场景。

诚实的回答是：“我不知道，但你可以试试。”

这段视频展示了一个用户用手直接与全息图交互。就像真实对象交互一样，你可以拿、推、扔和抓。

1. 如果能够像真实对象一样对待全息图

你不需要向用户解释与虚拟对象交互的具体步骤。你可以直接要求对方“捡起来”或者“放在那里”，然后对方就会这么做。

我们可以用我们习惯的肢体语言并通过眼睛和双手自然地把玩虚拟对象。

当我们第一次通过HoloLens 2向一位自称具有技术恐惧症的女士介绍一个物理交互原型时，我看到过这种情况。她笑着把玩一个虚拟立方体，并与全息图一同起舞了数分钟之久。

利用手关节追踪和眼动追踪，以及增加的视场，HoloLens 2为用户和交互设计师提供了全新的机遇。作为设计师，我们的目标是利用相关的输入和输出来进一步推动沉浸感，帮助用户以与真实对象相同的物理方式来和全息图进行交互。

当用户的手和手指模拟成铰接球体，并根据速度和与对象的接触而改变颜色。

2. 数字双手孪生

我们如何提升交互的自然度呢？我们从一定的自然法则开始，自下而上构建交互。当你分解它时，像抓、推、扔这样的交互都是由相同的物理概念组成：动量、碰撞、摩擦和重力。

从“半衰期”系列到《萌萌小人大乱斗》，再到《全面战争模拟器》，实时物理引擎是一系列游戏的关键要素。就像所述游戏利用物理引擎来处理虚拟对象之间的开放式交互一样，我们同时可以使用物理引擎来模拟用户和虚拟对象之间的交互。

由于HoloLens 2的手关节追踪为我们提供了手的姿态，所以我们可以复刻手的不同部位的位置、速度和动量，并在虚拟世界中构建手的物理模拟孪生。当这个虚拟手与虚拟对象交互时，物理引擎应用动量、碰撞、摩擦和重力来模拟结果。所有这一切加起来就是抓、投、弹、或任何你能想到的手物交互。

在游戏中，物理引擎是一个完全受控的虚拟环境。这在混合现实中不同，因为你既有一个模拟的物理引擎，又有一个物理现实，它们需要相互作用。物理模拟中的一个重要定律是牛顿第三运动定律，其指出，“相互作用的两个物体之间的作用力和反作用力总是大小相等，方向相反，作用在同一条直线”。然而，我们无法在物理世界中产生这种反作用力，因为我们无法对手施加真实的作用力。这导致了一种感觉缺失：触觉（或触觉反馈）。

3. 补偿缺失的感觉

不管我们把体验做得多么逼真，你依然无法真正触及全息图。HoloLens 2不模拟触觉，而它是手物交互的关键一环。触觉在与对象交互时提供持续的反馈，所以在交互过程中，缺失的触感会使全息图看起来像幽灵。

要围绕这一点进行设计，我们必须与我们能够接触到的感官进行过度沟通：视觉和声音。当用户触碰并释放一个对象时，我们播放一个声音，然后对象亮起以与用户进行强烈的交流，以这种方式来补偿和掩盖缺失的触感。

对象之间的物理交互是双向的，两个对象相互影响。我们无法令虚拟对象通过触碰来影响你的手，但我们可以用光来显示对象和手之间的关系。

在这个视频中，虚拟光影从立方体投射到真实的手和桌面，以帮助说明接近度。

通过将光线投射到你的手，这会提供更多关于手和对象之间相互作用的反馈。将这种微妙的效果添加到虚拟手会对交互的真实感产生出人意料的强烈影响，并提供有关深度、接近度和方向的信息。这种照明效果模糊了数字和物理之间的界限，因为你现在看到的手是真实环境照明和虚拟对象照明的组合。

有用户描述说，拿着一个特别亮的红色发光全息图，看到它对皮肤的影响，即使心里清楚它不可能产生热量，但自己依然会感到手暖暖的。

尽管这种设计改善了处理虚拟对象的体验，但由于没有触觉反馈，交互依然存在一定的幽灵感。

4. 为用户打破物理定律

虚拟对象的行为已经更加物理化，而通过对用户的测试，我们同时发现了不需要的物理交互。走很远的路，然后弯腰并伸手捡地上的东西，这都是现实世界中的烦恼。在虚拟世界中我们不需要容忍这一点。对于不同的用户，这种类型的交互从恼人到不可能（如残障人士）。

我们可以通过禁用重力来减轻虚拟对象坠落的负面影响。但如果没有重力，对象会从你放置的表面漂走，就像置身于国际空间站一样。

这段视频描述了我们开发的一种称为“表面引力”的行为：当没有真实表面时，对象就会漂浮在空中。

为了改善意外对象掉落的负面交互，我们引入了“表面重力”的概念。当下方有一个表面时，给予对象重力。当没有表面时，对象就在原地漂浮。

这段视频展示了我们创建的一个称为“念力”的手势，它能够允许用户召唤和控制远方对象。

在测试过程中，一名用户将一个对象扔得很高，然后它会在上面漂浮，直到用户尝试爬上一个不稳定的吧台才能够到它。这突出了一个问题：用户尝试访问远方对象，但会因为这样而把自己置于危险之中。

为了优化远方对象交互的体验，我们引入了一种“念力”手势。这允许用户将远方对象召唤到手中。尽管“念力”并不是真实的物理交互，但我们都在《星球大战》等媒体看过，甚至模仿幻想过。在这里，我们使用眼动追踪和手关节追踪来帮助用户自信地移动一个对象而无需触碰它。

5. 新兴交互

在这个原型中发现的沉浸是对有形混合现实交互世界的一瞥，模拟的物理性可以改变我们使用和理解每一个数字体验的方式。

想象一下，当你进行网上购物时，你可以将自己看中的数字渲染毛毯拖放到家里的沙发，然后自动折叠并把它放进购物篮里。

如果你能够确实拿着数字唱片，并把它放到扬声器进行播放，所有权的感觉怎么发生什么样的改变呢？

如果我们的数码产品能够对交互更加开放，比如将文件文档折叠成纸飞机，这会出现什么新的艺术和游戏呢？

如果你能够将一个微型行星放到围绕太阳轨道，并以这种方式来教授引力，我们的教育方式又会发生怎样的改变呢？

对于我们的原型，我们致力于实现一种更加沉浸、有趣和开放的交互愿景，从而培养人们探索虚拟体验的好奇心和创造性。这是一次激动人心的旅程的开始，我们将发现这种类型的交互是如何在各种不同的用户体验和用例中实现。

本文链接：https://news.nweon.com/85759

微软：HoloLens 3将是一次全面跃进，也在研发消费级AR眼镜

（映维网 2021年05月15日）初代HoloLens是一款面向工作和娱乐的平台，但随着HoloLens 2的推出，微软一直在鼓励大家将更多精力放在企业用例方面。

然而，HoloLens负责人艾利克斯·基普曼（Alex Kipman）日前再次就消费者版头显发表了评论，并再次证实微软确实有在研发面向大众市场的AR眼镜。

在参加《华尔街日报》的“The Future of Everything Festival”时，基普曼再一次被问及HoloLens 3。当然，他再一次回答称团队确实有在研发，而且这款设备不是一次增量优化，而是会代表技术、设计和舒适度方面的一次“跃进”。

接下来，主持人又问及微软是否会提供消费者版HoloLens。这位HoloLens的缔造者回答道：“ 简而言之，我们要引领混合现实。HoloLens是迄今为止标准最高，销售速度最快，用户量最大的混合现实设备。再次说明，我们为这项成就感到骄傲，我们将继续推动它向前发展。但如果你不进军消费者市场，你就不可能引领一种新的计算媒介。所以我们绝对有为HoloLens探索消费者道路。我很高兴证实这一点，并告诉大家这是我们战略中非常重要的一环。但回到之前的话题，我们不能着急……这大概是出于一个合理的原因。我会告诉你答案。对于今天的技术和3500美元的价位，我不认为它是一种消费者产品。对于我们所处的行业而言，这是一款令人惊叹的产品，同时是一款变革性的产品，但它不是一款消费者产品。一旦我们能够实现适当的沉浸感，沉浸感是关键，你不能只是提供轻量级的通知信息……然后就假设那是一款消费者产品。你需要HoloLens 2++级别的沉浸感，以及社会认可的眼镜形态。”

至于如何实现真正的沉浸式AR眼镜，基普曼解释说：“我来说明一下：HoloLens 2重约500克，耗电约8瓦。要实现舒适的AR智能眼镜，500克这个数字需要变成90克以下，而8瓦则需要变为2瓦以下。所以我需要一方面纳入会增加耗能和重量的沉浸感元素，但另一方面我需要将整体重量减少5倍以上，将功耗降低4倍以上。”

他进一步证实，微软确实在开发一款消费者友好的AR智能眼镜：“当你穿戴HoloLens 2时，我们如何分承重量呢？骨头。（你的）头盖骨。根据设计，我们制造的这款设备不会接触你的鼻子或耳朵……如果我要穿戴（AR智能眼镜），我就要把重量承载到软骨，而如何舒适地做到这一点的人因工程尚不清晰。我们绝对有在努力。但对于'什么时候（能与大家见面）’，我今天无可奉告，但确保我们能够继续启发和领导混合现实领域的进步绝对是我们战略的一环。本文链接：https://news.nweon.com/85761

VR/AR 智能眼镜市场，25 大品牌已展开深入布局

智能可穿戴市场在近几年迎来了新的热潮，TWS 耳机、智能手表 / 手环、智能眼镜是其中占据主要地位的电子消费产品。TWS 耳机是目前智能可穿戴市场销量增长的主力产品，得到了广泛的普及。智能手表 / 手环基于运动健康监测等功能同样也越来越受到年轻消费者的喜爱。

智能眼镜产品包括比较广泛，目前市场上有智能音频眼镜、VR 一体机、AR 眼镜和 MR 眼镜等。全新的交互逻辑，以及颇具未来科技感的新颖用户体验，被品牌商、用户均寄予了非常高的厚望。

其中，VR 虚拟现实眼镜和 AR 增强现实眼镜关注度相对较高，目前也已经有众多品牌开始布局这一市场。此次我爱音频网便是来详细为大家汇总整理一下目前市场上都已经有了哪些 AR、VR 眼镜品牌玩家 ~

一、VR/AR 智能眼镜市场现状

想要了解 VR/AR 智能眼镜，首先要知道到的便是 VR/AR 技术。VR（Virtual Reality）虚拟现实技术是 20 世纪发展起来的一项全新的实用技术，融合了计算机、电子信息、仿真技术，通过计算机模拟虚拟场景。

AR（Augmented Reality）增强现实技术是一种将虚拟信息与真实世界巧妙融合的技术，运用了多媒体、三维建模、智能交互、传感等多种技术，将计算机生成的虚拟信息融入到真实世界，真实的环境和虚拟的物体实时地叠加到了同一个空间内，被人类感官所感知，从而达到超越现实的感官体验。

VR/AR 智能眼镜便是融合了 AR/VR 技术，为用户构建了一个虚拟的现实场景，又或是在现实的场景中构建虚拟的景象。加上重力加速度、陀螺仪、距离、环境光、触觉、力觉等大量传感器的应用，使用户能够通过现实的动作去操控虚拟的景象。

消费级市场，如苹果、谷歌、三星、Facebook、OPPO 等众多品牌都已在积极研发 AR 眼镜产品，但由于技术的限制，目前能够真正到达消费者手上的产品少之又少。

目前市场上主要在售的消费级智能眼镜则多为结合了 VR 虚拟现实技术的产品，包括 VR 一体机，以及相对更加轻便的 VR 智能眼镜。主要应用场景多为影音、娱乐和运动健身等。

在使用体验上主要包括两个方面，一种是为用户提供一种完全的虚拟场景进行影音娱乐功能，另外一种是根据用户周围景象搭建相同的虚拟场景，再在这个场景中布置如屏幕、运动健身仪器等物品，模糊现实和影像，为用户提供更加真实的娱乐、运动、学习等体验。

了解了什么是 VR/AR 眼镜，以及目前的市场、产品状况，下面就让我们来看看目前已经有哪些品牌进入了智能眼镜市场吧 ~

二、VR/AR 智能眼镜品牌玩家

目前市场上的 VR/AR 智能眼镜品牌已经非常丰富，既包括谷歌、微软、索尼等全球性头部企业，也包括三星、华为、、小米、OPPO 等头部手机品牌厂商。而更多的则是如 VIVE、Oculus、Pico、影创等专注于 VR/AR 智能眼镜市场的品牌。

（按照品牌英文名首字母排序，排名不分先后）

3Glasses

3Glasses 是深圳市虚拟现实技术有限公司，是一家虚拟现实和混合现实的公司，中国虚拟现实（VR）和混合现实（Windows Mixed Reality）行业领导者，拥有 18 年虚拟现实技术及行业经验，是 VR 行业专利数保持者、全球微软首批 MR 合作伙伴。

DPVR 大朋 VR

大朋 VR，简称 DPVR，2014 年创立，是一家人工智能虚拟现实产品与内容公司，用户遍及全球多数国家，自主研发从软件系统、硬件设备到内容平台运营的完整全栈 VR 解决方案，产品包括 VR 一体机、PC-VR 头盔，和泛娱乐 VR 内容平台 3D 播播。

EPSON 爱普生

爱普生是全球技术领先企业，总部位于日本。爱普生通过原创的 ' 省、小、精技术 ' 和 ' 数字技术 '，致力于共同创建一个将人、物与信息互联的可持续发展的社会，让世界变得更加和谐美好。在办公和家庭打印、商业和工业打印、制造、视觉、生活方式等领域持续创新。

Google 谷歌

谷歌成立于 1998 年 9 月 4 日，全球知名的搜索引擎公司。谷歌是一家位于美国的跨国科技企业，业务包括互联网搜索、云计算、广告技术等，同时开发并提供大量基于互联网的产品与服务，其主要利润来自于 AdWords 等广告服务。

谷歌是 AR 智能眼镜重要开拓者之一，在 2012 年就发布了首款 AR 增强现实眼镜产品 Google Project Glass，极具未来科技感的外观设计和全新的交互体验瞬间引爆市场，后续又推出了 2 代产品。但由于技术的不成熟，产品在后续的使用过程中缺点逐渐暴露，被网友们疯狂吐槽。最终第三代产品 ' 难产 '。

HUAWEI 华为

华为技术有限公司，成立于 1987 年 , 全球领先的信息与通信技术（ICT）解决方案供应商，专注于 ICT 领域，坚持稳健经营、持续创新、开放合作，在电信运营商、企业、终端和云计算等领域构筑了端到端的解决方案优势，为运营商客户、企业客户和消费者提供有竞争力的 ICT 解决方案、产品和服务，并致力于实现未来信息社会、构建更美好的全联接世界。

华为一直在研发智能眼镜产品，目前有与 GENTLE MONSTER 合作的智能音频眼镜，以及一款 VR 眼镜在售。VR 眼镜外观设计已经非常小巧，并且拥有极为便捷的使用体验。

HYPEREAL

HYPEREAL 成立于 2015 年，致力于自主研发从芯片、SDK、定位系统、显示设备到软件内容的完整 VR 解决方案，为用户打造性能优越的 VR 产品，获得了 Intel、Nvidia、AMD 等合作伙伴的鼎力支持，受到了金融时报、Upload VR、Tech in Asia 和 Technode 等海外媒体的一致好评。

Inmo 影目

深圳影目科技有限公司，简称为影目科技（INMO）成立于 2020 年，是承载 Z 时代生活态度的智能眼镜品牌。影目 INMO 打造热爱潮流与科技年轻用户的科技 ' 潮品 '，与年轻世代一道，探索与创造全新的未来世界生活方式。2021 年 5 月 31 日，INMO 影目科技正式发布其首款一体式 5G AR 智能眼镜 INMO X。

iQIYI 爱奇艺

爱奇艺是于 2010 年创立的在线视频网站，2011 年启动 ' 爱奇艺 ' 品牌并推出全新标志。爱奇艺成立伊始，坚持 ' 悦享品质 ' 的公司理念，以 ' 用户体验 ' 为使命，通过持续不断的技术投入、产品创新，为用户提供清晰、流畅、界面友好的观影体验。

MI 小米

小米是一家以手机、智能硬件和 IoT 平台为核心的互联网公司，以智能手机、智能电视、笔记本等丰富的产品与服务。致力于让全球每个人都能享受科技带来的美好生活。小米在 2016 年发布了首款 VR 眼镜产品，正式进入这一市场。

Microsoft 微软

微软（Microsoft），成立于 1975 年，是一家位于美国的跨国科技企业，是世界 PC（Personal Computer，个人计算机）软件开发的先导，以研发、制造、授权和提供广泛的电脑软件服务业务为主。微软也是较早进入智能眼镜市场的品牌之一，外观设计极具未来科技感，是目前市场上关注度较高的智能 AR 眼镜产品。

NOLO

NOLO（北京凌宇智控科技有限公司）是一家在移动 VR/AR 交互领域处于全球领先地位的科技公司。NOLO 全球首创了具有完全自主知识产权的声光电混合空间定位核心技术 PolarTraq ，是目前世界上唯一能够同时满足 ' 单基站、一对多、低成本、低功耗、高精度、高刷新率、高鲁棒性、大范围 ' 的三维空间定位技术。全球专利布局基本完成，目前已获海内外有效专利 80 多件，其中发明专利 37 件。

Nreal

Nreal 致力于打造消费级混合现实（Mixed Reality，简称 MR）用户体验。2017 年创以来，短短三年，成功研发出了世界最、最轻、视场角最大的混合现实眼镜—— Nreal Light。Nreal Light 于 2019 年美国 CES 消费电展上发布，其惊艳的显示效果及出的佩戴与交互体验获得了业界的一致好评。Nreal 获得 CES 最佳创业公司奖，成为自设立以来唯一夺得该奖项的中国公司。

Oculus（Facebook 旗下品牌）

Oculus 是美国的一家虚拟现实头戴设备制造商，创立于 2012 年，2014 年 Facebook 收购。

OPPO

OPPO 是一家专注于终端产品、软件和互联网服务的科技公司，创立于 2005 年。OPPO 在 2019 年未来科技大会上亮相了首款 AR 眼镜，2020 年未来科技大会上再次推出了第二代 OPPO AR 眼镜产品，但目前还处于概念阶段，还未能量产上市销售。

Pico

Pico 是北京小鸟看看科技有限公司，现已拥有超过 300 人的团队，在东京、旧金山、巴塞罗那、京畿道设有分公司，香港设立办公室，线下销售渠道覆盖七大区域超过四十个国内城市。Pico 团队持续致力于虚拟现实技术、产品与交互技术研发设计、市场与开发者拓展、产品与内容支持、VR 大规模行业应用与客户服务。

千幻魔镜

千幻魔镜专注于虚拟现实 ( VR ) 智能穿戴设备领域的研发、生产和销售，VRSHINECON 千幻魔镜官网提供沉浸式虚拟现实 ( VR ) 头盔 , 让您体验 360 度虚拟现实 ( VR ) 视觉风暴。

SAMSUNG 三星

三星集团 ( SAMSUNG ) 是韩国最大的跨国企业集团，三星集团包括众多的国际下属企业，旗下子公司有：三星电子、三星物产、三星人寿保险等，业务涉及电子、金融、机械、化学等众多领域。目前在售智能眼镜产品有 VR 一体机，三星正在研发的 AR 智能眼镜也不断地有新闻爆出。

Shadow Creator 影创

影创科技成立于 2014 年，是一家主要研发增强现实智能眼镜及眼镜操作系统、交互方法、内容的科技公司，影创科技自 2014 起投入硬件研发工作，2016 年开始硬件发售及推广。

Skyworth 创维

创维集团有限公司成立于 1988 年，是一家从事多媒体（智能电视、机顶盒、内容运营）、家用电器（冰箱、洗衣机、空调、厨房电器等智能化产品业务）、智能系统技术与大数据、现代化服务等业务的智能家电与信息技术企业。目前创维已推出了多款 VR 眼镜一体机产品。

SONY 索尼

SONY 索尼是日本一家全球知名的大型综合性跨国企业集团。索尼是世界视听、电子游戏、通讯产品和信息技术等领域的先导者，是世界最早便携式数码产品的开创者，是日本最具有代表性的数码产品制造商之一、世界最大的音乐公司之一，世界主机游戏三大巨头之一。索尼旗下 PlayStation VR 眼镜搭配其 PS 系列游戏机产品，提供最佳的游戏体验，销量持续增长。

UGP

UGP 是深圳市优吉品科技有限公司，是一家集产品生产、研发、销售为一体的高新技术企业。公司结合多年来智能穿戴、3D 眼镜行业等领域拥有的一流的技术和管理优势，进一步发挥在技术、资金和市场经营等优势进行产业链的整合和创新，坚持技术、产品以及管理创新，力争做高科技核心技术引领者，提供高品质的科技产品。

VIVE

VIVE 是由 HTC 与 Valve 联合开发的 VR 虚拟现实头盔品牌，致力于给使用者提供沉浸式虚拟现实体验，于 2015 年 3 月在 MWC2015 上发布首款产品 HTC Vive。由于有 Valve 的 SteamVR 提供的技术支持，因此在 Steam 平台上已经可以体验利用 Vive 功能的虚拟现实游戏。

Vuzix

Vuzix 是美国一家智能眼镜公司，成立于 1997 年，专业生产戴在眼睛上的视频产品，产品主要应用于工业领域。

小宅

小宅 VR 是国内领先的虚拟现实服务厂商，专注于移动 VR 头显领域，创造虚拟世界中最佳的试听体验，用户的优质体验是小宅永远追求的目标。

蚁视

蚁视是一家专注于虚拟现实、增强现实、全息现实的创新型科技企业，以 PC 端 VR 头盔、手机 VR 眼镜、VR 相机三类硬件形成硬核驱动，打造 PC 端、移动端内容平台，与合作伙伴共同丰富 VR 游戏与 VR 视频资源，致力于建设开放的软硬件结合的 VR 生态体系。

以上就是此次汇总的全部 VR/AR 智能眼镜品牌了，个人整理可能会有遗漏，有知道更多品牌的小伙伴可以在评论区积极留言呦。

三、我爱音频网总结

从汇总中可以发现，目前 VR/AR 智能眼镜市场已经涌入了几十家的品牌，其中多数品牌产品为 VR 一体机，整体体积相对来说还是比较庞大，仅适用于固定场景使用，无法做到便携佩戴。而 AR 眼镜品牌产品相对而言更为接近传统眼镜，是未来智能眼镜发展的一大主要方向。

TWS 耳机、智能手表 / 手环的快速发展，使得更多人群关注到智能可穿戴市场。而 VR/AR 智能眼镜作为智能可穿戴市场的重要一员，凭借着极具未来科技感的用户体验，也吸引了众多资本的涌入，众多品牌均在纷纷布局这一市场，等待着市场的爆发。

就目前的市场状况而言，VR/AR 智能眼镜还未出现如苹果 AirPods 一样的引领性产品，并且市场上的产品品质也参差不齐，用户体验较为不一。再加上技术的限制，产品体积相对较为庞大等原因，目前无法做到广泛普及。

随着众多品牌的不断进入，产品的不断迭代更新，相信在未来必将有一款产品由量变的积累达成质变的飞跃，成为跨时代的智能眼镜产品，带动智能眼镜市场的崛起。是谷歌、微软等早早进入的互联网企业，还是苹果、三星、华为、OPPO 等顶部手机品牌厂商，又或是单纯的智能眼镜品牌，让我们一同期待。

以上内容由'我爱音频网'上传发布

MWC 2019:微软发布HoloLens 2，视野更加宽广、佩戴更加舒适

其实在过去的数周内断断续续都有据称是微软混合现实设备HoloLens 2的谍照出现,在昨晚凌晨一点开场的发布会上它终于得到属于自己的出生证.这次微软给予HoloLens的规格很高,远远不是孤零零的产品 ...
甲小姐对话Nreal徐驰：回应Magic Leap，回答一切 | 甲子光年

行业回暖,MR(混合现实)烽烟再起. 近来,一家中国MR企业快速走进公众视野--Nreal. 一方面,是Nreal的快节奏亮剑. 今年1月的CES(国际消费类电子产品展览会),Nreal首款消费级MR ...
微软Hololens眼镜开始预定，商务套装版售价3.7万元

2016年各种VR眼镜如火如荼,HTC就指望Vive眼镜翻身了.不过要说到黑科技和逼格,微软的Hololens眼镜绝对可以吊打市面上其他VR眼镜,因为Hololens实质上是MR(Mixed Real ...
AR势头迅猛，上市公司入局，一文带你看懂MWC2021上海展

2月23日,为期3天的2021世界移动通信大会(简称MWC)于上海新国际博览中心正式拉开帷幕.MWC是全球通信行业的盛会,2020年由于疫情原因被迫取消,今年率先在上海回归线下.众多VR/AR行业企业 ...
对VR感兴趣？你不可不知这五点 | 游戏葡萄

Oculus的出现让VR一夜之间变成了一个新的风口.想当年,PS2的发布让主机游戏成为了广为大众所接受的娱乐方式,而iPhone的出现让智能手机和智能手机应用/游戏从一个之前仅仅是小部分人自娱自乐的东 ...
CES 2020上的融合实境趋势：感知物联中的“R技术”魔法

如果早知道,CES 2020会是今年四月之前所能看到的唯一一场全球科技展会,我一定会好好珍惜,每种新玩意儿都好好咂摸个遍. 作为(可能是)上半年仅存的硕果,CES 2020不出预料,将成为本年度的科技 ...
Nreal AR眼镜拆解：Birdbath光学结构解析

PS:点击图片即可查看原图本文出自Karl Guttag博客,这一次Karl带来了对Nreal Light眼镜的拆解,以及Bird Bath光学结构解析. 本文基于Nreal在韩国LG U+发售的版 ...
给微软 Hololens 的黑科技「贵」了，这款接地气的 VR 送你压压惊

一个合格的柯基党必然灰常熟悉一个词儿,它就叫做 VR(虚拟现实) .恩,就是那个,动不动就会和成人行业炒在一起的黑科技,当然还有其他 VR 与非成人行业联合的动向-- VR 体验虽然够爽,够沉浸,但是 ...
雅阁酒店集团春节后强势发力，再签约新酒店15家

雅阁酒店集团 · 2021-04-30 15:08:17 2021年雅阁酒店集团再下11城,新签约15家酒店. 2021年,雅阁酒店集团成功签约15家酒店项目, ...
鉴星：惨遭“脱粉”后的鹿晗还能再“吸粉”吗？

这段时间有不少人在网上议论: 鹿晗,凉了. 而自从经历了今年4月份关晓彤的"生日祝福"后,鹿晗确实也失去了一批"粉丝". 其实这个论调早在2018年就有了. 因 ...
民国仅有的一对：一见钟情后分手，50年后再相逢，相濡以沫十二年

为了爱情等待50年,有多少人会觉得值得呢?张爱玲说:"爱就是不问值不值得."真的爱上一个人,心里就再也装不下其他人了,可以为他哭,为他笑,为他不顾一切奔赴:也可以为了他站得远远的, ...
考后五年：人生再无易事

西施犬 - By Shine 01. 2013~2018,我参加高考,五年了. "光阴荏苒",这个词,常出现在当年的语文作文本里--只是那时我可能不知道,时光如风究竟是怎样的含义. ...
病虫害已经发生了，谢花后第一遍药切莫再忽视！

眼下苹果已经陆续开始谢花了,咱大伙也都知道,今年苹果花期有几次降雨天气,那么没有及时喷药的果园,现在病虫害已经发生,所以,我们一定要把握好谢花后第一遍药这个时机,那此期打药都要打哪些药,注意哪些细节呢 ...
《明朝那些事儿》后，当年明月为何再无新作？个中原因引人深思

前言 2006年3月开始,在天涯论坛"煮酒论史"版块,一个笔名为当年明月的作者以洪武大帝朱元璋为首篇,发表了题目"明朝的那些事儿--历史应该可以写得好看"的系列 ...
看清了大衣哥朱之文的嘴脸后，你还会再黑他吗？

舞台是公开的,谁嗓子好歌声好谁都可以去展示自己.没有唱功的你别眼红朱之文了,他是靠实力加运气加机会才成名人!你上去唱几首试试?出全资修水泥硬化路等公益,非但村人不说好还要夜袭击碎朱之文家窗户玻璃,打碎 ...
《亮剑》中，魏和尚死后，为什么旅长就再没出现过？

李三万摘要:电视剧<亮剑>中,李云龙的警卫员魏和尚被黑云寨土匪杀害后,李云龙擅自带部队扫平黑云寨给和尚报仇,但很奇怪,从这以后旅长就再没有出现过,这是为什么? 电视剧<亮剑>中 ...
发生关系后，男人对你再好，这三件事也千万别做！

作者:陌言来源:陌言大叔(ID:moyandashu) 作家沈万九说过一句话: "爱你的人要你将来,睡你的人要你现在." 在感情中,爱和性从来都是分不开的. 不过这话对绝大部分女 ...