单图像三维重建技术(医学图像三维重建原理)

基于可见光单幅图像的三维重建方法一直是计算机视觉领域的研究热点。本文对基于光照模型、几何图元和深度学习策略的三维重建方法进行了分类和总结，并对各种方法的优缺点和未来的研究方向进行了分析和讨论。

1 引言

作为计算机视觉的一个重要研究领域，由2D图像重建三维结构已经取得了丰富的成果。其主要任务是通过摄像机获取物体的二维图像信息，运用三维重建的相关理论对真实物体的表面形貌进行分析、处理和恢复。该技术广泛应用于人工智能、机器人、无人驾驶、虚拟现实、航空遥感测量、工业自动化等重要领域。目前，许多基于多幅图像的三维复原方法已经被提出并得到广泛应用。虽然基于单幅图像的三维复原方法因其病态性而难度较大，但其便捷性已经受到业界和学术界的关注。特别是基于可见光(380 ~ 760 nm波段的可见光)而不是结构光、红外激光、超声波等的单幅图像。丢失了很多关键的几何信息，需要通过一些假设、先验知识，或者基于现有模型的深度学习方法来恢复。

一般来说，基于可见光单幅图像的三维复原存在以下影响因素和难点：

(1)物体本身的物质差异。由不同材料制成的物体表现出不同的表面特征，如金属、白纸、玻璃等。由于它们不同的小分子结构。如果只考虑一个具体的实物，往往会使三维恢复系统缺乏通用性和鲁棒性，而对于多个类别，由于类内差异大，类间差异小，重建精度会下降。

(2)物体表面几何结构的差异。点、线、面代表不同维度的几何结构，这些基本几何结构元素的组合构成了一个物体的表面形态。同一物体的不同区域，由于物体表面的凹凸不平和高低不同，表面结构和轮廓也不同。即使不同的物体由相同的材料制成，由于制造工艺和设计形状等因素，物体表面的几何结构也会有很大的不同。

(3)图像信息采集的丢失。现实世界中的物体往往会受到环境的影响，比如高光、阴影、明暗、非刚性变形等现象。此外，相机拍摄角度、距离、镜头畸变、投影等因素。造成图像本身的信息丢失甚至错误，干扰三维恢复的数据输入。

基于单幅图像的三维结构恢复是一个不确定问题，即病态问题。只有单幅图像无法得到唯一的三维复原结果。如何利用一定的先验知识和预先标定的数据集来指导和约束三维重建是一大难点。

基于以上难点，国内外很多研究成果给出了不同的解决方案和方法，可以归纳为：基于光照模型的方法、基于几何图元分布规律的方法和基于深度学习的方法。

2 基于光照模型的方法

2.1基于纹理的形状恢复方法

基于纹理的形状方法是由Gibson在1950年首先提出的。它是一种根据物体表面纹理变化来估计物体表面变形，进而恢复物体三维结构的方法。为了简化模型，使其可计算，通常假设物体表面在水平面上。这时候这种方法就把问题转化为估计物体所在平面的法向量。之后，该方法逐渐从平面扩展到光滑连续的曲面。

SfT方法的应用必须满足以下先决条件：(1)纹理由规则的纹理单元组成，并假设这些单元具有完全一致的固定形状(通常只有人工的规则图案才能满足这一要求)；(2)纹理分布均匀，即纹理密度一致；(3)纹理图像可以转换成基于频域的表示；(4)织构具有各向同性或随机相位特征。这种方法限制严格，普适性弱，纹理图案易受光影影响，精度较低。这种方法逐渐被基于明暗的形状恢复方法所取代。

2.2基于明暗的形状恢复方法

由明暗恢复形状(SfS)方法是计算机视觉领域中三维结构恢复的重要方法之一。该方法由Horn[14]于1986年首次提出。其基本过程是基于表面点的亮度取决于入射光与表面法线的夹角的物理定理，从单幅图像的明暗变化出发，借助一定的成像模型，通过施加约束来求解物体表面的梯度场，然后通过对梯度进行积分来获得表面起伏高度值。基于SfS的系统具有设备简单、分辨率高、适用性强的优点，广泛应用于工业生产过程检测、医学图像分析与重建、人脸和指纹识别、行星表面形貌重建等领域。

经典SfS方法

由于物体表面的亮度容易受到光源、形状和材料特性，以及相机或视点的角度、距离和参数的影响，经典的SfS方法需要满足以下假设：(1)需要将表面微结构抽象为朗伯反射模型；(2)物体表面各点的光反射特性一致，反射系数已知；(3)光源为无穷远处的点光源；(4)物体表面与相机距离较远，成像几何满足正交投影。

如图1所示，根据朗伯反射模型，反射光的强度与入射光的强度和入射光与体表法向量夹角的余弦成正比，如公式(1)所示：

(1)

其中x和y是图像的二维坐标；为漫反射光强；为光源强度；为表面反射系数；是入射光和表面法线矢量之间的角度。

如果以相机坐标系为参考系，将物体表面起伏高度设为，则物体表面的法向可以用表面上各点的法向量表示，表面梯度。它们之间的关系如公式(2)至(3)所示：

(2)

(3)

从公式(1)至(3)可以看出，朗伯反射模型可以用公式(4)表示：

(4)

其中为归一化图像亮度；是反射函数；P0和q0是沿着光源方向的反射点的向量。

通常，唯一解不能仅由该模型确定。因此，必须建立一个结合表面反射模型和表面微结构模型的正则化模型来进一步约束和求解上述公式。

根据建立正则化模型方式的不同，SfS算法大致可以分为四种典型算法：最小值法、进化法、线性化法和局部法。

(1)最小法

最小值法是将由物体表面反射模型和物体表面微结构模型导出的亮度方程联合表示为能量函数的泛函极值问题或优化问题，从而得到最小解或近似解。由于二维图像数据与反射模型确定的物体表面亮度之间存在误差，该方法首先将亮度方程转化为误差函数的形式。然后，结合不同的约束(如光滑性约束、可积性约束、图像梯度约束等。)，同时得到一个新的泛函极值函数，并用交错网格法或三角形面元逼近法对其进行离散。最后，高斯-塞德尔迭代

进化方法的核心是运用动力学思想，将SfS的泛函求解问题视为一个哈密顿系统方程问题。当给定初值或边界条件时，方程转化为柯西初值问题或狄利克雷边界问题。这类问题通常可以用特征线、可视化和水平集的方法来解决。其中，关键是确定图像中独特形状的特征点，这是演化过程的起点。进化过程从起点开始，搜索邻近点，找出所有远离光源方向的点，筛选出最靠近光源方向的点。然后沿着这个方向形成的演化路径计算图像中每个点的高度值，从而得到整个表面的高度。因为演化过程在时间上是可微的，所以应用演化方法解决SfS问题实际上是隐式地利用了物体的表面微结构模型。

；’

图1朗伯反射模型示意图

(3)线性化方法

线性化是指将反射函数进行泰勒展开后，舍弃其非线性项，将其转化为一个线性问题来求解。该方法认为反射函数中低阶项是主要成分，省略高阶项后的结果接近真实情况，满足泰勒展开的要求，从而间接要求物体表面的连续缓慢变化。因此，首先将表面反射函数表示为表面梯度的函数，进行泰勒展开，只保留常数项和一阶项，两边同时进行傅里叶变换。然后根据光源方向的倾斜和偏转角进行改写，再通过傅里叶逆变换得到物体表面的高度值。

(4)本地化方法

上述方法的求解过程是全局的，不能独立获得物体表面的局部形状表示。定位方法首先根据先验知识假设物体的表面微结构是特定的形状(如球体)。然后，将反射模型和物体微观结构模型相结合，形成形状参数的线性偏微分方程组。通过寻找图像的特征点，旋转图像使其与光源在图像平面上的投影方向一致，计算下表面点在坐标系中的倾角和偏转角。最后，通过边界条件的迭代求解，可以直接确定物体的局部三维表面形状。

综上所述，经典的SfS方法算法复杂度高，对初始环境特别是光照条件有严格的限制。兰伯特的反射模型本身就有缺陷。——理想漫反射的条件在现实中很难满足，基于它的各种计算方法必然存在较大误差。然而，这种方法为其他方法奠定了很多理论基础，如改进的SfS方法。

2.2.2改进SfS法

经典的SfS方法采用简化的成像模型(如假设物体表面满足理想反射，光源位于无穷远处，相机遵循正交投影模型等。).虽然降低了SfS方法的复杂度，但也直接导致了三维复原结果的较大误差。这是因为实际物体的表面并不是理想的漫反射面，而是同时包含漫反射和镜面反射的混合面。特别是当相机靠近物体表面时，相机不再满足正交投影，而是接近透视投影，甚至会出现阴影、遮挡等现象，从而对表面各点的亮度造成较大的干扰。同时，实际物体的表面材料是非均匀各向异性的，这使得物体表面各点的光反射特性不一致，反射系数也会随着表面的起伏高度和不平整程度而变化。近年来，国内外许多学者从不同方面对经典的SfS方法进行了研究和改进，并衍生出许多突破前提假设的后改进SfS方法。

(1)基于表面微观结构的方法

经典SfS算法的一个最重要的前提是物体表面的光反射模型遵循朗伯反射模型，朗伯反射模型是一个高度简化的理想模型，忽略了很多实际情况。因此，使用不同的表面微结构模型和反射模型来覆盖尽可能多的光照条件，可以大大提高三维恢复结果的准确性。Ahmed首次建立了Ward模型下SfS像的辐照度方程，并用Lax-Friedrichs算法求解。

Vogel等人提出了在透视投影下基于Phong模型的混合曲面SfS方法的研究。如图2所示，Lax-Friedrichs算法也被用来解决这个问题。Archinal等人在数字表面模型的基础上，利用月球轨道观测相机拍摄窄角影像，通过光电测绘增强技术对月球表面重建模型的细节进行了改进。奥哈拉等人采用了朗伯反射模型和柳文欢-纳亚尔反射模型的混合模型，并基于针孔成像相机模型，真实

Camilli等人研究了如何将一些非朗伯模型应用于SfS方法的适应性，并扩展了其普适性。郭旺等人提出了一种基于牛顿-拉韦森方法的Blinn-Phong混合曲面模型三维恢复的快速SfS算法，与其他方法相比提高了求解效率。

(2)基于光照反射率的方法

根据表面点的亮度变化，可以用不同的反射模型计算出表面的不平整程度和高度。均匀照明反射率假设物体表面是光滑的，忽略了现实的非均匀性和各向异性。对不同情况的反射率进行分类有助于提高三维恢复的精度。

Samaras等人建立了具有分段常数反射率的多视角SfS模型，并将其应用于人脸重建，提高了人脸模型的精细度。Capanna等人利用最大似然估计法降低了噪声对不同材料反射率的敏感性，并将其应用于卢特蒂亚小行星的重建。吴使用单幅图像和不同的约束条件从低分辨率表面模型中恢复出对应于不同反射率的不同形状。结果表明，重建效果可以与相对高分辨率的图像相同。

(3)基于光源或照相机和物体之间距离的方法

图2 SfS法复原莫札特的脸部模型

摄像机与物体之间的距离直接决定了后续计算是采用正交投影还是透视投影，从而影响三维恢复的精度。Herbort等人基于非朗伯模型和可变反射率，通过主动距离扫描技术不断改变摄像机与物体之间的距离，实现了三维物体的复原。同时，加入距离惩罚项优化约束，保证其精度接近原始曲面，从而改善三维复原模型的细节。刘等仔细分析了光照方向和光源与物体之间的距离对三维结构恢复的影响，并提出了误差预测模型。该模型揭示了光源和物体表面之间的距离和方位角如何影响三维恢复的精度。实验结果表明，窄角高分辨率相机拍摄图像的三维复原效果优于同时期其他方法。

与经典的SfS方法相比，基于光源或摄像机与物体之间距离的方法在三维结构恢复的结果上有明显的改善，可以根据不同的场景适应不同的重建要求。然而，良好的重建结果依赖于准确的先验知识，包括对光照的综合考虑、表面微观结构的精确建模、摄像机与视点的角度关系等。对于小型室内近景单个物体，或者简单的行星宏观地貌，SfS方法有很好的三维复原效果，但是对于大型复杂的室外场景，复原效果较差。为了提高室外场景的三维复原效果，SfS方法逐渐被基于多视图几何理论的运动结构(SfM)方法和同步定位与映射(SLAM)方法所取代，但这些方法都不属于基于单幅图像类别的三维结构复原方法。

3 基于几何图元展布规律的方法

自然界中的一些物体，尤其是人造物体，具有明显的几何规律，如重复的纹理、对称的结构、规则的几何拼接图形、人工CAD模型等。借助几何定律的重要特性，通过分析单幅图像

通过局部建模和全局扩展，可以恢复出完整的三维模型。可分为二维几何特征和三维模型。

3.1基于二维几何特征的方法

基于二维几何特征的方法是指三维模型在二维平面上映射的几何图形具有对称性和重复性等规律，通过旋转、平移或缩放单位图元即可推导出整个三维模型。

这种方法的第一步是定义和检测这个规则，即目标的形状或预先训练好的模型需要被强约束。魏等人提出了广义对称(包括平移对称、旋转对称和反射对称)的概念。Chertok，Lee和Loy在2D图像的对称性检测方面也做了大量的工作。这些定义和方法对于特定的目标类(如人脸、人体、汽车)或者一些特定的场景(如平面墙壁、天花板、地板的室内场景，以及重复图案的平面场景)都取得了很好的效果。

第二步，对相邻像素进行强制光度匹配，使二维单元图元之间在反复扩展拼接形成三维模型的过程中，拼接会更加平滑自然。通常，使用基于马尔可夫随机场(MRF)的立体优化来强制匹配像素之间的光度一致性，并使用平滑项来惩罚像素邻居之间的不一致性。第三步，为了使图元的深度值相互一致，还需要对3D模型的深度图进行建模。Zabih等人定义了多幅图像之间的交互集并强制可见性约束，而Sun等人使用遮挡项来惩罚遮挡，间接保持了深度图的一致性。

基于以上三个重建步骤，许多学者提出了一个系统的框架。Wu等人提出了一个框架，重点是利用图元的可重复性。该框架可以通过输入单幅图像自动检测重复区域，并通过匹配图像中的密集像素来恢复三维模型，如图3所示。匹配关系由一个

图3基于重复图元的单幅图像重建

区间图表示图像中每个像素与其匹配像素之间的距离。为了获得密集的重复结构，该方法还提出了一种图割来平衡高层的几何重复约束、低层的光度一致性和空间光滑性约束，从而消除重复拼接时的不一致性。薛等人提出了一个框架，重点是利用图元的对称性来缩小搜索空间。通过输入对称分割的平面物体的单幅图像，找到所有的对称线匹配对，然后基于对称线和平面线通过MRF恢复深度图。与其他方法相比，计算效率更高。

与其他三维模型相比，中国古代建筑是典型的轴对称和中心对称并存的三维模型。王英会教授的团队对此类问题进行了细致的研究，提出了一种中国唐代风格古建筑的建模方法。该方法只需要知道建筑物一角的图像，就可以根据其几何特征规律恢复出完整的唐代建筑三维模型。与其他方法相比，该方法具有数据量少、鲁棒性强的特点。在上述建模方法的基础上，团队进一步提出了基于组件提取的室内场景重建方法。该方法对几何图元法进行了延伸和扩展，提出了模型构件理论。首先通过形状检测和平面分解提取室内场景中的基本形状成分，通过边界检测和有向包围盒实现室内场景中基本形状成分的拟合。然后选择基本形状部件集中最大的部件作为参考部件，以参考部件为中心寻找最佳组合部件。将组合构件与标准模型库的标准模型逐一匹配，找出匹配度最高的构件组合，识别出由最佳组合构件组成的对象，并使用该对象。

替换准模型库中对应的标准模型；最后，完成室内场景的重建。

。该方法丰富了二维几何特征的类型和表达方式，保证了场景对象的成分提取的准确性和形状完整性，提高了室内场景重建的准确性。

并且重复性和对称性是一个简单明了的先验条件，只需要知道一个图元就可以按照规律重构所有的曲面，大大降低了恢复三维结构的难度。但是，特定于一个3D模型的实体不能用于处理另一个3D模型。理想的约束应该尽可能宽，以容纳更多的对象，但也应该尽可能严格，以使问题收敛。

3.2基于三维建筑模型的方法

现实中，很多物体都有简单的几何构型，比如立方体、圆柱体等。而且很多物体都有特殊的固定形状。比如，人的脸是由眼睛、鼻子、嘴巴、耳朵和脸组成的，汽车是由底盘、车轮和车壳组成的。这些模型的三维结构清晰，只需将基本几何图形拼接组合，就可以得到更大的复杂几何图形。因此，在三维重建过程中，采用特定的三维结构模型代替一般的光照反射模型，可以大大提高重建精度。基于3D模型构建的方法由待表示物体的参数化模型组成，通过寻找输入图像与3D模型投影之间最佳拟合的参数来实现重构。

Pentland首先针对自然界中常见的物体提出了超二次曲面模型，为基于三维构造模型的方法奠定了基础。接着贾提出了广义圆柱的概念，并详细描述了各种圆柱的形状。Gupta等人提出了方形物体的建模规则，如图4所示。

根据不同的应用场景对模型进行进一步细化和分类，提高重建精度。肖等人又提出了类似的建模规则。虽然这些模型可以描述一个特定形状的物体，但是每个模型的局限性太大，导致其应用面比较窄。王英会等人提出了一种可调多边形方法来实现三维网格加密。在这种方法中，三角形的中心点被映射到切平面以生成映射点。然后将映射点按一定比例移动，逆时针连接，得到切面上的可调多边形；最后，形成可调整的三角形和四边形来填充可调整的多边形之间的间隙。该方法生成的细分曲面可以根据不同的运动系数灵活调整，比传统的超二次曲面模型更加鲁棒和有效。

随着CAD技术的不断成熟，基于CAD模型的方法逐渐出现。该方法通过建立一组对应的点描述模型，可以有效地确定物体的近似视点，从而粗略地表示任意物体的近似形状。另外，还有一种基于CAD模型的非参数化重建方法，但这种方法仅限于预分割的网上商品图像的三维恢复，有很大的局限性。

图4基于三维模型的解析图的几何重建

原因是没有对模型的各个组成部分进行有效的分割和内部特征表示。王英会等人提出了一套在多领域材料体数据中提取部分接口和表达多领域材料体数据内部结构特征的方法。该方法构建有向骨架树，提取骨架形状特征和脊线特征，借助树形结构拓扑进行矢量表示，从而实现体数据接口形状特征的完整描述。实验结果表明，该方法不仅能准确表达三维复原模型，还能清晰地分割和描述模型内外的结构关系，从而增强模型细节的准确性。

一般来说，基于几何图元分布规律的方法的先验知识在图元或模型的设计阶段就已经设定好了，可以为具体物体提供更多的先验信息，因此可以达到更好的重建效果。虽然这种方法很难推广到其他物体，但由于其应用广泛，已经成为继SfS方法之后的又一种重要的三维结构复原方法。

4 基于深度学习的方法

深度学习是人工神经网络的进一步发展。本质上是一种特征学习方法，负责通过一些简单的、非线性的网络模型，将低层的原始数据转化为高层的表达式[82]。1986年，Rumelhart等人提出了反向传播(BP)算法，但由于梯度下降时会出现局部极值，以及梯度消失和硬件计算能力不足等问题，没有得到广泛应用。直到2006年，辛顿等人。

本文提出了一种新的深度神经网络模型，利用预训练方法缓解局部极值问题，降低深度神经网络的优化难度和对计算机计算能力的要求，使这类方法可以重新应用。2012年，在ImageNet图像识别比赛中，Krizhevsky等人采用深度学习模型AlexNet获得冠军。此后，深度学习受到国内外学者的广泛关注和应用。随着一些新的网络结构、训练模型和训练数据集的出现，深度学习在语音识别、自然语言处理、图像识别和分割等多个领域取得了显著的成果。自AlexNet发布以来，深度学习在3D数据的分类、识别和重建方面取得了长足的进步。目前，广泛使用的深度学习模型主要有深度信念网络(DBN)、卷积神经网络(CNN)、递归神经网络(RNN)、生成对抗网络(GAN)等。

相对于2D图像领域，深度学习在三维重建方面的研究起步较晚，但从2012年开始也取得了很大的进展。其中，基于语义标签的方法是三维恢复深度学习方法应用的重要前提，也是通过数据集训练三维恢复深度网络的重要基础。场景的语义理解在尺度和三维结构的感知中起着重要的作用。基于语义标签的三维复原方法是指从具有地平线、消失点、表面边界等几何信息的单幅图像中生成空间上合理的场景三维复原。这种方法可以通过知道像素或区域的语义类别来容易地实现。

和深度几何约束(如“天”很远，“地”是水平的)，从而建立局部2D图像与整体3D模型之间的映射关系。然而，为了唯一地确定绝对深度，诸如纹理、相对深度、相机参数等附加信息。都是需要的。特别是这种方法非常依赖于语义类的初始定义，语义类训练集的准确性直接影响最终的重建效果。

目前国际上公布的数据集有PASCAL3D、Object- Net3D[102]和IKEA等。这些数据集预先人工标注多类物体的语义和姿态信息。开放数据集为各大深度学习算法提供了相同的训练起点和参考标准，但这些数据集也有自己的局限性：(1)样本数量不足，仅限于少数对象类别和样本；(2)从有限的标签字典中只能选择一个标签来标注模型，即使语义不够准确，也不能发明新的标签；(3)由于拍摄角度、相机畸变等因素，图像与3D模型不能完全匹配；(4)数据集之间标注尺度定义不统一，有线段、平面、CAD模型等多种尺度。以上问题造成了深度学习方法监管程度的差异，从而直接影响3D恢复的质量。根据实际应用的需要，深度学习方法通常分为监督学习、半监督学习和无监督学习。

4.1监督学习

Wu等人建立了3D ShapeNets网络，将3D几何形状标签表示为二元变量在3D体素上的概率分布，通过Gibbs采样预测形状类型，填充未知孔洞完成重建。Kar等人提出了立体学习机系统，利用反投影变换将二维图像的特征投影到三维模型网格中，利用单视点的语义线索进行三维还原。该系统可以简化特征匹配过程，并保持良好的通用性。吴等提出了MarrNet网络模型，在端到端生成重建结果的网络结构中加入2.5D草图，增强了重建效果，使网络能够对不同类型的物体进行三维重建。Tulsiani等人利用光线一致性约束构造了一个通用的检测器，通过学习单个视点的三维结构来训练多个视点的几何一致性，使得常见的CNN网络可以测量不同三维物体的外观一致性。Kato等人提出了一种近似梯度渲染的网格渲染器，并将其集成到神经网络中。在渲染器处理之后，神经网络可以通过输入单个二维轮廓图像来监督三维结构的重建过程。

特别是对于一些形状固定的三维物体，监督学习可以极大地帮助深度网络快速收敛，提高三维重聚的准确率。下面简单介绍一下人脸模型和人体模型。

人脸五官清晰，对称性高，眼、眉、鼻、口、耳的相对位置固定。深度学习网络只需根据输入的2D人脸图像调整参数，对模型进行变形，就可以得到相应的3D人脸模型。三维可变形模型(3DMM)就是与这一思想相对应的一种三维参数化模型。该模型通过使用用于人脸识别和图像编码的原型人脸的大数据集，寻求基于图像构建二维人脸的线性表示。实现该模型最直接的方法是将所有三维人脸嵌入线性空间，或者从大量三维激光扫描图像数据集中学习人脸的密度函数参数。借助3DMM人脸模型，Romdhani提出了一种基于多特征的方法，利用非线性最小二乘优化拟合来提高复原精度。Jourabloo使用CNN回归来估计和更新3DMM模型参数。这些方法虽然可以实现高精度的模板生成和精确的单幅图像人脸重建，但是非常依赖于图像与模板模型之间细致精确的逐点匹配和复杂的参数拟合过程，以及大量人脸数据的支持。

为了简化模型训练和参数拟合的复杂性，Castelan等人和Dovgard等人利用面部特征的对称性，将所有模型的表面形状和亮度融合成单一的耦合统计模型，从而简化了参数拟合的过程。该方法可以生成更精确的面部表面轮廓，并且当新面部和存储的模板面部之间的形状差异小时，新面部可以表示为存储的三维面部的线性组合。但在差异较大的情况下，需要调整模板以适应特定的形状(比如输入一个笑脸，数据库就要包含各种笑脸)。同时，该模型无法对表面亮度进行显式建模，当图像亮度发生变化，尤其是肤色发生变化时，会出现匹配失败的情况。

Kemelmacher等人提出并解决了一个正面图像的非凸优化问题。该方法用深度图和反射率图代替普通的光照图，并为深度值和反射率值增加相应的损失函数，以提高深度学习网络在不同亮度下的重建效果。Deng等人利用3DMM模型提出了R-Net和C-Net的联合网络框架，如图5所示。首先，网络约束人脸表情、纹理、方向、光照等信息，使用鲁棒混合损失函数进行弱监督学习。同时将感知层的信息作为置信度，结合图像和模型的互补信息进行形状聚合。最终实现人脸重建。徐等人提出了一种两层网络，通过使用3DMM模型和其他头部区域的深度图作为输入来重建头部模型。该模型首先利用自重构的方法从单幅图像中学习人脸形状，然后利用立体图像学习头发和耳朵的几何形状，既提高了精度，又保证了整体头部几何形状的一致性。

同样，人体也是一个具有固定特征的模型。人体三维复原的任务是从单幅图像中分析二维人体姿态

图5基于R网和C网的三维人脸精确重建

三维人体骨架，从而实现完整三维姿态和三维人体模型的还原。虽然这个问题在多相机多视角几何理论下已经得到了很好的解决，但是对于单幅图像来说，不确定的成像条件和有限的数据集使得这个任务非常复杂。传统的基于优化的方法为单目姿态和形状恢复提供了最可靠的解决方案。但由于运行时间慢、依赖初始化条件、陷入局部极小等原因，效果并不显著。借助于蒙皮的多人线性(SMPL)，可以直接从图像中返回姿态和形状，甚至特征点，

点、轮廓、语义分割或原始像素。以Kolotouros等人的方法为例，该方法首先使用SMPL作为人体模型的模板引入网格；然后引入GraphCNN直接对输入的单幅图像进行处理并提取特征点，然后直接附加到SMPL模型的顶点坐标图结构上进行进一步处理。最后，每个顶点取其在SMPL模型变形网格中的三维位置作为最终输出结果。该方法无需显式求解预先指定的参数空间，即可直接恢复完整的人体三维几何模型。同时，在得到每个顶点的三维坐标后，如果需要适应和预测其符合特定的模型，只需要从当前模型回归其参数即可。蒋等人提出了基于参数模型和距离场的深度学习网络，可以使用两个损失函数同时参与网络训练，生成更准确的人体姿态模型。朱等人提出了一种结合参数模型和自由变形的深度学习网络。该网络利用人体关节的约束信息、轮廓和每个像素的着色信息，对分层网格的变形进行优化，不仅可以还原出完整的人体模型，还可以实现精确的纹理映射。

4.2半监督学习

与直接使用3D模型数据集或3D参数模型数据集训练深度网络求解绝对深度信息的监督学习方法不同，半监督学习方法使用3D空间中的特征(如特征点、特征线和特征平面)作为语义标签，建立标签与深度信息的关联，从而实现3D模型恢复。

德拉吉等人利用MRF在室内场景中的几何线索(如天花板和墙壁之间的接缝)来重建墙壁、天花板和地板的相对位置。Hedau等人使用类似的几何线索来恢复杂乱房间的空间布局。这两种方法对于简单的室内场景是有效的，但是对房间结构和房间布局有严格的要求，应用非常有限。古尔德的场景分解模型证明了室外场景中几何信息与语义的强相关性。Hoiem等人提出了一组语义宽松的几何集合，定义了建筑物是垂直的、道路、草和水是水平的等概念，并构建了一个简单的3D恢复模型与之匹配，可以通过“弹出”垂直区域来恢复结构。Russell等人采用了更具语义动机的方法——，通过使用详细的人工标定数据集(例如，天空总是尽可能在最远的深度，草地和道路形成支撑其他物体的地平面等)来分割和推断区域及其边缘的几何类别。)，并通过建立相对于地平面的支撑和附着关系来完成深度推断。

除了简单地使用数据集来训练网络之外，结合传统算法的方法还可以帮助网络更快地收敛。Haines等人利用深度学习预测预分割区域的连续三维方向，将区域平面检测作为MRF模型的优化问题。Fouhey等人首先检测凸/凹边缘、遮挡边界、超像素及其方向，然后将分组问题表示为二元二次规划问题。Heitz等人将目标检测、多类图像标记和深度感知结合起来。刘等在Hetiz方法的基础上将与机器学习相结合。党

图6室外场景语义分类集

首先，使用学习的多类图像标签集来推断图像中每个像素的语义类。标签集设置为：天空、树木、道路、草地、水、建筑物、山脉和前景物体(前七类覆盖了室外场景中的大部分背景区域，最后一类负责标记一组前景物体)。然后利用基于像素和超像素的机器学习网络，结合全局深度优先、全局结构特征等规则，得到了较好的重建结果，如图6所示。杨等人将复杂的分割问题转化为深度预测问题，不再显示区分标签，提出了不区分真实地面的深度学习网络。然而，这种方法受到网络架构的影响，限制了预测平面的总数，导致其在复杂场景下的性能下降。在杨等人的方法基础上，刘等人提出了一种基于掩膜R-CNN的案例分割框架，解决了这一问题。

4.3无监督学习

虽然基于监督学习和半监督学习的方法是有效的，但是构建大规模、全覆盖的监督训练数据集是非常困难的，重建结果尤其依赖于数据集的标签质量。语义标签本质上是一些特定的人工图像特征，实际过程离不开解决图像特征到深度的映射。虽然网络可以隐式地推断上下文语义，但重建结果的质量严重依赖于语义集的设置，导致网络缺乏通用性，使用场景有限。随着研究的深入，一些无监督学习方法逐渐被提出。

Rezende等人首先提出了无监督学习的三维重建网络结构。网络实现不需要三维模型外观标签就可以直接通过二维模型。

用于端到端无监督学习训练的3d图像。虽然只适用于立方体、圆柱体等简单形状，但证明了三维表示无监督学习的可能性。Choy等人在标准的长长短时记忆网络(LSTM)的基础上提出了扩展的网络结构3354 (3D-R2N2)，建立了大型CAD模型数据集ModelNet。该网络可以适应缺乏纹理特征和宽基线特征的情况，无需使用图像分类标签进行训练。虽然该网络在重建细节上存在一些缺陷，但由于其在单一架构下同时支持单视图和多视图重建，且实验结果优于传统方法，因此具有重要意义。Girdhar等人提出的TL-Embedding网络网络在训练自编码器时首先利用像素网格学习三维模型嵌入，然后通过ConvNets输入2D图像寻找相应的模型嵌入，最后通过解码器得到由体素表示的三维重建模型。Yan等人提出的透视变换网(Perspective Tansformer Nets)在传统的卷积神经网络中加入了透视变换，以二维物体轮廓与对应的体素轮廓在不同特定透视下的距离作为新的损失函数，因此在无监督学习下取得了良好的泛化能力。李等人提出了一种深度学习网络，通过一组图像和轮廓来预测目标对象的3D网格形状和纹理。该网络将建模对象表示为一组可变形的分量图像，通过分割大量的可变形分量图像，有效地增强了重建网格与原始图像之间的语义一致性。因为网络不需要3D监督、关键点的手动标注、物体的多视图图像或3D参数化模板，所以它可以容易地扩展到各种物体类别，而不需要这样的标签。

为了更好地利用影像与三维模型之间的着色信息，减少影像与三维模型匹配误差造成的”块重叠”问题，常和郝都提出了直接从带纹理的复合CAD模型训练深度模型，并利用复合影像估计相机姿态和重建三维形状。CAD纹理模型可以表示任何方向和大小的表面，更详细的细节可以通过纹理着色来捕捉。关键在于深度学习网络先训练未标记的2D图片集，再训练相应的未标记的3D模型集，最后通过一定的惩罚函数将它们联合起来，在输入一张新图像时进行匹配判断。这种方法有两个优点：

(1)避免了人工定义模型和人工标注带来的误差，同时可以任意组合纹理CAD模型，生成几乎无限数量的真实姿态和3D模型准确的渲染训练图像；(2)深度学习网络可以应对大量的外观变化，尤其是复杂的建模。虽然纹理CAD模型对合成图像(即人工构造的纹理图像或由人工构造的纹理模型映射的二维图像)有明显的效果，但应用于自然图像(即非合成图像)时性能明显下降。为了克服这一问题，一些学者尝试在训练集中加入少量人工标注的自然图像来微调网络参数，但人工标注会引入标注误差带来的误差。

此外，也有学者尝试使用GAN网络进行三维复原。其中比较有代表性的是吴等人提出的三维GAN网络，该网络首先通过变分自编码网络得到输入图像的势向量，然后通过GAN网络的生成器得到重建物体。其优点是可以从概率表示空间中抽取新的三维物体，鉴别器具有三维物体识别的信息特征。实验表明，与TL嵌入网络的重建精度相比，3D-VAE-GAN网络取得了更好的效果。

综上所述，深度学习与传统方法相比，具有无需人工描述规则和设置参数、数据处理量大等诸多优势，并取得了显著的效果。但是深度学习也存在以下问题：(1)公共数据集少。与目前数千万的2D影像数据集相比，3D模型的公共数据集规模小、种类少，早期有代表性的公共数据集如PASCAL3D [101]和ObjectNet3D已经不能满足实际需求。(2)重建分辨率和精度。网络支持的重建物体分辨率通常为323232，与真实模型相比，重建结果的准确率不足95%，导致细节严重缺失。然而，与2D相比，3D多了一个维度。如果盲目提高分辨率，数据量会呈指数级增长，会大大降低计算效率。(3)单幅图像重建的不确定性。与传统方法一样，当基于深度学习的方法使用单幅图像进行3D恢复时，一幅图像通常对应于许多不同的3D模型。这种不确定性反映在训练集中，即两幅相似的图像可能会导致完全不同的重建结果。目前，只能通过尽可能精确地定义损失函数和外部约束来限制结果的不确定性。

　　5 总结与展望

基于可见光单幅图像的三维结构复原本身是一个不确定性问题。自20世纪90年代以来，国内外许多学者提出了各种方法，

如表1所示。基于光照模型的方法通过图像的纹理和明暗关系假设并建立物体表面的微结构模型，构建二维图像与三维深度的对应关系，实现三维结构的复原。这种方法在已知材料反射率的前提下(即消除材料差异的因素)，试图从几何结构的差异来解决问题，但这种方法容易受到实际环境中光照条件、相机视点和光照模型类型的影响，并且需要大量的计算。该方法基于几何图元的分布规律，用2D图像或三维模型的几何规律代替光照模型，通过平移、旋转、缩放、重复等操作实现三维复原，避免了物体表面几何结构差异带来的误差问题。与人工纹理和模型相比，它具有明显的优势，但正是这种先验规则限制了该方法在其他不规则物体中的应用，导致其应用范围较窄。基于深度学习的方法通过使用深度网络避免了传统方法中手动定义关系和设置参数的局限性。用有监督、半监督或无监督的方法，实现了利用特征点、特征线、特征平面、特征模型等多维空间信息，根据输入图像直接获得相应三维深度点的求解过程。而且基于几何基元分布规律的方法依赖于海量数据的支持，有效降低了图像采集过程中可能出现的误差。但是它的缺点也很明显：非常依赖网络架构的设计和训练数据集的质量。虽然基于深度学习的方法相对于传统方法有了明显的进步，但是完全依赖深度学习的效果仍然不尽如人意。对于病态问题，利用多视图几何理论，只有将单幅图像扩展到多幅图像，才能尽可能减小误差。其中，SfM和SLAM是多视图几何理论的两种代表性方法。由于超出了单幅图片的讨论范围，请读者自行查阅相关资料。

从影响因素来看，物体本身的材料差异和几何结构差异是决定三维复原结果质量的根本原因，而图像信息获取的损失所带来的不确定性是外在原因。从现有的方法来看，无法通过数学计算精确求解三维结构，只能通过构建合理的光照模型。

基于可见光单幅图像的三维结构复原方法比较

或者寻找规则的几何图元纹理来近似物体表面的微观结构，并在误差允许的范围内缩小或忽略差异，或者通过深度学习，在网络上训练时，增加大量高精度、高分辨率的图像来减少信息损失和不确定性，从而逼近真实物体的表面形貌。此外，采用多种方法的统一框架来解决上述问题将是一个新的趋势。2020年，Henderson等人提出了一种结合传统方法和深度学习的新网络框架。该框架解决了从单幅图像恢复3D和生成新的3D形状样本的问题。该框架不仅结合了传统的光照模型和先验模型方法

它还支持无标签数据集的学习和带语义标签的监督学习。结果表明，该算法能适应单色光和白光环境，并能自动调整阴影和轮廓在网络中的权重。生成的模型具有更精细的表面细节和更强的鲁棒性。这种集成优势是上面提到的任何单一算法都无法实现的。综上所述，基于可见光单幅图像的三维结构复原问题，未来可以在以下几个方面进行发展和突破：

(1)结合传统方法和深度学习方法，对现有的基于深度

与传统方法相比，学习方法取得了明显的效果，但是深度学习网络的训练非常依赖数据集(数据集的质量直接影响网络效果)。然而，基于可见光单幅图像的三维结构恢复问题缺乏相应的海量标准数据集，使得网络缺乏泛化能力。传统方法虽然计算复杂度高，但由于其普适性，仍然发挥着不可或缺的作用。两种方法的结合可以充分发挥其优势，达到更好的重建效果。

(2)基于GAN网络或组合GAN网络的三维重建。虽然GAN网络的特性导致训练过程中噪声的引入，使得训练结果不稳定，但在缺乏大规模标准数据集的情况下，这种方法仍然表现出良好的潜力。此外，GAN网络被视为形状或轮廓先验知识模型的一部分，可以帮助网络快速收敛，满足特定问题场景的需求。

(3)建立真实场景的大规模标准训练数据集。大多数研究人员选择纯白色背景或CAD模型渲染的合成数据集进行训练。这些数据集环境复杂，标准不一，与真实场景差异较大。而且每个对象的复杂程度差异较大，不利于网络的训练和最终实验数据的比较，导致网络在真实环境中的效果较弱。目前急需参考二维图像领域建立一些大的标准数据集，供大家测试对比。

总的来说，基于可见光单幅图像的三维结构复原的各种方法都在各自特定的问题领域取得了令人瞩目的成就，但各种方法的普适性较弱，对问题的初始条件要求严格。仅仅通过一种方法来解决回收问题已经变得越来越困难。未来，基于多种方法、适用于更广泛通用场景的融合解决方案，尤其是深度学习的方式，是一个迫切的研究方向。

除已声明原创作品外，本站作品均由网友自主投稿、编辑整理发布，目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品，请与我们取得联系，我们会及时修改或删除。