采用传统摄像设备对动态范围高的真实世界场景进行拍摄时,经常会由于过曝光、欠曝光导致图像亮处过饱和、暗处无细节,使得所拍摄的图像质量显著下降。这是因为传统相机所能拍摄的动态范围受到内部硬件固有的限制,从而无法完整记录真实场景的动态范围。如何突破传统相机的高动态范围性能极限,是计算摄像的热点研究问题。
视觉感知研究中心施柏鑫课题组曾在国际计算摄像会议ICCP 2015(Best Paper Runner-Up奖)上提出过一种基于余数相机的高动态范围成像技术。该技术通过记录场景辐射度强度对相机量化比特上限的余数值(图Modulo image)恢复原有高动态范围,是一种理论上不会饱和的相机架构。然而当时提出的基于马尔可夫随机场的优化解法在非余数区域存在误解,且对于局部强对比度以及RGB通道的颜色对齐处理欠佳(图MRF结果)。
课题组最近提出了采用深度学习的方法对余数图像进行恢复进而获取高动态范围图像的方法。该方法将恢复算法设计为一个双模块的神经网络,把余数图像到高动态范围图像的恢复过程当作一个迭代的二元标记问题来处理(图第三行右栏)。其中,恢复算法将根据所预测的二元标记模板的值是否为零作为依据,来判断是否输出具有高动态范围的恢复结果。研究发现,余数图像的特殊边缘能为迭代恢复过程提供更详细的语义信息,可以更好地缓解非余数区域的误解情况,呈现对比度和色彩表现更佳的恢复结果(图Ours结果)。大量实验展示了提出方法在多种场景下的高动态范围成像结果,实拍实验通过将视觉感知研究中心研发的“视达”相机(Vidar,脉冲相机)配置为余数采集模式进行了可行性验证。该方法有望为单帧八比特高动态范围成像提供原理和性能上达到全新高度的解决方案。相关成果以“UnModNet: Learning to Unwrap a Modulo Image for High Dynamic Range Imaging”为题,即将发表于NeurIPS 2020会议。
此外,施柏鑫课题组还有两篇NeurIPS 2020论文即将发表:“GPS-Net: Graph-based photometric stereo network”提出了一种基于图表示的光度立体视觉神经网络架构,对逐像素和逐图像的法线求解计算过程实现了统一,可以有效处理从稀疏到稠密的光源输入;“Group contextual encoding for 3D point clouds” 通过引入分组上下文编码解决点云数据稀疏问题,有利于在特征向量子空间学习全局上下文,大幅度提升点云3D检测的精度。
以上研究得到了国家自然科学基金、国家重点研发计划、北京智源凯时尊龙人生就是博、北京市重大科技专项等项目的大力支持。