研究生: 黃浩禎
Hao-Chen Huang
論文名稱: 具有語義訊息和多重約束的單目深度預測
Monocular Depth Estimation with Semantic Information and Multiple Constraints
指導教授: 花凱龍
Kai-Lung Hua
口試委員: 陳永耀
Yung-Yao Chen
Kuo-Liang Chung
Yi-Ling Chen
學位類別: 碩士
系所名稱: 電資學院 - 資訊工程系
Department of Computer Science and Information Engineering
論文出版年: 2022
畢業學年度: 110
語文別: 英文
論文頁數: 40
中文關鍵詞: 單目深度估計變形卷積多重損失函數語意分割
外文關鍵詞: Monocular Depth Estimation, Deformable Convolution, Multi-Loss, Semantic Segmentation
單目深度估計是對單個 2D 圖像的深度訊息和場景幾何形狀進行推斷 的一項任務。該任務通常用於輔助其他任務,如自動駕駛汽車和同時定 位與地圖構建 (SLAM)。從單個圖像準確預測深度是一個挑戰,因為單個 2D 場景可能輸出多個深度順序。在本文中,我們提出了我們的單目深度 估計模型,該模型利用高維和多尺度信息,並動態調整視野域,以達到 state-of-the-art 的表現。最後,我們採用多重損失來限制特徵的發展,並確保融合後的準確性。

Monocular depth estimation is a task where a single 2D image’s depth infor- mation and scene geometry is inferred. This task is often used to assist other tasks such as self-driving cars and simultaneous localization and mapping (SLAM) for building scenes. Accurately estimating depth from a single image is challenging since a single 2D scene may output multiple depth or- ders. In this paper, we propose our monocular depth estimation model that leverages high-level and multi-scale information and dynamically adjusts the field of view to achieve state-of-the-art performance. Finally, we apply multi-loss to limit the development of features and ensure accuracy after fusion.

Contents Abstract in Chinese . . . . . . . . . . . . . . . . . . . . . . . . . . i Abstract in English . . . . . . . . . . . . . . . . . . . . . . . . . . ii Acknowledgements . . . . . . . . . . . . . . . . . . . . . . . . . . iii Contents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv List of Figures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi List of Tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix List of Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 RELATED WORK . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1 Mococular Depth Estimation Models . . . . . . . 4 2.2 Feature Fusion . . . . . . . . . . . . . . . . . . . 5 3 Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3.1 Res2Net Fusion Block . . . . . . . . . . . . . . . 7 3.2 Deformable Convolution . . . . . . . . . . . . . . 9 3.3 Semantic Segmentation Head . . . . . . . . . . . 11 3.4 Multi-loss Constrained Models . . . . . . . . . . . 13 iv4 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4.1 Implementation Details . . . . . . . . . . . . . . . 15 4.2 KITTI Dataset . . . . . . . . . . . . . . . . . . . 17 4.3 NYUv2 Dataset . . . . . . . . . . . . . . . . . . . 18 4.4 Evaluation . . . . . . . . . . . . . . . . . . . . . 18 4.5 Comparison to the state-of-the-art . . . . . . . . . 20 4.6 Ablation Study . . . . . . . . . . . . . . . . . . . 21 5 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Letter of Authority . . . . . . . . . . . . . . . . . . . . . . . . . . 28

