研究生: 陳彥翔
Yan-Xiang Chen
論文名稱: 融合物件偵測與前景分割之行人偵測
Fusion of Object Detection and Foreground Segmentation for Pedestrian Detection.
指導教授: 徐繼聖
Gee-Sern Hsu
口試委員: 鄭文皇
Wen-Huang Cheng
Shuo-Yan Chou
Sheng-Luen Chung
學位類別: 碩士
系所名稱: 工程學院 - 機械工程系
Department of Mechanical Engineering
論文出版年: 2018
畢業學年度: 106
語文別: 中文
論文頁數: 64
中文關鍵詞: 物件偵測前景分割行人偵測
外文關鍵詞: Object Detection, Foreground Segmentation, Pedestrian Detection
隨著深度學習的蓬勃發展,物件偵測器的能力也越來越強大,作為物件種類之一的行人偵測當然也不例外。許多以物件偵測器為基礎,針對行人偵測而改善的偵測器也相繼被提出,然而這些行人偵測器的準確度雖然得到大幅度的改善,但在速度上卻無法達到即時。在本論文中我們將探討圖像分割網路與行人偵測網路的優缺點,並提出一融合圖像分割與物件偵測的行人偵測網路架構。本文提出之網路僅使用單一深層架構,即可同時進行圖像分割與偵測行人的多任務預測,並利用圖像分割之結果,抑制行人偵測器之假陽性(False Positives)偵測的發生率。此方法在Caltech資料庫上雖然略遜於其他深度學習網路,僅達到錯失率(Missing Rate) 15.46%的表現(目前最佳為SDS-RCNN的7.36%),但在速度上卻可作到15FPS的偵測速度(SDS-RCNN為5FPS)。

We propose an integrated network that combines the Fully Connected Network (FCN) and the Single Shot Multi-box Detector (SSD) for fast pedestrian detection. The FCN is good for image segmentation, and the SSD is good for fast object detection. However, the SSD suffers from false positives in many cases. The foreground segments from the FCN are exploited to suppress the false positives. Compared with other methods that combine detection networks and segmentation networks, many outperform the proposed network for 1%~8% better in the Missing Rate on Caltech database. However, the proposed network reaches 15 FPS in speed, and others can only reach 5 FPS.

摘要 IV Abstract V 誌謝 VI 圖目錄 X 表目錄 XII 第一章 介紹 1 1.1 研究背景和動機 1 1.2 方法概述 2 1.3 論文貢獻 3 1.4 論文架構 4 第二章 文獻回顧 5 2.1 泛物件偵測相關文獻 5 2.1.1 Faster R-CNN (2015) 5 2.1.2 You Only Look Once (YOLO, 2016) 7 2.2 行人偵測相關文獻 8 2.2.1 MS-CNN (2016) 8 2.2.2 SA-FastRCNN (2017) 10 2.2.3 RPN+BF (2016) 11 2.3 以圖像分割輔助行人偵測相關文獻 13 2.3.1 Fused-DNN (2017) 13 2.3.2 SDS-RCNN (2017) 14 第三章 主要方法 17 3.1 SSD行人偵測器 17 3.1.1 網路架構 17 3.1.2 訓練階段 18 3.1.3 測試階段 20 3.1.4 針對行人偵測進行偵測器改良 21 3.2 Fully Convolutional Nets for Semantic Segmentation 21 3.2.1 Convolutionalization 21 3.2.2 Upsampling 22 3.2.3 Skip Architecture 23 3.3 同時進行物件偵測與圖像分割 24 3.3.1 加入圖像分割網路的SSD結構 24 3.3.2 弱圖像分割 25 3.3.3 Cost-Sensitive Weight 25 3.3.4 融合物件偵測與前景分割 26 3.3.5 方法總述 27 第四章 實驗設置與分析 28 4.1 行人標準資料庫介紹 28 4.1.1 Caltech介紹 28 4.1.2 TUD-Brussels and TUD-MotionPairs (TUD)介紹 29 4.1.3 ETH介紹 30 4.1.4 KITTI介紹 30 4.1.5 Cityscape介紹 31 4.2 實驗設計 31 4.3 實驗結果與分析 32 4.3.1 SSD預訓練模型效能比較 32 4.3.2 Default Boxes設置分析 34 4.3.3 融合圖像分割之SSD效能比較 36 4.3.4 在智慧校園專案上的成效 39 第五章 結論與未來研究方向 42 第六章 參考文獻 43 第七章 附錄 46 7.1 卷積類神經網路 (Convolutional Neural Network) 46 7.1.1 Feedforward 47 7.1.2 Backpropagation 47 7.1.3 Convolution 48 7.1.4 Max Pooling 49 7.1.5 Inverted Dropout 49

