簡易檢索 / 詳目顯示

研究生: 羅盛麟
Sheng-lin Lo
論文名稱: 一種擷取自照相機的扭曲文件影像之復原方法
A Dewarping Method for the Distorted Document Image Captured by a Camera
指導教授: 范欽雄
Chin-shyurng Fahn
口試委員: 鍾國亮
Kuo-liang Chung
Hung-yuan Liao
Din-chang Tseng
Jung-hua Wang
學位類別: 碩士
系所名稱: 電資學院 - 資訊工程系
Department of Computer Science and Information Engineering
論文出版年: 2005
畢業學年度: 93
語文別: 中文
論文頁數: 54
中文關鍵詞: 立方雲規配適法文字行復原扭曲方法扭曲文件影像傾斜文件影像
外文關鍵詞: distorted document image, dewarping method, tilted document image, text line, cubic spline fitting
相關次數: 點閱:480下載:8
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 照相機便於攜帶,而且成像快速,它相較於掃描器,不僅是更有效率,而且是更為方便的文件影像輸入工具,尤其目前在行動裝置內建照相機的應用越來越普及,例如個人隨身助理 (PDA) 與智慧型手機 (SmartPhone),使文件影像的處理顯得更為重要。於手持照相機或行動裝置拍攝文件影像時,文件本身的扭曲是很常見的問題,本論文提出一個在不需要其它輔助裝置,只有單一照相機的環境下,復原扭曲文件影像的方法。它可改進現有復原方法的限制,在功能上,可以處理跨頁、雙欄位格式的文件,以及包含圖形或表格的複合文件;在理論上,此方法可不受文件扭曲程度的限制,而且可校正傾斜的文件影像。本論文的主要方法是先分析文件的類型,定位出文件影像中的文字行,接著用立方雲規內插法配適出每條文字行所在的數學函數,然後利用最佳線性組合的原則,挑選出兩條最具代表性的文字行來重建扭曲模型,再予以校正。實驗結果顯示本論文所提的方法能夠有效地校正扭曲和傾斜的文件影像,並且可提高文件影像在後續光學文字辨識(OCR)的正確率。

    Cameras are easy to carry and can take images quickly. Compared with a scanner, a camera acting as one of document image inputting devices is not only more efficient but also more portable. Especially at present, the applications of a camera built in the mobile device, like PDAs and Smartphones, are more and more popular, so that the performance of document image processing for such products is getting more important. When we take document images by a hand-held camera or a mobile device, the document suffering from distortion is a common problem. In this thesis, we propose a dewarping method under the environment of capturing images that only needs a single camera without other auxiliary devices. It can improve the restrictions of existing dewaping methods. In terms of function, our method can deal with binding documents, two-column documents, and complex documents which include graphs or tables. On the theoretical plane, our method is not confined to the limit of distortion degrees, and also can rectify tilted document images. The main idea of this thesis is to analyze the document category and locate text lines in the document image. After that, we use the cubic spline method to fit the mathematical functions of the locations of all text lines. Then based on the optimal linear combination principle, we choose two typical text lines to reconstruct the distorted model for dewarping the document image. The experimental results show our method can dewarp the distorted and tilted document images effectively. It also leads to raise the OCR accuracy in the subsequent process of document image analysis.

    中文摘要 I 英文摘要 II 誌謝 III 目錄 IV 圖索引 VI 表索引 VIII 第一章 緒論 1 1.1 研究動機 1 1.2 相關研究 2 1.3 研究方法 6 1.4 系統架構 7 第二章 前置處理 8 2.1 鏡頭校正 8 2.2 二值化 11 2.3 文件類型的分析 14 2.4 定位文字行 16 2.4.1 擴大化影像 16 2.4.2 求垂直區塊中點 17 2.4.3 連接成文字行並且平滑 18 2.4 圖文分離 19 第三章 復原扭曲影像 22 3.1 扭曲影像模型 22 3.2 曲線配適 24 3.2.1 最小平方回歸法 24 3.2.2 拉格朗日內插法 26 3.2.3 立方雲規內插法 29 3.2.4 曲線配適法的選擇 33 3.3 利用文字行建構模型 34 3.4 復原扭曲文件影像 36 3.5 復原傾斜文件影像 37 第四章 系統實現與實驗結果 39 4.1 系統實現 39 4.2 實驗結果 40 4.3 討論 46 4.3.1 文字行的彎曲改善程度 46 4.3.2 復原前後文件影像 OCR的辨識率 49 第五章 結論與未來研究方向 50 5.1結論 50 5.2未來研究方向 51 參考文獻 52

