簡易檢索 / 詳目顯示

研究生: 李皇達
Huang_da - Lee
論文名稱: 中文文件影像分析系統之設計與實現
Design and Implementation of a Chinese Document Image Analysis System
指導教授: 吳乾彌
Chen-Mie Wu
口試委員: 陳省隆
Hsing-Lung Chen
陳郁堂
Yie-Tarng Chen
陳漢宗
Hann-Trong Chen
學位類別: 碩士
Master
系所名稱: 電資學院 - 電子工程系
Department of Electronic and Computer Engineering
論文出版年: 2009
畢業學年度: 97
語文別: 中文
論文頁數: 55
中文關鍵詞: 文件分析標點辨識
外文關鍵詞: document analysis, character recognition
相關次數: 點閱:167下載:1
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  •   本論文係有關中文文件影像分析系統之設計與實現,相關的研究工作包含四大部分:第一部分為數位影像二值化演算法之軟體設計;第二部分為進行中文文件切割時,標點符號辨識與相連國字切割等情況之處理;第三部分為分析中文文件之邏輯結構,並產生相關之邏輯結構檔;第四部分為中文文件影像分析系統之各階段測試結果。
      整體而言,本論文係完成一個中文文件影像分析系統之軟體設計;藉由文件切割之技術,以分析中文文件影像之邏輯結構。未來,若能加入文字辨識之功能,即可應用於各種中文文件資訊擷取系統之發展。


      This thesis is related to the design and implementation of a Chinese document image analysis system. The research work includes four parts. The first part is about software design of the binarization algorithm for digital images. The second part is to deal with the situations of recognizing punctuation marks or segmenting connected Chinese characters during the process of segmenting a Chinese document. The third part is to analyze the logical structure of Chinese document and generate the related logical structure file. The fourth part is about the testing results for each stage of the Chinese document image analysis system.
      On the whole, this thesis has accomplished the software design of a Chinese document image analysis system. Through using the document segmentation technologies, the logical structures of Chinese documents are analyzed. In the future, by adding the capability of character recognition, this software can easily be applied to the development of various information capturing system for Chinese documents.

    第一章 緒論 1 1.1 研究動機與背景 1 1.2 論文組織與概觀 2 第二章 文件影像分析系統發展環境與流程 3 2.1 文件影像分析系統發展環境介紹 3 2.1.1 GCC Compiler 3 2.1.2 CYGWIN 4 2.2 文件影像分析系統架構 5 第三章 中文文件影像分析系統之設計與實現 8 3.1 中文文件影像分析系統結構與介紹 8 3.2 系統輸入影像之介紹 9 3.3 影像二值化演算法原理與實現 12 3.3.1 疊代逼近臨界值演算法之原理 12 3.3.2 演算法之設計實現 13 3.4 文件切割演算法之設計與實現 13 3.4.1 文件切割演算法之執行流程 13 3.4.2 文件主體切割成元件之演算法與實現 15 3.4.3 國字與標點符號概略切割之原理與介紹 18 3.4.4 標點符號之辨識 19 3.4.5 相連國字之切割 27 3.4.6 非標點元件之合併 28 3.5 文件邏輯結構版面資訊擷取之演算法與實現 30 3.5.1 文件邏輯結構之介紹 30 3.5.2 演算法之原理 30 3.5.3 演算法之設計與實現 32 3.5.4 演算法之結果輸出 33 第四章 中文文件影像分析系統之測試與效能分析 35 4.1 二值化之結果與分析 35 4.2 文件切割演算法之結果與分析 36 4.2.1 文件行切割之結構與分析 36 4.2.2 文件主體切割成元件之結果與分析 37 4.2.3 國字與標點符號概略切割之結果與分析 38 4.2.4 標點符號辨識後之結果與分析 44 4.2.5 相連國字切割後之結果與分析 45 4.2.6 國字合併非標點符號國字之結果與分析 46 4.3 邏輯結構版面資訊擷取演算法之結果與分析 47 4.3.1 邏輯結構版面之結果與分析 47 第五章 結論 53 參考文獻 54

    [1] 徐千洋著,Linux函式庫參考手冊,旗標出版股份有限公司,民國九十年四月初版。
    [2] 謝冰瑩,李鎏,劉正浩,邱燮友,賴炎元,陳滿銘編譯,新譯四書讀本,三民書局,民國九十五年一月五版。
    [3] George Nagy, “Twenty Years of Document Image Analysis in PAMI,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, No. 1, pp. 38-62, 2000.
    [4] R. Kasturi, L. O’Gorman, and V. Govindaraju, “Document Image Analysis: A Primer,” Sadhana, Vol. 27, Part 1, pp. 3-22, 2002.
    [5] Lawrence O'Gorman and Rangachar Kasturi, “Document Image Analysis,” IEEE Computer Society Press, 1995.
    [6] Y.Y. Tang, S.W. Lee, and C.Y. Suen, “Automatic Document Processing: A Survey,” Pattern Recognition, Vol. 29, No. 12, pp. 1931-1952, 1996.
    [7] Richard G. Casey and Eric Lecolinet, “A Survey of Methods and Strategies in Character Segmentation,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 18, No. 7, pp. 690-706, 1996.
    [8] Robert M. Haralick and Linda G. Shapiro, Computer and Robot Vision, Vol.1, Addision Wesley Publishing Company, 1992.
    [9] Milan Sonka, Vaclav Hlavac, and Roger Boyle, Image Processing, Analysis, and Machine Vision, 2nd ed., PWS Publishing, pp. 129-130, 1999.
    [10] M. Sezgin and B. Sankur, “Survey over Image Thresholding Techniques and Quantitative Performance Evaluation,” Journal of Electronic Imaging, Vol. 13, No. 1, pp. 146-165, 2004.

    QR CODE