簡易檢索 / 詳目顯示

研究生: 曾敬峰
Ching-Feng Tseng
論文名稱: 文字探勘技術在營建管理運用之探討
The Survey of Text Mining Technology in Construction Management
指導教授: 呂守陞
Sou-Sen Leu
口試委員: 鄭明淵
MIN-YUAN CHENG
劉述舜
Shu-Shun Liu
學位類別: 碩士
Master
系所名稱: 工程學院 - 營建工程系
Department of Civil and Construction Engineering
論文出版年: 2006
畢業學年度: 94
語文別: 中文
論文頁數: 106
中文關鍵詞: 文字探勘自然語言處理中文斷詞中文剖析詞彙階層式概念文件群集WordStat
外文關鍵詞: Word Segmentation, Term Hierarchy Concept
相關次數: 點閱:324下載:1
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 隨著數位化時代的來臨與日新月異的科技,資訊急速爆增的情況下,越來越多的文件與資料充斥,傳統資訊檢索技術無法有效地幫助使用者了解和分析大量的文件資料,然而文件中極可能隱藏著許多有用的寶貴知識,人類開始渴望能藉由電腦強大的運算技術,使電腦了解文件內容,進而解讀文件,甚至希望從文件中探勘出隱含之知識,於是許多試圖從文件中獲取與了解知識的技術便因應而生,如資料探勘、文字探勘、自然語言處理等。
    本研究之目的主要應用文字探勘技術,將營建工程師欲尋找之主題相關文件進行群集,節省搜尋與蒐集相關性文件之時間,並加入自然語言處理技術,以避免具有相關性之文件被排除在群集外。


    The Survey of Text Mining Technology in Construction Management

    Thesis Advisor:Sou-Sen Leu
    Graduate Student:Ching-Feng Tseng
    Date:July, 2006
    ABSTRACT
    Key words: Text Mining, Natural Language Processing, Word Segmentation, Term Hierarchy Concept, Clustering
    Since the arrival of digital era and the information explosion, there are more and more documents and information available to people. Traditional information retrieval technologies are no longer effective to help the users to capture the information contents. People look forward to taking advantage of the powerful calculation capabilities of the computers to analyze the information, and furthermore hope to discover the knowledge hidden underneath the information.
    As a result, a lot of technologies and programs were being developed, by which the data and documents are effectively analyzed. The significant techniques are like text mining, data mining, natural language processing. The purpose of this research is to gather and classify highly correlated construction documents together by text mining and natural language processing techniques. The classified documents may help construction engineers read the documents effectively.

    目錄 中文摘要……………………………………………………………....I 英文摘要……………………………………………………………...II 誌謝…………………………………………………………………...III 目錄….………………………………………………………………..IV 圖目錄.…………………………………………………………….....IX 表目錄……………………………………………………….............XII 第一章 緒論 ……………….……………………………………...1-1 1.1 研究動機與目的 …………………………………………….1-1 1.2 研究範圍與內容 …………………………………………….1-4 1.3 研究方法與步驟 …………………………………………….1-4 1.4 本文架構……………………………………………………...1-7 第二章 文獻回顧 ………………………………………………...2-1 2.1 文字探勘………………………………………………….......2-1 2.1.1文字探勘概述……………………………………….....2-2 2.1.2 資料探勘概述…………………………………………2-4 2.1.3 文字探勘與資料探勘之差異…………………………2-6 2.1.4 文字探勘之應用………………………………………2-8 2.2 自然語言處理………………...……………………………..2-10 2.2.1 自然語言處理概述…………………………………..2-10 2.2.2 自然語言處理與傳統資訊檢索之差異…..…………2-11 2.2.3 自然語言處理之應用………………………………..2-13 第三章 文字探勘…………………………..………….…………..3-1 3.1 文字探勘架構…………………………...….………………..3-1 3.1.1 文字探勘與自然語言處理技術之結合………………3-4 3.2 文字探勘技術…………………………………….…………..3-5 3.2.1 分類……………………….….………………………..3-5 3.2.2 關聯規則分析…………………………….…………...3-7 3.2.3 摘要…………………………….……………………...3-7 3.2.4 概念地圖…………………………….………………...3-8 3.3 群集化…………………………….……………………........3-10 3.3.1 文件群集概述…………………………….………….3-11 3.3.2 文件群集架構…………………………….………….3-11 3.3.3 文件群集技術…………………………….………….3-13 3.4 自然語言處理架構…………………………….……………3-20 3.5 自然語言處理技術…………………………….……………3-23 3.5.1 中文斷詞…………………………….……..…………3-23 3.5.2 詞性標記…………………………….……..…………3-27 3.5.3 中文剖析…………………………….……..…………3-29 3.5.4 詞彙語意轉換…………………….……..……………3-30 第四章 研究方法之探討與應用…….…….…………………....4-1 4.1 研究架構與流程…………………….……..………………….4-1 4.1.1 研究架構…………………….……..…………………..4-2 4.1.2 研究流程…………………….……..…………………..4-4 4.2 資料收集及資料前處理………….……..…………………….4-6 4.3 中文剖析系統之應用………….……..……………………….4-6 4.3.1 中研院中文剖析系統簡介…..…………………...........4-6 4.3.2 中文剖析系統架構….……..…………………………..4-7 4.4 詞彙階層式概念………….……..…………………………….4-8 4.4.1 詞彙階層式概念定義…..………………………...........4-9 4.4.2 中研院多層次概念定義……………………….............4-9 4.4.3 中研院詞彙多層次概念展開架構………...................4-11 4.4.4 專業領域詞彙階層式概念架構……….......................4-13 4.5 文字探勘與自然語言處理之連結………..............................4-15 4.6 中文斷詞系統之應用………..................................................4-16 4.6.1 中研院中文斷詞系統簡介………...............................4-17 4.6.2 中研院中文斷詞系統架構………...............................4-17 4.7 文字探勘:教材文件群集分析……….....................................4-18 4.7.1 WordStat 簡介與功能介紹…........................................4-19 4.7.2 WordStat 文件群集分析…............................................4-20 第五章 實例驗證…..……………………………………………....5-1 5.1 資料收集及資料前處理……………………………................5-1 5.2 中文剖析.……………………………………………...............5-3 5.3 專業領域詞彙階層概念…………………………....................5-6 5.4 自然語言處理與文字探勘之連結……………........................5-8 5.5 中文斷詞.……………………………………………...............5-9 5.6 文件相似度計算……………………………………..............5-14 5.7 文字探勘.…………………………………………….............5-18 5.8 結果評估.…………………………………………….............5-20 第六章 結論與建議 ……………………………….……….6-1 6.1 結論 ………………………………………….……………….6-1 6.2 建議 ………………..................................................................6-2 參考文獻……………………………………….………….................A-1 附錄一 中研院詞庫近代漢語詞類標記集…………….……….........B-1 附錄二 中研院語意角色…….....…………………………………….B-3 附錄三 專業領域詞彙階層式概念圖…..............................................B-5 附錄四 中研院特徵階層圖……………………………….…...........B-10 附錄五 營建教材擷取說明表………………………………………B-13 圖目錄 圖1.1 研究架構與流程…………………………….………………1-6 圖2.1 文字探勘概略示意圖………………………………………. 2-3 圖2.2 資料庫知識發掘流程………………………………………..2-5 圖2.3 概念網路結構圖……………………………………………2-14 圖2.4「科技」的概念階層樹……………………………………..2-16 圖2.5 關鍵字概念分類結構………………………………………2-17 圖3.1 傳統文字探勘架構…………………………………………..3-3 圖3.2 文字探勘與自然語言處理技術之結合……………………..3-4 圖3.3 Mind Map概念圖範例……………………………………3-10 圖3.4 文件群集架構………………………………………………3-12 圖3.5 演算法示意圖……………………………………3-19 圖3.6 自然語言處理架構圖………………………………………3-22 圖3.7 中文斷詞架構圖……………………………………………3-25 圖3.8 中文剖析樹表示法…………………………………………3-29 圖3.9 語意式之轉換及表示方法…………………………………3-31 圖4.1 研究概念說明圖……………………………………………..4-2 圖4.2 研究架構…………………………………………………….4-3 圖4.3 研究流程……………………………………………………..4-5 圖4.4 實體語意角色概念展開…………………………………....4-12 圖4.5 事件語意角色概念展開…………………………………....4-13 圖4.6 專業領域詞彙階層式概念展開………………………........4-15 圖4.7 文件相關性分析…………………………………................4-21 圖5.1 整體實例操作流程……………………………......................5-2 圖5.2 中研院中文剖析器線上測試系統……………......................5-3 圖5.3 中研院中文剖析器剖析結果……………..............................5-4 圖5.4 中研院中文剖析器剖析結果(續)…..................................5-5 圖5.5 「進度管制」詞彙階層架構圖…………..............................5-7 圖5.6 Wordstat分類式詞彙典…………….....................................5-9 圖5.7 中研院中文斷詞系統……………........................................5-10 圖5.8 斷詞結果與詞性標記……………........................................5-11 圖5.9 無用詞彙去除與字源合併……………................................5-12 圖5.10 中文詞彙轉換為英文詞彙..................................................5-13 圖5.11 無用字排除名單…..............................................................5-13 圖5.12 WordStat軟體系統............................................................5-15 圖5.13 文件讀取…..........................................................................5-16 圖5.14 詞彙統計及 計算...................................................5-17 圖5.15 關鍵字在各文件中之分佈情形...........................................5-17 圖5.16 群集分析與文件相似度分析...............................................5-18 圖5.17 2D方式文件群集結果呈現...............................................5-19 圖5.18 3D方式文件群集結果呈現...............................................5-19 圖5.19 文件群集門檻值設定……………………………………...5-21 表目錄 表2.1 資料探勘與文字探勘的差異……………………………….....2-7 表2.2 自然語言處理和資訊檢索之差異…………………………...2-12 表5.1 文件相關性列表……………………………….......................5-22 表5.2 文件群集列表………………………………...........................5-23 表5.3 傳統文件群集列表…………………………………………...5-23 表5.4 文件召回率與正確率比較表………………………………...5-23

    參考文獻
    書籍部份
    【林耀煌,1992】林耀煌,「營建工程施工規劃與管理控制 修訂四版」,長松出版社。
    【呂以寧,2002】呂以寧譯,「營建工程專案管理」,六和出版社。
    【劉孟華,2004】劉孟華譯,「專案管理聖經」,臉譜出版社。
    【許士軍,2003】許士軍,「管理辭典」,華泰出版社。
    【美國專案管理協會,2004】美國專案管理協會,「專案管理知識體系指南,PMBOK」,美國專案管理協會。

    期刊部份
    【王朝煌,2002】王朝煌,「資料分析技術與情報應用之探討」,通識教育教學及研究方法學術研討會。
    【邱登裕、潘雅真,2005】邱登裕、潘雅真,「企業式知識地圖」,年物流暨資訊應用學術研討會。
    【曾元顯,2004】曾元顯,「專利文字之知識探勘:技術與挑戰」,現代資訊組織與檢索研討會。
    【曾元顯,2002】曾元顯,「文件主題自動分類成效因素探討」,輔仁大學圖書資訊學系,中國圖書館學會會報,第六十八期,62-83頁。
    【陳文華等,2003】陳文華等,「應用主題地圖於知識整理」,圖書資訊學刊,第一卷第一期,37-58頁。
    【陳光華,2003】陳光華,「自然語言處理與圖書資訊學」,中華民國計算語言學學會會刊,第五卷第三期,16-20頁。
    【蔡燿全、楊棠堯,2001】蔡燿全、楊棠堯,「語意處理之中文自然語言擷取介面-網際網路平台」,商管科技季刊,第二卷第一期,45-65頁。

    論文部份
    【丁一賢,2001】丁一賢,「運用網頁探勘為基礎的個人化技術於網路廣告之探討」,國立彰化師範大學資訊管理研究所碩士論文。
    【石俊麟,2002】石俊麟,「高效率多重單位關聯式規則探勘與文件分析之應用」,國立成功大學資訊工程研究所碩士論文。
    【王俊弘,2003】王俊弘,「利用自然語言處理技術自動產生英文克漏詞試題之研究」,政治大學資訊科學系碩士論文。
    【朱怡霖,2001】朱怡霖,「中文斷詞及專有名詞辨識之研究」,國立台灣大學自然語言處理研究室碩士論文。
    【吳毓傑,2002】吳毓傑,「叢聚式中文新聞分類」,銘傳大學資訊管理研究所碩士論文。
    【吳友仁,2005】吳友仁,「支援企業客服中心運作之自動問答與知識摘要技術」,國立清華大學工業工程與工程管理學系碩士論文。
    【吳仕先,2002】吳仕先,「文件資料之概念主題檢索」,元智大學資訊工程學系碩士論文。
    【巫啟台,2001】巫啟台,「文件之關聯資訊萃取及其概念圖自動建構」,國立成功大學資訊工程學系碩士論文。
    【李金男,1999】李金男,「應用知網知識庫於國小課本理解之研究」,國立成功大學資訊工程學系碩士班碩士論文。
    【李坤霖,2000】李坤霖,「網際網路FAQ 檢索中意圖萃取及語意比對之研究」,國立成功大學資訊工程研究所碩士論文。
    【林其青,1999】林其青,「英中詞彙知識庫建構機制之研究」,國立臺灣大學資訊工程學研究所碩士論文。
    【林仁貴,2004】林仁貴,「以RDF 規範為基礎之知識文件內容與結構解析技術」,國立清華大學工業工程與工程管理學系碩士論文。
    【林峰興,2004】林峰興,「多層級知識/使用者分類模式與技術建構」,國立清華大學工業工程與工程管理學系碩士論文。
    【林頌堅,2002】林頌堅,「基於自然語言處理技術的研究主題抽取與分析」,世新大學資訊傳播學系碩士論文。
    【林士能,2005】林士能,「專利文件語意之擷取與比對」,國立清華大學資訊工程所碩士論文。
    【施政瑋,2003】施政瑋,「以階層式詞義網路為基礎的中文文件分析及其效能評估」,私立東海大學資訊工程與科學研究所碩士論文。
    【陳景揆,1999】陳景揆,「探勘中文新聞文件中的概念關聯及趨勢」,雲林科技大學資訊管理系碩士論文。
    【陳景堂,1991】陳景堂,「自然語言查詢系統新架構」,私立淡江大學管理科學研究所博士論文。
    【陳光華,1995】陳光華,「資訊檢索查詢之自然語言處理」,國立臺灣大學圖書館學系碩士論文。
    【許懷仁,2001】許懷仁,「生物醫學文件探勘系統之架構設計與實作」,國立成功大學資訊工程學系碩士論文。
    【楊燕珠,1999】楊燕珠,「以大台北地區金融機構為資料庫的電話查詢系統」,國立台灣大學資訊工程系碩士論文。
    【楊宸彥,2002】楊宸彥,「運用剖析概念圖進行中文詢答之研究」,國立台灣大學資訊工程學研究所碩士論文。
    【楊茂柱,2004】楊茂柱,「基於統計式語意相依關係之對話語句理解系統」,國立成功大學資訊工程學系碩士論文。
    【楊綠淵,2003】楊綠淵,「以文件相關性為基礎之企業知識分群與管理模式」,國立清華大學工業工程與工程管理學系碩士論文。
    【楊錦生,2001】楊錦生,「文件探勘技術中字詞擴展之研究」,國立中山大學資訊管理研究所碩士論文。
    【楊正銘,2003】楊正銘,「以文字探勘技術應用於疾病分類之輔助系統-以出入院病歷摘要為例」,臺北醫學大學醫學資訊研究所碩士論文。
    【蔡純純,2003】蔡純純,「中文新聞文件空間資訊擷取之研究—以火災、搶劫、車禍事件為例」,國立台灣大學地理環境資源研究所碩士論文。
    【蘇中才,2000】蘇中才,「網路知識管理方法之研究」,國立台灣大學資訊工程學研究所碩士論文。
    【張毓修,2000】張毓修,「次序性文件探勘:事件演化關連之研究」,國立中山大學資訊管理研究所碩士論文。
    【張雅惠,2002】張雅惠「語意網的開發與應用」,國立台灣科技大學電子工程系研究所碩士論文。
    【黃韻璆,1998】黃韻璆,「自然語言應用於銀行電話服務系統之研究」,國立中興大學應用數學系碩士論文。
    【黃聖傑,1999】黃聖傑,「多文件自動摘要方法研究」,台灣大學資訊工程研究所碩士論文。
    【黃思瑋,2003】黃思瑋,「平行搜尋引擎於蛋白質交互作用文獻之應用」,元智大學資訊管理學系碩士班碩士論文。
    【孫振凱,2001】孫振凱,「利用網頁建構知識分布圖」,國立中山大學資訊管理研究所碩士論文。
    【莊雅蓁,1999】莊雅蓁,「資訊檢索之中文詞彙擴展」,國立臺灣大學圖書資訊學系碩士碩士論文。
    【詹權恩,2004】詹權恩,「以詞彙關聯性詞庫為基礎之文件關鍵字擷取模式」,國立清華大學工業工程與工程管理學系碩士論文。
    【鍾明璇,2002】鍾明璇,「應用關聯規則技術有效輔助以向量空間模型為基礎之文件群集法」,中原大學資訊管理學系碩士論文。

    研究報告
    【中研院詞庫小組,1993】中研院詞庫小組,「中文詞類分析(三版)」,中研院資訊所語言所中文詞知識庫小組技術報告。
    【中研院詞庫小組,1998】中研院詞庫小組,「中央研究院平衡語料庫的內容與說明」,中研院資訊所語言所中文詞知識庫小組技術報告。
    【陳克健等,1986】陳克健等,「以中文語句的研究-斷詞與構詞」,中研院資訊所語言所中文詞知識庫小組技術報告。
    【陳克健等,1995】陳克健等,「訊息為本的格位語法與其剖析方法」,中研院資訊所語言所中文詞知識庫小組技術報告。
    【陳克健等,2005】陳克健等,「多層次概念定義與複雜關係表達-繁體字知網的新增架構」,中研院資訊所語言所中文詞知識庫小組技術報告。
    【陳鳳儀等,1999】陳鳳儀等,「中文句結構樹資料庫(Sinica Treebank)的構建」,中研院資訊所語言所中文詞知識庫小組技術報告。
    【黃居仁、陳克健,1995】黃居仁、陳克健,「中央研究院平衡語料庫」,中研院資訊所語言所中文詞知識庫小組技術報告。

    英文部分
    【Ambrosio et al., 1997】Ambrosio et al., “The linguistic level:Contribution for conceptual design,view integration,reuse and documentation”, Data and Knowledge Engineering, 21, pp.111-129.
    【Chris et al., 2004】Chris et al., “TopCat: Data Mining for Topic Identification in a Text Corpus”, IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 16(8), pp.949-964.
    【Chen and Liu, 1992】Chen.K.J. and Liu.S.H., “Word Identification for Mandarin Chinese Sentences”, Proceedings of COLING, pp.101-107.
    【Ewan, 2005】Ewan Klein, “Introduction to Computational Linguistics”, School of Informatics, University of Edinburgh.
    【Feldman and Dagan, 1995】Feldman.R. and Dagan.I., “Knowledge Discovery in Textual Database(KDT) ”, Proceedings of the first ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp.112-117.
    【Fan and Tsai, 1987】Fan.C.K. and Tsai.W.H., “Automatic Word Identification in Chinese Sentences by the Relaxation Technique”, Proceedings of National Computer Symposium, pp.423-431.
    【Farbrizio, 2002】Farbrizio sebastiani, “Machine Learning in Automated Text Categorization”, ACM Computing Surveys, 34(1), pp.1-47.
    【Fayyad and Uthurusamy, 1996】Fayyad.U. and Uthurusamy.R., “Data mining and knowledge discovery in databases”, Communications of the ACM, 39(11), pp.24-26.
    【Fayyad et al., 1996】Fayyad et al., “From Data Mining to
    Knowledge Discovery: An Overview”, Advances in Knowledge Discovery and Data Mining, pp.1-36.
    【Fayyad et al., 1996】Fayyad et al., “The KDD Process for
    Extracting Useful Knowledge from Volumes of Data”, Communications of the ACM, 39(11), pp.27-34.
    【Fisher et al., 1990】Fisher et al., “Exploring cognitive learning with semantic networks”, CRMSE, San Diego State University.
    【Harabagiu et al., 2000】Harabagiu et al., “Experiments with Open-Domain TextualQuestion Answering”, Proceedings of COLING-2000, Saarbruken Germany.
    【Harabagiu et al., 2001】Harabagiu et al., “The Role of Lexico-Semantic Feedback in Open-Domain Textual Question-Answering”, Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics, Toulouse France.
    【Harabagiu et al., 2001】Harabagiu et al., “Just-In-Time Question Answering”, Invited talk in Proceedings of the Sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan.
    【Jonassen et al., 1998】Jonassen et al., “Concept mapping as cognitive learning and assessment tools”, Journal of Interactive Learning Research, 23(8), pp.289-308.
    【Kankar et al., 2002】Kankar et al., “MedMeSH Summarizer: Text Mining for Gene Clusters”, IBM India Research Lab, Indian Institute of Technology.
    【Kawahara, 2000】Kawahara Minoru, “An Application of Text Mining: Bibliographic Navigator Powered by Extended Association Rules”, Proceedings of the 33rd Hawaii International Conference on System Sciences.
    【Mark, 2001】Mark T. Maybury, “Extraction of Knowledge from Unstructured Text”, MITRE Corporation.
    【Marti, 1999】Marti A.Hearst, “Untangling Text Data”, School of Information Management & Systems, University of California, Berkeley.
    【Marti, 1997】Marti A.Hearst, “Text data mining: Issues, techniques, and the relationship to information access”, Presentation notes for UW/MS workshop on data mining.
    【McAleese, 1994】McAleese.R., “A theoretical view on concept mapping”, ALT-J, 2(1), pp.38-48.
    【Miller et al., 1990】Miller et al., “WordNet: An On-line Lexical Database”, International Journal of Lexicography, 3(4), pp.235-244.
    【Nasukawa and Nagano, 2001】Nasukawa.T. and Nagano.T., “Text analysis and knowledge mining system”, IBM systems journal, 40(4), pp.967-984.
    【Nie et al., 1995】Nie et al., “Unknown word detection and segmentation of Chinese using statistical and heuristic knowledge”, Communications of
    the Chinese and Oriental Languages Information Processing Society, pp.47-57.
    【Nahm and Mooney, 2002】Un Yong Nahm and Raymond J.Mooney, “Text mining with information extraction”, Department of Computer Sciences, University of Texas.
    【Nancy and Samuel, 1968】Nancy Price and Samuel Schiminovich, “A Clustering Experiment: First Step Toward a Computer-generated Classification Scheme”, Information Storage and Retrieval, 14(4), pp.271-273.
    【Senellart and Blondel, 2003】Senellart.P. and Blondel.V.D., “Automatic discovery of similar words”, Ch.2 in Survey of Text Mining, Clustering, classification, and retrieval, Michael Berry, pp.25-44.
    【Sullivan, 2001】Sullivan Dan, “Document Warehousing and Text Mining”, Wiley ComputerPublishing.
    【Steinbach et al., 2000】Steinbach et al., “A comparison of document clustering techniques”, KDD Workshop on Text Mining.
    【Uramoto et al., 2004】Uramoto et al., “A text-mining system for knowledge discovery from biomedical documents”, IBM systems journal, 43(3), pp.516-533.
    【Zhao and Karypis, 2002】Zhao.Y. and Karypis.G., “Evaluation of Hierarchical Clustering Algorithms for Document Datasets”, Department of Computer Science, University of Minnesota.

    其他部分
    【董建東、董強,1999】,「How-Net(知網), http://www.how-net.com/zhiwang/e_zhiwang.html」。
    【中研院資訊所詞庫小組,1986】,http://rocling.iis.sinica.edu.tw/CKIP/index.htm。

    無法下載圖示 全文公開日期 2011/07/26 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)
    全文公開日期 本全文未授權公開 (國家圖書館:臺灣博碩士論文系統)
    QR CODE