研究生: 廖若筑
Jo-Chu Liao
論文名稱: 結合本體論與封閉高頻項目集之階層式文件分群法
A Method of Combining Ontology and Closed Frequent Itemsets for Hierarchical Document Clustering
指導教授: 徐俊傑
Chiun-Chieh Hsu
口試委員: 黃世禎
Shih-Chen Huang
Hsi-Cheng Chang
學位類別: 碩士
系所名稱: 管理學院 - 資訊管理系
Department of Information Management
論文出版年: 2012
畢業學年度: 100
語文別: 中文
論文頁數: 86
中文關鍵詞: FIHC關聯規則探勘分群演算法本體論封閉高頻項目集
外文關鍵詞: FIHC, Documents clustering, Closed frequent itemsets
(Frequent Itemset-based Hierarchical Clustering)演算法,FIHC 使用關聯
出共享此類關鍵字之文章。本研究進一步將FIHC 演算法結合本體論以解決一義
用封閉高頻項目集取代FIHC 演算法使用之高頻項目集,進而提升演算法之效率。

Due to the advance of science and technology and the popularity of the Internet, the explosion of information causes the information overload problem. In order to solve these problems, text mining becomes more and more important, and clustering is a hot topic in text mining. However, many document clustering methods are modifications of traditional clustering algorithms that were originally designed for relational database; these algorithms become impractical in real-world document clustering which requires special handling for high dimensionality, high volume, and ease of browsing.
FIHC is a hierarchical clustering method developed for document clustering, the intuition of FIHC is that there exist some common words for each cluster. FIHC use such words to cluster documents and build hierarchical topic tree. In this thesis, we combine FIHC algorithm with ontology to solve the semantic problem and mine the meaning behind the words in documents. Furthermore, we use the closed frequent itemsets instead of only use frequent itemsets, which increases efficiency and scalability. The experimental results show that our method is more accurate than those of well-known document clustering algorithms.

摘要 Abstract 誌謝 目錄 圖目錄 表目錄 第一章 緒論 1 1.1 研究背景與動機 1.2 研究目的與方法 1.3 論文架構 第二章 文獻探討 2.1 本體論 2.1.1 本體論之概念 2.1.2 本體論之建構方法 2.2 關聯規則探勘演算法 2.2.1 關聯規則探勘之種類 2.2.2 Apriori 演算法 2.2.3 FP-Growth 演算法 2.2.4 封閉高頻項目集與最大高頻項目集 2.3 分群演算法 2.3.1 階層式分群演算法 (Hierarchical Clustering) 2.3.2 分割式分群演算法 (Partitioning Clustering) 第三章 結合本體論與封閉高頻項目集 之階層式文件分群法 3.1 系統架構 3.2 文章前處理 3.2.1 中文斷詞 3.2.2 詞性過濾與去除stop words 3.3 同義字取代與概念詞彙新增 3.3.1 同義字取代 3.3.2 概念詞彙新增 3.4 關聯規則探勘 3.4.1 全域高頻項目集(Global frequent itemset) 3.4.2 文件向量與特徵向量 3.4.3 產生全域高頻項目集 3.4.4 產生封閉高頻項目集 3.5 文件分群 3.5.1 建構初始群集 3.5.2 消除群集間之重疊現象 3.6 文件分群結果之呈現 第四章 實驗結果與分析 4.1 資料集 4.2 文件分群成果之評估 4.2.1 彙整正確分群結果之評估法 4.2.2 以F-measure為基礎之評估法 4.3 文件群集之成果與分析 4.3.1 分群結果展示 4.3.2 群集樹展示 4.3.3 精確度之評估 4.4 本研究方法與FIHC之比較 4.4.1 群集樹(Cluster tree)之評估 4.4.2 分群準確度之評估 4.5 本研究方法與著名分群法之比較 第五章 結論與未來發展 5.1 結論與貢獻 5.2 未來發展方向 參考文獻

