研究生: 朱芷萱
Chih-Hsuan Chu
論文名稱: 簡單貝氏分類器結合p-值之研究
Naive Bayesian classifier based on p-values.
指導教授: 楊維寧
Wei-Ning Yang
口試委員: 陳雲岫
Yun-Shiow Chen
Yung-Ho Leu
學位類別: 碩士
系所名稱: 管理學院 - 資訊管理系
Department of Information Management
論文出版年: 2016
畢業學年度: 104
語文別: 中文
論文頁數: 30
中文關鍵詞: 簡單貝氏分類器主成份分析p-值
外文關鍵詞: Naive Bayesian Classifier, Principal Component Analysis, p-value
本研究主要是應用「簡單貝式分類器」 結合「主成分分析」 法與統計推論中的「 p-值」 進行二元問題分類,並經由「屬性變數」 的篩選出主要相關因素來提升分類的準確率。貝氏分類器是依據待歸類物件的「屬性向量」將物件歸類於最有可能的類別。用以歸類物件於各類別的機率稱為 「事後機率」。「事後機率是指觀察到待歸類物件的「屬性向量」之後,依據「屬性向量」 在各類別中出現的機率 (likelihood) 來修正物件歸屬於各類別的「事前機率」。具有某「屬性向量」 之物件歸屬各類別的「事後機率」 正比於物件歸屬各類別的「事前機率」 與「屬性向量」 在各類別中出現機率的乘積。本研究應用「主成分分析法」去除「屬性變數」之間的關聯性,以達到「貝式分類器」各「屬性」獨立的假設。「假設檢定」中的 p-值 (p-value) 大小主要是反映「實際觀察到的」 與「當假設為真時所預期的」之間的落差大小,p-值愈小表示落差愈大。本研究是以p-值取代貝氏分類器中「屬性向量」 在各類別中出現的機率(likelihood) 。本研究並以乳癌資料集進行研究方法的統計實驗。

Naive Bayesian classifier estimates the joint likelihood of a testing instance as the product of the likelihood for each individual feature estimated from the training data and then applies Bayes' rule to calculate the posterior distribution of the class. In addition to the likelihood, p-value in statistical hypothesis testing which reflects the discrepancy between the observed sample and the expected sample under some hypothesis serves similar purpose and will be used to replace the likelihood in the proposed Bayesian classifier. We alleviate the naive independence assumption among features for each class by applying principal component analysis to obtain the uncorrelated transformed features. The joint p-value in the proposed Bayesian classifier which is the product of the p-value associated with each transformed feature estimated from the training data is used to calculate, in conjunction with the prior distribution, the posterior p-value for the testing instance. Empirical results demonstrate substantial improvement on the classification accuracy when compared with the existing classification methods.

摘 要 IV ABSTRACT V 致 謝 VI 目錄 VII 圖目錄 VIII 表目錄 IX 第一章 緒論 …1 1.1 研究動機 1 1.2 研究目的 1 1.3 論文架構 1 第二章 文獻探討 3 2.1 簡單貝氏分類器 (NAIVE BAYES CLASSIFIER) 3 2.2 主成分分析法(PRINCIPAL COMPONENT ANALYSIS) 5 2.3 「假設檢定」 (HYPOTHESIS TESTING) 的 P-值 (P-VALUE) 5 2.4 利用 P-值 (P-VALUE) 利用從事分類 6 2.5 屬性變數的篩選 (FEATURE SELECTION) 7 2.6 文獻探討 12 第三章 實驗分析 13 3.1 實驗環境 13 3.1.1 操作工具 13 3.1.2 資料來源 13 3.1.2 實驗項目 14 3.2 實驗方法 14 3.2.1 資料前置處理 15 3.2.2 實驗步驟 15 3.3 實驗結果分析 17 第四章 結論 18 附錄 19

