簡易檢索 / 詳目顯示

研究生: 吳家慧
Chia-Hui Wu
論文名稱: 考量歷史案例機率分佈於解決不平衡資料之問題
Solving Unbalanced Data by Considering the Probability Distribution of Historical Cases
指導教授: 鄭明淵
Min-Yuan Cheng
口試委員: 陳鴻銘
Hung-Ming Chen
郭斯傑
Sy-Jye Guo
張行道
Chang, Andrew S
陳介豪
Jieh-Haur Chen
學位類別: 碩士
Master
系所名稱: 工程學院 - 營建工程系
Department of Civil and Construction Engineering
論文出版年: 2015
畢業學年度: 103
語文別: 中文
論文頁數: 89
中文關鍵詞: 分類不平衡資料機率分佈減少多數法增加少數法
外文關鍵詞: Classification, Imbalanced dataset, Probability distribution, Under-sampling, Over-sampling
相關次數: 點閱:160下載:1
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報

不平衡資料之問題近幾年受到許多關注,當不同類別之訓練樣本筆數為不平衡時,會影響人工智慧之分類正確率,因為人工智慧需要大量且均勻的資料來做訓練及測試,如何有效改善這類問題為重要的課題。
分類準確率,是目前對於分類分析技術用以評估分類模式是好是壞的主要標準,在分類問題中,資料不平衡問題,會使分類器在訓練時產生偏向,導致其對少數類別有相當低的預測準確率。這個問題是因為不平衡的資料所造成,在此種型態資料中,一個類別的樣本數遠遠超過另一類別的樣本數,會使一般的分類分析技術建構出之分類模式將會有嚴重的類別預測偏向問題。
概括上述,本研究將利用「機率分佈資料平衡抽樣法」來平衡資料集,再加上生物共生演算法結合最小平方差支持向量機(SOS-LSSVM)的訓練及測試,使預測準確率大幅提升。並利用其訓練及測試結果繪製ROC曲線以及計算曲線下面積(AUC),來評估本研究之重抽樣法的有效性,證明本研究之方法確實可以有效的解決不平衡資料的問題且提高人工智慧之預測準確率。


Problem of imbalanced dataset received much attention in recent years, when different type of training samples are unbalance, it will affect the classification accuracy of artificial intelligence, because artificial intelligence requires a large amount of data and uniform data to do training and testing. How to effectively improve such problems is an important issue.
Classification accuracy rate is currently for classification analysis techniques to assess the classification model is good or bad. In classification problems, imbalance data will cause biased in training, cause a very low classification accuracy of prediction of the MI type. This problem is due to imbalanced data, in such data like this, the number of MA samples far more than the number of MI samples in dataset. It will cause general classification analysis techniques have a serious problem of class prediction bias.
Summarized above, this study will use the "probability distribution balanced data sampling method" to balance the data set, plus the classifier SOS-LSSVM, increase the prediction accuracy. And use the results to draw ROC curves and calculating the area under the curve (AUC) to evaluate the effectiveness of this resampling method, prove that the method of this study can effectively solve the problem of unbalanced data and improve forecast accuracy of artificial intelligence.

目錄 第一章 緒論 1 1.1 研究動機 1 1.2 研究目的 5 1.3 研究內容與流程 6 1.3.1 研究內容 6 1.3.2 研究流程 6 1.4 論文架構 8 第二章 文獻回顧 9 2.1 不平衡資料 9 2.1.1 不平衡資料之問題 9 2.1.2 增加少數法 10 2.1.3 減少多數法 12 2.2 中央極限定理 14 2.3 生物共生演算法結合最小平方差支持向量機(SOS-LSSVM) 15 2.3.1 生物共生演算法(Symbiotic Organisms Search,SOS) 16 2.3.2 最小平方差支持向量機(Least Squares SVM) 20 2.3.3 SOS-LSSVM特性與限制 22 第三章 機率分佈資料平衡抽樣法 23 3.1 機率分佈超抽樣法 25 3.2 機率分佈中間值抽樣法 29 第四章 案例測試與驗證 35 4.1 案例蒐集 35 4.1.1 霧社水庫集水區資料 35 4.1.2 新竹市捐血中心資料 39 4.1.3 正規化 41 4.2 案例測試結果 42 4.2.1 霧社水庫集水區資料測試結果 42 4.2.2 新竹市捐血中心資料測試結果 45 4.3 ROC曲線及AUC 47 4.3.1 ROC曲線 47 4.3.2 霧社水庫集水區資料集結果繪製ROC及計算AUC 50 4.3.3 新竹市捐血中心資料集結果繪製ROC及計算AUC 67 第五章 結論與建議 85 5.1 結論 85 5.2 建議 86 參考文獻 87 圖目錄 圖1- 1研究流程 6 圖2- 1分群抽樣法之公式 13 圖2- 2分群抽樣法流程 14 圖2- 3生物共生演算法結合最小平方差支持向量機(SOS-LSSVM)流程圖 16 圖2- 4生態系統中的生物共生關係示意圖 18 圖2- 5生物共生演算法(SOS)流程圖 20 圖3- 1機率分佈資料平衡抽樣法之流程圖 24 圖3- 2機率分佈超抽樣法示意圖 25 圖3- 3機率分佈超抽樣法流程圖 26 圖3- 4區間所需增加S個數示意圖 27 圖3- 5機率分佈中間值抽樣法示意圖 29 圖3- 6機率分佈超抽樣法之流程圖 30 圖3- 7區間所需增加S1個數示意圖 32 圖3- 8區間所需減少S2個數示意圖 32 圖4- 1霧社壩 36 圖4- 2霧社水庫集水區相關位置圖 37 圖4- 3霧社水庫集水區範圍正射影像圖 38 圖4- 4三種AUC值 49 圖4- 5 ROC空間 50 圖4- 6霧社水庫第一組訓練ROC曲線圖 57 圖4- 7霧社水庫第二組訓練ROC曲線圖 57 圖4- 8霧社水庫第三組訓練ROC曲線圖 57 圖4- 9霧社水庫第四組訓練ROC曲線圖 58 圖4- 10霧社水庫第五組訓練ROC曲線圖 58 圖4- 11霧社水庫第六組訓練ROC曲線圖 58 圖4- 12霧社水庫第七組訓練ROC曲線圖 59 圖4- 13霧社水庫第八組訓練ROC曲線圖 59 圖4- 14霧社水庫第九組訓練ROC曲線圖 59 圖4- 15霧社水庫第十組訓練ROC曲線圖 60 圖4- 16霧社水庫一到十組平均訓練ROC曲線圖 60 圖4- 17霧社水庫第一組測試ROC曲線圖 61 圖4- 18霧社水庫第二組測試ROC曲線圖 61 圖4- 19霧社水庫第三組測試ROC曲線圖 61 圖4- 20霧社水庫第四組測試ROC曲線圖 62 圖4- 21霧社水庫第五組測試ROC曲線圖 62 圖4- 22霧社水庫第六組測試ROC曲線圖 62 圖4- 23霧社水庫第七組測試ROC曲線圖 63 圖4- 24霧社水庫第八組測試ROC曲線圖 63 圖4- 25霧社水庫第九組測試ROC曲線圖 63 圖4- 26霧社水庫第十組測試ROC曲線圖 64 圖4- 27霧社水庫一到十組平均測試ROC曲線圖 64 圖4- 28捐血中心第一組訓練ROC曲線圖 74 圖4- 29捐血中心第二組訓練ROC曲線圖 74 圖4- 30捐血中心第三組訓練ROC曲線圖 74 圖4- 31捐血中心第四組訓練ROC曲線圖 75 圖4- 32捐血中心第五組訓練ROC曲線圖 75 圖4- 33捐血中心第六組訓練ROC曲線圖 75 圖4- 34捐血中心第七組訓練ROC曲線圖 76 圖4- 35捐血中心第八組訓練ROC曲線圖 76 圖4- 36捐血中心第九組訓練ROC曲線圖 76 圖4- 37捐血中心第十組訓練ROC曲線圖 77 圖4- 38捐血中心一到十組平均訓練ROC曲線圖 77 圖4- 39捐血中心第一組測試ROC曲線圖 78 圖4- 40捐血中心第二組測試ROC曲線圖 78 圖4- 41捐血中心第三組測試ROC曲線圖 78 圖4- 42捐血中心第四組測試ROC曲線圖 79 圖4- 43捐血中心第五組測試ROC曲線圖 79 圖4- 44捐血中心第六組測試ROC曲線圖 79 圖4- 45捐血中心第七組測試ROC曲線圖 80 圖4- 46捐血中心第八組測試ROC曲線圖 80 圖4- 47捐血中心第九組測試ROC曲線圖 80 圖4- 48捐血中心第十組測試ROC曲線圖 81 圖4- 49捐血中心一到十組平均測試ROC曲線圖 81   表目錄 表2- 1十摺分組測試示意表 15 表4- 1霧社水庫集水區資料影響因子及代號表 39 表4- 2霧社水庫集水區案例資料庫 39 表4- 3新竹市捐血中心資料影響因子及代號表 40 表4- 4新竹市捐血中心案例資料庫 40 表4- 5案例分組示意表 42 表4- 6霧社水庫原始資料訓練案例與測試案例準確率 43 表4- 7霧社水庫利用少類增加方法之訓練案例與測試案例準確率 43 表4- 8霧社水庫利用中間值方法之訓練案例與測試案例準確率 44 表4- 9捐血中心原始資料訓練案例與測試案例準確率 45 表4- 10捐血中心利用少類增加方法之訓練案例與測試案例準確率 46 表4- 11捐血中心利用中間值方法之訓練案例與測試案例準確率 46 表4- 12 2×2混淆矩陣 48 表4- 13霧社水庫各方法及各組訓練之TP、FP、FN及TN值(1/2) 51 表4- 14霧社水庫各方法及各組訓練之TP、FP、FN及TN值(2/2) 52 表4- 15霧社水庫各方法及各組測試之TP、FP、FN及TN值(1/2) 53 表4- 16霧社水庫各方法及各組測試之TP、FP、FN及TN值(2/2) 54 表4- 17霧社水庫各方法及各組訓練之FPR和TPR值 55 表4- 18霧社水庫各方法及各組測試之FPR和TPR值 56 表4- 19霧社水庫各方法及各組訓練之AUC值 65 表4- 20霧社水庫各方法及各組測試之AUC值 66 表4- 21捐血中心各方法及各組訓練之TP、FP、FN及TN值(1/2) 68 表4- 22捐血中心各方法及各組訓練之TP、FP、FN及TN值(2/2) 69 表4- 23捐血中心各方法及各組測試之TP、FP、FN及TN值(1/2) 70 表4- 24捐血中心各方法及各組測試之TP、FP、FN及TN值(2/2) 71 表4- 25捐血中心各方法及各組訓練之FPR和TPR值 72 表4- 26捐血中心各方法及各組測試之FPR和TPR值 73 表4- 27捐血中心各方法及各組訓練之AUC值 82 表4- 28捐血中心各方法及各組測試之AUC值 83

[1] 凌士雄,非對稱性分類分析解決策略之效能比較,國立中山大學資訊管理研究所,碩士論文,2004。
[2] 林以真,針對不平衡資料鑑別分析之二項隨機子空間分類法,天主教輔仁大學統計資訊研究所,碩士論文,2013。
[3] Doddy Prayogo, "Symbiotic Organisms Search (SOS): A new metaheuristic optimization algorithm“, Elsevier Computer and structure, 2014.
[4] 吳育偉、鄭明淵,支持向量機最佳化模式-應用於營建管理決策,第11屆營建工程與管理學術研討會,2007。
[5] Yu-Wei Wu,Object-Oriented Evolutionary Support Vector Machine Inference Model (ESIM) for Decision-Making in Construction Management,國立台灣科技大學營建工程研究所,博士論文,2009。
[6] 「霧社水庫淤積改善計畫可行性研究」,台灣電力公司,2012。
[7] Fawcett, Tom; An introduction to ROC analysis, Pattern Recognition Letters, 27, 861–874., 2006.
[8] 顏秀珍、李御璽、王秋光,改善不平衡資料集中少數類別資料之分類正確性的方法,國家圖書館-數位典藏與數位學習聯合目錄,2009。
[9] Min-Yuan Cheng and Nhat-Duc Hoang,「Evolutionary Least Squares Support Vector Machine - Userguide」,Technical Report, CIC Lab, National Taiwan Univ. of Sci. and Tech.,2012.
[10] Lisayuri Limanto, "A Hybrid Inference Model Based on Synthetic Minority Over-sampling Technique and Evolutionary Least Square SVM for Predicting Construction Contractor Default Status “, Department of Civil and Construction Engineering, Master’s Thesis, 2013.

[11] 陳隆昇、林立為,植基倒傳遞類神經網路之不平衡資料處理機制,朝陽科技大學資訊工程系,2007。
[12] Suykens, J., et al., Least Square Support Vector Machines. World Scientific Publishing Co. Pte. Ltd., 2002.
[13] 徐梓隆,群橋生命週期維護策略最佳化模式之研究,國立台灣科技大學營建工程研究所,碩士論文,2014。
[14] 吳彩微,校舍生命週期地震風險成本推論模式之研究,國立台灣科技大學營建工程研究所,碩士論文,2014。
[15] 林明傑、董子毅,危險評估中ROC 曲線在預測2×2表上與敏感度及特異度之關係,亞洲家庭暴力與性侵害期刊,第四卷第二期,64 -74 頁,2008。
[16] 葉宗諺,利用ROC曲線評估色差量尺,大同大學,光電工程研究所,碩士論文,2014。
[17] Wikipedia-the free encyclopedia, Receiver operating characteristic (ROC curve), internet, https://en.wikipedia.org/wiki/Receiver_operating_characteristic.
[18] 王俊仁,應用演化式支持向量機推論模式(ESIM)預測水庫集水區崩塌-以霧社水庫為例,國立台灣科技大學營建工程研究所,碩士論文,2013。
[19] Chawla, N. V., K. W. Bowyer, L. O. Hall and W. P. Kegelmeyer. "SMOTE: Synthetic Minority Over-sampling Technique." Journal of Artificial Intelligence Research 16: 321-357., 2002.
[20] 林承翰,在不平衡資料中改進少數類別分類正確率的方法之研究,天主教輔仁大學統計資訊研究所,碩士論文,2003。
[21] 張毓珊,發展處理類別不平衡問題之資料探勘模式,朝楊科技大學資訊管理學系,碩士論文,2009。
[22] UC Irvine Machine Learning Repository, Blood Transfusion Service Center Data Set, http://archive.ics.uci.edu/ml/datasets/Blood+Transfusion+Service+Center.

[23] 張德豐,MATLAB在機率與統計上的應用,第四章 統計估計及統計特徵,五南圖書出版股份有限公司。
[24] 潘南飛、郭斯傑、呂淑鈴,工程統計,全威圖書有限公司。
[25] Huaxiang Zhang, Mingfang Li, RWO-Sampling: A random walk over-sampling approach to imbalanced data classification, Information Fusion, Volume 20, November 2014, Pages 99-116, ISSN 1566-2535.
[26] Silvia Cateni, Valentina Colla, Marco Vannucci, A method for resampling imbalanced datasets in binary classification tasks for real-world problems, Neurocomputing, Volume 135, 5 July 2014, Pages 32-41, ISSN 0925-2312.
[27] Wikipedia-the free encyclopedia, Artificial Intelligence (AI), internet, https://en.wikipedia.org/wiki/Artificial_intelligence .

QR CODE