研究生: |
吳家慧 Chia-Hui Wu |
---|---|
論文名稱: |
考量歷史案例機率分佈於解決不平衡資料之問題 Solving Unbalanced Data by Considering the Probability Distribution of Historical Cases |
指導教授: |
鄭明淵
Min-Yuan Cheng |
口試委員: |
陳鴻銘
Hung-Ming Chen 郭斯傑 Sy-Jye Guo 張行道 Chang, Andrew S 陳介豪 Jieh-Haur Chen |
學位類別: |
碩士 Master |
系所名稱: |
工程學院 - 營建工程系 Department of Civil and Construction Engineering |
論文出版年: | 2015 |
畢業學年度: | 103 |
語文別: | 中文 |
論文頁數: | 89 |
中文關鍵詞: | 分類 、不平衡資料 、機率分佈 、減少多數法 、增加少數法 |
外文關鍵詞: | Classification, Imbalanced dataset, Probability distribution, Under-sampling, Over-sampling |
相關次數: | 點閱:160 下載:1 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
不平衡資料之問題近幾年受到許多關注,當不同類別之訓練樣本筆數為不平衡時,會影響人工智慧之分類正確率,因為人工智慧需要大量且均勻的資料來做訓練及測試,如何有效改善這類問題為重要的課題。
分類準確率,是目前對於分類分析技術用以評估分類模式是好是壞的主要標準,在分類問題中,資料不平衡問題,會使分類器在訓練時產生偏向,導致其對少數類別有相當低的預測準確率。這個問題是因為不平衡的資料所造成,在此種型態資料中,一個類別的樣本數遠遠超過另一類別的樣本數,會使一般的分類分析技術建構出之分類模式將會有嚴重的類別預測偏向問題。
概括上述,本研究將利用「機率分佈資料平衡抽樣法」來平衡資料集,再加上生物共生演算法結合最小平方差支持向量機(SOS-LSSVM)的訓練及測試,使預測準確率大幅提升。並利用其訓練及測試結果繪製ROC曲線以及計算曲線下面積(AUC),來評估本研究之重抽樣法的有效性,證明本研究之方法確實可以有效的解決不平衡資料的問題且提高人工智慧之預測準確率。
Problem of imbalanced dataset received much attention in recent years, when different type of training samples are unbalance, it will affect the classification accuracy of artificial intelligence, because artificial intelligence requires a large amount of data and uniform data to do training and testing. How to effectively improve such problems is an important issue.
Classification accuracy rate is currently for classification analysis techniques to assess the classification model is good or bad. In classification problems, imbalance data will cause biased in training, cause a very low classification accuracy of prediction of the MI type. This problem is due to imbalanced data, in such data like this, the number of MA samples far more than the number of MI samples in dataset. It will cause general classification analysis techniques have a serious problem of class prediction bias.
Summarized above, this study will use the "probability distribution balanced data sampling method" to balance the data set, plus the classifier SOS-LSSVM, increase the prediction accuracy. And use the results to draw ROC curves and calculating the area under the curve (AUC) to evaluate the effectiveness of this resampling method, prove that the method of this study can effectively solve the problem of unbalanced data and improve forecast accuracy of artificial intelligence.
[1] 凌士雄,非對稱性分類分析解決策略之效能比較,國立中山大學資訊管理研究所,碩士論文,2004。
[2] 林以真,針對不平衡資料鑑別分析之二項隨機子空間分類法,天主教輔仁大學統計資訊研究所,碩士論文,2013。
[3] Doddy Prayogo, "Symbiotic Organisms Search (SOS): A new metaheuristic optimization algorithm“, Elsevier Computer and structure, 2014.
[4] 吳育偉、鄭明淵,支持向量機最佳化模式-應用於營建管理決策,第11屆營建工程與管理學術研討會,2007。
[5] Yu-Wei Wu,Object-Oriented Evolutionary Support Vector Machine Inference Model (ESIM) for Decision-Making in Construction Management,國立台灣科技大學營建工程研究所,博士論文,2009。
[6] 「霧社水庫淤積改善計畫可行性研究」,台灣電力公司,2012。
[7] Fawcett, Tom; An introduction to ROC analysis, Pattern Recognition Letters, 27, 861–874., 2006.
[8] 顏秀珍、李御璽、王秋光,改善不平衡資料集中少數類別資料之分類正確性的方法,國家圖書館-數位典藏與數位學習聯合目錄,2009。
[9] Min-Yuan Cheng and Nhat-Duc Hoang,「Evolutionary Least Squares Support Vector Machine - Userguide」,Technical Report, CIC Lab, National Taiwan Univ. of Sci. and Tech.,2012.
[10] Lisayuri Limanto, "A Hybrid Inference Model Based on Synthetic Minority Over-sampling Technique and Evolutionary Least Square SVM for Predicting Construction Contractor Default Status “, Department of Civil and Construction Engineering, Master’s Thesis, 2013.
[11] 陳隆昇、林立為,植基倒傳遞類神經網路之不平衡資料處理機制,朝陽科技大學資訊工程系,2007。
[12] Suykens, J., et al., Least Square Support Vector Machines. World Scientific Publishing Co. Pte. Ltd., 2002.
[13] 徐梓隆,群橋生命週期維護策略最佳化模式之研究,國立台灣科技大學營建工程研究所,碩士論文,2014。
[14] 吳彩微,校舍生命週期地震風險成本推論模式之研究,國立台灣科技大學營建工程研究所,碩士論文,2014。
[15] 林明傑、董子毅,危險評估中ROC 曲線在預測2×2表上與敏感度及特異度之關係,亞洲家庭暴力與性侵害期刊,第四卷第二期,64 -74 頁,2008。
[16] 葉宗諺,利用ROC曲線評估色差量尺,大同大學,光電工程研究所,碩士論文,2014。
[17] Wikipedia-the free encyclopedia, Receiver operating characteristic (ROC curve), internet, https://en.wikipedia.org/wiki/Receiver_operating_characteristic.
[18] 王俊仁,應用演化式支持向量機推論模式(ESIM)預測水庫集水區崩塌-以霧社水庫為例,國立台灣科技大學營建工程研究所,碩士論文,2013。
[19] Chawla, N. V., K. W. Bowyer, L. O. Hall and W. P. Kegelmeyer. "SMOTE: Synthetic Minority Over-sampling Technique." Journal of Artificial Intelligence Research 16: 321-357., 2002.
[20] 林承翰,在不平衡資料中改進少數類別分類正確率的方法之研究,天主教輔仁大學統計資訊研究所,碩士論文,2003。
[21] 張毓珊,發展處理類別不平衡問題之資料探勘模式,朝楊科技大學資訊管理學系,碩士論文,2009。
[22] UC Irvine Machine Learning Repository, Blood Transfusion Service Center Data Set, http://archive.ics.uci.edu/ml/datasets/Blood+Transfusion+Service+Center.
[23] 張德豐,MATLAB在機率與統計上的應用,第四章 統計估計及統計特徵,五南圖書出版股份有限公司。
[24] 潘南飛、郭斯傑、呂淑鈴,工程統計,全威圖書有限公司。
[25] Huaxiang Zhang, Mingfang Li, RWO-Sampling: A random walk over-sampling approach to imbalanced data classification, Information Fusion, Volume 20, November 2014, Pages 99-116, ISSN 1566-2535.
[26] Silvia Cateni, Valentina Colla, Marco Vannucci, A method for resampling imbalanced datasets in binary classification tasks for real-world problems, Neurocomputing, Volume 135, 5 July 2014, Pages 32-41, ISSN 0925-2312.
[27] Wikipedia-the free encyclopedia, Artificial Intelligence (AI), internet, https://en.wikipedia.org/wiki/Artificial_intelligence .