簡易檢索 / 詳目顯示

研究生: 吳念穎
Nian-Ying Wu
論文名稱: 創新群集方法與自調適人工智慧推論模式於歷史案例缺漏值插補之應用
Imputation for missing data using θ-means and SOS-LSSVM
指導教授: 鄭明淵
Min-Yuan Cheng
口試委員: 郭斯傑
Sy-Jye Guo
張行道
Shing-Dau Chang
陳介豪
Jieh-Haur Chen
陳鴻銘
Hung-Ming Chen
學位類別: 碩士
Master
系所名稱: 工程學院 - 營建工程系
Department of Civil and Construction Engineering
論文出版年: 2015
畢業學年度: 103
語文別: 中文
論文頁數: 100
中文關鍵詞: 缺漏值插補法創新集群演算法SOS-LSSVM
外文關鍵詞: missing value, imputation, θ-means, SOS-LSSVM
相關次數: 點閱:196下載:1
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 資料探勘是由大量資料中挖掘出隠藏知識的重要技術,營建工程為需要經驗與技術累積的產業,適合應用資料探勘技術從歷史資料中挖掘知識,輔助相關作業人員做決策,但若是資料庫中出現過多的缺漏值,則容易影響資料分析結果的有效性。然而,資料蒐集過程中由於許多原因,都會發生資料缺漏或是不完整的情況,就營建工程產業來看,例如:各工作單位交流資料複雜且格式不一致;早期多為紙本紀錄,數化過程產生缺漏;實驗儀器故障或線路傳輸中斷...等等。過去使用者多直接刪除缺漏資料,但此法會流失許多珍貴的資料;而最簡單的方法則是使用平均值取代,但因為單一數值插補導致數值分佈扭曲的問題。
    因此,本研究希望對上述不足之處進行探討,並提出θ-means分群平均值插補法及SOS-LSSVM插補法模式來改善上述之問題;最後,運用SOS-LSSVM推論模式推估輸出值,並藉由橋梁維修經費實際案例應用,進行模式測試與驗證,瞭解模式之可行性與適用性。透過預測值與實際值之誤差比較,結果驗證本研究所建立之SOS-LSSVM插補法模式在缺漏值的插補上有良好的表現,可改善平均值法之缺點,並輔助橋梁檢測單位解決,因手寫紀錄造成資料缺漏的問題。


    Data mining is an important technique to uncover hidden information from a set of raw data. Construction engineering is suitable for using this technique to mining knowledge from historical data and assisting related workers make decisions. But if there are too many missing value in the dataset, it is easy to affect the validity of the analysis results.
    However, there are many reasons cause missing values and incomplete dataset during data collection. Take construction engineering for example, the reasons include information exchanging on each work unit complicated and inconsistent form; digitizing the paper record; experiment machine breakdown; circuit disconnected, etc. In the past time, user deleted missing value directly but it would lose a lot of valuable data. Using average to replace missing values is a simple way, but it makes normal distribution destroyed.
    The objective of this study is to discuss the shortcomings of the above-mentioned methods and to establish two newly imputation models, including θ-means average imputation model and SOS-LSSVM imputation model. Then, the revised dataset input SOS-LSSVM inference model to predict output data. In addition, this study applies cost of bridge maintenance dataset to test and validate imputation models in order to evaluate the feasibility and applicability.
    Finally, according to predicted value and the actual value to conduct the error, the results of predicting missing values that the developed SOS-LSSVM imputation model has a good performance. It not only improves the shortcomings of average method, but assist bridge management department to solve the missing values caused by handwriting.

    摘要......................................................................I Abstract..................................................................II 誌謝......................................................................IV 目錄......................................................................VI 圖目錄...................................................................VIII 表目錄 ..................................................................IX 第一章 緒論 1 1.1 研究背景與動機 1 1.2 研究目的 4 1.3 研究範圍與限制 5 1.4 研究內容與流程 6 1.5 論文架構 8 第二章 文獻回顧 9 2.1 資料探勘 9 2.2 缺漏值 12 2.3 資料缺漏之處理方法 12 2.3.1 完整資料分析法(Complete-case estimator) 12 2.3.2 插補法(Imputation Methods) 13 2.4 θ-means演算法 18 2.5 SOS-LSSVM演算法 25 2.5.1 SOS-LSSVM特性 28 2.5.2 SOS-LSSVM限制 29 2.6 誤差衡量 29 第三章 缺漏值插補及推論模式 31 3.1 缺漏值插補及推論流程 32 3.2 平均值插補法 35 3.3 θ-means平均值插補法 40 3.4 SOS-LSSVM插補法 46 3.5 SOS-LSSVM推論 52 第四章 案例測試與分析 55 4.1 橋梁維修經費案例 55 4.2 平均值法應用 58 4.3 θ-means平均值法應用 73 4.4 SOS-LSSVM插補法應用 76 4.5 應用SOS-LSSVM預測橋梁維修成本 80 第五章 結論與建議 87 5.1 結論 87 5.2 建議 88 參考文獻 89 附錄A 92

    1. 陳昶憲、吳青俊、鍾侑達(2004),遞迴式類神經模式於日流量預測之應用, 中華水土保持學報,35 卷3 期,187-195 頁。
    2. Han, Jiawei, Micheline Kamber, and Jian Pei. (2006), “Data mining: concepts and techniques.”, Morgan Kaufmann.
    3. Fayyad, U., G. Piatetsky-Shapiro and P. Smyth (1996), “From Data Mining to Knowledge Discovery: An Overview , ” In: Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press.
    4. 張家榮(2014),同時考慮餘弦角度及距離的群集方法,國立台灣科技大學營建工程所。
    5. Doddy Prayogo(2014),“SCasebbiotic Organisms Search (SOS): A new metaheuristic optimization algorithm”, Elsevier Computer and structure.
    6. Gnardellis, T., and B. Boutsinas. (2001), “On experimenting with data mining in education.”, Paper preseted at the 2ο Πανελλήνιο Συνέδριο µε ιεθνή Συµµετοχή.
    7. Plya, D.(1999), “Data Preparation for Data Mining”, Morgan Kaufmann Publishers.
    8. 黃鈺婷(2012),多重插補法應用在有部分伴隨變數缺失之多元邏輯斯迴歸模型的參數估計,逢甲大學統計學系。
    9. Han, J., and Kamber, M.(2001), “Data Mining Concepts and Techniques”, USA, pp.109.
    10. Little, R.J.A. and Rubin, D.B. (2002), “ Statistical Analysis with Missing Data”, 2nd edition, New York: John Wiley.
    11. Kalton, G. and Kasprzyk, D.(1982),“Imputing for Missing Surver Tesponses.”,Proceedings of the Survey Research Methods Section, American Statisitcal Association.
    12. 呂喻恩(2008),不同遺失機轉遺失資料插補法之比較研究,國立臺南大學測驗統計研究所。
    13. 葉瑞鈴、黃正翰、李國隆、林千芩,(2008),統計調查中遺漏值處理之研究-以臺灣地區工程技術顧問服務業調查為例,數據分析,1卷1期,第97-119頁。
    14. Landerman, L. R., L, & K. C., & Pieper, C. F. (1997), “An empirical evaluation of the predictive mean matching method for imputing missing values.”, Sociological Methods Research, 26(1), 3-33.
    15. Acock, A. C. (2005), “ Working with missing values. Journal of Marriage and Family.”, 67,1012-1028.
    16. Tabachnick, B. G. and Fidell, L. S. (1983), “Using multivariate statics”, New York : Haper & Row.
    17. 林曉芳(2002),以Hot Deck插補法推估成就測驗之不完整作答反應,國立政治大學教育學系。
    18. 葉怡成(2000),「類神經網路模式應用與實作」,儒林圖書,七版。
    19. Little, R. J. A. and Rubin, D. B.(1987), “ Statistical analysis with missing data.”, New York : Wiley.
    20. 郭旻東(2012),不同插補法在網路成癮量表之差異研究,嶺東科技大學資訊管理與應用研究所。
    21. 張閔嘉(2011),智慧型節能技術:以感測網路自動偵測異常空調狀態之研究,國立台灣大學。
    22. Ko, C. H. (1999), “ Computer aided decision support system for disaster prevention of hillside residents”, MS thesis, National Taiwan University of Science and Technology, Taipei, Taiwan.

    23. Fukahori, K. and Kubota, Y. (2000), “ Consistency evaluation of landscape design by a decision support system”, Computer-Aided Civil and Infrastructure Engineering, 15(5), 342-354.
    24. Sundin, S., and Braban-Ledoux, C. (2001), “ Artificial intelligence-based decision support technologies in pavement management”, Computer-Aided Civil and Infrastructure Engineering, 16(2), 143-157
    25. Min-Yuan Cheng and Nhat-Duc Hoang (2012), “Evolutionary Least Squares Support Vector Machine – Userguide”,Technical Report, CIC Lab, National Taiwan Univ. of Sci. and Tech.
    26. 潘配淮(2012),應用演化式最小平方差支持向量機推論模式(ELSIM)推估橋梁維修經費-以新北市為例,國立台灣科技大學營建工程系。
    27. 連夷佐(2003),橋梁維護管理生命週期成本評估模式之研究,國立中央大學營建管理研究所。
    28. 林俊豪(1998),橋梁構件破壞狀態值預測及優選排序模式之研究,國立中央大學土木工程研究所。
    29. 中國土木水利工程學會非破壞檢測委員會(2010),「橋梁檢測方法與應用」。

    QR CODE