簡易檢索 / 詳目顯示

研究生: 周秉逸
Bing-Yi Chou
論文名稱: 非結構化之網路探勘技術:由醫院看診進度之歷史資料推估到診區間
Non-structured Web Mining: Recommendation of Attending Intervals through Empirical Statistics Distribution
指導教授: 鍾聖倫
Sheng-Luen Chung
口試委員: 李育杰
學位類別: 碩士
系所名稱: 電資學院 - 電機工程系
Department of Electrical Engineering
論文出版年: 2016
畢業學年度: 104
語文別: 中文
論文頁數: 58
中文關鍵詞: 網頁內容探勘技術排隊系統實證統計方法關聯式資料庫
外文關鍵詞: web mining, queuing system, empirical statistical distribution, relational database design
相關次數: 點閱:334下載:7
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報

一般實務發生的排隊服務系統 (queuing system) 的統計特性很難精確塑模。透過巨量數據的長時間、大規模的歷史數據搜集,我們可以對排隊系統進行實證統計 (empirical statistics) 的分析,並在這基礎上針對服務與等待時間的估測。本研究的目的是,根據醫院網頁上所提供的各診間看診進度,進行歷史資料的備存,而由實證統計推估某特定診間某掛號的看診時間,以提供掛號病患應診的建議時間區間,減少病患候診不必要的等待時間。為了實證統計某醫師診間的看診時間特性,本論文採用的方法是累計相對應診間每班次完整的各號看診數據。據此,我們透過關聯式資料的設計方法,由實體關係圖 (ER diagram) 的分析,建構相應的關聯表格與資料庫。為處理非結構性的網頁資料,我們利用網路爬文技術,萃取內嵌在各醫院網頁的看診進度以匯入相應的表格。最後再利用實證統計的計算方法推導出各掛診號的看診時間區間分佈,以作為到診區間建議。本論文所實現的醫院到診系統,從2016年初即開始運作。我們分別針對國泰醫院、台大醫院、以及榮民總醫院的看診進度進行累計的實證統計。搭配圖形化顯示界面,使用者可以得到反應各診間看診特性的到診時間區間建議、線上看診進度比對、以及建議到診時間與實際看診時間的預測評估。本論文所介紹的非結構化網頁探勘技術亦可應用於其他排隊服務系統的實證統計特性塑模。

Statistics characteristics of real queueing systems are in general difficult to model. Exploiting open data harvested from webs over a long period of time provides a feasible approach to characterize some queueing systems through the concept of empirical statistics distribution. This paper is to make recommendation of attending intervals for hospital visitors based on visit progress commonly available through hospital web sites, so that unnecessary waiting time can be saved. We assume that, clinic interviewing time between physician and patients is idiosyncratic to each physician. In particular, the visiting time distribution of a particular visiting registration number should follow some unknown distribution pattern, which however can be approximated by empirical distribution when a large number of samples are available. Accordingly, ER-diagram analysis is conducted, crawlers prepared, deciphers implemented to constantly extract visiting progress reports from three main hospitals in Taiwan for the preparation of empirical distributions functions for all physicians on all clinic shifts. The implemented Recommendation System of Attending Intervals (RSAI) has been collecting visit progresses of the three hospitals since the beginning of 2016. From the implemented GUI, users can view each physician’s pattern of visiting time distribution, from which to make attending interval recommendation, to check visiting progress against our prediction range in real-time, and to evaluate our recommendation. The web mining techniques thus developed can be generalized to other queueing systems when statistic characteristics are desired.

摘要 I Abstract II 誌謝 III 圖目錄 4 表目錄 6 第一章 簡介 7 1.1 排隊候診問題 7 1.2 研究目的 8 1.3 論文貢獻 9 1.3.1 擷取各醫院看診進度網頁技術 9 1.3.2 轉換非結構看診資訊為結構化看診資料 9 1.3.3 推估到診時間之實證統計技術 10 1.3.4 評估實證統計到診時間準確度方法 11 1.3.5 建立醫院到診建議系統網站 11 1.4 論文架構 12 第二章 醫院到診建議系統 13 2.1 到診建議系統運作架構圖 13 2.2 文獻審閱 14 2.2.1 預測到診相關研究 14 2.2.2 資料探勘 15 2.2.3 實證統計(Empirical distribution function) 17 2.3 設計時序性資料之儲存技術 20 2.4 針對不同特定醫院網站爬文技術 22 2.5 推估到診時間統計技術 23 2.6 評估系統準確度 25 第三章 即時性網站資訊彙整技術 26 3.1 時序性關聯式資料庫設計 26 3.2 看診進度系統網站爬文技術 28 3.2.1 動態爬文程式流程 28 3.2.2輪詢機制 30 3.3 實證統計分析 30 3.3.1 到診時間推估之實證統計 30 3.3.2 時間單位設5分鐘 31 3.3.3 四分位數法取得到診時間 31 3.3.4 實證統計查詢需求 32 3.4 評估推估到診時間區間準確度 32 第四章 成果展示 34 4.1 到診建議系統軟體介紹 34 4.1.1 到診建議系統架構 34 4.1.2 每日爬文工作流程 35 4.2 彙整之時序性資料庫 35 4.3 資料庫展示 – 查詢方法與可用資訊 37 4.4 網頁展示 - 實證統計分析與準確度 39 4.4.1 取得到診時間區間 41 4.4.2 不同醫院下午1號的時間比較累進圖表示 43 4.4.3 不同醫院的某一位醫師到診號碼時間區間與準確度 44 4.4.4 區間校準和醫院掛號比較 46 第五章 結論與未來研究 50 參考文獻 51 附錄 A 53

[1] 林惠淳, "預測病患到診時間之研究-以心臟內科為例," 中山醫學大學醫學研究所學位論文, pp. 1-64, 2010.
[2] 廖婉君, 林鴻儒, 陳依兌,和 鍾睿弘, "病人候診與看診時間之研究-以北部某健檢中心為例," 環境與管理研究期刊2014.
[3] M. Beyer, “Gartner says solving big data challenge involves more than just managing volumes of data. Gartner,”2011), 2011..
[4] 劉玉敏,網站使用探勘(Web Usage Mining)概說[online].
[5] O. Etzioni, “The World-Wide Web: quagmire or gold mine? ”Communications of the ACM, vol. 39, pp. 65-68, 1996.
[6] R. Cooley, B. Mobasher, and J. Srivastava, “Web mining: Information and pattern discovery on the world wide web,” in Tools with Artificial Intelligence, 1997. Proceedings., Ninth IEEE International Conference on, pp. 558-567, 1997.
[7] R. Kosala and H. Blockeel, “Web mining research: A survey,”ACM Sigkdd Explorations Newsletter, vol. 2, pp. 1-15, 2000.
[8] 陳孟豪,“ㄧ個針對XML,網頁特性的資料探勘架構”. 碩士論文,靜宜大學資訊管理學系碩士班, 2001.
[9] T. Guan and K.-F. Wong, “KPS: a Web information mining algorithm,” Computer Networks, vol. 31, pp. 1495-1507, 1999.
[10] B. Liu, Web data mining: exploring hyperlinks, contents, and usage data: Springer Science & Business Media, 2007.
[11] H. Varian, “Bootstrap tutorial,”Mathematica Journal, vol. 9, pp. 768-775, 2005.
[12] R. J. Hyndman and Y. Fan, “Sample quantiles in statistical packages,” The American Statistician,” vol. 50, pp. 361-365, 1996.
[13] P. C. Mahalanobis, “On the generalized distance in statistics,” Proceedings of the National Institute of Sciences (Calcutta), vol. 2, pp. 49-55, 1936.
[14] Wikipedia.(2016). “Empirical distribution function,” [Online]. Available:https://en.wikipedia.org/wiki/Empirical_distribution_function#cite_ref-vdv265_1-2
[15] R. Durrett, Probability: theory and examples: Cambridge university press, 2010.
[16] D. L. Massart and A. J. Smeyers-verbeke, “PRACTICAL DATA HANDLING Visual Presentation of Data by Means of Box Plots,” 2005.
[17] The Data Visualisation Catalogue. “Box and Whisker Plot,” [Online]. Available: http://www.datavizcatalogue.com/methods/box_plot.html
[18] Wikipedia.(2016). "Box plot,"[Online].
Available: https://en.wikipedia.org/wiki/Box_plot
[19] D. Burns, Selenium 2 Testing Tools: Beginner's Guide: Packt Publishing Ltd, 2012..
[20] 行政院主計處電子處理資料中心中文全字庫——中文碼介紹-BIG-5碼介紹[Online].