研究生: 吳家榮
Chia-Jung Wu
論文名稱: 在社群網路中應用文字探勘於交通事故分析之研究
A social network based text mining approach for traffic accident analysis
指導教授: 呂永和
Yung-Ho Leu
口試委員: 楊維寧
Wei-Ning Yang
Yun-Shiow Chen
學位類別: 碩士
系所名稱: 管理學院 - 資訊管理系
Department of Information Management
論文出版年: 2016
畢業學年度: 104
語文別: 中文
論文頁數: 58
中文關鍵詞: 社群網路YouTube交通肇事成因文字探勘資料探勘
外文關鍵詞: Social Media, YouTube, Traffic Accident Analysis, Text Mining, Data mining
  • 由於現今社群媒體的快速發展,大眾接受資訊的方式已不再局限於電視或廣播的新聞報導,而可以從社群媒體上接收到更快速、更多樣的資訊。現在原為接收資訊的大眾,也能夠利用社群媒體來提供資訊。由於社群媒體上的資訊具有高度的能見度,社群媒體已成為企業、政府及各類組織不可忽視的資訊來源。本研究的主要目的是利用社群媒體上大眾對於行車紀錄器之影片的評論訊息,協助警方對交通事故之肇事成因的辨識;首先,本研究蒐集YouTube上的交通事故影片,將影片以人工方式區分為「人為因素肇事」、「車輛因素肇事」、「環境因素肇事」、「路況因素肇事」等四個肇事類別;然後根據社群媒體上使用者對交通事故影片的評論,建立「人為因素肇事」、「車輛因素肇事」、「環境因素肇事」、「路況因素肇事」等四個肇事主因詞庫;接著,將每一個影片的所有評論合併,針對每一部影片,計算出「人為因素計數」、「車輛因素計數」、「環境因素計數」、「路況因素計數」等四個特徵值。以此方式,建立訓練資料集;最後,使用隨機森林演算法,進行分類。由實驗結果顯示,本研究所提出的方法,總體分類準確率高達94%,而四個類別的F-Measure平均值為81%。

    In contrast to a TV or a radio broadcast that provide information, the public can also provide information through a social medium. Due to its high visibility, variety and penetration, social media has become an important source of information to the public, enterprise and government. The aim of this thesis is to automatically classify a traffic accident into a specific category according to the comments on the YouTube video of this accident. To this end, we first collected the metadata and comments related to the videos of accidents from the YouTube. Then, we labeled each accident with a specific accident type by viewing the content of the video. The four accident types are "cause-by-man", "cause-by-car-condition", "cause-by-environment" and "cause-by-road-situation". Subsequently, we constructed a thesaurus for each type of accident according to all the comments belonging to the same accident type. Afterwards, we constructed four different attributes including "count-of-cause-by-man", "count-of-cause-by-car-condition", "count-of-cause-by-environment" and "count-of-cause-by-road-situation" for each accident by referencing the thesauruses. The four "count-of-" attributes together with another four attributes and the class label of accident constitute a training sample. The training samples of all of the accidents constitute the training dataset of the classification problem. Finally, we used the Random Forest algorithm in Weka to solve this classification problem. The experiment showed that the accuracy of classification of this problem was 94 percent by a 10-fold cross validation. Furthermore, the average F-Measure of the classification problem was 81 percent. With high performance measures, the proposed method offers an efficient way to help find the cause of a traffic accident.

    摘要 I ABSTRACT II 目錄 II 圖目錄 IV 表目錄 V 第一章 緒論 1 1.1 研究背景 1 1.2 研究動機與目的 2 1.3 研究挑戰與限制 7 1.4 研究貢獻 7 1.5 研究架構 8 第二章 文獻探討 9 2.1 YouTube影片分享社群網路 9 2.2 YouTube交通事故主題影片 9 2.3 社群網路中使用者類型 11 2.4 車禍肇事原因及肇事責任的認定原則 12 2.5 資料探勘之不平衡資料 12 2.6 Weka機器學習分析軟體 13 第三章 研究方法 15 3.1 研究架構 15 3.2定義肇事成因類型 16 3.3定義各項特徵值 17 3.3.1 人為因素數值 17 3.3.2 車輛因素數值 18 3.3.3 環境因素數值 18 3.3.4 路況因素數值 18 3.3.5 被按喜歡次數 19 3.3.6 被按不喜歡次數 19 3.3.7 總留言數 19 3.3.8 總觀看次數 19 3.4 研究方法流程 20 3.4.1 步驟1:擷取YouTube車禍影片的資料 21 3.4.2 步驟2: 抽樣標記影片類別 22 3.4.3 步驟3: 建立四類肇事詞庫 23 3.4.4 步驟4: 計算影片的標題、說明、留言四大類別數值 25 3.4.5 步驟5:執行分類演算法 27 第四章 方法實作與肇事個案分析 28 4.1 方法實作與環境 28 4.2 樣本資料統計 29 4.3 抽樣標記肇事影片集 30 4.4 肇事詞庫建立 31 4.5 肇事影片案例分析 32 4.5.1人為肇事影片 33 4.5.2 環境肇事影片 37 4.5.3 車輛肇事影片 41 4.5.4 路況肇事影片 45 4.6 評估基準 49 4.6.1 不平衡資料集之權重計算 50 4.6.2 評估分析 52 4.7 小結 53 第五章 結論與建議 55 5.1 結論 55 5.2 未來研究方向 56 參考文獻 57

