簡易檢索 / 詳目顯示

研究生: 謝尹瑄
Yin-Hsuan Hsieh
論文名稱: 以資料探勘技術判斷網路上產品使用心得文章的適當性以美妝產品為例
A data mining approach for identifying improper review articles on the internet - Taking Cosmetics as an example
指導教授: 呂永和
Yung-Ho Leu
口試委員: 楊維寧
Wei-Ning Yang
陳雲岫
Yun-Shiow Chen
學位類別: 碩士
Master
系所名稱: 管理學院 - 資訊管理系
Department of Information Management
論文出版年: 2016
畢業學年度: 104
語文別: 中文
論文頁數: 44
中文關鍵詞: 文字探勘詞庫網路不適當文章網路化妝品廣告文章
外文關鍵詞: Improper review articles, Thesaurus
相關次數: 點閱:316下載:34
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報

網路發達的現今社會,人們樂於在網路上發表文章,不論是個人的心情分享,還是經驗的發表,亦或是產品購入後的開箱文,這些網路分享行為也改變了消費者的習慣,從以往購物前會聽聽親朋好友的現身說法,現在轉變為上網瀏覽部落格文章,看看產品的評價。然而,網路上的產品使用心得文章,並不是作者想怎麼寫就能怎麼寫,在我國相關法律規範下,有些文章內容可能有違法的情形。本研究主要目的在於協助政府,提升檢視網路上產品使用心得文章的效率。透過擷取自美妝網站上的產品使用心得文章,其對文章內容描述是否為適當或不適當進行分類,而文章的判斷以衛生福利部發布的化妝品法律應遵守之基本原則進行,建立不適當用語詞庫,對產品使用心得文章進行分析。從Urcosme美妝網站擷取6000多筆資料,藉由人工方式對抽樣的500多篇文章進行標記,以Weka工具的貝氏分類器及決策樹做分類,兩個類別為不適當文章及適當文章,在定義陽性類別為不適當文章類別的情況下,回召率(Recall) 皆大於70%,特異度(Specificity)皆達90%以上,F-Measure皆大於77%,貝氏分類器和決策樹的分類結果大致相同。


Due to the popularity of the Internet, people are willing to share their opinions on using a product through posting review articles on the Internet. Review articles affect a customer's attitude on purchasing a product. In the past, consumers may ask their friends' or relatives' opinions on a product before purchasing the product. Today, consumers usually browse the review articles on using a product on a blog or a forum before buying the product. As review articles are influential on customer's purchasing behavior, they are regulated by the law. A review article may exaggerate the effect on using a product to entice a customer to purchase the product. Therefore, there are regulations on the contents of a review article. This thesis aims at automatically screening out improper review articles from review articles on the Internet. In this thesis, we chose the cosmetics as the subject of this study. First, we built a thesaurus of illegal words be referencing the website of Ministry of Health and Welfare of Taiwan. Then, we randomly selected 500 articles from 6000 review articles on Urcosme which is a forum on cosmetics in Taiwan. Then, we classified the selected articles into 2 categories—proper and improper. A review article is improper if it contains words from the thesaurus; otherwise, it is proper. Subsequently, we used Naïve Bayes and Decision Tree algorithms of Weka to classify this training dataset. Under 10-fold cross validation and defining the improper category as the positive class, the experimental results showed that the recalls of both algorithms were greater than 70 percent and specificities were all greater than 90 percent. The experimental results showed that the proposed method offered an effective way in automatically identifying improper review articles from the Internet.

摘要 ABSTRACT 誌謝 目錄 圖目錄 表目錄 第一章 緒論 1.1研究背景 1.2 研究動機 1.3 研究目的 1.4 研究貢獻 1.5 論文架構 第二章 文獻探討 2.1法律相關條例 2.1.1化粧品廣告審查之法規依據 2.1.2化粧品得宣稱詞句例示及不適當宣稱詞句列舉 2.1.3 適當文章與不適當文章定義 2.1.5排除語詞 2.2 網路部落客廣告不實的成因 2.3 美妝相關網路用語 2.4 中文斷字斷詞 2.5詞庫方法 2.6 Weka 工具 2.6.1 貝氏分類 2.6.2 決策樹 2.6.3 交叉驗證 第三章 研究方法 3.1 研究架構 3.2研究對象與研究工具 3.2.1研究對象 3.2.2研究工具與環境 3.3 定義不適當用詞的最下限 3.4研究方法與流程 3.4.1步驟1:擷取論壇資料 3.4.2 步驟2:定義特徵值 3.4.3 步驟3:斷字斷詞 3.4.4 步驟4:建立詞庫 3.4.5 步驟5:模型評估 第四章 研究結果與討論 4.1 評估結果 4.2 誤判情形 4.3 研究限制 第五章 結論與建議 5.1結論 5.2未來發展 5.3建議 參考文獻

[1]H Tsai, C. (1998). MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm. ( http://technology.chtsai.org/mmseg/ )
[2]Keith C. Wang, Chun-Ming Lai, Teng Wang, S, & Felis Wu. (2015). Bandwagon Effect in Facebook Discussion Groups. Proceedings of the ASE BigData & SocialInformatics , Kaohsiung, Taiwan, pp. 1-6
[3]Y. Lu and J. Chen. (2014). Public Opinion Analysis of Microblog Content. 2014 International Conference on Information Science & Applications (ICISA), Seoul, 2014, pp. 1-5.
[4]Lei Zhang, Riddhiman Ghosh, Mohamed Dekhil, Meichun Hsu, & Bing Liu. (2011). Combining Lexicon-based and Learning-based Methods for Twitter Sentiment Analysis. HP Laboratories, HPL-2011-89.
[5]L. Dan, L. Lihua and Z. Zhaoxin. (2013). Research of Text Categorization on WEKA. Intelligent System Design and Engineering Applications (ISDEA), 2013 Third International Conference on, Hong Kong, pp. 1129-1131.
[6]J. Akaichi, Z. Dhouioui and M. J. López-Huertas Pérez. (2013). Text mining facebook status updates for sentiment classification. System Theory, Control and Computing (ICSTCC), 2013 17th International Conference, Sinaia, pp. 640-645.
[7]陳世榮(民104)。社會科學研究中的文字探勘應用:以文意為基礎的文件分類及其問題。人文及社會科學,第二十七卷,4,683-718。
[8]施旭峰, 李蔡彥, 鄭宇君, 陳百齡。災難事件中社群媒體訊息之自動分類設計。臺灣網際網路。
[9]陳宜惠,呂瑞麟, 黃政傑。(2013)。斷詞系統對於Queried keywords 的影響。
[10]蕭瑞祥,姜青山, 曹金豐, 簡之文。(2012)。部落格文章情感分析之研究。
[11]郭戎晉。(2015)。網路薦證廣告法律規範之研究。法學。
[12]黃子潔,賴建都。(2008)部落格廣告以代言人表現模式之溝通效果研究。廣告學。
[13]林佳燕,蔡宛汝,郭玟儀。部落客推薦文真實性對消費者購買行為之影響。第十七屆資訊管理暨實務研討會。
[14]鍾依伶,黃凱毓,戴國旭。(2014)寫手的悲哀?初探部落格代言揭露與可信度之關係。中華傳播學會。
[15]簡禎富、許嘉裕(2014)。資料挖礦與大數據分析 Data Mining & Big Data Analytics(初版)。前程文化出版,台灣。

QR CODE