研究生: 謝居呈
Chu-Cheng Hsieh
論文名稱: 應用機器學習理論改良分類竄改過之中英文垃圾電子郵件
Apply Machine Learning Theory to Classify Camouflage E-Mail Written in Chinese and English
指導教授: 洪西進
Shi-Jinn Horng
口試委員: 范國清
Kuo-Ching Fan
Yung-Hsin Tang
Chun-Chih Hu
Min-Yang Su
學位類別: 碩士
系所名稱: 電資學院 - 電機工程系
Department of Electrical Engineering
論文出版年: 2005
畢業學年度: 93
語文別: 中文
論文頁數: 66
中文關鍵詞: 垃圾郵件機器學習過濾器貝氏分類
外文關鍵詞: classification, baysian, filter, machine learning, spam mail
相關次數: 點閱:440下載:6
最主要的改良是應用於貝式的機率模型上進行分類,藉由應用稀疏的二元多項式雜湊法進行特徵值的前置處理,搭配適當的中文斷詞方法,提出改良過後的貝式模型,使其能應用於中文郵件問題之上,並將此分類器與其它分類器如支援向量機、KNN、K-Centroid等進行比較,同時建立一完整的Microsoft Access中文垃圾郵件語料庫,在Microsoft Windows平台上提出一個可行的中文郵件分類架構。

There are two major topics in which we engage, first, to analyze and apply each machine learning method in spam mails, which are written in English and Chinese words, classification problem. Second, according to the relation between features, we proposed a method, which combines "Sparse Binary Polynomial Hashing Method" with "Baysian Classifier." We believe this process could have better precision in classifying problem.
The main improvement is applying on Bayesian classifier. We combine this process to other machine learning methods. If we put in use advanced baysian method, we could get a better precision result. Most importantly, this procedure also works well in Spam written in Chinese. In the mean time, we build a well-define spam in Chinese database with Microsoft Access software, and then we could have a completely testing environment in modern mail system.
We join different process together and investigate the properties of modern spam mails. Finally, a new client-server system has been proposed. This system has better efficiency and more accurate precision. Based on above context, this system can help users build a clear, safely, and non-spam network environment.

摘要 I Abstract II 誌謝 III 目錄 IV 第1章 緒論 1 1.1 動機與挑戰 1 1.2 問題思考 3 1.2.1 郵件的格式組成 3 1.2.2 郵件分類與文件分類的區別 4 1.2.3 傳統的過濾機制 4 1.2.4 典型的二層式防禦架構圖 6 1.2.5 MTA端的垃圾郵件過濾器 6 1.2.6 MUA端的垃圾郵件過濾器 8 1.3 研究方向 9 1.3.1 為什麼前人的方法現在不再適用 9 1.3.2 主要研究方向 10 1.4 研究架構與論文大綱 11 1.4.1 研究架構 11 1.4.2 論文大綱 12 第2章 相關理論與研究背景 14 2.1 前言 14 2.2 電子郵件格式剖析 14 2.2.1 電子郵件的傳輸過程 14 2.2.2 SMTP通訊協定 16 2.3 KNN(K-Near-Neighborhood)分類演算法 20 2.4 Centroid-Based 分類演算法 21 2.5 Naïve Bayes分類演算法 22 2.6 SVM & SSVM(Smooth Support Vector Machine)分類演算法 25 2.7 FKC(Frequecncy Key Chain,關鍵字頻率鏈) 模型 29 第3章 問題介定與特徵值擷取 30 3.1 訓練資料集 30 3.1.1 英文郵件資料集 30 3.1.2 中文郵件的資料集 31 3.2 特徵值的選取 31 3.2.1 挑選特徵值的方法 31 3.2.2 特徵值如何表示 33 3.2.3 中繼字元(Stop words)的處理 34 3.3 系統分類架構 34 3.3.1 單機作業圖 34 3.3.2 單機作業的主要考量 35 3.3.3 二層式的架構(網域區域聯防) 37 3.3.4 主從式架構的採用考量 39 3.3.5 新一代的垃圾郵件掃描服務(Web Service架構) 40 第4章 研究方法與實驗設計 41 4.1 實驗設計與構思 41 4.1.1 想法 41 4.1.2 基本實驗 42 4.1.3 調整資料集的平衡 43 4.1.4 刻意逃避過濾器的竄改 43 4.1.5 中文辭語處理 45 4.2 驗證方式(Spam Precision與Spam Recall) 45 4.2.1 一般資料分類問題的效能定義 45 4.2.2 垃圾郵件過濾器效能的評估 47 4.2.3 交互驗證方法 48 4.3 訓練步驟與細節 48 4.3.1 SVM 48 4.3.2 Bayes 50 4.4 實驗結果 52 4.4.1 初步實驗:基本學習理論的比較 52 4.4.2 改良1:特徵選取的策略 53 4.4.3 與其它改良分類法則的比較 53 4.4.4 斷詞與中文分類問題成果 55 4.4.5 效能再調校與訓練方法分析 55 4.5 更進一步的改良成果 56 4.5.1 稀疏的二元多項式雜湊法(SPBH) 56 4.5.2 竄改郵件的研究 57 第5章 結論與未來發展 59 5.1 研究結果分析 59 5.2 未來研究重點 61 5.3 結語 62 第6章 參考文獻 64

