研究生: 陳曉毅
Hsiao-Yi Chen
論文名稱: 在加密雲上基於詞嵌入之語意搜尋
A Semantic Search over Encrypted Cloud Data based on Word Embedding 研
指導教授: 金台齡
Tai-Lin Chin
口試委員: 陳冠宇
Kuan-Yu Chen
Chih-Chieh Hung
學位類別: 碩士
系所名稱: 電資學院 - 資訊工程系
Department of Computer Science and Information Engineering
論文出版年: 2019
畢業學年度: 107
語文別: 中文
論文頁數: 47
中文關鍵詞: 加密雲詞嵌入語意搜尋
外文關鍵詞: Encrypted Cloud Data, Word Embedding, Semantic Search
相關次數: 點閱:287下載:2
此外大部分的搜尋方法大多無法有效率的從使用者所下的關鍵字中獲取使用者真正感興趣的資料。為了解決這些問題,本研究提出一種基於詞嵌入(Word Embedding)的語意搜尋演算法。其中詞嵌入的模型是由神經網路(Neural Network)模型的計算來實現,神經網路模型可以學習語意資料庫(corpus)中詞與詞之間的語意關係,並以向量來表示單詞。透過使用詞嵌入的模型,生成文檔索引向量(document index vector)和查詢向量(query vector)。最後本論文提出的方案可以將查詢向量和索引向量加密為密文,在保護用戶的隱私和文檔的安全性時同時能保有搜尋的效率。

The services of cloud storage have been very popular in recent years. With the superiority of low-cost and high-capacity, people are inclined to move their data from a local computer to a remote facility such as the cloud server. The majority of the existing methods for searching data on the cloud concentrate on keyword-based search scheme. With the rise of information security awareness, data owners hope that the data placed in the cloud server can keep privacy from being snooped by untrusted users, and users also hope that their query content will not be record by untrusted server. Therefore, encrypting data and queries is the most common way.However, the encrypted ciphertext has lost the relationship of the original plaintext, which will cause many difficulties in keyword search.In addition, most of the existing search methods are not able to efficiently obtain the information that the user is really interested in from the user's query keywords. To address these problems, this study proposes a word embedding based semantic search scheme for searching documents on the cloud. The word embedding model is implemented by a neural network. The neural network model can learn the semantic relationship between words in the corpus and express the words in vectors. By using a word-embedded model, a document index vector and a query vector can be generated. The proposed scheme can encrypt the query vector and the index vector into ciphertext, which can preserve the efficiency of the search while protecting the privacy of the user and the security of the document.

論文摘要. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV 目錄. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V 圖目錄. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII 1 緒論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 背景. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 動機. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 論文目的與貢獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4 論文架構. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2 文獻探討. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1 可搜索之加密方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 主題模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.3 詞嵌入模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3 問題定義與方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.1 問題定義. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.1.1 系統模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.1.2 威脅模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.2 詞嵌入模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 V 3.2.1 輸入層. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.2.2 隱藏層. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.2.3 輸出層. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2.4 訓練和優化. . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.3 建立索引和查詢向量. . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.4 在加密資料搜尋之方法. . . . . . . . . . . . . . . . . . . . . . . . . . 20 4 實驗結果與分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.1 實驗環境. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.2 訓練詞嵌入模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.3 詞嵌入模型有效性. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.4 語意搜尋. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.5 搜尋效率. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5 結論與未來展望. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Appendix: SECURITY ANALYSIS . . . . . . . . . . . . . . . . . . . . . . . . . 33 Appendix: Backpropagation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 參考文獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

