簡易檢索 / 詳目顯示

研究生: 黃國勛
Kuo-hsun Huang
論文名稱: 行動裝置上語音命令辨識之研究
Speech Command Recognition on Mobile Devices
指導教授: 古鴻炎
Hung-yan Gu
口試委員: 王新民
Hsing-ming Wang
余明興
Ming-Hsing Yu
黃紹華
Sou-hua Huang
林柏慎
Ber-sun Lin
學位類別: 碩士
Master
系所名稱: 電資學院 - 資訊工程系
Department of Computer Science and Information Engineering
論文出版年: 2007
畢業學年度: 95
語文別: 中文
論文頁數: 78
中文關鍵詞: 行動裝置上語音辨識語音辨識語音命令行動裝置
外文關鍵詞: Speech Command Recognition, Speech Command
相關次數: 點閱:204下載:5
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 本論文中,採取MFCC係數作為特徵參數,以隱藏式馬可夫模型作為聲學模型,再以維特比搜尋法計算機率值。為了簡化及減少運算量,我們研究了一些把浮點運算轉換成定點運算的作法。此外再把隱藏式馬可夫模型中的變異數參數去除,也可使維特比搜尋的速度更快。聲學模型之訓練,使用兩階段訓練法,首先以等切和向量量化來訓練初始模型,接著使用分段K中心法再對聲學模型作訓練,這些訓練程序都使用定點運算來進行。
    在使用手工標記端點語料的實驗,語者無關的辨識可達到3.57% 的辨識錯誤率。若以程式作自動的端點偵測,則可達到5.92%的辨識錯誤率。經過模擬實驗之後,我們也已經將辨識階段的程式搬到Pocket PC上,實際測試顯示,我們的程式可以正常的執行語音命令的辨識處理。


    To simplify and decrease the quantity of computations, we have study some methods to replace floating-point operations with fixed-point operations. In addition, by eliminating the parameter of variance from HMM, the speed of Viterbi search is further increased. For acoustic model training, uniform segmentation and vector quantization are used to train initial model parameters. Then, segmental K-means is used to refine the model parameters. These two training steps are all executed with fixed-point operations.
    When the endpoints of all utterances are manually marked, the recognition error rate obtained is 3.6% in the speaker-independent experiment. But, when the endpoints are detected automatically, the error rate obtained becomes larger, i.e. 5.9%. After simulation experiments, we have ported the recognition program to Pocket PC. According to practical testing result, our program can normally recognize voice commands on Pocket PC.

    摘要 ABSTRACT 誌謝 目錄 圖表索引 圖形 表格 第1章 緒論 1.1 研究動機及目的 1.2 語音辨識研究之回顧 1.3 本論文之研究方法 1.4 論文架構 第2章 語音訊號處理 2.1 語音訊號處理流程 2.2 前置處理 2.2.1 音框 2.2.2 預強調 2.2.3 加窗處理 2.3 特徵參數 3.2.1 傅立葉轉換 3.2.2 梅爾倒頻譜參數 2.4 定點特徵參數 第3章 語音模型訓練 3.1 聲學模型 3.2 隱藏式馬可夫模型 3.3 模型訓練 3.3.1 初始模型 3.3.2 分段K中心法 3.4 測試實驗 第4章 端點偵測 4.1 時域與頻域處理 4.2 短時能量之方法 4.3 越零率參數 4.4 靜音模型 4.5 端點偵測實驗 第5章 語音辨識 5.1 維特比搜尋 5.2 拒絕 5.3 測試實驗 5.4 藍芽錄音通道之實驗 第6章 PDA 語音辨識系統實作 6.1 系統發展 6.2 操作介面 6.3 線上辨識實驗 第7章 結論 參考文獻

    [1] Lawrence Rabiner and Biing-Hwang Juang, “Fundamentals of Speech Recognition”, Prentice-Hall International, Inc.1993.
    [2] Sadaoki Furui, B.H.Juang, Wu Chou, “Automatic Speech Recognition and Understanding Proceedings”, IEEE Workshop 1997.
    [3] Douglas O’Shaughnessy, “Speech Communications Human and Machine Second Edition”, The Institute of Electrical and Electronics Engineers, Inc, New York 2000.
    [4] Alan V.Oppenheim and Ronald W. Schafer with John R.Buck, “Discrete-Time Signal Processing Second Edition”, Prentice-Hall International, Inc.1999.
    [5] Brian Delaney, Nikil Jayant,Mat Hans, Tajana Simunic, Andrea Acquaviva, “A Low-Power, Fixed-Point, Front-End Feature Extraction for a Distributed Speech Recognition System”, ICASSP 2002.
    [6] Christophe L´evy, Georges Linar`es1, Pascal Nocera and Jean-Franc¸ois Bonastre, “Reducing Computational and Memory Cost for Cellular Phone Embedded Speech Recognition System”, IEEE ICASSP ITT-P1.6, May 2004
    [7] 陳松琳,以類神經網路為架構之語音辨識系統,中山大學電機工程學系,碩士論文,2002。
    [8] 林育祺,利用可重組織單晶片系統實現語音辨識,私立逢甲大學資訊工程學系,碩士論文,2004。
    [9] 楊永泰,隱藏式馬可夫模型應用於中文語音辨識之研究,中原大學資訊工程學系,碩士論文,1999。
    [10] 陳明,DSP在語音辨識系統之應用與研究,台灣科技大學,機械工程系,碩士論文,2004。
    [11] 楊茗惠,用隱藏式馬可夫方法於頻域特徵之國語數字辨識,中興大學應用數學系,碩士論文,2002。
    [12] 王閔鴻,不特定語者大詞彙華台雙與辨識引擎之研製及其應用,長庚大學,碩士論文,2003。

    QR CODE