簡易檢索 / 詳目顯示

研究生: 吳昌益
Chang-yi Wu
論文名稱: 使用頻譜演進模型之國語語音合成研究
Mandarin Speech Synthesis Using a Spectrum Progression Model
指導教授: 古鴻炎
Hung-yan Gu
口試委員: 王新民
none
黃紹華
none
鐘國亮
none
林柏慎
none
學位類別: 碩士
Master
系所名稱: 電資學院 - 資訊工程系
Department of Computer Science and Information Engineering
論文出版年: 2008
畢業學年度: 96
語文別: 中文
論文頁數: 63
中文關鍵詞: 語音合成類神經網路頻譜演進諧波加噪音模型
外文關鍵詞: Speech synthesis, neural network, spectrum progression, HNM model
相關次數: 點閱:252下載:2
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 使用少量的合成單元來作語音合成,是我們的一個目標,因此本論文研究以動態時間軸校正(DTW)來分析目標音節與參考音節之間的頻譜演進匹配路徑,再轉換成固定維度的頻演參數去訓練類神經網路(ANN)模型。此外我們也量測了訓練語料中各音節的波形包絡、聲韻母振幅比例、音節音長及音量等資訊,再拿去訓練各自的類神經網路模型。之後在語音合成階段我們採用先前學長開發的HNM信號合成程式,但是以本論文建造的頻演參數和韻律參數ANN模型的輸出,去控制HNM作語音信號的合成。經由主觀的自然度聽測評估,評分顯示使用頻演參數及聲韻母長度比例的合成語音會比原始HNM合成出的語音高出0.4375分,並且同時使用頻演參數和韻律參數的語音則可比原始HNM合成出的語音高出1.3125分。


    Synthesizing speech using a small set of syllable units is a goal of us. Therefore, in this thesis, we study to analyze a spectrum progression path between a target and a reference syllables with the method of dynamic time warping (DTW). Then, the path is transformed into a parameter vector of fixed dimensions, and used to train a spectrum-progression artificial neural network (ANN) model. In addition, several prosodic parameters, waveform envelope, amplitude ratio of syllable initial to final, duration, and volume, are measured from each training syllable. Then, the data of each of these parameters are used to train a corresponding ANN, respectively. In the synthesis stage, a harmonic-plus-noise model (HNM) based signal synthesis program developed by other students is used. But the HNM program is modified here in order that it can be controlled by the spectrum-progression and prosodic parameters generated by our ANN models to synthesize speech signal. The synthetic speech is then used to perform perception test of naturalness level. A result is that an average improvement score of 0.438 can be obtained when the original synthetic speech is compared with the spectrum-progression parameter controlled synthetic speech. Furthermore, the score can achieve 1.313 when the original synthetic speech is compared with the synthetic speech that is controlled by both the spectrum-progression and prosodic parameters in synthesis.

    摘要 Abstract 誌謝 目錄 圖表索引 第1章 緒論 1.1 研究動機及目的 1.2 語音合成研究之回顧 1.2.1 頻譜演進 1.2.2 音節波形包絡 1.2.3 音節音量與聲、韻母振幅比例 1.2.4 音節時長與聲、韻母時長比例 1.3 研究方法 1.4 論文架構 第2章 語料預處理與正規化 2.1 語料預處理 2.2 語音特徵參數 2.2.1 MFCC特徵參數 2.2.2 音長和音量參數 2.2.3 週期偵測和音節分段 2.3 韻律參數正規化 2.3.1 聲韻母分類 2.3.2 音節音長正規化 2.3.3 音節音量正規化 第3章 語句音節之DTW分析 3.1 DTW簡介 3.2 不同Local Constraint對DTW的影響 3.3 基於DTW之頻演路徑分析 第4章 類神經網路模型 4.1 類神經網路簡介 4.2 類神經網路結構 4.3 類神經網路輸出入參數 4.4 單元個數實驗 第5章 語音合成實驗 5.1 本研究之合成程式架構 5.2 HNM合成程式之控制 5.2.1 音長與音量調整 5.2.2 頻演時間軸對應及聲、韻母音長比例調整 5.2.3 音量與波形包絡調整 5.2.4 聲、韻母振幅比例調整 5.2.5 基週軌跡調整 5.3 聽測實驗 第6章 結論 參考文獻 作者簡介

    [1] T. Yoshimura, K. Tokuda, T. Masuko, T. Kobayashi and T. Kitamura, "Duration Modeling in HMM-based Speech Synthesis System", Proc. of ICSLP, Vol. 2, pp. 29–32, 1998.
    [2] 葉政育,聲學模組於中文文句翻語音系統之研究與實作,國立台北科技大學,博士論文,2006。
    [3] Moulines E. and Charpentier F. "Pitch Synchronous Waveform Processing Techniques for Text-to-Speech Synthesis Using Diphones" Speech Communication, Vol. 9, pp. 453-467, 1990.
    [4] 古鴻炎、簡敏昌,基於VQ/HMM之國語文句翻語音中音節音長與振幅參數產生之方法,電腦學刊,第十三卷,第三期,第21-30頁,2001。
    [5] 曹亦岑,使用小型語料類神經網路之國語語音合成韻律參數產生,國立台灣科技大學電機所,碩士論文,1999。
    [6] S. H. Chen, S. H. Hwang, and Y. R. Wang, "An RNN-based prosodic information synthesizer for Mandarin text-to-speech", IEEE Trans. Speech and Audio Processing, Vol. 6, No. 1, pp. 226-239, 1998.
    [7] 周彥佐,基於HNM 之國語、閩南語的語音合成研究,國立台灣科技大學資訊工程所,碩士論文,2006。
    [8] 許文龍,使用時間比例基週波形內差之國語語音合成器,國立台灣科技大學電機工程研究所碩士論文,1996。
    [9] 任文采,國語文句翻語音系統單音音長預估模式之研究,國立中興大學應用數學研究所碩士論文,1997。
    [10] 潘能煌,中文文句翻語音系統之音量音調韻律研究,國立中興大學應用數學研究所碩士論文,1998。
    [11] 廖皇量,國語歌聲合成信號品質改進之研究,國立台灣科技大學資訊工程研究所碩士論文,2006。
    [12] C. S. Myers and L. R. Rabiner, "A comparative study of several dynamic time-warping algorithms for connected word recognition", The Bell System Technical Journal, Vol. 7, No. 60, pp. 1389-1409, 1981.
    [13] Yannis Stylianou, "Applying the Harmonic plus Noise Model in Concatenative Speech Synthesis", IEEE Trans. Speech and Audio Processing, Vol. 9, No. 1, pp. 21-29, 2001.
    [14] Kåre Sjölander and Jonas Beskow, Centre of Speech Technolodge at KTH, http://www.speech.kth.se/wavesurfer/
    [15] D. O’Shauhnessy, Speech Communications, 2nd ed., IEEE Press, 2000.
    [16] 蔡仲明,基於GMM及PPM模型的國、閩南、客語之語言辨識,國立台灣科技大學資訊工程研究所碩士論文,2007。
    [17] 古鴻炎、張小芬、吳俊欣,仿趙氏音高尺度之基週軌跡正規化方法及其應用,第十六屆自然語言與語音處理研討會,台北,第325-334頁,2004。
    [18] S. J. Lee, K. C. Kim, H. Y. Jung, and W. Cho, "Application of Fully Recurrent Neural Networks for Speech Recognition", ICASSP, pp. 77-80, 1991.
    [19] 郭威志,使用與者辯認作前處理之國語TTS系統發展,國立交通大學電信研究所碩士論文,2000。
    [20] C. Y. Tseng, S. H. Pin, Y. L. Lee, H. M. Wang, and Y. C. Chen , "Fluent Speech Prosody: Framework and Modeling", Speech Communication, Special Issue on Quantitative Prosody Modelling for Natural Speech Description and Generation, Vol. 46, No. 3-4, pp. 284-309, 2005.
    [21] K. Tokuda, T. Yoshimura, T. Masuko, T. Kobayashi, T. Kitamura, "Speech parameter generation algorithms for HMM-based speech synthesis", Proc. Of ICASSP, pp.1315-1318, 2000.
    [22] Y. Qian, F. Soong, Y. Chen and M. Chu, " An HMM-Based Mandarin Chinese Text-to-Speech System", Proc. of ICSLP, pp. 223-232, 2006.

    QR CODE