簡易檢索 / 詳目顯示

研究生: 何嘉康
Jia-Kang He
論文名稱: 使用半音節單元挑選及HNM信號模型之國語歌聲合成
Mandarin Singing-voice Synthesis Using Demi-syllable Unit Selection and HNM Signal Model
指導教授: 古鴻炎
Hung-yan Gu
口試委員: 余明興
Ming-shing Yu
王新民
Shing-ming Wang
鍾國亮
Kuo-liang Chung
學位類別: 碩士
Master
系所名稱: 電資學院 - 資訊工程系
Department of Computer Science and Information Engineering
論文出版年: 2016
畢業學年度: 104
語文別: 中文
論文頁數: 78
中文關鍵詞: 半音節單元挑選歌聲合成
外文關鍵詞: demi-syllable, unit selection, singing synthesis
相關次數: 點閱:177下載:1
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報

論文採取半音節作為歌聲單元以降低文脈組合的數量,並且提出了一個對半音節作單元挑選之動態規劃演算法,而可在配合歌譜音符的音高、時長與文脈、頻譜之連續性的條件下,選出最適合的歌聲單元序列。在訓練階段,每一個半音節單元都會被分析成為一序列音框的DCC頻譜係數,以便在合成階段進行音高、時長的調整,而歌聲信號的合成則是採用HNM信號模型,去作信號波形的合成。對於不同來源之半音節單元的串接,會導致振幅不連續的問題,我們研究了一個振幅平滑化的處理方法。使用所合成出的歌聲音檔,我們進行了流暢度與自然度的聽測實驗,在流暢度之聽測實驗,比較的對象為單元挑選演算法設為最差情況所合成出的歌曲,結果得到的平均評分為1.04,表示我們的方法可明顯改進流暢度。在自然度聽測,比較的對象是實驗室學長所研究的HMM模型所合成出的歌曲,結果得到的平均評分為1.07,表示我們的歌聲合成方法可明顯改進自然度。


In this thesis, the voice unit, demi-syllable, is adopted in order to reduce the quantity of context combinations. Also, a dynamic programming based algorithm is proposed for demi-syllable unit selection, which considers the costs of pitch and duration transformations, and considers the costs of context and spectrum continuities. Hence, a most suitable sequence of singing voice units can be found. In the training phase, each demi-syllable unit is analyzed to obtain a sequence of DCC (discrete cepstral coefficient) vectors. Then, the pitch and duration of a syllable can be adjusted in the synthesis phase. Next, the singing voice signals are synthesized with HNM(harmonic-plus-noise) model. Because the demi-syllable units to be concatenated may be selected from different songs, we thus study an amplitude-smoothing method. By using the synthesized singing voices, we conduct two types of listening tests. In the first type of tests, i.e. fluency tests, songs synthesized with cost minimized unit selection are compared with songs synthesized with cost maximized unit selection. As a result, the average score, 1.04, is obtained. This average score indicates that our method, cost minimized unit selection, can indeed improve the fluency level. In the second type of tests, i.e. naturalness tests, songs synthesized by our method are compared with songs synthesized by using HMM model(provided by another researcher). After listening tests, the average score 1.07 is obtained. This average score indicates that our method can indeed promote the naturalness level of synthesized singing voices.

目錄 摘要 II ABACTRACT IV 誌謝 V 圖表目錄 VIII 第1章 緒論 1 1.1 研究動機 1 1.2 文獻回顧 1 1.2.1 音樂性參數 1 1.2.2 歌聲合成方法 3 1.2.3 信號合成方法 5 1.3 研究方法 6 1.4 論文架構 11 第2章 語料準備與分類 12 2.1 語料錄音 12 2.2 標音、切音 12 2.3 頻譜係數求取 14 2.4 文脈分類 15 2.5 半音節單元與半音節切割 18 第3章 音樂性參數設定與基頻軌跡產生 22 3.1 滿度設定 22 3.2 抖音產生 23 3.3 連音設定 24 3.4 轉音設定 25 3.5 音量設定 27 第4章 單元挑選與聲學特性調整 29 4.1 單元挑選 30 4.1.1 半音節結合之費用 33 4.1.2 音節串接之費用 34 4.1.3 轉換費用 35 4.1.4 連續性費用 38 4.1.5 頻譜串接費用 39 4.2 單元挑選之實例 40 4.2.1 歌譜讀取 40 4.2.2 動態規劃 44 4.3 音框時長調整 46 4.4 音節基頻軌跡產生 47 第5章 HNM歌聲信號合成 50 5.1 HNM歌聲信號合成 50 5.1.1 諧波頻率設定 52 5.1.2 振幅設定 52 5.2 音節串接 53 5.2.1 音節信號之振幅平滑處理 53 5.2.2 音節拍點處理 56 第6章 程式介面與聽測實驗 58 6.1 程式介面 58 6.2 聽測實驗 61 6.2.1 單元挑選測試 61 6.2.2 歌聲流暢度測試 63 6.2.3 歌聲自然度測試 65 6.2.4 歌聲品質測試 67 第7章 結論 70 參考文獻 73

[1] 王如江,基於歌聲表情分析與單元選擇之國語歌聲合成研究,國立台灣科技大學資訊工程所碩士論文,2007。
[2] 陳安璿,整合MIDI伴奏之歌唱聲合成系統,國立台灣科技大學資訊工程研究所碩士論文,台北,2004。
[3] 林正甫,使用ANN抖音參數模型之國語歌聲合成,國立台灣科技大學資訊工程研究所碩士論文,台北,2008。
[4] 林佑靖,結合HMM頻譜模型與ANN抖音模型之國語歌聲合成,國立台灣科技大學資訊工程所碩士論文,2013。
[5] Sinsy , “HMM-based Singing Voice Syntheses System,” http://www.sinsy.jp/
[6] 華,歌唱聲以及樂器聲合成改進之研究,國立台灣科技大學資訊工程研究所碩士論文,台北,2011。
[7] 簡延庭,基於HMM模型之歌聲合成與音色轉換,國立台灣科技大學資訊工程研究所碩士論文,2013。
[8] 廖皇量,國語歌聲合成信號品質改進之研究,國立台灣科技大學資訊工程研究所碩士論文,台北,2006。
[9] J.Bonada, X.Serra, ”Synthesis of the singing voice by performance sampling and spectral models,”IEEE Singal Processing Magazine March 2007
[10] S.Imai, ”Cepstral analysis synthesis on the mel frequency scale,” in Proc.ICASSP-83,Boston,Massachusetts,USA,pp.93-96,1983.
[11] H.Kawahara,O.Masuda-Katsuse and A.de Cheveigne’, ”Restructruing speech instantaneous-frequency based F0 extraction,”Speech Communication 27 , pp.187-207 , 1999.
[12] K. Saino, H. Zen, Y. Nankaku, A.Lee,K.Tokuda,“An HMM-based Singing Voice Synthesis System,”INTERSPEECH – ICSLP, 2006.
[13] M.umbert, J.bonada, merlijn.blaauw, ”Generating Singing Voice Expression Contours Based On Unit Selection”,SMAC, 2013.
[14] N.P. Narendra∗, K.S. Rao, ”Optimal weight tuning method for unit selection cost functions in syllable based text-to-speech synthesis,” School of Information Technology, Indian Institute of Technology Kharagpur 2013.
[15] Z.Inanoglu, S.Young, ”Emotion Conversion using F0 Segment Selection,” INTERSPEECH, 2008.
[16] 校園民歌回顧,一品文化出版,台北,1985。
[17] S. Young, G. Evermann, T. Hain, D. Kershaw, G. Moore, J. Odell, D. Ollason, D. Povey, V. Valtchev, P. Woodland, The HTK Book(for HTK version 3.2.1), Cambridge University Engineering Department, 2002.
[18] HTK, “Forced Alignment,” https://netfiles.uiuc.edu/tyoon/www/ForcedAlignment.htm.
[19] K.Sjölander and J.Beskow, Centre of Speech Technolodge at KTH, http://www.speech.kth.se/wavesurfer/.
[20] 古鴻炎、蔡松峰,“基於離散倒頻譜之頻譜包絡估計架構及其於語音轉換之應用”,第二十一屆自然語言與語音處理研討會(ROCLING 2009),台中,第151-164頁,2009。
[21] 蔡松峰,GMM為基礎之語音轉換法的改進,國立台灣科技大學資訊工程研究所碩士論文,2009。
[22] 王讚緯,使用直方圖等話及目標音框挑選之語音轉換系統,國立台灣大學資訊工程研究所碩士論文,2014。
[23] Y. Stylianou, "Modeling Speech Based on Harmonic Plus Noise Models", in Nonlinear Speech Modeling and Applications, eds. G. Chollet et al., Springer-Verlag, Berlin, pp. 244-260, 2005.
[24] Y. Stylinaou, "Harmonic Plus Noise Models for Speech, Combined with Statistical Methods, for Speech and Speaker Modification", Ph. D. thesis, Ecole National Superieure des Telecommunications, Paris, France, 1996.

QR CODE