運用深度學習法於快速預測H.266 QTMT幀內編碼模式｜國立臺灣科技大學博碩士論文系統

簡易檢索 / 詳目顯示

回結果列表

研究生：	鄭崴隆 Wei-Lung Cheng
論文名稱：	運用深度學習法於快速預測H.266 QTMT幀內編碼模式 Fast H.266 QTMT Mode Prediction based on Deep Learning Methods
指導教授：	陳建中 Jiann-Jone Chen
口試委員:	杭學鳴 Hsueh-Ming Hang 郭天穎 Tien-Ying Kuo 鍾國亮 Kuo-Liang Chung
學位類別：	碩士 Master
系所名稱：	電資學院 - 電機工程系 Department of Electrical Engineering
論文出版年：	2021
畢業學年度：	109
語文別：	中文
論文頁數：	80
中文關鍵詞：	多功能影像編碼、深度學習、快速預測演算法、多元分類方法、幀內編碼、多類型樹結構
外文關鍵詞：	H.266/VVC, Deep Learning, Fast Prediction, Mutiple Classification Method, Intra Coding, QTMT
相關次數：	點閱：339 下載：7
分享至:	分享至facebook 分享至twitter

查詢本校圖書館目錄查詢臺灣博碩士論文知識加值系統勘誤回報

上一筆

目前的最新視訊編碼標準Versatile Video Coding (VVC)/H.266可以支援解析度4K以上的視訊通信，為因應5G高速通信的應用需求，高解析度媒體編碼與通信為當今發展主流。JVET(Joint Video Experts Team)於視訊編碼系統VTM-1.0中採用QTMT(Quad Tree and multi-type tree)區塊切割模式─加入二分樹(Binary Tree, BT)及三分樹(Ternary Tree, TT)，共4種切割模式(水平二等分割、垂直二等分割、水平三分割、垂直三分割)。相較於HEVC/H.265只使用QT區塊切割模式，又增加了4種切割模式並須透過窮舉法找出率失真最佳(rate-distortion optimization, RDO)之編碼模式，計算複雜度大幅度提高，相較前一代HEVC/H.265，編碼時間約增加8倍。為了在不影響編碼品質的條件下，有效減少RDO程序的計算複雜度，本論文研究如何運用摺積神經網路(Convolutional Neural Networks，CNN)來預測VVC幀內編碼中之當前區塊(Current Coding Unit)切割模式，藉由深度學習的模型ResNet來預測 32×32的區塊切割模式，透過預測好的切割模式來減少編碼時窮舉法的計算次數以減少編碼時間。我們同時也提出了幾個方法來增加預測準確度: (1)使用大量的編碼過後的圖像(非範例影片)作為訓練資料集; (2)多元分類方法(Mutiple Classification Method)來提高預測準確度。實驗結果顯示，我們所提出的方法在範例影片ClassA~ClassE之BDBR上升1.22%的情況下，編碼時間可降低60.42%。

關鍵字: 多功能影像編碼、深度學習、快速預測演算法、多元分類方法、幀內編碼、多類型樹結構

The newest video codec standard, Versatile Video Coding (VVC)/H.266, supports 4K up resolution video coding. To meet the application requirement related to the 5G high speed communication, high resolution media coding and communication is the key technology. The JVET (Joint Video Experts Team) adopts a QTMT (Quad Tree and multi-type tree) coding structure VTM-1.0 in which it includes four block split modes, Horizontal and Vertical Binary Tree (HBT and VBT) and Horizontal and Vertical Ternary Tree (HTT and VTT), to better encode an image according to its texture. However, by including four more split modes, the exhaustive RDO procedure requires eight times of the time complexity of that of the HEVC/QT one. To eliminate the exhaustive RDO searching operations, we study how to utilize Convolutional Neural Network (CNN) models to predict the H.266 intra-coded CU coding mode. The deep-learning model, ResNet, is adopted which is trained and tested for 32×32 blocks because the coder executes the QTMT procedure since the CU size 32×32. We also proposed several methods to increase the model prediction accuracy: (1) We use a large number of encoded images not from MPEG video as the training data set; (2) We design Multiple Classification Method to improve the prediction accuracy. Experimental results showed that our proposed method can reduce the encoding time by 60.42% when the BDBR increment 1.22%.

Keywords: H.266/VVC、Deep Learning、Fast Prediction、Mutiple Classification Method、Intra Coding、QTMT

目錄
摘要    1
ABSTRACT    2
目錄    3
圖目錄    5
表目錄    8
第一章    緒論    9
1.1    研究背景    9
1.2    研究動機與目的    10
第二章    背景知識    11
2.1    H.266/VVC 視訊編碼標準介紹    11
2.1.1    H.266/VVC 制訂&時代背景    11
2.1.2    H.266/VVC 與先前編碼標準壓縮率的比較    12
2.1.3    H.266/VVC與H.265/HEVC編碼架構比較    13
2.1.4    H.266/VVC利用QTMT劃分CU之方法    15
2.1.4.1    QTMT結構介紹    15
2.1.4.2    利用QTMT劃分CU造成冗餘之問題    18
2.2    深度學習介紹    20
2.2.1  人工神經網路(Artificial Neural Network)    21
2.2.2  摺積神經網路(Convolutional Neural Network)    23
2.2.3  深度殘差網路（Deep residual network, ResNet）    26
第三章    H.266/VVC編碼單位之快速演算法    28
3.1 H.266/VVC編碼複雜度分析    29
3.2 H.266/VVC之快速 CU分割演算法相關文獻    31
3.2.1  使用機器學習加速編碼決策文獻    31
3.2.2  使用非機器學習加速編碼決策文獻    38
3.3運用摺積神經網路加速H.266/VVC編碼    40
3.3.1  運用摺積神經網路方法    41
3.3.2  訓練過程(Training Process)    43
3.3.2.1訓練資料收集與資料預處理    43
3.3.2.2 驗證資料收集與資料預處理    45
3.3.2.3 標籤建立    51
3.3.2.4 訓練資料與驗證資料分布    52
3.3.2.5 資料分佈不均解決方法    53
3.3.2.6 多元分類方法之架構    55
3.3.2.7 摺積神經網路模型架構    59
3.3.2.8 模型訓練結果分析    61
3.3.2.9 摺積神經網路深度與分類準確度之關係    63
3.3.3 運用摺積神經網路於H.266/VVC加速CU分割決策方法    64
第四章    實驗結果與討論    67
4.1    實驗環境設置    67
4.2    多分類方法與多元分類方法之實驗結果比較    68
4.3    多元分類方法與G.Tang之實驗結果比較    71
4.4    多元分類方法與Yibo Fan及Cascade DT之實驗結果比較    73
第五章    結論與未來研究探討    75
5.1    結論    75
5.2    未來研究探討    76
參考文獻    77


 
圖目錄
圖2-1視訊編碼標準的壓縮率比較    13
圖2-2 H.266/VVC編碼架構流程圖     14
圖2-3 H.265/HEVC編碼架構流程圖    14
圖2-4 H.265/HEVC的CU四分樹架構圖    15
圖2-5 CU劃分的切割模式示意圖    16
圖2-6二分樹切割特性圖    17
圖2-7 QTMT樹狀結構    18
圖2-8水平二分樹冗餘切割模式    19
圖2-9垂直二分樹冗餘切割模式    19
圖2-10水平二分樹和垂直三分樹的冗餘切割模式    19
圖2-11垂直二分樹和水平三分樹的冗餘切割模式    20
圖2-12水平二分樹和水平三分樹的冗餘切割模式    20
圖2-13垂直二分樹和垂直三分樹的冗餘切割模式    20
圖2-14神經元示意圖    22
圖2-15感知器示意圖    23
圖2-16摺積神經網路架構圖    23
圖2-17一維卷積運算    24
圖2-18池化運算    25
圖2-19攤平(Flatten)    26
圖2-20 Resnet不同層數的神經網路結果比較    27
圖2-21 Residual Block    28
圖2-22 Resnet不同層數網路之誤差結果比較    28

圖3-1影像(128×128)區塊編碼過程RDO估算次數示意圖    31
圖3-2 G.Tang之整體系統架構圖    32
圖3-3 G.Tang之摺積神經網路架構圖    33
圖3-4 Z. Jin之整體系統架構圖    34
圖3-5 Z. Jin之標籤建立    34
圖3-6 Z. Jin之摺積神經網路架構圖    34
圖3-7判斷當前區塊切割模式架構圖    35
圖3-8當前區塊切割決策流程圖    36
圖3-9 Z. Wang之摺積神經網路架構圖    36
圖3-10 JCDT與其他方法架構比較圖    37
圖3-11 H. Yang之整體系統架構圖    38
圖3-12快速二分樹深度決策機制示意圖    39
圖3-13快速四分樹深度決策機制示意圖    40
圖3-14運用Deep Learning於QTMT模式預測架構圖    42
圖3-15訓練資料集示意圖    44
圖3-16訓練資料收集示意圖    45
圖3-17 H.266/VVC範例影片中的畫面    50
圖3-18標籤建立示意圖    51
圖3-19綜合四個QP的訓練資料分布圖    53
圖3-20當QP = 27時訓練資料分佈圖    55
圖3-21 CU區塊切割模式分類架構圖    56
圖3-22不同分類方式的類別準確度比較    58
圖3-23不同分類方式的混淆矩陣    58
圖3-24 摺積神經網路架構圖    60
圖3-25 Residual Block架構圖    60
圖3-26使用ResNet-20作為Split Classifier之訓練準確度與訓練損失結果圖    61
圖3-27使用ResNet-20 作為First Classifier之訓練準確度與訓練損失結果圖    62
圖3-28使用ResNet-20 作為Second Classifier之訓練準確度結果圖    62
圖3-29 ResNet-56與ResNet-20之訓練與驗證準確度結果圖    64
圖3-30運用摺積神經網路於H.266/VVC加速CU分割決策方法    65

表目錄
表2-1 QTMT劃分的限制    18
表3-1 H.266/VVC各範例影片詳細資料    46
表3-2總體分類器訓練準確度結果比較    63
表4-1環境設置    67
表4-2多分類方法與多元分類方法之實驗結果比較    70
表4-3多元分類方法與G.Tang之實驗結果比較    72
表4-4多元分類方法與Yibo Fan及Cascade DT之實驗結果比較    74
                                

[1] C. Hsu, C. Chen, T. Chuang, H. Huang, S, Hsiang, C. Chen, M. Chiang, C. Lai, C. Tsai, Y. Su, Z. Lin, Y. Hsiao, J. Klopp, I. Wang, Y. Huang, S. Lei, “Description of SDR video coding technology proposal by MediaTek,” JVET-J0018, Joint Video Exploration Team (JVET). Apr. 2018.
[2] https://zh.wikipedia.org/wiki/%E5%9B%BE%E7%81%B5%E6%B5%8B%E8%AF%95
[3] https://ictjournal.itri.org.tw/Content/Messagess/contents.aspx?MmmID=654304432061644411&MSID=1001517067307416615
[4] https://reurl.cc/YW9Zzl
[5] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, “Deep residual learning for image recognition,” December 2015.
[6] Y. Fan, J. Chen, H. Sun, J. Katto and M. Jing, “A fast QTMT partition decision strategy for VVC intra prediction,” in IEEE Access, vol. 8, pp. 107900-107911, 2020.
[7] Ting-Lan Lin, Hui-Yu Jiang, Jing-Ya Huang, Pao-Chi Chang, “Fast intra coding unit partition decision in H.266/FVC based on spatial features,” J Real-Time Image Proc 17, 493–510 (2020), July 2018.
[8] G. Tang, M. Jing, X. Zeng and Y. Fan, “Adaptive CU split decision with Pooling-variable CNN for VVC intra encoding,” IEEE Visual Communications and Image Processing(VCIP), Sydney,Australia,2019.
[9] Z. Jin, P. An, C. Yang and L. Shen, “Fast QTBT partition algorithm for intra frame coding through convolutional neural network,” IEEE Access, vol. 6, pp. 54660-54673, 2018.
[10] T. Amestoy, A. Mercat, W. Hamidouche, D. Menard and C. Bergeron, “Tunable VVC frame partitioning based on lightweight machine learning,” IEEE Transactions on Image Processing, vol. 29, pp. 1313-1328, 2020.
[11] https://blog.csdn.net/weixin_42979679/article/details/103672587
[12] https://blog.csdn.net/baidu_28446365/article/details/80421059
[13] H. Yang, L. Shen, X. Dong, Q. Ding, P. An and G. Jiang, “Low complexity CTU partition structure decision and fast intra mode decision for versatile video coding,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 30, no. 6, pp. 1668-1682, June 2020.
[14] Jing-Ya Huang, “Intra mode mrediction for H.266/FVC video coding based on CNNs,” 2018.
[15] Z. Wang, S. Wang, X. Zhang, S. Wang and S. Ma, “Fast QTBT partitioning decision for interframe coding with convolution neural network,” IEEE International Conference on Image Processing (ICIP), Athens, 2018.
[16] T. Fu, H. Zhang, F. Mu and H. Chen, “Fast CU partitioning algorithm for H.266/VVC intra-frame coding,” 2019 IEEE International Conference on Multimedia and Expo (ICME), Shanghai, China, 2019.
[17] Z. Wang, S. Wang, J. Zhang, S. Wang and S. Ma, “Effective quadtree plus binary tree block partition decision for future video coding,” 2017 Data Compression Conference (DCC), Snowbird, UT, 2017.
[18] Z. Wang, S. Wang, J. Zhang and S. Ma, “Local-constrained quadtree plus binary tree block partition structure for enhanced video coding,” 2016 Visual Communications and Image Processing (VCIP), Chengdu, 2016.
[19] https://www.quora.com/What-is-the-identity-block-in-ResNet
[20] https://www.itread01.com/content/1543994346.html
[21] https://blog.csdn.net/legalhighhigh/article/details/81409551
[22] https://www.researchgate.net/figure/HEVC-coding-architecture_fig3_301736507
[23] http://ultravideo.cs.tut.fi/?fbclid=IwAR0YWhGBD7tZNX2loeeH-619jfZIdmc615_StcCLkFxZDFnfBMjlWtnsTts#testsequences
[24] http://medialab.sjtu.edu.cn/web4k/index.html

簡易檢索 / 詳目顯示

相關論文