簡易檢索 / 詳目顯示

研究生: 鄭崴隆
Wei-Lung Cheng
論文名稱: 運用深度學習法於快速預測H.266 QTMT幀內編碼模式
Fast H.266 QTMT Mode Prediction based on Deep Learning Methods
指導教授: 陳建中
Jiann-Jone Chen
口試委員: 杭學鳴
Hsueh-Ming Hang
郭天穎
Tien-Ying Kuo
鍾國亮
Kuo-Liang Chung
學位類別: 碩士
Master
系所名稱: 電資學院 - 電機工程系
Department of Electrical Engineering
論文出版年: 2021
畢業學年度: 109
語文別: 中文
論文頁數: 80
中文關鍵詞: 多功能影像編碼深度學習快速預測演算法多元分類方法幀內編碼多類型樹結構
外文關鍵詞: H.266/VVC, Deep Learning, Fast Prediction, Mutiple Classification Method, Intra Coding, QTMT
相關次數: 點閱:339下載:7
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報

目前的最新視訊編碼標準Versatile Video Coding (VVC)/H.266可以支援解析度4K以上的視訊通信,為因應5G高速通信的應用需求,高解析度媒體編碼與通信為當今發展主流。JVET(Joint Video Experts Team)於視訊編碼系統VTM-1.0中採用QTMT(Quad Tree and multi-type tree)區塊切割模式─加入二分樹(Binary Tree, BT)及三分樹(Ternary Tree, TT),共4種切割模式(水平二等分割、垂直二等分割、水平三分割、垂直三分割)。相較於HEVC/H.265只使用QT區塊切割模式,又增加了4種切割模式並須透過窮舉法找出率失真最佳(rate-distortion optimization, RDO)之編碼模式,計算複雜度大幅度提高,相較前一代HEVC/H.265,編碼時間約增加8倍。為了在不影響編碼品質的條件下,有效減少RDO程序的計算複雜度,本論文研究如何運用摺積神經網路(Convolutional Neural Networks,CNN)來預測VVC幀內編碼中之當前區塊(Current Coding Unit)切割模式,藉由深度學習的模型ResNet來預測 32×32的區塊切割模式,透過預測好的切割模式來減少編碼時窮舉法的計算次數以減少編碼時間。我們同時也提出了幾個方法來增加預測準確度: (1)使用大量的編碼過後的圖像(非範例影片)作為訓練資料集; (2)多元分類方法(Mutiple Classification Method)來提高預測準確度。實驗結果顯示,我們所提出的方法在範例影片ClassA~ClassE之BDBR上升1.22%的情況下,編碼時間可降低60.42%。

關鍵字: 多功能影像編碼、深度學習、快速預測演算法、多元分類方法、幀內編碼、多類型樹結構


The newest video codec standard, Versatile Video Coding (VVC)/H.266, supports 4K up resolution video coding. To meet the application requirement related to the 5G high speed communication, high resolution media coding and communication is the key technology. The JVET (Joint Video Experts Team) adopts a QTMT (Quad Tree and multi-type tree) coding structure VTM-1.0 in which it includes four block split modes, Horizontal and Vertical Binary Tree (HBT and VBT) and Horizontal and Vertical Ternary Tree (HTT and VTT), to better encode an image according to its texture. However, by including four more split modes, the exhaustive RDO procedure requires eight times of the time complexity of that of the HEVC/QT one. To eliminate the exhaustive RDO searching operations, we study how to utilize Convolutional Neural Network (CNN) models to predict the H.266 intra-coded CU coding mode. The deep-learning model, ResNet, is adopted which is trained and tested for 32×32 blocks because the coder executes the QTMT procedure since the CU size 32×32. We also proposed several methods to increase the model prediction accuracy: (1) We use a large number of encoded images not from MPEG video as the training data set; (2) We design Multiple Classification Method to improve the prediction accuracy. Experimental results showed that our proposed method can reduce the encoding time by 60.42% when the BDBR increment 1.22%.

Keywords: H.266/VVC、Deep Learning、Fast Prediction、Mutiple Classification Method、Intra Coding、QTMT

目錄 摘要 1 ABSTRACT 2 目錄 3 圖目錄 5 表目錄 8 第一章 緒論 9 1.1 研究背景 9 1.2 研究動機與目的 10 第二章 背景知識 11 2.1 H.266/VVC 視訊編碼標準介紹 11 2.1.1 H.266/VVC 制訂&時代背景 11 2.1.2 H.266/VVC 與先前編碼標準壓縮率的比較 12 2.1.3 H.266/VVC與H.265/HEVC編碼架構比較 13 2.1.4 H.266/VVC利用QTMT劃分CU之方法 15 2.1.4.1 QTMT結構介紹 15 2.1.4.2 利用QTMT劃分CU造成冗餘之問題 18 2.2 深度學習介紹 20 2.2.1 人工神經網路(Artificial Neural Network) 21 2.2.2 摺積神經網路(Convolutional Neural Network) 23 2.2.3 深度殘差網路(Deep residual network, ResNet) 26 第三章 H.266/VVC編碼單位之快速演算法 28 3.1 H.266/VVC編碼複雜度分析 29 3.2 H.266/VVC之快速 CU分割演算法相關文獻 31 3.2.1 使用機器學習加速編碼決策文獻 31 3.2.2 使用非機器學習加速編碼決策文獻 38 3.3運用摺積神經網路加速H.266/VVC編碼 40 3.3.1 運用摺積神經網路方法 41 3.3.2 訓練過程(Training Process) 43 3.3.2.1訓練資料收集與資料預處理 43 3.3.2.2 驗證資料收集與資料預處理 45 3.3.2.3 標籤建立 51 3.3.2.4 訓練資料與驗證資料分布 52 3.3.2.5 資料分佈不均解決方法 53 3.3.2.6 多元分類方法之架構 55 3.3.2.7 摺積神經網路模型架構 59 3.3.2.8 模型訓練結果分析 61 3.3.2.9 摺積神經網路深度與分類準確度之關係 63 3.3.3 運用摺積神經網路於H.266/VVC加速CU分割決策方法 64 第四章 實驗結果與討論 67 4.1 實驗環境設置 67 4.2 多分類方法與多元分類方法之實驗結果比較 68 4.3 多元分類方法與G.Tang之實驗結果比較 71 4.4 多元分類方法與Yibo Fan及Cascade DT之實驗結果比較 73 第五章 結論與未來研究探討 75 5.1 結論 75 5.2 未來研究探討 76 參考文獻 77   圖目錄 圖2-1視訊編碼標準的壓縮率比較 13 圖2-2 H.266/VVC編碼架構流程圖 14 圖2-3 H.265/HEVC編碼架構流程圖 14 圖2-4 H.265/HEVC的CU四分樹架構圖 15 圖2-5 CU劃分的切割模式示意圖 16 圖2-6二分樹切割特性圖 17 圖2-7 QTMT樹狀結構 18 圖2-8水平二分樹冗餘切割模式 19 圖2-9垂直二分樹冗餘切割模式 19 圖2-10水平二分樹和垂直三分樹的冗餘切割模式 19 圖2-11垂直二分樹和水平三分樹的冗餘切割模式 20 圖2-12水平二分樹和水平三分樹的冗餘切割模式 20 圖2-13垂直二分樹和垂直三分樹的冗餘切割模式 20 圖2-14神經元示意圖 22 圖2-15感知器示意圖 23 圖2-16摺積神經網路架構圖 23 圖2-17一維卷積運算 24 圖2-18池化運算 25 圖2-19攤平(Flatten) 26 圖2-20 Resnet不同層數的神經網路結果比較 27 圖2-21 Residual Block 28 圖2-22 Resnet不同層數網路之誤差結果比較 28 圖3-1影像(128×128)區塊編碼過程RDO估算次數示意圖 31 圖3-2 G.Tang之整體系統架構圖 32 圖3-3 G.Tang之摺積神經網路架構圖 33 圖3-4 Z. Jin之整體系統架構圖 34 圖3-5 Z. Jin之標籤建立 34 圖3-6 Z. Jin之摺積神經網路架構圖 34 圖3-7判斷當前區塊切割模式架構圖 35 圖3-8當前區塊切割決策流程圖 36 圖3-9 Z. Wang之摺積神經網路架構圖 36 圖3-10 JCDT與其他方法架構比較圖 37 圖3-11 H. Yang之整體系統架構圖 38 圖3-12快速二分樹深度決策機制示意圖 39 圖3-13快速四分樹深度決策機制示意圖 40 圖3-14運用Deep Learning於QTMT模式預測架構圖 42 圖3-15訓練資料集示意圖 44 圖3-16訓練資料收集示意圖 45 圖3-17 H.266/VVC範例影片中的畫面 50 圖3-18標籤建立示意圖 51 圖3-19綜合四個QP的訓練資料分布圖 53 圖3-20當QP = 27時訓練資料分佈圖 55 圖3-21 CU區塊切割模式分類架構圖 56 圖3-22不同分類方式的類別準確度比較 58 圖3-23不同分類方式的混淆矩陣 58 圖3-24 摺積神經網路架構圖 60 圖3-25 Residual Block架構圖 60 圖3-26使用ResNet-20作為Split Classifier之訓練準確度與訓練損失結果圖 61 圖3-27使用ResNet-20 作為First Classifier之訓練準確度與訓練損失結果圖 62 圖3-28使用ResNet-20 作為Second Classifier之訓練準確度結果圖 62 圖3-29 ResNet-56與ResNet-20之訓練與驗證準確度結果圖 64 圖3-30運用摺積神經網路於H.266/VVC加速CU分割決策方法 65 表目錄 表2-1 QTMT劃分的限制 18 表3-1 H.266/VVC各範例影片詳細資料 46 表3-2總體分類器訓練準確度結果比較 63 表4-1環境設置 67 表4-2多分類方法與多元分類方法之實驗結果比較 70 表4-3多元分類方法與G.Tang之實驗結果比較 72 表4-4多元分類方法與Yibo Fan及Cascade DT之實驗結果比較 74

[1] C. Hsu, C. Chen, T. Chuang, H. Huang, S, Hsiang, C. Chen, M. Chiang, C. Lai, C. Tsai, Y. Su, Z. Lin, Y. Hsiao, J. Klopp, I. Wang, Y. Huang, S. Lei, “Description of SDR video coding technology proposal by MediaTek,” JVET-J0018, Joint Video Exploration Team (JVET). Apr. 2018.
[2] https://zh.wikipedia.org/wiki/%E5%9B%BE%E7%81%B5%E6%B5%8B%E8%AF%95
[3] https://ictjournal.itri.org.tw/Content/Messagess/contents.aspx?MmmID=654304432061644411&MSID=1001517067307416615
[4] https://reurl.cc/YW9Zzl
[5] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, “Deep residual learning for image recognition,” December 2015.
[6] Y. Fan, J. Chen, H. Sun, J. Katto and M. Jing, “A fast QTMT partition decision strategy for VVC intra prediction,” in IEEE Access, vol. 8, pp. 107900-107911, 2020.
[7] Ting-Lan Lin, Hui-Yu Jiang, Jing-Ya Huang, Pao-Chi Chang, “Fast intra coding unit partition decision in H.266/FVC based on spatial features,” J Real-Time Image Proc 17, 493–510 (2020), July 2018.
[8] G. Tang, M. Jing, X. Zeng and Y. Fan, “Adaptive CU split decision with Pooling-variable CNN for VVC intra encoding,” IEEE Visual Communications and Image Processing(VCIP), Sydney,Australia,2019.
[9] Z. Jin, P. An, C. Yang and L. Shen, “Fast QTBT partition algorithm for intra frame coding through convolutional neural network,” IEEE Access, vol. 6, pp. 54660-54673, 2018.
[10] T. Amestoy, A. Mercat, W. Hamidouche, D. Menard and C. Bergeron, “Tunable VVC frame partitioning based on lightweight machine learning,” IEEE Transactions on Image Processing, vol. 29, pp. 1313-1328, 2020.
[11] https://blog.csdn.net/weixin_42979679/article/details/103672587
[12] https://blog.csdn.net/baidu_28446365/article/details/80421059
[13] H. Yang, L. Shen, X. Dong, Q. Ding, P. An and G. Jiang, “Low complexity CTU partition structure decision and fast intra mode decision for versatile video coding,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 30, no. 6, pp. 1668-1682, June 2020.
[14] Jing-Ya Huang, “Intra mode mrediction for H.266/FVC video coding based on CNNs,” 2018.
[15] Z. Wang, S. Wang, X. Zhang, S. Wang and S. Ma, “Fast QTBT partitioning decision for interframe coding with convolution neural network,” IEEE International Conference on Image Processing (ICIP), Athens, 2018.
[16] T. Fu, H. Zhang, F. Mu and H. Chen, “Fast CU partitioning algorithm for H.266/VVC intra-frame coding,” 2019 IEEE International Conference on Multimedia and Expo (ICME), Shanghai, China, 2019.
[17] Z. Wang, S. Wang, J. Zhang, S. Wang and S. Ma, “Effective quadtree plus binary tree block partition decision for future video coding,” 2017 Data Compression Conference (DCC), Snowbird, UT, 2017.
[18] Z. Wang, S. Wang, J. Zhang and S. Ma, “Local-constrained quadtree plus binary tree block partition structure for enhanced video coding,” 2016 Visual Communications and Image Processing (VCIP), Chengdu, 2016.
[19] https://www.quora.com/What-is-the-identity-block-in-ResNet
[20] https://www.itread01.com/content/1543994346.html
[21] https://blog.csdn.net/legalhighhigh/article/details/81409551
[22] https://www.researchgate.net/figure/HEVC-coding-architecture_fig3_301736507
[23] http://ultravideo.cs.tut.fi/?fbclid=IwAR0YWhGBD7tZNX2loeeH-619jfZIdmc615_StcCLkFxZDFnfBMjlWtnsTts#testsequences
[24] http://medialab.sjtu.edu.cn/web4k/index.html

QR CODE