研究生: 張薏萱
Yi-Hsuan Chang
論文名稱: 設計與實現一個植基於FPGA 之手寫數字辨識系統之CNN加速器
Design and Implementation of an FPGA-Based CNN Accelerator for Handwritten Digits Recognition Systems
指導教授: 林銘波
Ming-Bo Lin
口試委員: 陳郁堂
Yie-Tarng Chen
Shu-Yen Lin
Jeng-Hung Tsai
學位類別: 碩士
系所名稱: 電資學院 - 電子工程系
Department of Electronic and Computer Engineering
論文出版年: 2021
畢業學年度: 109
語文別: 中文
論文頁數: 68
中文關鍵詞: 卷積神經網路 (CNN)加速器現場可程式邏輯陣列(FPGA)手寫辨識深度學習
外文關鍵詞: Convolutional Neural Network (CNN), accelerator, FPGA, handwriting recognition, deep learning
相關次數: 點閱:505下載:23
為達到上述目的,本論文提出一個以現場可程式邏輯陣列(FPGA)為實現基礎的CNN加速器。它首先由MNIST數字集內取出訓練資料,並使用Google Colaboratory訓練模型,測試出最佳精準度的參數,然後使用FPGA實現整個CNN加速器。
本論文提出之加速器已經在Xilinx Vertex 5系列的FPGA (XC5VLX330T) 實現與驗證。其準確率為97.89%,工作頻率125MHz,運算平均速率為10.87 µs,平均較CPU快83.13 µs,較GPU快17.13 µs,占用的LUT為49,162個,為總資源的50%,記憶體佔用2,720個LUT,為總資源的10%,使用的暫存器為41,099個,占總暫存器資源的45%,使用DSP為122個,占總資源95%,平均扇出為3.42。

In recent years, the technology of deep learning has gradually affected the daily-life of human beings, especially, the applications of convolutional neural networks (CNNs). Among them, image recognition and classification are the most popular and can best reflect the matured development of convolutional neural networks. Along the maturing development of CNNs, their models are more and more complicated, thereby, needing more and more parameters in the calculation process. As a consequence, how to design a high-accuracy and high-speed CNN accelerator with low resource usage will be the key factor for CNNs to be widely used in the future.
To achieve the above-mentioned objective, this thesis proposes a CNN accelerator on the basis of a field-programmable logic array (FPGA). To do this, the Google Colaboratory is used to train the model with the training data extracted from the MNIST digit set, and then the parameters with the best accuracy are used to implement the required CNN accelerator.
The proposed CNN accelerator has been implemented and verified with an FPGA device from the Xilinx Vertex 5 series FPGA (XC5VLX330T). The results show that the accuracy is 97.89%, the average running time is 10.87 µs, which is faster than CPU by 83.13 µs and than GPU by 17.13 µs. The CNN accelerator occupies 49,162 LUTs, accounting for 50% of the total LUT resources, uses 2,720 LUTS for the memory, accounting for 10% of total memory LUT resources, and employs 41,099 temporary registers, accounting for 45% of total register resources.

摘要 I Abstract II 誌謝 III 目錄 IV 圖目錄 VII 表目錄 IX 第 1 章 緒論 1 1.1 研究動機 1 1.2 研究方向 2 1.3 章節安排 2 第 2 章 背景介紹 3 2.1 深度學習 3 2.2 硬體加速器 4 2.3 MNIST 手寫數字資料集 基本介紹 6 2.4 卷積神經網路專有名詞介紹 7 2.4.1 卷積 8 2.4.2 卷積核 9 2.4.3 移動步伐 10 2.4.4 補充像素 11 2.4.5 偏差值 11 2.4.6 池化 12 2.4.7 激勵函數 13 2.4.8 全連接層 17 2.4.9 One-Hot 解碼器 18 2.5 經典CNN模型架構 18 2.5.1 Le Net 19 2.5.2 Alex Net 20 2.5.3 VGG Net 21 第 3 章 CNN架構分析與硬體設計 22 3.1 資料分析 22 3.1.1 卷積 22 3.1.2 全連接層 24 3.2 模型建立 25 3.2.1 Le Net 25 3.2.2 Alex Net 27 3.2.3 模型一 29 3.2.4 模型二 30 3.2.5 模型三 31 3.2.6 模型四 32 第 4 章 CNN加速器模組設計 34 4.1 CNN加速器架構 34 4.1.1 卷積運算模組 37 4.1.2 加法樹加法器 39 4.1.3 最大池化運算模組 40 4.1.4 ReLU模組 42 4.1.5 全連接層模組 43 4.1.6 One-Hot解碼器模組 44 4.1.7 主控制器模組 46 第 5 章 FPGA設計實現與結果分析 47 5.1 設計的與實現流程 47 5.2 測試與驗證 48 5.3 模擬波形圖 49 5.4 FPGA設計實現結果分析 52 第 6 章 結論 54 參考文獻 55

