当前,卷积神经网络已在图像分类、目标检测等计算机视觉领域被广泛应用。然而,在前向推断阶段许多实际应用往往具有低延时和严格的功耗限制。针对该问题,采用参数重排序、多通道数据传输等优化策略,设计并实现了一种基于FPGA的SIM卷积神经网络加速器架构。以YOOV2目标检测算法为例,介绍了将卷积神经网络模型映射到FPGA上的完整流程;对加速器的性能和资源耗费进行深λ分析和建模,将实际传输延时考虑在内,缩小了加速器理论时延与实际时延的误差;改进了加速器架构中的输入和输岀模块,有效提高了总线带宽的实际利用率。实验结果表明,在 edboard上获得了30.l5GOP/s的性能,与 Xeon e5-2620CPU相比,能效是其120.4倍,性能是其7.3倍;与双核ARM-A9CPU相比,能效是其86倍,性能是其112.9倍。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部1条评论
快来发表一下你的评论吧 !