海思AI芯片HI3516DV300上SSD代码的移植和优化_专栏

前一段时间一直在做海思AI芯片 HI3516DV300上SSD代码的优化工作，这里总结一下优化的一些心得体会。之所以要对海思AI芯片 HI3516DV300上SSD代码做优化，是因为SSD有一部分是运行在CPU上，而HI3516DV300上的CPU性能比较差，网络只要稍微复杂一点，CPU部分运行就会很慢。下表给出了一些模型在芯片上运行的时间，可以看到CPU部分运行的时间占据了大部分。

注意：
这里的Forward对应SAMPLE_SVP_NNIE_Forward()函数,这个函数基本上是运行在NNIE上的，GetResult对应SAMPLE_SVP_NNIE_Ssd_GetResult函数，这个函数是运行在CPU上的,后面直接使用GetResult表示这个函数

DetectionOutForward的优化

首先分析性能瓶颈。通过对GetResult函数分析发现主要耗时在两个函数中：SVP_NNIE_Ssd_SoftmaxForward和SVP_NNIE_Ssd_DetectionOutForward，后面直接使用SoftmaxForward和DetectionOutForward表示。

进一步对DetectionOutForward函数进行分析，其中DetectionOutForward主要包含了两个步骤,这两个部分分别对应了两个for循环：

decode box: 将网络输出的预测值转换为实际的坐标值,这一部分记为Loop1
NMS: 对每一类目标的前topk个置信度最高的bbox做NMS,这一部分记为Loop2

发现主要耗时在Loop1中

Loop1对应了如下代码：

分析Loop1代码，Loop1主要功能是对所有anchor的预测值进行解码转换为anchor在图像中实际的坐标值。

对每一个anchor都需要调用两次exp()函数(上图中红框标出的部分)，这个函数是一个非常耗时的函数，45120个anchor一共调用90240次exp()，通过测试发现90240次exp()调用需要耗时21ms，如果能够减少exp()的调用次数，将会大大减少时间。

由于实际做NMS的时候，我们只对前topk个置信度最高的bbox做NMS，也就是说只会用到前topk个bbox的真实坐标值，其他bbox的坐标值用不到，所以我们只需要计算出前topk个bbox的真实坐标值就可以了，这里topK设置为400,也就是说只需要执行800次exp操作就可以，而800次exp操作只需要0.2ms，可以大大减少时间。

但是最后做NMS的时候，使用的是图1中蓝框中的4个变量，而如果要计算出真实坐标值，就必须要知道网络输出的预测值和priorbox的坐标，也就是如果要计算出前topk个bbox的真实坐标值，就必须要知道每个bbox对应的8个变量，图1中红框和绿框中的8个值。

8个值:

ps32PriorBoxes[jSAMPLE_SVP_NNIE_COORDI_NUM]
ps32PriorBoxes[jSAMPLE_SVP_NNIE_COORDI_NUM+1]
ps32PriorBoxes[jSAMPLE_SVP_NNIE_COORDI_NUM+2]
ps32PriorBoxes[jSAMPLE_SVP_NNIE_COORDI_NUM+3]
ps32LocPreds[jSAMPLE_SVP_NNIE_COORDI_NUM]
ps32LocPreds[jSAMPLE_SVP_NNIE_COORDI_NUM+1]
ps32LocPreds[jSAMPLE_SVP_NNIE_COORDI_NUM+2]
ps32LocPreds[jSAMPLE_SVP_NNIE_COORDI_NUM+3]

下面的问题就是如何将每个bbox对应的这8个变量编码到4个变量中，通过对每个bbox对应的8个变量分析发现：