letterbox的两种实现_专栏_易百纳技术社区

以前经常觉得resize你的图像成模型宽高, 送进去, 对推理精度影响不大, 最近发现, 还真的挺大.
这里涉及一个概念, 就是letterbox.

因为我们的模型放入yolov5做推理的时候, 模型输入是640x640的正方形, 你需要把图片做一个预处理:

例如这张图
比较宽, 那么有两种做法, 一种粗暴的, 直接跟揉面一样, 两边一夹:

这个就叫做resize, 就是直接变形成了640x640
这样会导致最终精度的下降,所以最推荐的做法是:

首先他图片的宽高中大的那一个, 缩放成640, 然后等比例, 缩放另一个方向, 然后空余部分填充灰色或者黑色, 比如这种扁扁的图片, 就处理成:

再送入模型中做推理.

首先, 在目前不纠结速度跟效率的前提下, 有两个方法实现:

opencv
纯手搓

当然还有用rga,vpss等等做法, 回头再一一列举, 先说说这两种

先说说opencv的做法:
rk的npu2 example中就有这个函数:


void letterbox(const cv::Mat &image, cv::Mat &padded_image, BOX_RECT &pads, const float scale, const cv::Size &target_size, const cv::Scalar &pad_color)
{
    // 调整图像大小
    cv::Mat resized_image;
    cv::resize(image, resized_image, cv::Size(), scale, scale);

    // 计算填充大小
    int pad_width = target_size.width - resized_image.cols;
    int pad_height = target_size.height - resized_image.rows;

    pads.left = pad_width / 2;
    pads.right = pad_width - pads.left;
    pads.top = pad_height / 2;
    pads.bottom = pad_height - pads.top;

    // 在图像周围添加填充
    cv::copyMakeBorder(resized_image, padded_image, pads.top, pads.bottom, pads.left, pads.right, cv::BORDER_CONSTANT, pad_color);
}

简单吧..

如果手搓的话, 分三步:

缩小为640x360,
新建一个画布640x640, 填充灰边,
在画面中间填入数据

void VideoChannel::resize_from_1080p_to_640_square(char *input, char *output) {

    char *resizedData = (char *) malloc(TARGET_WIDTH * TARGET_HEIGHT * ORIGINAL_CHANNELS);
    // LOGD("resize from 1080p to 640 square");
    // 缩小图片
    resizeImage(input, resizedData);
    // 128就是灰色, 全部像素设置为灰色
    memset(output, 128, OUTPUT_WIDTH * OUTPUT_HEIGHT * RGB_CHANNELS);
    // 填充到640x640的灰度图中
    fillGrayImage(output, resizedData, OUTPUT_WIDTH, OUTPUT_HEIGHT);
    // 申请的内存释放掉
    free(resizedData);
}

缩放图像:

// 缩放图像
void VideoChannel::resizeImage(char *input, char *output) {
    int channel = 3;
    for (int y = 0; y < TARGET_HEIGHT; y++) {
        for (int x = 0; x < TARGET_WIDTH; x++) {
            int origX = x * channel * ORIGINAL_WIDTH / (channel * TARGET_WIDTH);
            int origY = y * ORIGINAL_HEIGHT / TARGET_HEIGHT;

            for (int c = 0; c < channel; c++) {
                output[(y * TARGET_WIDTH + x) * channel + c] = input[(origY * ORIGINAL_WIDTH + origX) * ORIGINAL_CHANNELS + c];
            }
        }
    }
}

// 将缩小后的图像填充到全灰色图像中
void VideoChannel::fillGrayImage(char *grayData, char *resizedData, int width, int height) {

    // 从140行开始填充, 因为上面要留下灰边
    char *grayDataPtr = grayData + BORDER_SIZE * width * RGB_CHANNELS;
    char *resizedDataPtr = resizedData;
    for (int i = 0; i < TARGET_WIDTH * TARGET_HEIGHT; i++) {
        memcpy(grayDataPtr, resizedDataPtr, RGB_CHANNELS);
        grayDataPtr = grayDataPtr + RGB_CHANNELS;
        resizedDataPtr = resizedDataPtr + RGB_CHANNELS;
    }
}

最后再多嘴一句, 1106上面已经抄了海思的vpss了, 估计也是拿rga的核心, 做了这类转换工作, 所以它可以从vi->vpss, 然后从vpss拿到一个640x360的图像, 只需要简单的复制内存到640x640的灰色内存中即可.

letterbox的两种实现

Marc

审核成功

审核失败