【深度学习】深入浅出数字图像处理基础（模型训练的先修课）_专栏

文章目录
1 图像的表示
2 图像像素运算
3 采样与量化
    3.1 采样
    3.2 量化
    3.3 图像上采样与下采样
4 插值算法分类
5 什么是池化
6 最后一句话

1 图像的表示

图像数字化之后在计算机中其实就是一个数字矩阵，通常有三种表示形式，灰度图像，彩色图像，二值图像。

灰度图像用一个通道来表示，图像的灰度用像素值来表示，数值越大则图片越白。彩色图像常用三个通道来表示，分别是红绿蓝这三个通道，组成的是一个三维向量矩阵。而在计算机中常见的灰度或者红绿蓝的数值范围通常是0到255，这是因为图像的每个像素是使用8位来表示的，2^8=256。但这只是适合人类的彩色视觉辨别系统，其实还存在许多其他的范围，例如二值图像只有黑白两色，数值范围便只有0和1，而高级的摄像机或者卫星图片，为了提高图片的清晰度，会采用更大的范围。

在图像实际进行存储时，通常会转换成各种格式，常见的有JPG，PNG，GIF等。

PNG（Portable Network Graphic Format），适合在网络上传输和打开，本来是想替代GIF格式，但是不支持动画。
JPG（Joint Photographic Experts Group），是一种用有损压缩方式来去除冗余的数据，获得质量高，尺寸小，略有失真的图像，是目前最常用的图像格式，各种相机都是这个格式。
BMP（位图，BitMap），这是图像未经压缩的原始数据，可以存储真彩色的图像数据。
GIF（Graphics Interchange Format）是将多幅图像保存为一个图像文件，从而形成动画。采用无损压缩技术，即减少了文件的大小，有保证了图像的质量。
PSD，TIF／TIFF，这些格式由一些公司为了自己的产品而研发的格式，需要用特定的软件打开。

2 图像像素运算

对于某个像素，它可以有周围的近邻像素组成的领域。像素的上下左右位置的像素组成了该像素的4-领域，4个对角近邻像素组成D-领域，而4领域和D领域的像素共同组成了8领域。

像素 p(x,y) 的4邻域是：（x，y+1）;（x+1，y）;（x，y-1）;（x-1，y）
在这里插入图片描述
像素 p(x,y) 的D邻域是：（x-1，y+1）;（x+1，y+1）;（x+1，y-1）;（x-1，y-1）

像素 p(x，y) 的8邻域是：4邻域的点+D邻域的点

在这里插入图片描述
像素的连通性便是描述几个像素是否相连的重要概念。两个像素连通需要满足两个条件，一个是两个像素的位置是否相邻，另一个是两个像素的灰度值是否满足某种相似的准则。常见的连通方式有4连通，8连通，m连通。

4连通：p和q具有连通性
在这里插入图片描述

3 采样与量化

3.1 采样

概念
对空间连续坐标(x,y)的离散化，又称为取样、抽样
图像的采样

在这里插入图片描述

3.2 量化

概念
对幅值f(x,y)的离散化
图像的量化

在这里插入图片描述

量化的方法
按量化级步长是否均匀划分
均匀量化
连续灰度值等间隔分层。层越多，产生的量化误差越小。
非均匀量化
基于视觉特性
对亮度值急剧变化部分无需过细分层，进行粗量化，对亮度值平缓变化部分(图像的细节部分)需细分层，进行细量化
基于统计特性
先计算所有可能的亮度值出现的概率分布，对概率分布大的进行细量化，对概率分布小的进行粗量化

3.3 图像上采样与下采样

上采样(upsampling)目的
    放大图像
下采样(downsampling)目的
    使得图像符合显示区域的大小
    生成对应图像的缩略图

注：对图像的缩放并不能带来更多关于该图像的信息，因此图像的质量将不可避免地受到影响。
在这里插入图片描述

4 插值算法分类

对插值算法分类比较混乱，各人有各人的分类算法。文献《图像插值技术综述》中简略的将插值算法分为传统插值、基于边缘的插值和基于区域的插值3类，作为初学者入门明晰插值算法还是有帮助。
1.传统差值原理和评价
在传统图像插值算法中，邻插值较简单，容易实现，早期的时候应用比较普遍。但是，该方法会在新图像中产生明显的锯齿边缘和马赛克现象。双线性插值法具有平滑功能，能有效地克服邻法的不足，但会退化图像的高频部分，使图像细节变模糊。在放大倍数比较高时，高阶插值，如双三次和三次样条插值等比低阶插值效果好。这些插值算法可以使插值生成的像素灰度值延续原图像灰度变化的连续性，从而使放大图像浓淡变化自然平滑。但是在图像中，有些像素与相邻像素间灰度值存在突变，即存在灰度不连续性。这些具有灰度值突变的像素就是图像中描述对象的轮廓或纹理图像的边缘像素。在图像放大中，对这些具有不连续灰度特性的像素，如果采用常规的插值算法生成新增加的像素，势必会使放大图像的轮廓和纹理模糊，降低图像质量。
2.基于边缘的图像插值算法
为了克服传统方法的不足，提出了许多边缘保护的插值方法，对插值图像的边缘有一定的增强，使得图像的视觉效果更好，边缘保护的插值方法可以分为两类：基于原始低分辨图像边缘的方法和基于插值后高分辨率图像边缘的方法。基于原始低分辨率图像边缘的方法:( 1)首先检测低分辨率图像的边缘，然后根据检测的边缘将像素分类处理，对于平坦区域的像素，采用传统方法插值；对于边缘区域的像素，设计特殊插值方法，以达到保持边缘细节的目的。(2)基于插值后高分辨率图像边缘的方法这类插值方法:首先采用传统方法插值低分辨率图像，然后检测高分辨率图像的边缘，最后对边缘及附近像素进行特殊处理，以去除模糊，增强图像的边缘。
3.基于区域的图像插值算法
首先将原始低分辨率图像分割成不同区域，然后将插值点映射到低分辨率图像，判断其所属区域，最后根据插值点的邻域像素设计不同的插值公式，计算插值点的值。
缩小图像（或称为下采样（subsampled）或降采样（downsampled））的主要目的有两个：1、使得图像符合显示区域的大小；2、生成对应图像的缩略图。放大图像（或称为上采样（upsampling）或图像插值（interpolating））的主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。对图像的缩放操作并不能带来更多关于该图像的信息, 因此图像的质量将不可避免地受到影响。然而，确实有一些缩放方法能够增加图像的信息，从而使得缩放后的图像质量超过原图质量的。

5 什么是池化

池化层也称下采样层，会压缩输入的特征图，一方面减少了特征，导致了参数减少，进而简化了卷积网络计算时的复杂度；另一方面保持了特征的某种不变性（旋转、平移、伸缩等）。

池化操作主要有两种，一种是平均池化(Average Pooling)，即对邻域内的特征点求平均；另一种是最大池化(Max Pooling)，即对邻域内的特征点取最大。

池化方法特征提取误差主要来自两个部分：一是，邻域大小受限造成了估计值方差增大；二是，卷积层参数误差造成了估计均值的偏移。一般来说，在图像研究领域，对图像进行平均池化操作能减少第一种误差，同时更多地保留图像的背景信息；而另一方面，最大池化能减小第二种误差，更多地保留纹理信息。因此在进行卷积神经网络结构设计时，这两种池化方式往往交替使用。

简而言之，池化就是去除杂余信息，保留关键信息