【深度学习】多通道图像卷积过程及计算方式 - 好文

之前，有写了一篇博文，【深度学习入门】——亲手实现图像卷积操作
<https://blog.csdn.net/briblue/article/details/79654482>
介绍卷积的相应知识，但那篇文章更多的是以滤波器的角度去讲解卷积。但实际上是神经网络中该博文内容并不适应。

之前的文章为了便于演示，针对的是二维卷积，比如一张图片有 RGB
三个颜色通道，我的方式是每个通道单独卷积，然后将各个通道合成一张图片，再可视化出来。但真实工程不会是这样的，很多东西需要进一步说明白。

熟悉 TensorFlow 的同学大概对这个函数比较熟悉。
tf.nn.conv2d( input, filter, strides, padding, use_cudnn_on_gpu=True,
data_format='NHWC', dilations=[1, 1, 1, 1], name=None )
其中 input 自然是卷积的输入，而 filter 自然就是滤波器。
它们的格式说明如下：
input: [batch, in_height, in_width, in_channels] filter [filter_height,
filter_width, in_channels, out_channels]
input 的 4 个参数很好理解，分别是批数量、高、宽、通道数。

但是，我当时在学习时有一个疑惑不能理解，那就是为什么 filter 有 2 个通道相关的参数呢？

按照网络上的建议，我大概知道 input 的 in_channels 和 filter 的 in_channels 要对应起来，而 out_channels
是卷积后生成的 featuremap 的通道数量，但是其中的计算细节，我并不知道。

为什么颜色通道为 3 的图像，经过卷积后，它的通道数量可以变成 128 或者其它呢？这是我的疑问。

后来，我发现自己有这个疑问是因为对卷积的概念理解不清楚。

我误以为，卷积过程中滤波器是 2 维的，只有宽高，通道数为 1.

实际上，真实的情况是，卷积过程中，输入层有多少个通道，滤波器就要有多少个通道，但是滤波器的数量是任意的，滤波器的数量决定了卷积后 featuremap
的通道数。

如果把输入当做一个立方体的话，那么 filter 也是一个立方体，它们卷积的结果也是一个立方体，并且上面中 input、filter、Result
的通道都是一致的。

但卷积过程的最后一步要包括生成 feature，很简单，将 Result 各个通道对应坐标的值相加就生成了 feature，相当于将多维的 Result
压缩成了 2 维的 feature。

可能有同学会问，为什么需要压缩 Result 到 2 维呢？

我们回顾，卷积的公式。

y(n)=∑i=−∞∞x(i)∗h(n−i) y(n) = \sum_{i=-\infty}^{\infty} x(i)*h(n-i) y(n)=i=−∞∑∞
x(i)∗h(n−i)

卷积无非就是一个累乘然后累加的过程，所以从数学上来看，这并不违背规则，实际上真实的情况是为了卷积过程的通道对应，原因下面分析。

之前我们会困扰是因为所有的文献都以 3x3 或者 5x5 的形式指代滤波器，让我们误以为滤波器只能是 2 维的。

也有细心的同学会问，卷积过程，怎么改变输入层的通道数？

比如，输入层是一张彩色图片，它有 RGB 3 个通道，但经过卷积后的 featuremap 却有 128 个通道，那它是怎么实现的呢？

奥秘在于滤波器的数量

大家注意上图，我们假定用 N 表示滤波器的数量，那么每一个滤波器会生成一个 2 维的 feature,N 个滤波器就生成 N 个 feature,N 个
feature 组成了卷积后的 featuremap，而 N 就是 featuremap 的通道数。
input: [batch, in_height, in_width, in_channels] filter [filter_height,
filter_width, in_channels, out_channels]
我们再看 Tensorflow 中 filter 的参数说明，是不是就一目了然了呢？

我们也可以再仔细体会，单个滤波器卷积结果要压缩成 2 维的妙处，这样保证了卷积后的输出通道和卷积滤波器的数量对应上了。

<>代码实现

之前的文章，我实现卷积的过程只考虑到了 2 维，并且实现手法比较传统。
def _con_each(src_block,kernel): pixel_count = kernel.size; pixel_sum = 0; _src
= src_block.flatten(); _kernel = kernel.flatten(); for i in range(pixel_count):
pixel_sum+= _src[i]*_kernel[i]; return pixel_sum
现在，可以进行改进。

前面说过，卷积公式本质就是一个累乘然后累加的过程，它的结果是一个数值。而线性代数中两个向量的內积恰恰可以这样表示，所以完全可以改写。
import numpy as np def _conv_epoch(src_block,filter): input = src_block.flatten
() filter = filter.flatten().T return np.dot(input,filter)
当然，完整的图像卷积需要扫描式地重复许多次。
""" input_size:(h,w,c) filter_size:(h,w,ic,oc) """ def conv(img,input_size,
filter_size,stride=1): ih = input_size[0] iw = input_size[1] ic = input_size[2]
filter_oc= filter_size[3] filter_h = filter_size[0] filter_w = filter_size[1]
filter_ic= filter_size[2] l = int((ih - filter_h) / stride + 1) m = int((iw -
filter_w) / stride + 1) result = np.zeros(shape=(l,m,filter_oc),dtype=np.uint8)
for i in range(l): for j in range(m): for k in range(filter_oc): f = np.random.
uniform(0,1,filter_w*filter_h*filter_ic).T input = img[i:i+filter_h,j:j+filter_w
,:] result[i,j,k] = _conv_epoch(input,f) return result
现在，我们可以测试一下我们的代码效果。
def test(): img = plt.imread("../datas/cat.jpg") print("img shape ",img.shape)
result= conv(img,img.shape,(3,3,img.shape[2],3)) plt.figure() plt.subplot(121)
plt.imshow(img) plt.subplot(122) plt.imshow(result) plt.show() test()
读入一张猫的照片，然后对照它的卷积效果，需要注意的是我设置的滤波器的数量为 3 ，这是为了便于演示。

最终效果如下：

需要注意的是，滤波器的数值我完全是随机选择，但从效果上来看，它们还是抽取了一些轮廓细节。可见卷积操作的威力之大。在深度学习中，一个神经网络通常有成百上千个
filter，它们通过一反复学习，最终形成了可靠的特征表达能力。

最后，我要说明的是，卷积过程很慢，特变是又 python 实现，虽然我已经在前一篇文章的基础上更改了卷积代码，让 for
循环改成了向量点积的方式，但整个图像的卷积过程，还可以改善，这涉及到一个叫做im2col
的技术，它大致的原理是让卷积过程中，矩阵的乘法参与的更彻底，最后整个卷积过程用一个矩阵乘法表示，因为篇幅有限，有兴趣的同学可以自行搜索对应的文献。

热门工具换一换