视觉皮层结构
视觉皮层的架构
卷积神经网络起源于对大脑视觉皮层的研究,自20世纪80年代以来一直用于图像识别。在过去的几年里,由于计算机计算能力的提高、可训练数据的增加以及用于深度学习的网络训练技能的增加,CNN在一些复杂的视觉任务上实现了超人化,这些任务广泛应用于图像搜索服务、自动驾驶汽车、自动视频分类系统等。此外,CNN不仅限于视觉感知,还成功用于其他任务,如语言识别或自然语言处理(NLP)。
1958年和1959年,David H.Hubel和Torsten Wiesel用猫做了一系列实验(随后几年又用猴子做了实验),对视觉皮层的结构提出了重要意见(这一成果获得1981年诺贝尔生理学或医学奖)。此外,他们指出,视觉皮层中的神经元具有较小的局部感受视野,这意味着它们只对局部视野中的视觉刺激做出反应。不同神经元的感受野可能是重复的,它们在整个视觉区域平铺在一起。
此外,他们还指出,一些神经元在图片的水平方向起作用,而另一些则在其他方向起作用(两个神经元可能有相同的感受野,但作用方向不同)。他们还注意到,一些神经元具有相对较大的感受野,它们作用于由多个低阶模式组成的复杂模式。这一发现可以推断高阶神经元是基于相邻低阶神经元的输出(每个神经元只与下一层的少数神经元相连)。这种强大的组织结构可以检测视觉区域中的所有复杂模式。
这些关于视觉皮层的研究影响了1980年引入的新认知机器,然后逐渐演变成现在所说的卷积神经网络。一个重要的里程碑是Yann LeCun等人在1998年发表的论文。本文介绍了著名的LeNet-5架构,它被广泛用于识别手写支票号码。除了一些被广泛认可的架构层,比如全连接层和Sigmoid激活功能,这个架构还引入了两个新的架构层:卷积层和池层。
为什么不简单地使用全连接层的深度神经网络来执行图像识别任务呢?
虽然这对于较小的图像(例如,MNIST)效果很好,但对于较大的图像却无能为力,因为它需要大量的参数。例如,像素为\(100\乘以100 \)的图像有10000个像素,如果第一层只有1000个神经元(这严重限制了传输到下一层的信息量),则意味着总共有1000万个连接。那只是一楼。CNN通过使用部分连接层和权重共享解决了这个问题。
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/89922.html