首页 > 财经

Transformer+CNN,引领新一代AI发展

导读视觉应用作为人工智能最普及的基础设施层,重要性却不言而喻。它可以说是人工智能机器的‘眼睛’,赋予它感知的能力,使它能够‘看懂’这个世界。而计算机视觉中......

视觉应用作为人工智能最普及的基础设施层,重要性却不言而喻。它可以说是人工智能机器的‘眼睛’,赋予它感知的能力,使它能够‘看懂’这个世界。而计算机视觉中的深度神经网络(DNN)架构则是这双眼睛的‘视网膜’,赋予了它可视的源泉。

CNN横空出世

2012年,一个名为AlexNet的CNN算法赢得了年度计算机视觉竞赛——ImageNet大规模视觉识别挑战赛(ILSVRC)的冠军。该竞赛的任务是让机器进行学习并基于ImageNet数据集‘分类’1000个不同的图像,AlexNet实现了15.3%的top-5错误率。而往届基于传统编程模型的获胜者,它们实现的top-5错误率大约为26%,至此,CNN横空出世。

CNN(Convolutional Neural Network)即卷积神经网络,它是一种前馈神经网络,也是计算机视觉中最主要和最经常使用的DNN架构。CNN在大型图像处理方面表现出色,可以说它的出现在图像分类领域具有革命性意义。

在CNN出现前,图像识别和分类对于人工智能来说是一个难题,原因有二,一是图像需要处理的数据量很大,导致成本高、效率低;二是,图像在数字化过程中很难保留其原有特征,导致图像处理的准确率不高。

而CNN的出现很好解决了上述两大难题。CNN主要由三个部分构成,卷积层、池化层和全连接层。卷积层负责提取图像特征,将大量的图像数据‘大事化小’,即将图像的大量参数降维为少量参数,再做处理,而池化层则对提取的图像特征进行降维及防止过拟合,保留图像的原始特征,最后通过全连接层输出结果。

随着CNN模型的不断完善,在2016年和2017年的ILSVRC挑战赛上,获胜的CNN甚至实现了比人类更高的图像分类准确度。这也让CNN在诸多视觉领域得到广泛应用,如目标检测、场景分割和全景分割等。

但CNN是一种只关注局部信息的网络结构,将它使用在图像特征提取上或许还可以,但它在文本信息处理上则难以捕捉和存储长距离的依赖信息。

Transformer应运而生

2017年,Google Brain在题为《Attention is all you need》的论文中首次详细介绍了Transformer(转换器)模型,该模型最初是为执行自然语言处理(NLP)任务而设计的,具体应用包括翻译、问答以及对话式AI等。目前大火的ChatGPT的GPT-3训练模型就是Transformer模型的一种。

而后在2021年,Google Brain又尝试将Transformer模型应用于图像分类,取得了令人惊讶的结果。通常Transformer模型在执行NLP任务时,需要处理的是一连串单词和符号,Google Brain将其应用于图像分类时,则是将图像切分成一个个小块,然后将这些小块图像中的像素放入矢量中,再将这些矢量传送至Transformer中进行处理,最后得到的分类准确率甚至比当时最先进的CNN还高。

Transformer Vs CNN架构对比

那为何Transformer能够挑战在视觉应用领域称霸十几年的CNN呢?这可以从两者的结构和机制对比中窥得一二。

如下图所示的Transformer和CNN(以3X3卷积为例)的架构图可见,Transformer和CNN的架构非常相似,Transformer的Feed Forward层的功能和CNN的1X1卷积层的相同,都使用矩阵乘法对像素中的每个点进行线性变换。


(图源:新思科技)

Transformer和CNN架构最大的不同在于Multi-Head Attention层和3X3卷积层。这两个层的作用都是混合相邻像素之间的信息。但如下图所示,这两个机制混合信息的方式则非常不同。


(图源:新思科技)

以卷积方式混合信息是基于各个像素的固定空间位置,以3X3卷积为例,它只采用相邻像素(即中心像素周围的9个像素)来计算加权和;而Attention混合信息的方式则不是基于固定空间位置的像素,而是更关注于权重。例如,它会学习其它像素的类型,获取其它像素与目标像素之间相似的权重,从而判断出需要混合哪些像素。

所以,相较于卷积,Attention机制具有更强的学习能力和表达更复杂关系的能力。此外,Transformer还有一个CNN没有的特性,即Embedding,它的主要功能是为输入的像素添加位置信息。

从上可以看出,两种架构各有特点。但实时视觉应用不仅需要准确度,还需要更高的性能(fps)、缩小模型尺寸以及功率和面积效率等。Transformer在准确度方面高于CNN,但在fps方面则可能逊色于CNN;Transformer的attention机制可进行全局特征的提取,而CNN在局部建模方面更有效。两者各具特色,在未来的AI应用中,两者不会是替代关系,而更多的是组合应用。

加速器加持

随着人工智能技术的不断发展,不管是基于CNN还是Transformer架构,需要处理的任务都越来越复杂,需要计算的量也将显著增加,从而导致它们的结构越来越庞大。为了加快任务完成的时间和效率,这时,就需要加速器的加持。但目前很多专门为CNN设计的加速器无法兼容有效地执行Transformer。

Synopsys的ARC® NPX6 NPU IP提供了一个两全其美的解决方案,它是可同时应用于CNN和Transformer的AI加速器。NPX6的计算单元中包含卷积加速器(Convolution Accelerator),该加速器旨在处理对CNN和转换器都至关重要的矩阵乘法。此外,张量加速器(Tencor Accelerator)也至关重要,因为它可以处理所有其他非卷积张量算子集架构(TOSA)运算,包括转换器运算。

Transformer跨界之旅不停歇

目前,Transformer架构在不断地被加强和扩展,衍生出很多不同的变种模型,使其应用领域不断扩大,跨界之旅不停歇。

2022年,Google团队提出了Vision Transformer(ViT),直接利用Transformer对图像进行分类,而无需卷积网络。该模型的准确率和识别时间均高于当时最先进的CNN架构。所以,ViT一经发布,就引起了业界轰动,它已经成为了图像分类领域最著名的方法之一。但ViT需要进行的计算量非常大,导致其fps性能降低。

而Swin Transformer则采用了一种新的Attention方式,将Transformer的应用扩展至视频领域。视频相较于图片来说,增加了时间维度,所以需要进行三维计算。SwinTransformer通过将Attention分别应用于时间和空间,可以实现动作识别,被广泛应用于动作分类等领域。

除了基于Transformer进行扩展外,也有AI团队将CNN和Transformer进行组合应用。特斯拉AI团队就使用Transformer对矢量空间进行预测。CNN首先对车身上安装的每个摄像头拍摄的图片进行特征提取,Transformer则基于这些提取特征进行预测。

苹果于2022年初推出的MobileViT也是CNN和Transformer结合应用的案例之一。MobileViT针对移动应用程序的视觉分类创建了轻量级模型。与仅使用CNN的MobileNet相比,MobileViT使相同尺寸的模型(6M系数)的准确度提高了3%。

结语

如前文所述,CNN和Transformer各有各的技术特点,未来很长一段时间内,两者不会是取代和被取代的关系,而是互相融合、取长补短,两者组合应用的案例会越来越多。这种组合或许也会引领新一代AI的发展。

声明:内容仅供网友学习交流。若您的权利被侵害,请联系我们
  • 《狐妖小红娘》全能女王涂山容容

    作为涂山三姐妹中最小的一个,也就是千面妖狐涂山容容,虽然也是声名赫赫,可在动漫里,容容的戏份和其他两位姐姐比起来就显得有些不足了,霸气无双的涂山红红自......

  • 12星座的春季大事!!重点已划好

    嗨,亲爱的们,我是苏米君。春分刚过,冬去春来,万物复苏。太阳也到白羊座,占星学上的一个新轮回开始了,万事可期。对很多人来说,这大概率是一个转折点。白羊座就是典型的行动派啊,借着这股热血和能量,亲爱的,都给我行动起来吧!卫叔也特别准备12星座春分至夏至期间的趋势解读,让你了解自己会经历哪些好运?拥有哪些美好?并轻松把握重要的时间节点。老朋友直接扫码订阅就行。至于新朋友,可以先了解这次季度运的重点&......

再熬2周,四大生肖富贵满堂彩,工作有好运,好事成双

再熬2周,四大生肖富贵满堂彩,工作有好运,好事成双 再熬2周,四大生肖富贵满堂彩,工作有好运,好事成双 再熬2周,四大生肖富贵满堂彩,工作有好运,好事成双 再熬2周,四大生肖富贵满堂彩,工作有好运,好事成双

生肖鸡生肖鸡的人有组织能力,善于总结经验,终会幸福,生肖鸡的人凡事看好的一面,不轻言放弃,不畏艰难,好事连连不断,爱情收获甜蜜。十分喜欢交朋友,他们经......

再熬2周,四大生肖家和万事兴,大显身手,兴旺发达

再熬2周,四大生肖家和万事兴,大显身手,兴旺发达 再熬2周,四大生肖家和万事兴,大显身手,兴旺发达 再熬2周,四大生肖家和万事兴,大显身手,兴旺发达 再熬2周,四大生肖家和万事兴,大显身手,兴旺发达

生肖羊生肖羊的人为人踏实,有灵活性,口才流利,生肖羊的人具有高度的自信和自尊,能够坚定地面对挑战和批评,具备卓越的创新和创造力,能够不断推陈出新,使事......

再熬2周,四大生肖好运连连,金玉满堂,越过越好

再熬2周,四大生肖好运连连,金玉满堂,越过越好 再熬2周,四大生肖好运连连,金玉满堂,越过越好 再熬2周,四大生肖好运连连,金玉满堂,越过越好 再熬2周,四大生肖好运连连,金玉满堂,越过越好

生肖虎生肖虎的人有独立思考的能力,善于开拓创新,值得深交,生肖虎的人可以调整自己的心态,不让会复杂的事情扰乱自己的情绪,通过不断学习和提升,成为职场中......

再熬2周,四大生肖大显身手,赚钱心里美,福气满满

再熬2周,四大生肖大显身手,赚钱心里美,福气满满 再熬2周,四大生肖大显身手,赚钱心里美,福气满满 再熬2周,四大生肖大显身手,赚钱心里美,福气满满 再熬2周,四大生肖大显身手,赚钱心里美,福气满满

生肖虎生肖虎的人性格好,善于做好事,有丰富的人生经验,生肖虎的人勇于尝试新事物,不断创新,聚财聚福,吃喝不愁,只要肯努力,生活会越来越好。坚韧毅力和乐......

再熬2周,四大生肖大显身手,福气满满,有钱有底气
再熬2周,四大生肖大显身手,福气满满,有钱有底气

生肖马生肖马的人有高超的技能,有强大的自信心,口才流利,生肖马的人做事稳重踏实,从不轻易妥协,具备卓越的市场洞察力和战略眼光,能够准确把握市场需求,使......

再熬2周,四大生肖大展鸿图,顺风顺水,风调雨顺

再熬2周,四大生肖大展鸿图,顺风顺水,风调雨顺 再熬2周,四大生肖大展鸿图,顺风顺水,风调雨顺 再熬2周,四大生肖大展鸿图,顺风顺水,风调雨顺 再熬2周,四大生肖大展鸿图,顺风顺水,风调雨顺

生肖虎生肖虎的人爱情开花结果,有洞察力,细心周到,生肖虎的人具备良好的团队协作和合作精神,能够有效地与他人合作,具备卓越的团队合作和领导能力,能够有效......

栏目推荐

热门推荐

再熬2周,四大生肖喜事连连,一帆风顺,家和万事兴 再熬2周,四大生肖命里财旺,贵人相助,富贵满堂彩 《舞力全开》国行版特别应援活动现已推出 再熬2周,四大生肖吉星高照,不缺好运,幸运无限 再熬2周,四大生肖兴旺发达,事业大吉,不缺机遇 再熬2周,四大生肖事业顺风顺水,不缺好运,收获意外惊喜 再熬2周,四大生肖事业有成,生意顺水行舟,福气满满 再熬2周,四大生肖事业有好运,好运连连,好运一触即发 再熬2周,四大生肖不缺好运,财富滚滚,鸿运当头 再熬29日,四大生肖大显身手,心想事成,大显身手 《胡闹搬家2》发售日确认 8月15日推出 再熬28天,四大生肖不缺机遇,走向人生巅峰,瑞气盈门 再熬27日,四大生肖收获大满贯,富贵满堂彩,鸿运连连 再熬27天,四大生肖金玉满堂,命中有锦鲤护航,贵人相助 再熬27天,四大生肖瑞雪兆丰年,有钱有底气,生活舒心惬意 《胡闹搬家 2》今年8月15日正式发售 立即加入成为F.A.R.T.一员 再熬24天,四大生肖收获意外惊喜,鸿运天降,越过越好 再熬23日,四大生肖欣欣向荣,好运连连,幸福美满 再熬22日,四大生肖金银满屋,越过越好,财源滚滚 《老头环》官推动态疑似暗示DLC 引玩家热烈讨论 再熬22日,四大生肖迎来出彩新生活,命里财旺,财运上上签 再熬22日,四大生肖越过越好,事业有成,生活乐无忧 再熬22天,四大生肖鸿运天降,迎来出彩新生活,工作有好运 再熬22天,四大生肖运势持续高涨,越过越好,有钱有底气