超越CNN的ViT模型及其应用前景
?作者 |? 苏菲
Transformer 模型在 NLP 领域获得了巨大的成功,以此为内核的超大规模预训练模型BERT、GPT-3 在 NLP 各个任务中都大放异彩,令人瞩目。
计算机视觉分析任务也借鉴了Transformer 模型的思想和方法,Meta公司的DETR模型中就使用 Transformer 和端到端方法实现了 CV 领域的目标检测任务,之后 Google 公司又推出了用纯粹的 Transformer 去完成计算机视觉任务的 ViT 模型。
本文首先 比较 ViT 模型与传统计算机视觉模型 CNN 的不同 ,详细指出 ViT 模型的优点和好处,介绍了 ViT 模型的各种变体、扩展和应用前景。
ViT 就是“Vi”加上“T”,其中“Vi”是计算机视觉 Vision,而“T”就是 Transformer 模型。
ViT模型由 Goolge 团队在 ICLR2021 论文“An Image is Worth 16x16 Words:Transformers for ImageRecognition at Scale”(? )提出,其目标是本着尽可能少修改的原则,将 Transformer 模型直接迁移到计算机视觉分类任务上。
论文认为没有必要依赖于传统的 CNN,直接用 Transformer 也能在分类任务中获得好的结果,尤其是在使用大规模训练集的条件下。
并且,在大规模数据集上预训练好的模型,迁移到中等数据集或小数据集任务时,也能取得比 CNN 更优的性能。?
那么,ViT 模型与 CNN 相比,到底好在什么地方呢?具体来说,有以下六个方面的不同:
(1)从浅层和深层中获得的特征之间,ViT 有更多的相似性;
(2)ViT 表示从浅层获得全局特征;
(3)ViT 中的跳跃连接影响比 CNNs(ResNet)大,且大大地影响特征的表现和相似性;
(4)ViT 保留了比 ResNet 更多的空间信息;
(5)通过大量的数据,ViT 能学到高质量的中间特征;
(6)与 ResNet 相比,ViT 的表示是更接近于 MLP-Mixer。
如图1所示,图中显示了 ViT 模型的确切视窗,即自注意力机制(多头)的有效距离。?
在浅层中,有一些带有局部视窗的头注意部分与 CNN 是相似的,但在深层的头注意部分则更多地使用了全局视窗。?
与 ResNet 相比,ViT 与 ResNet 之间的一个不同就是初始层的更大视野。CNN 或者ResNet 仅有一个固定大小的核心卷积窗宽度(大小为 3 或者 7)。
CNNs 通过一层一层卷积,逐渐扩大卷积视窗的信息;而 ViT 模型即使在最低层,也可以通过自注意力机制允许模型有更大的视窗。
因此,图像可视化窗口的不同或大小是依赖于网络结构模型的 ,即在 CNNs 模型中视窗信息是逐渐变大的,而 ViT 模型结构中即使低层也能有很大的视野。
图2给出了 ViT 模型的自注意力机制有效距离(即来自 5000?个数据样本的自注意机制的平均距离)。
ViT 模型使用谷歌自己的超大规模数据集 JFT-300M(约 3 亿数据图片)?进行了预训练,ViT-L/16 为大模型(3.07 亿参数),ViT-H/14 为巨大模型(6.32 亿参数),?然后用 ImageNet (约 1300?万图片)?进行了微调(fine-tuning)。
从图中可以看到,在浅层(编码为blockquan0、blockquan1)中,模型逐渐获得了局部和全局的特征。 然而,在深层(编码为 blockquan22、blockquan23、blockquan30、blockquan31)中,从一开始模型就是获得了全局视野的特征。
但是,由于训练ViT模型需要超大规模的数据(约3亿张图片),如果数据训练量小,那么精确度就会下降。
图3显示了这种数量训练量小的对比结果,可以看到对于更少的训练数据,模型中更低的自注意力机制层确实没有在局部进行学习关注。?
也就是说, 仅仅在 ImageNet 数据集上进行训练,会导致低层的自注意力机制也不学习局部信息,从而导致了模型精度的下降。
如果网络中一个层的跳跃连接(skipconnection)被删除,那么这个层所获得的特征表示与原来所获得的相比会有很大的不同。
换句话说,跳跃连接对特征表示的传播有着巨大的影响,如果被删除的话将会大大改变这个层的特征表示学习能力。
在某些情况下,如果中间层的跳跃连接被删除,那么模型的准确率大约会下降 4%。
虽然论文中没有特别提及这一点,但是跳跃连接在特征信息传播中起到了主要作用这一事实,可能导致当中间层中的跳跃连接被删除时,精度显著会下降。
因此, 在ViT模型中,跳跃连接对模型的影响比 CNNs(ResNet)更大,而且大大地影响表示(特征)的获得与传播。
有些论文测试了 ViT 和 ResNet 所保留的位置信息。通过对比输入图像某个位置块和最终层特征图的 CKA 相似程度,可以知道图像被保留的位置信息。?
如果模型保留了位置的信息,那么在某个位置的输入图像块与相应位置的特征图的相似度应当最高。
实验表明,在 ViT 模型中输入图像与最后一层的特征图在相应位置的相似性非常高。这表明 ViT 在特征信息传播的同时还保留了位置信息。?
而在 ResNet 模型中,不相关位置的特征图相似性更高,这表明 ResNet 模型没有很好地保留位置信息。这种位置信息上的差异可能源于模型内部网络结构的不同。
在如图4所示的实验中,作者使用一个简单线性模型来区分中间层特征表示学习的质量:?如果一个简单模型(例如线性模型)在中间层表示中能获得更高的准确率,那么这个中间层就能获得更好的学习特征。
在图4左边的实验结果图中,在 ImageNet 数据集上用一个简单的线性模型进行测试,虚线是在ImageNet 数据(包含了130万张图片)中进行预训练后的模型的实验结果,实线是在JFT-300M(3亿张图片)中进行预训练后的模型的实验结果。
从实验结果图中可以看到, 在超大规模数据集 JFT-300M 上的模型准确率要高于在小数据集上的准确率。
在图4右边的实验结果图中,是 ViT 模型(实线)和 ResNet 模型(虚线)在相同数据集(JFT-300M)进行预训练后的比较,也使用了一个简单线性模型在 ImageNet 数据集中进行测试。
同样, ViT模型获得了比 ResNet 模型更好的中间层的特征学习结果。
最近,与使用 Transformer 不同,一些准确率高的图像识别模型使用了多层感知机(MLP),例如由Tolstikhin 等人 2021年提出的多层感知机混合模型(MLP-Mixer),它使用第一个感知机MLP1混合了图像块之间的信息,又使用第二个感知机MLP2混合了图像块之间的信息,然后通过这些信息块的叠加来组合这两种信息。
这种多层感知机混合模型 MLP-Mixer 可以达到像 ViT 模型一样或者更高的准确率。
MLP-Mixer 把图像分割成不同块的方式与 ViT 模型非常相似,因此它在结构上比 ResNet 更接近于 ViT 模型。
或许正是这种结构上的原因导致了不同模型在计算机视觉任务上结果的相似与不同。
ViT模型是在计算机视觉任务中应用Transformer模型的一个结果,2020年10月由Dosovitskiy等人提出并应用于图像分类任务。?
其模型架构几乎与自然语言处理机器翻译任务中的原始 Transformer 模型一模一样,?它所做的拓展是允许图像作为 Transformer 的输入,把图像分成一个个块(patch),然后通过位置编号按顺序存储起来,可以把一个 patch 看成?是自然语言中的一个词语,?因此与自然语言处理的 Transformer 模型有异曲同工之妙。
在 ViT 之后,一些可能的研究方向或者模型也被众多公司或学者推进或者扩展,在计算机视觉的物体检测、语义分割等其他应用上大放异彩。例如:
(1)DeiT: 在合理的规模内训练 ViT 模型,使用知识蒸馏、自蒸馏等硬标签蒸馏方式,可以在100万张ImageNet图片规模的数据上训练 ViT 蒸馏模型。
(2)PyramidVision Transformer: 通过可变的空间缩减注意力机制实现了一种可变的自注意力机制,并应用于 ViT 模型以克服注意力机制中的平方复杂度。
(3 )Swin Transformer: 使用了滑动窗口的层次化的视觉 Transformer 模型,基于 Transformer 的位置或窗口注意机制对不重叠的窗口应用局部自注意力机制,从而在下一层级中形成了层次化的特征表示并最终进行融合。
(4)DINO: Meta 公司的 AI 团队提出的基于视觉 Transformer 的自监督训练框架,可以在大规模无标注数据上进行训练,甚至不需要一个微调的线性层也可以获得鲁棒性的特征表示。
(5)Scaling ViT: 更大规模的 ViT 模型,谷歌大脑团队对 ViT 模型进行了规模上的扩展,使用了 20?亿参数模型的 ViT 模型在 ImageNet 的识别结果排名上获得了第一名。
(6)SegFormer: 计算机视觉任务的语义分割中应用了 ViT 模型,由英伟达公司提出的关注系统的组件化,且不需要位置编码,而是采用了一个简单的 MLP 解码模型。
(7)Unet + ViT = UNETR ?: Vision Transformers ?在医学上的应用,ViT 模型被用于三维医学图像的语义分割任务。与 Unet 模型类似,致力于有效地捕捉全局的多尺度信息,并能够使用长跳跃连接传递到解码器中。
自从 ViT 诞生以来,许多新的模型和应用被挖掘出来,推动计算机影像识别到达了一个新的水平,在许多方向和任务上可以应用 ViT 模型上并改进。?
例如寻找新的自注意力模块的 XCIT 、寻找新的来自于 NLP 的新模块组合的 PVT 和 SWIN、寻找深度无监督或自监督学习的 DINO、在新领域或新任务中应用适应性的 ViT 的 SegFormer 和 UNETR 等等。?
总之, ?ViT 模型在计算机视觉领域的应用前景上,大有可为。
私信我领取 目标检测与R-CNN/数据分析的应用/电商数据分析/数据分析在医疗领域的应用/NLP学员项目展示/中文NLP的介绍与实际应用/NLP系列直播课/NLP前沿模型训练营等 干货学习资源。
币世界cnns提币地址是什么
基本都是骗局,玩玩而已,当不得真。
Gate推出代币优选平台Startup并首发上线CNNS–不是币世界
Gate已经公告正式推出1E0平台 Startup,并首发上线CNNS,这是这两天大家讨论的热点,相关解读文章很多,我就试着从一些边角料下手,谈一些自己的观点吧。
1
重点,敲黑板:CNNS不是币世界,虽然币世界积分能够1比1兑换CNNS。
双方目前是战略合作关系,币世界可以看作是CNNS全球战略合作伙伴中,在信息终端布局的一个分支。一个分支。一个分支。
CNNS,即全球资产价值交换网络Crypto Neo-value Neural ,其方向是构建基于区块链的信息和价值交换全球生态圈,为用户发掘、投资和交换数字资产服务。
价值交换这个方向大家要重点关注。
2
CNNS是 Gate 继发行平台币GT,宣布推出优选平台Startup,之后的首期上线项目。
优选平台的首期项目在一定程度上体现了交易所能力和形象,首期项目的选择及上线交易后的表现对售卖平台未来发展有着重大影响。以币安和火币为例,其首期推出的项目在开盘之后都暴涨10倍以上,最高的的火币Top开盘更是暴涨27.7倍。
所以,CNNS本次认购值得关注,CNNS上线交易后的表现值得期待。
3
CNNS项目基本信息:
代币符号:CNNS
代币总量:100亿
上线交易所流通量:13%
私募价格:1 CNNS=0.0150 USDT
Startup释放比例:6%(6亿),其中以USDT计价数量1.5亿枚CNNS,以GT计价数量4.5亿枚CNNS
Startup首发价格:以usdt价格计,1 CNNS=0.006 USDT,以GT计价 1 CNNS=0.01GT(因GT尚未上线交易, 暂定价格为 1GT = 0.60USDT)
代币分配比例及释放规则:
Startup 6%:无锁定,表示我们申购成功,即可上线交易。
私募 14%:上交易所3个月后开始解锁,每天解锁私募总额的0.3%,333天解锁完毕。
基金会运作 20%:不设锁定期,用于早期运营,上交易所后每年解锁该部分剩余的10%
团队激励 10%:上交易所后每年解锁2%,5年解锁完毕
生态建设 50%:5%不设锁定期,用于早期建设,上交易所后每年解锁该部分剩余的10%
大家重点关注一下思慕价格及解锁期限,可以看到私募占比较高,占总发行量的14%,且有明确的解锁期限。私募价格0.015USDT相对于IEO价格0.006USDT要高出1.5倍,所以,CNNS后市具有一定想像空间。
大家可能会说破发的情况,我觉得在如今的市场情况下,开盘破发很难了,大家现在开始要走出熊市思维,多一点积极的心态。
另外包括基金会,团队激励,生态建设等方面的代币用途都有相应的锁定期,所以来自于项目方的抛盘压力不大。
另外,Gate在代币售卖阶段给自己的GT初始定价为 0.6USDT,按照Gate第三阶段点卡售卖计划,一个GT价格至少要在2USDT至5USDT之间,所以GT上线交易后还会有按GT市场价补差价的措施跟进。
4
认购时间:4月22日 12:00-14:00 时段,两小时内有效下单同等对待。同样是阳光普照,少是少点,总比抢不到要强。
认购额度,同时统计两个币种下单,支持USDT或GT认购,每个账户认购最不低于20,000 CNNS,不超过500,000 CNNS 。
另外,记得下单后到16点之前,务必保证现货交易账户中有不低于认购金额的足够金额,即你认购了多少,就要至少保留相对应的资金,否则将成为无效订单。
再就是对于国内用户的问题能否参与的问题,大家不用担心,具体的到时候看吧。
本文这是个人观点,不构成投资建议,市场有风险,投资须谨慎。
开盘就涨十倍:CNNS到底是个什么鬼?
昨天(2019.4.24)12点,比特儿(Gate.io)交易所的第二个项目,也是Startup(比特儿遴选优质区块链初创项目)的第一个项目CNNS刚上交易所交易,就以相较于2天前0.006USDT的10倍涨幅点燃了币圈。目前已经稳定在了4倍涨幅,即0.021USDT左右。小Z看了好生羡慕的同时,也不禁对CNNS产生了疑惑,它是个什么东西呀?为什么这么被人们看好?在查阅了一些资料的基础上,小Z将自己的收获分享如下。
一、CNNS是什么?
根据CNNS的白皮书,CNNS,即Crypto Neo-value Neural System,翻译过来就是全球资产价值交换网络,旨在构建一个基于区块链的信息分享和价值交换平台。所以它的主要功能有两个,一个是信息分享,即你可以在上面发布、阅读资讯并从中取得收益;另一个是价值交换,即你可以在上面了解币圈价格动态,并实现代币买入、卖出。它主要由四部分构成,包括CNNS信息终端(CIT)、CNNS资产管理平台(CAMP)、CNNS价值交换平台(CVEP)和CNNS全球社区(CGC)。说白了,这四个模块的主要载体目前来看,就是已经拥有300多万用户的币世界。
二、CNNS为什么会有这么大的涨幅?
CNNS项目为什么会有这么大的涨幅?如果我们能够把握它有这么大的涨幅背后的规律,是不是在以后投资的时候就更容易寻找比较类似的明星项目?确实有点道理。于是,我仔细查询了这个CNNS项目的来龙去脉,发现它之所以火爆,不是没有原因的。总体来看,最主要有三个利好的因素。
1.团队靠谱
CNNS项目的发起人兼CEO为李升焕,毕业于北京大学新闻传播学院。他从2018年初起担任CoinNess韩国公司CEO,CoinNess引领韩国区块链资讯服务领域,是韩国前十大区块链平台的快讯提供方。可见,他在内容、咨询平台这一方面已经很有经验了。那么,做起币世界来,也应该是驾轻路熟了。此外,据CNNS项目的白皮书介绍,他的团队目前还有近200名高素质人才,中国区超过150人,外国区超过30人,团队中有区块链专家,也有来自大型金融机构和互联网公司比如阿里、腾讯的的人才。从他的团队配置来看,即使说不上阵容多么强大,但是靠谱做事是足够了。
2.项目新颖
之所以说它项目新颖,是因为现在的币圈,内容、资讯平台已经很多了,比如币乎、力场、迷渡等等;而交易所就更多了,中心化的去中心化的,靠谱的不靠谱额一起加起来已经超过了15000+交易所。但是,把资讯平台和交易所联合起来做的,却是很少见的。按照CNNS的计划,他们是打算做一个信息终端和价值交换平台合而为一的载体。这样的话,方便我们及时把握交易信息,合理规划各种加密货币的买入、卖出,做到快人一步,领先一生。
3.运营强大
深入把握以下CNNS项目的4个部分,我们发现,它应该还是一个以信息终端为基础的平台。因为现在的资产管理和信息交换平台已经很多了,市场已经比较饱和,单从这一方面是很难取得大的突破了。但是,如果把资讯这一方面运营好的话,那就会起到给币世界引流的作用,真正把这个项目给搞活起来。目前来看,CNNS在运营方面做得还是比较成功的。根据它的发展计划,结合该项目的运作情况,我们看到主要它在运营方面有这么几个闪光点:
一是用户数量大,截止到目前,币世界用户已经达到了300万+,专业内容生产者也有一千多个,而且大大小小的合作也已经有了300多个。这个体量在币圈来说,已经不小了,能够为CNNS项目起到很好的引流作用。二是善于把握上币机会。不得不说,CNNS上比特儿交易所,对于双方来说是一个双赢的选择。一方面,CNNS作为比特儿Startup(比特儿遴选优质区块链初创项目)的第一个项目,肯定是相对靠谱的,也是借助比特儿的用户优势变相地给自己做了宣传,另一方面,比特儿借助这个IEO的机会,使其代币GT保持长久的活力,不会那么轻易地掉下去,牢牢锁住了用户的资金,也把这个日益式微的交易所给激活了。
三、CNNS有劣势吗?
毫无疑问,一个项目不可能没有劣势,所不同的仅在于劣势大或者小而已。目前看来,CNNS项目的劣势是比较少的,最大的一个劣势可能在于,他目前的运营市场主要集中在中文市场和韩文市场,而目标群体最为广泛的英文市场则开拓较少。这可能与领导团队的人员构成有关。但是无论如何,英文市场应该成为CNNS项目接下来所要着重攻克的一个地方。
四、接下来我们应该怎么做?
今天刚刚看了比特儿的第三个IEO项目,即DREP项目。没想到的是,今天12点刚刚开抢,一两个小时的工夫,小Z刚刚打了个盹,就已经被人抢完了!此项目目标筹款 5100000 GT,实际筹款 115654485 GT,又是一个1亿多美元的项目!就是不知道开盘后它会再涨多少倍了。看来大家依然是热情不减,对比特儿和DREP项目有很大的信心呐!小Z之所以没有参加DREP的认购,一方面是因为没钱,另一方面也是因为深感自己认知不足,不敢轻易下手。所以我们应该做的,还是要深度学习,多读书,掌握相关的知识,然后最好用小规模的资金练练手。这样,才能成长为一个合格的投资者。
cnns是什么数字货币
CNNS币是一种生态代币,CNNS致力于构建全球最具影响力的价值交换网络,帮助用户有效发掘、投资和交换数字资产,打通链上链下和区块链大生态之间的价值交换通路。 区块链本质是一个共享数据库,涉及数学、密码学、互联网等很多科学技术问题。
区块链起源于比特币,具有“不可伪造”“全程留痕”“可以追溯”“公开透明”“集体维护”等特征。比特币是一种P2P形式的虚拟的加密数字货币。在2008年11月1日提出,并于2009年1月3日正式诞生。
比特币总数量只有2100万个,需要依靠特定的算法产生,而且越往后得到的难度会逐渐的增加,不依靠特定货币机构发行。支持全世界7*24小时交易,不过国内不能进行比特币的买卖。
平时所说的挖矿就是获得比特币的过程,通常需要经过准备工作、找到矿池、注册矿池账号、矿池账号设置、下载比特币挖矿器(软件)、比特币挖矿机配置;经过以上步骤就可以挖矿了。