首个万亿级模型!Google重磅推出语言模型SwitchTransformers16万亿参数秒杀GPT-3

众所周知,参数量是机器学习算法的关键。在大规模参数量和数据集的支持下,简单的体系结构将远远超过复杂的算法。

在自然语言领域,被称为史上最强NLP的GPT-3拥有1750亿参数。近日,Google将这一参数量直接拉高到了1.6万亿。

为了解决超大规模神经网络的部署问题,研究人员提出了多种蒸馏技术:将大型稀疏模型蒸馏到小型密集模型中。

但是在2019年,晨光科力普实现36.58亿元的营收之下,净利润却仅为7580.35万元。同期,年报数据印证了,晨光办公室直销业务毛利率仅为13.09%,低于公司整体毛利率。

在文具零售市场,晨光几乎没有强劲的对手,稳定的获利能力超越同行。

零售专家文远表示,文具行业在B端办公直销市场中的竞争和营销投入,都会挤压到企业利润。未来,晨光的B端业务还可以向办公设备等品类做延伸,成为更彻底的“集成商”。 

此外,与T5-Base和T5-Large模型相比,新模型在相同计算资源下将预训练速度提高了7倍之多。这些改进扩展到了多语言设置中,可以测量101种语言在mT5-Base版本上的收益。

这说明该模型架构不只对预训练有用,还可以通过微调将质量改进迁移至下游任务中。

但随着新兴渠道与业态的悄然形成,文具行业的竞争早已不同于往日。晨光虽然在传统业务上保持根基稳定,但新业务的表现并不理想:办公直销业务大客户拓展不及预期,零售大店持续亏损、同质化竞争加剧等。

目前,市场参与者主要分为两大类:一是以得力文具、齐心集团、晨光科力普为代表的以传统文具龙头;另一类,则是以京东、苏宁为代表的综合电商平台。

研究人员有效地利用了为密集矩阵乘法(Dense Matrix Multiplications,一种广泛用于语言模型的数学运算)而设计的硬件,如GPU、Google的张量处理单元TPU。在分布式训练设置中,模型将不同的权重分配到不同的设备上,可以保证权重随着设备数量的增加而增加,同时保证每个设备上均有可管理的内存和计算足迹。

晨光传统核心业务占比正逐年下降。2019年年报解释:“随着国内人口结构变化,出生率下降,传统核心业务靠销售数量增长对收入的贡献,正在减弱。”

此外,透过mT5-Base使用Switch Transformer模型的加速直方图,可以发现,mT5-Base的平均速度提高了5倍,同时,91%的语言速度至少提升了4倍。这表明Switch Transformer能够有效的多任务和多语言。

稀疏专家模型相比普通Transformer更难训练,这是由于切换通道带来的不稳定引起的,同时,低精度计算会导致恶化softmax计算中的问题。

论文中指出,Switch Transformer使用了稀疏激活(Sparsely Activated)技术,该技术只使用了神经网络权重的子集,或者是转换模型内输入数据的参数。在相同计算资源下,其训练速度上比Google之前研发的最大模型T5-XXL还要快4倍。

晨光作为行业中的龙头,自然受到更多关注。公司上市以来,5年半时间,从最低的7.7元涨至最高83.27元。

中国产业信息网数据显示,国内大办公文具(包括办公家具、器材等)2019年市场规模2.07万亿,预计未来3-5年复合平均增长率约9%。

在最后一组下游实验中,研究人员利用模型对101种不同语言的混合进行了预训练。

公司历经多年,建立了中国最大的分销系统,新进入者难以在短期内建立成熟的营销渠道,老玩家又被晨光强势的销售策略吞蚀掉原有的空间。

论文中,研究人员对预训练阶段 Switch Transformer的预训练可扩展性进行了研究。为了避免数据受限,他们采用了大型 C4 数据库,并以固定的计算成本测试了基于步数和时间的可伸缩性。

自90年代初首次被提出以来,MoE模型通在机器翻译方面取得了显著成果。但因复杂性高、通信成本高和训练不稳定,导致其广泛应用受到阻碍。

性能测试:预训练、微调和多任务训练

晨光科力普在2012年底已开始布局。该业务并不研发办公产品,而是作为办公直销业务平台,主要为政府、企事业单位、世界500强企业和其他中小企业提供办公采购一站式服务。

下图为多个模型在训练步数恒定、专家数量增加时表现出的可扩展性提升情况。可以看到:在保持每个 token 的 FLOPS 不变时,拥有更多的参数(专家)可以提高训练速度。

零售行业专家文远、文具零售商张澍、晨光文具前经销商、零售行业观察者林晓。

得益于政府和企业采购方式的阳光化、集中化和电商化的政策,我国B端办公直销市场空间开始逐步得到释放。

大客户资源为公司带来的业绩增长明显。2016年开始扭亏为盈,连续三年收入保持增长态势。到2019年,办公直销业务实现收入36.58亿元,占据总营收33%,成为公司第一大收入来源。

3、每个专家通道的实现复杂度减小了,专家间的通信开销降低。

不过,公司传统零售业务遇到的竞争压力也日趋显现。

使用表 7 中最优的蒸馏技术,可以将具备 11 亿参数量的模型压缩 82%,同时保留 37% 的性能提升。最极端的情况下,将模型压缩了 99%,且维持了 28% 的性能提升。

基于此,模型需要在增加参数量同时保持每个示例的浮点运算(FLOPs)不变。研究人员假设,参数量与执行的总计算量无关,是可以单独缩放的重要组件,那么它可以通过设计稀疏激活模型来实现。

净资产收益率自2015年以来连续五年保持增长,平均值在25%左右,在目前A股10家文娱用品板块中高居首位。

为什么是直销模式?美国办公文具市场给出答案:直销是个好赛道。

研究者还表示,Switch Transformer 架构不仅在具备超级计算机的环境下具有优势,在只有几个计算核心的计算机上也是有效的。此外,研究者设计的大型稀疏模型可以被蒸馏为一个小而稠密的版本,同时还能保留稀疏模型质量提升的 30%。

10月27日,晨光文具发布2020年第三季度报告。报告显示,公司前三季实现营业收入85.38亿元,同比增长7.43%;净利润9.13亿元,同比增长13.85%;基本每股收益0.9879元。

研究人员使用Mesh-Tensorflow(MTF)库—与Tensorflow 类似的语义和API ,能够能够高效支持分布式的数据与模型结构。它将物理内核集抽象为处理器的逻辑网格。然后利用张量和计算按指定的维度进行切分,便于跨维度轻松划分模型。

电商平台也来势汹汹。比如京东企业购,是由京东B2B业务整合而来,依托京东物流配送体系推出的电商化采购平台,客户以小型B端企业为主。

科力普的办公直销业务仍主要集中在大型端B客户,即以政府单位、大型国企等为主,这类客户集采占比约20-30%,订单还有释放空间。但大型B端客户数量有限,未来想要突破收入瓶颈,增加小型B端客户是必由之路。

行业内人士表示,低毛利率的原因,主要系产品品类增加,新增产品品类又未形成规模集采效应;另一方面,科力普的产品自有品牌占收入比偏低,导致毛利率无法提高。自有品牌的打造,日后将成为科力普提升毛利率的重要途径。

“如果公司不能及时把握市场发展动向,在产品更新升级、质量管理、销售策略等方面不能及时适应市场变化,公司将面临一定的市场竞争风险。”晨光文具在2019全年财报中如此说道。

文具零售商张澍告诉亿欧,2007年左右,文具店里的产品还是二分天下,一半真彩一半晨光。而现在,文具店内几乎很少再见到真彩的产品。

截至2019年上半年,京东企业购已拥有超过5000家大型集团企业客户,与中国500强企业中389家企业达成合作,并与中央及省级政府搭建的政府采购电子商城达成合作。

并购是快速扩大市场份额的路径之一,合理的并购有助于企业扩充产品品类、提升品牌度、整合客户资源等。在美国办公市场两大巨头史泰博和欧迪的发展过程中,持续并购都发挥了重要作用。

国内传统办公文具企业在产品品类、服务上更具优势。在一些行业内的专业人士看来,电商平台的非标化能力不强、服务性不够,更适合中小企业客户。

模型的任务是预测段落中15%被遮住的单词,以及通过检索文本回答一些有难度的问题。

公司财报显示,过去8年,晨光文具整体营收增幅均保持在22%以上,相比茅台和海天毫不逊色;净利润方面,从2011年的1.29亿元增长到2019年的10.6亿元,涨幅超过8倍。

雷锋网原创文章,。详情见转载须知。

从基于步数的设置中,可以观察到:样本效率提升未必能转化为时间上的模型质量提升。那么,在训练时间和计算成本都固定的前提下,是应该训练一个稠密模型还是稀疏模型?下图解决了这个问题。

借助行业红利的晨光科力普,早期发展并不顺利。2013-2015年,晨光科力普连亏3年,累计亏损超过6200万元。

稳定持续的获利能力,是公司股价保持上涨的重要原因。2019年,公司营收及净利润增长都超30%。

办公用品和办公设备一直是齐心的主要收入来源,目前,公司的互联网SAAS软件即服务的收入占比也在逐步扩大,是行业中不可忽视的重要角色。

看似不太起眼的文具行业,实际规模已达千亿级别。据智研咨询数据显示,2019年中国文具行业市场规模达182亿美元,折合人民币1200多亿。

我国文具行业的集中度目前仍很低。国内8000多家文具企业,销售额超过10亿的企业仅有5家,分别为晨光文具、得力集团、齐心集团、广博股份和真彩文具。

与之对应的是,针对To B办公市场的新业务——晨光科力普正迎来快速增长。2016-2018年其收入连续三年呈翻倍增长趋势,2019年增长41.45%,或将成为公司未来发展中备受期待的新看点。 

毛利率方面,公司近5年始终维持在26%左右,净利率整体虽略有下滑,但仍然维持在较高水平。

截至2019年末,晨光覆盖的终端门店高达8.5万家,较上一年同期增加11.84%,校园覆盖率超过80%。在全国整体18万家文具零售终端中,平均每10家校边终端文具店就有约4家属于晨光文具零售终端。

此外还可以发现,专家数量的增加会导致更有效的样本模型。Switch-Base 64专家模型在60k和450k步态达到了与T5-Base模型相同的性能,这是7.5倍的加速。

且办公直销涉及到一站式配套和配送服务,对于非标准化产品,电商平台竞争力相对较弱,专业的直销龙头企业能够提供更优质的服务和消费体验。

齐心和得力已深耕To B端业务多年,自成立之初,就一直从事办公文具的生产和销售。2015年以后,齐心逐渐升级为提供“硬件+软件+服务”的企业办公综合销售服务平台。

“预训练+微调”的NLP方法,在处理下游任务时容易发生过拟合现象。对此,研究人员提出了“expert dropout”的解决方案——通过在微调过程中,增加在每个expert中的dropout比例来缓解过拟合。

Switch Transformer的设计原则是以一种简单且高效计算的方式来最大化Transformer模型的参数数量。

图中展示了预训练模型质量随训练时间增加所产生的变化。在训练时间和计算成本都固定的情况下,Switch Transformer 的速度优势非常明显。在这种设置下,如果要达到相似的困惑度,Switch-Base 64 专家模型的训练时间仅为 T5-Base 模型的 1/7。

2017年,晨光科力普中标上海、深圳、福建等多个省市政府的采购项目,还中标南方电网、联通集团、中化股份、中国移动、招商银行、特斯拉等大企业的采购项目。

净利率方面,2019年科力普实现了净利率的提升,但整体偏低。当办公集采的规模效应逐步显现以及自有品牌销售占比逐步提升,净利率日后有望提升。

晨光文具也有意复制国际巨头的成长之路,在2017年收购欧迪办公(中国)、2019年收购安硕文教,以提升办公直销市场知名度与市场份额。

为了解决这些问题,研究人员简化了MoE路由算法,设计了直观的改进模型,使通信成本和计算成本大幅度降低。同时,他们提出的训练技术消除了训练的不稳定性,并证明了大型稀疏模型也可能以低精度(bfloat16)格式进行训练。

研究人员提出了Switch Routing简化策略:针对不同的输入,匹配最适合的一个专家。实验证明,这种简化可以保留模型质量,减少路由计算并提高性能。具体优势如下:1、通道计算量大大降低,因每个样本仅需要一个专家通道参与计算。

受业绩影响,晨光股价持续大涨,11月11日最高报价达86.44元,创历史新高。

其背后,是晨光无可比拟的渠道优势。

最后研究人员指出,虽然Switch Transformer改进了训练程序,并对稀疏模型进行了扩展的研究。但未来在此方向还有许多未完成的工作,如

雷锋网(公众号:雷锋网)雷锋网雷锋网

如图,研究人员将Transformer的密集前馈网络(FFN)层替换为稀疏Switch FFN层(浅蓝色)。该层对序列中的令牌进行独立操作。他们两个标记令牌(X1=More 和 X2=Parameters )在四个FFN专家之间进行匹配(实线),其中路由器独立地传输每个令牌。Switch FFN层返回输出的FFN并乘以路由器门值(虚线)

进一步提高大型模型训练的稳定性。目前正在进行的方法有:正则化函数、适度的梯度裁剪等。 一般来说预训练越好,下游任务的效果也就越好,但在一些任务上发现,1.6T参数的Switch-C会比较小模型的结果更低。 目前方法使用的同类专家,未来可尝试通过更灵活的基础结构支持异构专家。 调查FFN层之外的专家层,初步的证据表明,这同样可以改善模型质量。 目前的工作仅考虑了语言任务,未来可尝试将模型稀疏性类似地应用到其他模态(例如图像)或多模态中。

研究员介绍称,Switch Transformer拥有1.6万亿参数,是迄今为止规模最大的NLP模型。

最后,通过在“Colossal Clean Crawled Corpus”上预先训练多达数万亿个参数模型来提高当前语言模型的规模,使速度比T5-XXL模型提高了4倍。

进军To B领域的时间虽然不长,但借助完善的分销体系和深耕文具行业多年的经验,晨光科力普近年来已经实现快速增长,可以预测,未来几年内有仍足够能力将成长态势保持住。

从以上对比结果中,可以发现:

研究人员表示,Switch Transformer模型是具有可扩展性的高效自然语言处理模型,它通过简化MoE,形成了快速理解、训练稳定且比同等大小模型更有效的样本体系结构。实验证明,这些模型在不同的语言任务和训练模式中都表现了出色的性能,包括预训练、微调和多任务训练。同时,这些结果也让训练具有上千亿、上万亿参数量的模型成为可能。

现实情况是,不论是在To B办公直销业务,还是新零售业态的布局上,晨光都尽力赶在了前面。然而在竞争激烈的环境中,想跑赢对手还需要持续做出更多改变。

Switch Transformer由混合专家(Mix of Expert,MoE)AI模型范式发展而来。MoE模型是指将多个专家或专门从事不同任务的模型放在一个较大的模型中,并有一个“门控网络(Gating Network)”来选择为任何给定数据要咨询哪些专家。

处在发展初期的办公直销行业,竞争已经尤为激烈,对于处在萌芽阶段的晨光科力普来说,是个不小压力。

与传统龙头企业的竞争中,品牌依然是科力普的弱势,未来不仅更加注重对自有品牌的投入,还需要尽快将规模做大。

在投资人看来,文具是一个可以穿越经济周期稳定赚钱的行业:需求弹性小,行业周期性弱,企业发展波动小。

因篇幅限制未能将所有内容附上,但感谢多位专业人士在本文写作过程中提供了非常有价值的观点及丰富案例,特别致谢(排名不分先后):

多年来,晨光文具凭借稳健的业务增长,成为投资人眼中具有投资价值的优质标的,股价在过去几年连续翻倍上涨。

我们观察到,简单地增加所有层的dropout率会导致性能下降。但是,在非专家层设置较小的dropout率(0.1)和在专家层设置较大的dropout率(0.4),可以提高四个较小下游任务的性能。

依靠多年来的品牌积累,晨光开始发力大客户采集。

同时,晨光还加大了对中小企业的覆盖,2019年下半年推出针对中小型企业的采购平台——科力普省心购,为未来业务持续保持高增长奠定坚实的基础。

新的行业竞争环境下,如果晨光的新业务长期低于市场预期,无疑会引发投资者对其未来发展空间的担忧。

2、每个专家通道所计算样本的batchsize被大大缩小(至少减半)。

如图展示了 Switch T5 Base 模型与 mT5-Base 在所有语言上的质量提升情况(负对数困惑度)。对两个模型经过 100 万步预训练后,Switch Transformer 的最终负对数困惑度相较基线有所提升。

根据IBIS统计数据,2016年美国办公文具市场规模约430亿元,其中直销渠道占比约50%。两大龙头史泰博、欧迪占据超80%的市场份额。两者都曾受电商冲击导致线下零售业务萎缩,但B端业务依然坚挺,究其原因,是直销业务较为稳固,不易受外部冲击。

其中,目前最大的公司晨光文具市占率仅为7.3%,前五大公司市占率仅为17%。2019年,公司主营收入规模突破100亿元大关,超出第二名齐心集团近一倍。