大模型使用新战场:揭秘终端侧AI竞赛要害|智在终端

09-02 215阅读 15评论

文章最后更新时间:2024年09月03日

鱼羊 发自 凹非寺
量子位 | 大众号 QbitAI

2024年曩昔2/3,大模型范畴的一个一致开端更加明晰:

AI技能的真实价值在于其普惠性。没有运用,根底模型将无法发挥其价值

于是乎,回忆这大半年,从互联网大厂到手机厂商,各路人马都在探究AI年代Killer APP的道路上狂奔。这股风潮,也开端在尖端学术会议中暴露踪影。

其间被职业、学术界都投以注重的一个中心问题便是:

在大模型“力大砖飞”的布景之下,AIGC运用要怎么在手机等算力有限的终端设备上更丝滑地落地呢?

大模型使用新战场:揭秘终端侧AI竞赛要害|智在终端

△Midjourney生成

这段时刻以来,ICML(国际机器学习大会)、CVPR(IEEE国际核算机视觉与模式识别会议)等顶会上的最新技能共享和当选论文,正在揭开更多细节。

是时分总结一下了。

AI运用背面,我们都在聚集哪些研讨?

先来看看,AI运用从云端迈向终端,现在开展到何种程度了。

现在,在大模型/AIGC运用方面,很多安卓手机厂商都与高通保持着深度协作。

在CVPR 2024等顶会上,高通的技能Demo,招引了不少眼球。

比方,在安卓手机上,完成多模态大模型(LLaVA)的本地布置:

大模型使用新战场:揭秘终端侧AI竞赛要害|智在终端

△Qualcomm Research发布于YouTube

这是一个70亿参数等级的多模态大模型,支撑多品种型的数据输入,包含文本和图画。也支撑环绕图画的多轮对话。

就像这样,丢给它一张小狗的相片,它不只能描绘相片信息,还能接着和你聊狗狗适不适合家养之类的论题。

大模型使用新战场:揭秘终端侧AI竞赛要害|智在终端

△量子位在巴塞罗那MWC高通展台拍照的官方演示Demo

高通还展示了在安卓手机上运转LoRA的实例。

大模型使用新战场:揭秘终端侧AI竞赛要害|智在终端

△Qualcomm Research发布于YouTube

以及音频驱动的3D数字人版AI帮手——相同能在断网的情况下本地运转。

重播

01:10/01:10

△Qualcomm Research发布于YouTube

Demo原型既出,加之手机厂商们的魔改优化,关于一般用户而言,意味着其间展示的新玩法新或许,在我们自个儿的终端设备上现已指日可下。

但在顶会上,更加遭到注重的是,demo之外,高通的一系列最新论文们,还具体地揭开了运用背面需求要点布局的要害技能。

量化

其间之一,便是量化。

在手机等终端设备上布置大模型/AIGC运用,要处理的一大要点是怎么完成高效能的推理

而量化是进步核算功能和内存功率最有用的办法之一。而且高通以为,运用低位数整型精度对高能效推理至关重要。

高通的多项研讨工作发现,关于生成式AI来说,因为根据Transformer的大言语模型遭到内存的约束,在量化到8位(INT8)或4位(INT4)权重后往往可以取得大幅进步的功率优势。

其间,4位权重量化不只对大言语模型可行,在练习后量化(PTQ)中相同或许,并能完成最优体现。这一功率进步现已超越了浮点模型。

具体来说,高通的研讨标明,凭借量化感知练习(QAT)等量化研讨,许多生成式AI模型可以量化至INT4模型。

在不影响准确性和功能体现的情况下,INT4模型能节约更多功耗,与INT8比较完成90%的功能进步和60%的能效进步。

大模型使用新战场:揭秘终端侧AI竞赛要害|智在终端

本年,高通还提出了一种名为LR-QAT(低秩量化感知练习)的算法,能使大言语模型在核算和内存运用上更高效。

LR-QAT受LoRA启示,选用了低秩重参数化的办法,引入了低秩辅佐权重,并将其放置在整数域中,在不丢掉精度的前提下完成了高效推理。

在Llama 2/3以及Mistral系列模型上的试验成果显现,在内存运用远低于全模型QAT的情况下,LR-QAT达到了相同的功能。

大模型使用新战场:揭秘终端侧AI竞赛要害|智在终端

别的,高通还要点布局了矢量量化(VQ)技能,与传统量化办法不同,VQ考虑了参数的联合散布,可以完成更高效的紧缩和更少的信息丢掉。

大模型使用新战场:揭秘终端侧AI竞赛要害|智在终端

编译

在AI模型被布置到硬件架构的过程中,编译器是保证其以最高功能和最低功耗高效运转的要害。

编译包含核算图的切分、映射、排序和调度等过程。

高通在传统编译器技能、多面体AI修改器和修改器组合优化AI方面都积累了不少技能成果。

比方,高通AI引擎Direct结构根据高通Hexagon NPU的硬件架构和内存层级进行运算排序,在进步功能的一同,可以最大程度削减内存溢出。

硬件加快

终端侧的AI加快,离不开硬件的支撑。

在硬件方面,高通AI引擎选用异构核算架构,包含Hexagon NPU、高通Adreno GPU、高通Kryo CPU或高通Oryon CPU。

其间,Hexagon NPU在今日现已成为高通AI引擎中的要害处理器。

大模型使用新战场:揭秘终端侧AI竞赛要害|智在终端

以第三代骁龙8移动渠道为例,Hexagon NPU在功能体现上,比前代产品快98%,一同功耗下降了40%。

架构方面,Hexagon NPU晋级了全新的微架构。与前代产品比较,更快的矢量加快器时钟速度、更强的推理技能和对更多更快的Transformer网络的支撑等等,全面进步了Hexagon NPU对生成式AI的呼应才能,使得手机上的大模型“秒答”用户发问成为或许。

Hexagon NPU之外,第三代骁龙8在高通传感器中枢上也下了更多功夫:添加下一代微型NPU,AI功能进步3.5倍,内存添加30%。

大模型使用新战场:揭秘终端侧AI竞赛要害|智在终端

现实上,作为大模型/AIGC运用向终端侧搬迁的潮流中最受注重的技能代表之一,以上要点之外,高通的AI研讨布局早已延伸到更广泛的范畴之中。

以CVPR 2024当选论文为例,在生成式AI方面,高通提出了进步分散模型功率的办法Clockwork Diffusion,在进步Stable Diffusion v1.5感知得分的一同,能使算力耗费最高下降32%,使得SD模型更适用于低功耗端侧设备。

而且不止于手机,针对XR和自动驾驶范畴的实践需求,高通还研讨了高效多视图视频紧缩办法(LLSS)等。

大模型使用新战场:揭秘终端侧AI竞赛要害|智在终端

在当时的热门研讨范畴,比方AI视频生成方面,高通也有新动作:

正在开发面向终端侧AI的高效视频架构。例如,对视频到视频的生成式AI技能FAIRY进行优化。在FAIRY第一阶段,从锚定帧提取状况。在第二阶段,跨剩下帧修改视频。优化示例包含:跨帧优化、高效instructPix2Pix和图画/文本引导调理。

底层技能驱动AI立异

大模型运用是当下的大势所趋。而当运用开展的程度更加深化,一个要害问题也更加明亮:

运用立异的演进速度,取决于技能基座是否厚实结实。

这儿的技能基座,指的不只是根底模型自身,也包含从模型量化紧缩到布置的全栈AI优化。

可以这样了解,如果说根底模型决议了大模型运用作用的上限,那么一系列AI优化技能,就决议了终端侧大模型运用体会的下限。

作为一般顾客,值得等待的是,像高通这样的技能厂商,不只正在理论研讨方面快马加鞭,其为运用、神经网络模型、算法、软件和硬件的全栈AI研讨和优化,也已加快在实践中布置。

大模型使用新战场:揭秘终端侧AI竞赛要害|智在终端

以高通AI软件栈为例。这是一套包容了很多AI技能的东西包,全面支撑各种干流AI结构、不同操作系统和各类编程言语,能进步各种AI软件在智能终端上的兼容性。

其间还包含高通AI Studio,相当于将高通一切AI东西集成到了一同,包含AI模型增效东西包、模型分析器和神经网络架构查找(NAS)等。

更为要害的是,根据高通AI软件栈,只需一次开发,开发者就能跨不同设备随时随地布置相应的AI模型。

便是说,高通AI软件栈像是一个“转换器”,可以处理大模型在品种繁复的智能终端中落地所面对的一大难题——跨设备搬迁。

这样一来,大模型运用不只能从云端走向手机端,还能被更快速地塞进轿车、XR、PC和物联网设备中。

大模型使用新战场:揭秘终端侧AI竞赛要害|智在终端

站在现在的时刻节点,人人都在等待改动国际的技能潮流翻腾出更汹涌的巨浪。

而站立潮头的弄潮儿们正在再次验证技能史中一次次被探明的现实:引领技能之先的人和安排,无不具有注重根底技能的“发明家文明”。

不止是追逐最新的技能趋势,更要提早布局,抢先霸占根本计划。

高通在《让AI触手可及》白皮书中相同提到了这一点:

高通深耕AI研制超越15年,一直致力于让感知、推理和行为等中心才能在终端上无处不在。

这些AI研讨和在此之上产出的论文,影响的不只是高通的技能布局,也正在影响整个职业的AI开展。

大模型年代,“发明家文明”仍在连续。

也正是这样的文明,继续促进着新技能的普及化,促进着商场的竞赛和昌盛,带动起更多的职业立异和开展。

你觉得呢?

— 完 —

文章版权声明:除非注明,否则均为ZBLOG原创文章,转载或复制请以超链接形式并注明出处。

发表评论

快捷回复: 表情:
评论列表 (有 15 条评论,215人围观)
网友昵称:青菜还没我高
青菜还没我高 V 游客 沙发
分的一同,能使算力耗费最高下降32%,使得SD模型更适用于低功耗端侧设备。而且不止于手机,针对XR和自动驾驶范畴的实践需求,高通还研讨了高效多视图视频紧缩办法(LLSS)等。在当时的热门研讨范畴,比方AI视频生成方面,高通也有新动作:正在开发面向终端侧AI的高效视频架构。例如
09-03 回复
网友昵称:莪难过
莪难过 V 游客 椅子
指日可下。但在顶会上,更加遭到注重的是,demo之外,高通的一系列最新论文们,还具体地揭开了运用背面需求要点布局的要害技能。量化其间之一,便是量化。在手机等终端设备上布置大模型/AIGC运用,要处理的一大要点是怎么完成高效能的推理。
09-03 回复
网友昵称:春︼秋无味
春︼秋无味 V 游客 板凳
技能驱动AI立异大模型运用是当下的大势所趋。而当运用开展的程度更加深化,一个要害问题也更加明亮:运用立异的演进速度,取决于技能基座是否厚实结实。这儿的技能基座,指的不只是根底模型自身,也包含从模型量化紧缩到布置的全栈AI优化。可以这样了解,如果说根底模型决议了大模型运用作用的上限,那么一
09-03 回复
网友昵称:相信我好吗
相信我好吗 V 游客 凉席
研讨工作发现,关于生成式AI来说,因为根据Transformer的大言语模型遭到内存的约束,在量化到8位(INT8)或4位(INT4)权重后往往可以取得大幅进步的功率优势。其间,4位权重量化不只对大言语模型可行,在练习后量化(PTQ)中相同或许,
09-03 回复
网友昵称:蝉儿不善舞
蝉儿不善舞 V 游客 地板
on NPU对生成式AI的呼应才能,使得手机上的大模型“秒答”用户发问成为或许。Hexagon NPU之外,第三代骁龙8在高通传感器中枢上也下了更多功夫:添加下一代微型NPU,AI功能进步3.5倍,内存添加30%。现
09-03 回复
网友昵称:地z毫
地z毫 V 游客 6楼
议了大模型运用作用的上限,那么一系列AI优化技能,就决议了终端侧大模型运用体会的下限。作为一般顾客,值得等待的是,像高通这样的技能厂商,不只正在理论研讨方面快马加鞭,其为运用、神经网络
09-03 回复
网友昵称:过去的爱
过去的爱 V 游客 7楼
5倍,内存添加30%。现实上,作为大模型/AIGC运用向终端侧搬迁的潮流中最受注重的技能代表之一,以上要点之外,高通的AI研讨布局早已延伸到更广泛的范畴之中。以CVPR 2024当选论文为例,在生成式AI方面,高通提出了进步分散模型功率的办法Clockwork Diffu
09-03 回复
网友昵称:静静嘚。
静静嘚。 V 游客 8楼
新的技能趋势,更要提早布局,抢先霸占根本计划。高通在《让AI触手可及》白皮书中相同提到了这一点:高通深耕AI研制超越15年,一直致力于让感知、推理和行为等中心才能在终端上无处不在。这些AI研讨和在此之
09-03 回复
网友昵称:驭剑天涯
驭剑天涯 V 游客 9楼
高通在传统编译器技能、多面体AI修改器和修改器组合优化AI方面都积累了不少技能成果。比方,高通AI引擎Direct结构根据高通Hexagon NPU的硬件架构和内存层级进行运算排序,在进步功能的一同,可以最大程度削减内存溢出。硬件加快终端侧
09-03 回复
网友昵称:国产好菇凉
国产好菇凉 V 游客 10楼
这一功率进步现已超越了浮点模型。具体来说,高通的研讨标明,凭借量化感知练习(QAT)等量化研讨,许多生成式AI模型可以量化至INT4模型。在不影响准确性和功能体现的情况下,INT4模型能
09-03 回复
网友昵称:满脸幸福状
满脸幸福状 V 游客 11楼
的大言语模型遭到内存的约束,在量化到8位(INT8)或4位(INT4)权重后往往可以取得大幅进步的功率优势。其间,4位权重量化不只对大言语模型可行,在练习后量化(PTQ)中相同或许,并能完成最优体现。这一功率进步现已超越了浮点模型。具体来说,高通的研讨标
09-03 回复
网友昵称:思念在清晨
思念在清晨 V 游客 12楼
缩和更少的信息丢掉。编译在AI模型被布置到硬件架构的过程中,编译器是保证其以最高功能和最低功耗高效运转的要害。编译包含核算图的切分、映射、排序和调度等过程。高通在传统编译器技能、多面体AI修改器和修改器组合优化AI方面都积累了不
09-03 回复
网友昵称:白辞
白辞 V 游客 13楼
这儿的技能基座,指的不只是根底模型自身,也包含从模型量化紧缩到布置的全栈AI优化。可以这样了解,如果说根底模型决议了大模型运用作用的上限,那么一系列AI优化技能,就决议了终端侧大模型运用体会的下限。作为一般顾客
09-03 回复
网友昵称:铁骑军团
铁骑军团 V 游客 14楼
内存层级进行运算排序,在进步功能的一同,可以最大程度削减内存溢出。硬件加快终端侧的AI加快,离不开硬件的支撑。在硬件方面,高通AI引擎选用异构核算架构,包含Hexa
09-03 回复
网友昵称:两清。
两清。 V 游客 15楼
esearch发布于YouTube以及音频驱动的3D数字人版AI帮手——相同能在断网的情况下本地运转。重播01:10/01:10△Qualcomm Research发布于YouTubeDemo原型既出,加之手机厂商们的魔改优化,关于一般用户而言,意味着其间展示的新
09-03 回复