在人工智能时代,越来越多的AI应用需要从云端扩展到边缘端,比如智能耳机、智能摄像机、智能手环、物流机器人等,在边缘端部署AI已经成为趋势。如今AI大模型迅猛发展,AI大模型在端侧的部署也成了业界关注的焦点。
如何把AI模型在边缘端部署
首先得软硬件适配,硬件方面,适配的AI芯片越多越好,这样对于工程师来说,就降低了端侧模型适配迁移的难度,即使换一个设备也可以轻松部署上去;软件方面,主要的操作系统需要做适配,包括Linux、Windows、Android 、iOS等,这样无论是手机、PC都可以部署。还有框架适配,也是越全越好,比如PaddlePaddle、TensorFlow、PyTorch、Caffe、MXNet等。
其次是需要对模型进行压缩,在保证高精度的同时,zui好也能够让模型跑得更快更省内存,这里需要采用模型压缩技术,比如模型量化、剪枝和蒸馏技术。尤其是如今AI大模型迅猛发展,未来大模型在端侧的部署也少不了要用到压缩技术。
可以说,模型压缩技术是实现AI大模型在边/端部署的he心技术。模型压缩技术可在保有大模型原有性能和精度基本不变前提下降低对推理算力的需求。
具体来看,量化,即将浮点计算转成低比特定点计算;网络剪枝,即去除神经网络中冗余的通道、神经元节点等;知识蒸馏,即将大模型作为教师模型,用其输出训练性能接近、结构更简的模型。
以清华大学唐杰教授团队2022年8月发布的1300亿参数模型 GLM-130B 为例,原模型支持在一台 A100 40G*8或 V100 32G*8 服务器上进行推理,而将模型量化至 INT 4精度后,相较INT 8精度其所需 GPU 内存降低50%,且可在一台4?RTX 3090(24G)或 8?RTX 2080Ti (11G )服务器上进行推理。
众多厂商实现AI大模型的端侧部署
谷歌、高通、华为等厂商已经实现AI大模型在端侧的部署。今年5月份,在Google/O开发者大会上,Google宣布了一个专门针对移动设备优化系统的TensorFlow新版本TensorFlowLite。这款被称为TensorFlowLite的软件库,是可在移动设备上运行的深度学习工具,它允许开发人员在用户的移动设备上实时地运行人工智能应用。
该软件库在设计上追求高速度和小储存,支持iOS和Android系统。如果开发者使用其他系统,也可以经过一系列复杂而冗长的编译流程,将TensorFlow编译成移动操作系统所支持的软件库,这样并不会改变TensorFlow的功能。
TensorFlowLite还提供了有限的预训练人工智能模型,包括MobileNet和InceptionV3物体识别计算机模型,以及SmartReplay自然语言处理模型。开发者用自己的数据集做的定制模型也可以部署在上面。TensorFlowLite使用Android神经网络应用程序界面(API),可以在没有加速硬件时直接调用CPU来处理,确保其可以兼容不同设备。
高通技术公司产品管理gao级副总裁兼AI负责人Ziad Asghar此前表示,随着生成式AI的飞速普及,混合处理的重要性空前突显。混合处理AI的重要性空前突显,正如传统计算从大型主机和瘦客户端演变为当前云端和边缘终端相结合的模式,AI处理必须在云端和终端混合进行才能发挥其zui大潜能。
根据高通的演示,将手机设置成“飞行模式”,再通过手机端全栈AI优化,这一模型能够完全在终端侧运行,实现在15秒内完成20步推理,生成饱含细节的图像。很重要的是,即便在飞行模式下,这些AI能力都可以得到实现,例如将Stable Diffusion的能力集成到相机应用中之后,用户在任何一个地点拍摄照片,再要求AI将照片背景改为夕阳之下的万里长城。
Ziad Asghar透露,如果在云端运行一个超过10亿参数的生成式AI模型,可能需要数百瓦的功耗,而在终端侧运行需要的功耗仅有几毫瓦。这赋予了高通在生成式AI领域的独特优势。不久的将来,拥有 100 亿或更高参数的模型将能够在终端上运行。
在今年3月春季旗舰新品发布会上,华为带来全新智慧搜图功能,基于多模态大模型技术,在手机端侧对模型进行小型化处理,在业界率先实现了首创的、精准的自然语言手机图库搜索体验。用户可以像与人对话一样,通过语音唤醒小艺,使用自然语言在手机图库中搜索出匹配如 “山顶看日出”、“围炉煮茶”、“蓝色珊瑚中的小丑鱼”等描述的照片。
相较于传统图库使用标签进行照片搜索,存在准确率低、响应速度慢等问题,智慧搜图更加“聪明”。结合多模态大模型技术,智慧搜图对亿级的图文数据进行预训练,增加了对泛化通用语义的理解,支持包含颜色、形状、物体、行为、时间和地点等多信息组合的自然语言搜索,同时还实现了端侧轻量化应用。
小结
由于AI在边缘或者端侧的部署具有诸多优势,近年来AI在边缘侧的应用渗透率也越来越高。AI大模型迅猛发展,未来在终端的部署也是必然趋势,众多厂商已经对此进行探索,并有所突破,期待AI大模型未来能够是实实在在赋能各行各业。