通信业如何拥抱大模型?

时间:2023-03-21
    随着ChatGPT的迅速破圈,AIGC被看作是继UGC之后新的创新模式。依托大型语言模型的训练,ChatGPT对人类意图的理解,有了跨越式的质变提升,在传统AI最受困扰的回答开放式问题,生成文字、图片、视频等创造性内容等领域,它展现出了惊人的表现。
    毋庸置疑,当下是通用认知大模型时代的开启,就像2010年是开启移动互联网时代一样。那么,大模型是什么?通信业如何抓住大机会?
    大模型:ChatGPT的基座
    “ChatGPT本质上是一个大模型。”2月24日,科技部部长王志刚在国新办新闻发布会上谈及ChatGPT时指出。
    ChatGPT是在GPT基础上进一步开发的自然语言处理模型。GPT模型是一种自然语言处理(NLP)模型,使用多层变换器(Transformer)来预测下一个单词的概率分布,通过训练在大型文本语料库上学习到语言模式来生成自然语言文本。从GPT-1到GPT-3,智能化程度不断提升,ChatGPT的到来也是GPT-4正式推出之前的序章。
    事实上,ChatGPT的成功并不是偶然结果,在目前的版本开放出来以前,OpenAI已经在训练大规模语言模型的道路上深耕多年。
    从多层变换器(Transformer)框架被提出后,OpenAI在第二年就提出基于Transformer架构的预训练语言模型——GPT,开始了大规模预训练语言模型道路的探索。2020年提出的GPT-3则是首个参数量达到千亿级别的模型,称得上是真正的“大规模”语言模型。2021年,OpenAI提出的CodeX模型在GPT-3的训练数据里引入代码数据,使得模型能够从代码数据中学习严谨的逻辑结构和问题拆解能力,为GPT引入了思维链的能力。2022年,OpenAI再次提出InstructGPT,使得GPT能够理解更贴合人类自然语言的指示,并根据该指示作出正确的文本生成。同年,ChatGPT横空出世,其强大的对话能力和高质量的回答内容刷新了人们对AI的认知,被认为是人工智能里程碑式的应用。
    复旦大学邱锡鹏教授认为,随着算力的不断提升,语言模型已经从最初基于概率预测的模型发展到基于Transformer架构的预训练语言模型,并逐步走向大模型的时代。当模型规模较小时,模型的性能和参数大致符合比例定律(scaling law),即模型的性能提升和参数增长基本呈线性关系。然而,当GPT-3 / ChatGPT这种千亿级别的大规模模型被提出后,人们发现其可以打破比例定律,实现模型能力质的飞跃。这些能力也被称为大模型的“涌现能力”(如理解人类指令等)。
    什么叫大模型?王志刚表示,大数据,大的计算力,还有一个强的计算方法。ChatGPT确实有它的优势,有它进步的点。我们要看到这一点,同时要看到如何在算法、数据、算力上有效结合。
    据了解,大模型的核心特征是模型参数多、训练数据量大。有研究估测,训练1750亿参数语言大模型GPT-3,需要上万个CPU/GPU24小时不间断地输入数据。其能耗相当于开车往返于地球和月球,一次运算就要花费450万美元。高昂的研发成本意味着,主流的大模型只能由大型科技公司或少数研究机构掌握。
    通信业如何抓住机会?
    行业的投入使大模型迎来显著进展,千亿甚至万亿参数的大模型陆续出现,覆盖了NLP、CV和跨模态等领域。然而,只有落地才能实现大模型的价值。各家不断探索大模型落地的新方法、新模式,国内各大科技公司自然被寄予厚望。
    在联通数科首席AI科学家廉士国看来,首先,ChatGPT大模型可作为工具用来改进信息通信服务能力,例如其在自然语言上的强大能力可用于提升智能客服、智慧运营、欺诈监测等运营服务功能,通信网络的巨量数据量可用来训练通信网络大模型赋能网络自主运行。其次,ChatGPT在自然语言上的成功,启示了在语音、视觉等多模态数据上的扩展空间,这将为运营商在政企业务上为千行百业数字化转型赋能提供重要工具。而且,ChatGPT等大模型的运行和服务离不开算力和网络支撑,运营商作为新型信息基础设施服务运营者,可以加强算网融合的智能算力中心建设,来承载ChatGPT等大模型训练和推理服务,真正让大模型服务遍及无处不在的用户。
    在《2022中国大模型发展白皮书》中,IDC中国将大模型市场服务划分成了L1—L5五个层级(层级越高,厂商在大模型市场梯队越靠前),最终评价结果是当前大部分厂商能力处于L2—L3层级。其中,最为凸显的是唯一处在第一梯队的百度文心大模型,产品能力、生态能力达到L4水平,应用能力达到L3水平。
    和百度不同,华为没有透露对标ChatGPT的具体计划,但早在2020年,华为已在大模型领域开始有布局,2021年基于昇腾AI与鹏城实验室联合发布了鹏程?盘古大模型,是业界首个千亿级生成和理解中文NLP大模型。在模型性能方面,当时的鹏程?盘古大模型性能全球领先,16个下游任务中性能指标优于业界SOTA模型。在应用方面,鹏程?盘古大模型支持丰富的应用场景,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出。
    因此,国内已经宣布要做ChatGPT类产品的科技大厂中,能够最终做出类ChatGPT产品的,可能还是只有拥有中国科技企业最成熟的大模型开发工具和产品体系的企业。
    廉士国建议,构建中文版的ChatGPT形成具备中文知识的公共基础模型,尤为重要。研发类似ChatGPT的大模型,其基础主要包括智能算力、大量数据、自监督学习算法等。对于这些基础,国内相关企业和机构是拥有的或可以联合构建。另外,国内的应用场景丰富、开发者众多,以ChatGPT类大模型为基础,面向垂直应用场景的再开发,可能出现“爆款”智能应用。
    挑战
    一个经济体的强弱不取决于它引入先进科技的速度,而是取决于使用先进科技的深度。大模型的竞争力建立在大和强的基础上,但对于应用端来说,需要将大数据的能力真正落实到需求上,实现实实在在的转化,才是展现大模型真正实力的关键一环。
    ChatGPT是多项AI技术的集大成者,背后离不开庞大的算力、人才等资源的支持。
    在政策层面,以北京为例,近日,北京市经济和信息化局对外正式发布《2022年北京人工智能产业发展白皮书》(以下简称《白皮书》)。根据《白皮书》,北京市将支持头部企业打造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。
    作为当前AI领域的前沿技术,各类大模型在促进产业智能化升级、提升业务流程效率与水平等方面都具有领先性。值得注意的是,之前,已有国内企业和机构发布了大模型,只是其语言大模型还没达到ChatGPT的能力。目前,在实际应用环节,依然面临很多难题,如技术能力与业务目标不适配、技术无法及时响应业务需求、基建承载能力弱等。

    业内专家认为,解决大模型落地难题的关键在于跨越大模型能力与真实业务场景之间的“鸿沟”。如果能以业务目标及动态需求为导向,并满足具体业务运行所需的各项能力,大模型才有可能真正实现落地。

来源:通信产业网

上一篇:荣耀高端手机销售额同比增长达110%,华为和小米下滑40%左右
下一篇:郭明錤:苹果 iPhone 15 换用 USB-C 接口 领益智造将成主要赢家

免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。