cha

华为昇腾:AI超算领军,大模型核心受益核心观点:以ChatGPT为代表的预训练大模型加速

  来源:雪球App,作者: 庚白星君,(https://xueqiu.com/7420615077/242343880)

  华为昇腾:AI超算领军,大模型核心受益

  核心观点:以ChatGPT为代表的预训练大模型加速商业化落地,将带来大量算力需求。以政府为主导的城市智能计算中心AI算力卡国产化进度较快,其中以城市数量计,华为昇腾国内市场份额约79%,处于领先且具备大模型能力。北京计划支持头部企业打造大模型,算力可能需要进一步扩容,带来服务器增量空间,其中作为华为昇腾核心合作伙伴,有望核心受益。

  ▍ChatGPT:人类反馈强化学习推动AI实用化落地,大模型发展带来算力需求。ChatGPT是大模型商业化落地的标杆,其底层模型GPT-3共有1750亿参数,训练所需算力和成本均高出传统NLP模型,云算力资源训练成本估算约460万美金。国内千亿参数大模型如华为盘古使用超过2000块华为昇腾910以640P FLOPS的FP16算力训练超过两个多月,可见大模型训练算力耗费之巨大,算力扩容需求明确。

  ▍国内AI算力:企业与政府齐头并进,华为昇腾市场份额领先。继《智能计算中心规划建设指南》发布后,政府主导投资在20多个城市落地或规划了人工智能计算中心,方案多采用国产AI芯片,其中以城市数量计,华为昇腾更是在城市为主体的AI计算中心中占据79%的市场份额,并发布了盘古预训练大模型,处于行业领先位置。在2月13日举行的北京人工智能产业创新发展大会上,北京市经济和信息化局发布《2022年北京人工智能产业发展白皮书》,提到支持头部企业打造对标ChatGPT的大模型,然而现阶段智算中心算力对大模型支持不足,从资源共享、效率提升角度需要进一步扩容,带来算力卡和服务器增量。

  ▍为华为昇腾核心合作伙伴,2022H1昇腾硬件出货量第一。拓维信息是首批昇腾授权的人工智能计算硬件生产合作伙伴,其AI训练服务器可搭载8张昇腾910,提供2.56P FLOPS的FP16算力,目前已应用于长沙人工智能创新中心、重庆人工智能创新中心、全国一体化算力网络国家(贵州)主枢纽中心等项目中。据公司披露,2022年上半年,拓维信息昇腾计算硬件出货量位列华为昇腾合作伙伴排名第一。

  ▍风险因素:AI技术发展不及预期风险;数据监管力度加大风险;核心芯片短缺风险;行业竞争加剧风险;商业模式盈利困难风险。

  ▍投资策略。预训练大模型加速商业化落地,带来大量算力需求。以政府为主导的城市智能计算中心AI算力卡国产化进度较快,其中以城市数量计,华为昇腾份额约79%,处于领先且具备大模型能力。北京计划支持头部企业打造大模型,算力可能需要进一步扩容,带来服务器增量空间,其中作为华为昇腾核心合作伙伴,2022H1昇腾硬件出货量第一,有望核心受益。建议关注拓维信息、等华为昇腾生态圈核心厂商。

  报告正文

  ▍ ChatGPT:大模型商业化进程加速,带来多倍算力扩容空间。

  ChatGPT:人类反馈强化学习推动AI实用化落地,大模型发展带来算力需求

  ChatGPT是AI研究机构OpenAI在2022年11月30日推出的一款NLP(自然语言处理)模型,是基于GPT(生成式预训练transformer)专为对话任务设计的变种。 ChatGPT与InstructGPT(GPT3.5)的原理类似,都是基于人类反馈强化学习(RLHF),如通过人工标注员来引导模型的学习,标注员通过将模型的多个输出排序并喂回给模型进行精细调参,使得模型的输出更加人性化。ChatGPT与InstructGPT原理基本类似,只是标注员在精细调参中不仅是对模型给出的输出进行排序,还提供对问题的合适对话样本,并加到InstructGPT的数据集中,使其回答和对话更加自然。

  从某种程度上讲,ChatGPT和InstructGPT是通过更好奖励机制改善了GPT模型的输入和输出接口,但本质上其知识储备和理解能力仍来自于底层的大型语言模型,通过RLHF解锁了GPT3模型潜能的尝试是大模型的实用化以及商业化进程加速的重要一步。

  但ChatGPT能力的代价是其底层模型GPT-3所需的大量算力以及人工标注劳动,根据OpenAI公布,GPT-3共有1750亿参数,复杂的参数在训练中带来了庞大的计算量和成本,根据斯坦福大学机器学习讲师Younes Bensouda Mourri的测算,想得到一个与GPT-3近似的大模型在云服务上的训练成本约460万美金。

  同时,国内的千亿参数大模型如华为盘古大模型在训练时调用了超过2000块昇腾910进行了两个多月的训练。简单估算,华为昇腾910参数为FP16 320T FLOPS,2000块昇腾910可以提供超过640P FLOPS的FP16算力,可见大模型训练算力耗费之巨大。

  国内AI算力:企业与政府齐头并进,华为昇腾市场份额领先

  2020年4月20日,国家发展改革委首次明确新型基础设施的范围,其中包括以智能计算中心为代表的算力基础设施。2020年11月17日,国家信息中心信息化和产业发展部联合浪潮发布了《智能计算中心规划建设指南》,指出智能计算中心作为新型算力公共基础设施是促进AI产业化和产业AI化的重要引擎,并建议采用政府主导、企业承建、联合运营的政企合作建设运营的框架,在投资层面,坚持政府主导,政府作为投资主体加快推进智算中心落地。

  从2021年以来,陆续有20多个城市落地或规划了人工智能计算中心。与企业数据中心/云计算中心多采用或AMD算力卡不同的是,政府为主导的城市智能计算中心多采用国产AI芯片中的佼佼者如华为昇腾等,其中华为更是在我们统计的20多个城市为主体的智能计算中心中占据79%的市场份额,处于国产AI芯片的领先位置。

  2023年2月13日,在北京人工智能产业创新发展大会上,北京昇腾人工智能计算中心一期正式点亮。同时,会上北京市经济和信息化局发布了《2022年北京人工智能产业发展白皮书》,其中提到支持头部企业打造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态,加强人工智能算力基础设施布局,加速人工智能基础数据供给。

  从表2中能看到,各城市建设与规划人工智能计算中心的意愿强烈,但如我们上文中提到,华为盘古大模型需要640 PFLOPS的算力来支持运算。以资源共享以及优化配置的角度来看,假设未来部分企业大模型训练需要租用公共算力设施,且因为目前华为方案为主流,所以算力标准相同为FP16,现有城市人工智能算力中心算力(100P –300P FLOPS)仍有数倍提升空间。以北京为例,北京规划短期算力规模提升至500P FLOPS,远期达到1000P FLOPS,以昇腾910卡为例,若想从100P FLOPS提到500P FLOPS标准,则需要八卡服务器156个。

  除去算力等性能指标外,兼容性以及适配性同样是人工智能计算中心选取AI算力卡的重要考量。通过推理加速引擎MagicMind实现对Pytorch/Tensorflow等AI框架的支持。华为昇腾计算架构通过CANN异构计算实现对Pytorch/Tensorflow和自研MindSpore框架的同时支持,并提供基于MindSpore架构预训练的一系列大模型。

  同时,在《华为昇腾神经网络加速器性能评测与优化》(鲁蔚征,张峰,贺寅烜等)一文中,作者使用8块华为昇腾910 NPU的节点和搭载2块V100 GPU的节点进行性能对比,同时在WMT16 en-de数据集上训练模型以达到BLEU(双语替换检测,一种常见的机器翻译评价标准)准确度为25.0的阈值,NPU节点的性能是GPU的1.67倍,国产AI算力卡已经逐渐过渡到好用阶段。

  为22H1昇腾硬件出货量第一,亦是华为生态重要伙伴

  是华为昇腾战略合作伙伴,并于2021年3月成为首批昇腾授权的人工智能计算硬件生产合作伙伴。其开发的基于鲲鹏处理器和昇腾处理器的AI训练服务器RA5900可搭载8张昇腾910AI算力卡,提供2.56P FLOPS的FP16算力,可以运用在包括AIGC、算力中心、数据中心等场景,目前已应用于长沙人工智能创新中心、重庆人工智能创新中心、全国一体化算力网络国家(贵州)主枢纽中心等项目中。

  据公司披露,2022年上半年,昇腾计算硬件出货量位列华为昇腾合作伙伴排名第一。

  同样受益于华为生态的另一家重要生态伙伴目前也以鲲鹏算力为核心。其云计算和数字化转型业务快速成长,综合实力不断增强。公司云管理服务能力已经覆盖全球五大公有云及华为云、云、智联云等国内主流公有云厂商。目前公司已累计为超过300家中大型企业提供云服务(其中世界五百强客户超50家),累计迁移超过1.5万台云服务器,管理超过1万台云服务器。随着大模型的逐步应用,神州数码有望受益于AI智能云的发展。

  ▍ 风险因素

  AI技术发展不及预期风险;数据监管力度加大风险;核心芯片短缺风险;行业竞争加剧风险;商业模式盈利困难风险。

  ▍ 投资策略

  预训练大模型加速商业化落地,带来大量算力需求。以政府为主导的城市智能计算中心AI算力卡国产化进度较快,其中以城市数量计,华为昇腾国内市场份额约79%,处于领先且具备大模型能力。北京计划支持头部企业打造大模型,算力可能需要进一步扩容,带来服务器增量空间,其中作为华为昇腾核心合作伙伴,2022H1昇腾硬件出货量第一,有望核心受益。建议关注拓维信息、等华为昇腾生态圈核心厂商。


您可能还会对下面的文章感兴趣:

登录 注册 退出