cha

中金白洋深度拆解:为什么百度能研发中国ChatGPT?

  自百度官宣其类ChatGPT产品“文心一言”(ERNIE Bot)以来,百度股价表现强劲,昨日其美股再涨5.6%,年内累积回血达28%。对此,中金公司互联网行业首席分析师白洋发布点评称“AIGC技术实力和商业化基础,是(百度)提升估值的重要看点”,并强调百度“下行风险低,上行空间大”。

  中金白洋深度拆解:为什么百度能研发中国ChatGPT?(图1)

  白洋分析称,百度为什么能够在ChatGPT推出的很短时间内就能研发出类似的产品,主要系底层的类似GPT3.5的核心大模型百度早有积累。

  百度的文心大模型和Open AI的GPT模型类似,在2019年就已经推出,并且已经迭代了多代。文心大模型也已经从单一的自然语言理解延申到多模态,包括视觉、文档、文图、语音等多模态多功能,因此“文心一言”所基于的ERNIE系列模型也已经具备较强泛化能力和性能。以最新发布的ERNIE 3.0 Zeus为例,该模型迭代于ERNIE 3.0,拥有千亿级参数。其已经具备智能创作等各类自然语言理解和生成任务,且公开数据集上小样本学习、理解和生成任务效果皆好于业界其他模型。

  此次“文心一言”产品并非是百度文心大模型的第一个产品,其AI作画平台“文心一格”和产业级搜索系统“文心百中”已经面向公众开放,由此可见大模型实用性高。

  再看底层算力方面,白洋认为,百度大模型的持续发展,拥有强大的算力支撑。

  百度拥有多个云计算可用区、庞大的超算集群,奠定大模型训练的基础设施。目前公司有阳泉、徐水、定兴三个云计算中心,其中,阳泉智能云数据中心仅一期就可承载16万台服务器,预计整个百度阳泉云计算中心可承载24万台服务器。白洋认为,百度智能云能为ERNIE大模型应用提供高并发、高弹性、高精度等不同计算需求。此外,百度自研AI芯片“昆仑”已在多场景实际部署几万片,在公司搜索业务中也已形成较强工程化实践。

  数据方面,百度现有数据规模能够助力产品实现0-1,马太效应下模型将越来越聪明。

  ChatGPT模型训练使用主要来自互联网的文本数据库,包括从网络文本、维基百科、文章中获得高达 570GB的数据。白洋称,百度的搜索业务在真实数据和用户需求理解方面的积累有较强的先发优势,这些大规模结构化非结构化数据有望支撑ERNIE bot的充分预训练。另外,随着ERNIE Bot的公众开放,有望建立起立真实的用户调用和模型迭代之间的飞轮,模型将越来越聪明。

  简而言之,AI的三要素包括算力、算法和数据,白洋认为,百度在这三项上都拥有领先优势。

  商业应用方面,白洋认为文心一言可以沿着2C和2B两条路径共同发展。

  面向C端,文心一言或最先接入百度搜索。白洋指出,根据此前百度架构师在沟通会上交流,百度搜索今年在技术上最重要的工作就是要把整个检索系统变成检索+生成双模系统。双引擎运作,一方面可以弥补搜索效率不高的问题,同时也可以补充文心一言单一答案生成、用户信任度不够的问题。

  面向B端,文心一言搭载在云计算产品上赋能各行各业创意生成、内容创作等,让AI辅助人工作,可以帮助企业大幅降低成本,商业前景可期。

  综合而言,白洋强调百度上行空间大,股价弹性来自于云、AIGC和自动驾驶等新业务。

  责任编辑:马婕


您可能还会对下面的文章感兴趣:

登录 注册 退出