cha

打造中国版 ChatGPT,国内有哪些派系能抢滩?

  清华孙茂松、刘知远聆心智能黄民烈西湖大学蓝振忠阿里周靖人京东何晓冬华为云田奇IDEA研究院张家兴出门问问李志飞稀宇科技(Minimax)元语智能原美团大佬王慧文搜索老将王小川

  谁有实力打造「中国版ChatGPT」?最终能攻上光明顶的团队,其实不多。

  作者 | 李梅

  编辑 | 陈彩娴

  OpenAI 现在已经成为全球人工智能领域的追击目标。

  继谷歌献上「Bard」后,中国的科技圈也开始沸腾了,原本苦哈哈的自然语言处理科研团队如今成为大家的香饽饽,一场关于资本与人才的竞争已经拉开。

  「打造中国版 ChatGPT」,在王慧文的英雄帖中传出,一传十、十传百,成为中国 AI 从业者的共同目标。

  然而,无论近日来关于 ChatGPT 的讨论有多少,我们都要直视一个残酷的现实:在追击 OpenAI 的这场决胜中,最终能攻上光明顶的团队并不多。

  一方面是成本高昂,「炼」大模型的资金只是打造 ChatGPT 的入场券;另一方面,则是能训练大模型的人才数量有限。大模型是 OpenAI 打造 ChatGPT 的技术基石,能否找到适合的人,才是关键。

  简单回顾一下大模型的发展历史:

  最早是谷歌推出 BERT,开启了亿级参数语言大模型的训练时代;随后 OpenAI 跟上,推出 GPT 系列,2020年的 GPT-3 首次突破千亿级参数。

  由于语言大模型在多项任务上表现极佳,国内学术圈开始研究语言大模型:2020年11月,清华大学自然语言处理实验室首先推出 CPM。之后,学术界与工业界在「炼」大模型上如火如荼,大力出奇迹成为潮流。但由于门槛较高,这个赛道的主要玩家仍是少数。

  AI 科技评论对国内各大派系进行了梳理如下:

  1

  高校力量

  清华唐杰

  唐杰是数据挖掘出身,曾担任北京智源研究院的大模型项目负责人,聚合北京高校研究出了性能媲美 GPT-3 的中文语言大模型——「悟道」1.0 和 2.0。

  唐杰

  唐杰是一个十分注重产学研结合的学者,也是国内大模型研究与生态的知名带头人。2019 年,其带领成立北京智谱 AI 有限公司,2022 年推出了双语千亿大模型 GLM-130B。智谱 AI 率先开源大模型,以 GLM-130B 为发力点,在 PaperWithCode 等科技网站上引起了广大关注。

  此外,唐杰团队与多家大企业建立交流与联系,支持企业开发大模型,比如阿里的 M6。唐杰的学生杨植麟是 NLP 创业公司循环智能的联合创始人,也参与了华为盘古大模型的研发工作。

  据内部人员透露,目前智谱 AI 团队已经在研究类 ChatGPT 产品,将于近两个月内推出。

  清华大学自然语言处理与社会人文计算实验室(THUNLP)是中国高校中知名的 NLP 团队,最初由黄昌宁教授带领,现学术带头人为黄昌宁的学生、ACL Fellow 孙茂松,团队主力刘知远也是孙茂松的学生。

  孙茂松(左)、刘知远(右)

  THUNLP 曾于 2015 年发布中文诗歌生成系统「九歌」,基于大量人类创作诗歌进行训练,在学界和业界引起广泛关注。

  在语言大模型方面,孙茂松、刘知远团队从 2018 年跟进预训练范式,2019 年初发布了 ERNIE 语言模型(与百度版 ERNIE 同名),之后研发了 CPM 模型,是智源研究院「悟道·文源」的前身。

  THUNLP 在 NLP 和大模型领域已孵化了多个公司,包括涂存超于 2017 年创立的幂律智能,专注于 NLP 在法律领域的应用;岂凡超于 2022 年成立的深言科技,致力于以自研中文大模型构建工业级中文信息处理引擎。

  另外还有曾国洋去年创立的面壁智能,专注于大模型加速与应用落地,公司团队为「悟道·文源」的主干成员。联合 THUNLP 与智源研究院语言大模型技术创新中心发起了 OpenBMB 开源社区,推出了 CPM-Live 百亿中文大模型直播训练项目,以及大模型全流程加速工具。

  但 THUNLP 是否会参与研发类 ChatGPT 产品,还未可知。

  清华大学计算机系副教授黄民烈是自然语言处理领域的专家,著有《现代自然语言生成》一书,也是一名注重产学研结合的学者,2021年创立了「聆心智能」。此前,他们也参与了北京智源大模型「悟道」的研发。

  黄民烈

  黄民烈团队最初的愿望是基于大模型打造心理咨询聊天机器人,2022年推出了一个交互机器人,叫做「AI 乌托邦」。用户可以定制 AI 角色,并与机器人进行深入对话。

  作为国内为数不多有实力训练大模型的团队之一,黄民烈一派在近日完成 Pre-A 轮融资后称,相比 ChatGPT,他们更希望将自己的定位为「中国的 Character AI」——在文本生成的基础上,为用户提供情感的陪伴。

  消息称,其团队在心理健康领域已积累海量优质训练数据,模型参数量超 30 亿。

  2022年,国产 AI 作画产品「盗梦师」(现改为「造梦日记」)走红,背后的心辰科技团队也受到行业关注。而心辰科技,正是潮汕青年科学家蓝振忠所创立。

  蓝振忠

  蓝振忠的本科毕业于中山大学,博士毕业于卡内基梅隆大学,读博时研究的是计算机视觉,后来去谷歌工作时转为研究自然语言处理,依托谷歌的 TPU 资源用一个月的时间研究出了著名的轻量化大模型「ALBERT」。2020 年 6 月,蓝振忠回国加入西湖大学,创立了深度学习实验室,开启语言与视觉结合的多模态研究。

  依托西湖大学的科研资源与先前加入北京智源的「青源会」,蓝振忠开启产学研模式,创立了心辰科技,先是依托大模型研发了心理咨询聊天机器人「小天」,然后在 2022 年 9 月的 Stable Diffusion 浪潮中首发国产作画产品「盗梦师」,如今又开发了类似 ChatGPT 的产品「Friday Chat」。

  据了解,「Friday Chat」希望做一个多模态交互的智能聊天产品。目前 ChatGPT 只有文字输出,而 Friday Chat 则新增设计了图像生成与输出。

  2

  大厂系

  百度王海峰

  在自然语言处理领域,百度的技术积累历史最长,早期百度研究院的掌舵人(余凯、林元庆等)都是自然语言处理出身。但在语言大模型这块,更值得一提的是一位哈尔滨工业大学校友、百度 CTO 王海峰。

  据了解,百度文心大模型的研发就是由王海峰带队打造。王海峰担任该项目的总指挥,另有核心成员吴甜(百度集团副总裁、飞桨平台研发领衔人物)与吴华(百度技术委员会主席、百度翻译技术团队创始人之一)。

  王海峰的本硕博均毕业于哈工大,是中国自然语言处理方向知名泰斗李生教授的高徒,也是国际 NLP 研究的领军人物,中国内地首位出任 ACL 大会主席的 AI 科学家,史上最年轻的 ACL Fellow 之一。此外,王海峰还是 IEEE Fellow、CAAI Fellow 与国际欧亚科学院院士等。

  王海峰

  王海峰在 2010 年加入百度。在他的带领下,百度是国内最早深耕预训练模型研发的团队之一,2019 年就发布了中文效果超越 BERT 的 ERNIE 1.0 模型,2020 年开始研究大模型,2021 年先后推出百亿参数大模型 PLATO-X 和千亿参数大模型「百度·文心」。

  在微软与谷歌激烈开战之际,百度也是国内最早宣布其研发类 ChatGPT 产品(「文心一言」)计划的团队之一。

  百度的优势在于其丰富的搜索语料数据,深耕 AI 研究多年的用户数据,并有百度飞桨深度学习平台、自研芯片加持。据称,百度的类 ChatGPT 产品将在 3 月推出,但性能仍有待评估。

  内部人员透露,其产品形态或推出独立入口,或效仿微软 Bing、与百度搜索入口联通。此外,百度也在寻求将百家号、短视频内容与 AIGC 结合的可能性。

  周靖人

  周靖人是目前阿里达摩院大模型研究的带头人。

  去年,为推进中文大模型的开源生态建设,周靖人主导推出了 AI 模型开源社区「魔搭」(Model Scope),在业界引起巨大反响。

  周靖人本科毕业于中国科学技术大学,在哥伦比亚大学获得计算机博士学位后加入微软,在微软工作了 11 年,随后于 2016 年 7 月加入阿里,是阿里首位 P12 算法专家。

  2021 年 3 月,达摩院、阿里云计算平台团队曾联合智源研究院、清华大学合作推出了「悟道·文汇」模型。同年 4 月,达摩院还发布了纯文本预训练语言模型 PLUG(270亿参数),集语言理解与生成能力于一身,具有接近 GPT-3 的水平。

  在超大参数规模方向上,原智能计算实验室成员杨红霞(杨红霞已于去年离职)与清华唐杰团队合作,推出了 10 万亿参数的 M6 大模型。原司罗带头、现由黄非带领的语言技术实验室,将 NLP 技术在阿里内部业务线实现了诸多落地。阿里云 PAI 平台负责人林伟团队,则主导了大模型参数高效稀疏训练算法研究。

  而目前阿里大模型成果的集大成之作,是去年 9 月发布的国内首个统一模态、架构和任务的「通义」大模型系列。该项目的主导者正是现任阿里云智能 CTO、达摩院副院长周靖人。

  日前,达摩院已确认其正在研发阿里版 ChatGPT,基于通义大模型,除了文本生成外,还具备绘画功能。据了解,其类 ChatGPT 产品将和钉钉深度结合。

  何晓冬

  早年京东引入的 AI 科学家中,清华子弟何晓冬领衔智能语音与语言处理研究,如今是京东大模型研究的团队带头人。

  据了解,京东从 2020 年开始研究 AI 文本生成,该技术在支持京东商城商品页面描述上扮演了重要作用。有消息透露,京东商城页面中,20% 的产品介绍都是由 AI 团队用自然语言处理技术生成。期间,由于 NLP 技术的整体消沉,研发受阻,但后来京东又重新重视,推出了言犀大模型。

  与周靖人一样,何晓冬早年也曾任职微软。他于 1996 年本科毕业于清华大学,硕士和博士分别毕业于中国科学院和美国密苏里大学哥伦比亚分校,是微软早期语音处理的成员之一,后来深度学习起来后,顺理成章转向了自然语言处理。

  2018 年加入京东后,何晓冬带领团队深耕智能语音与对话,推出自研 K-PLUG 模型生成商品文案,据说已覆盖京东 3000+ 品类,累计生成 30 亿字,带来超过 3 亿元 GMV。作为国内目前最大的智能语音服务输出团队之一,京东有丰富的用户数据,果然也宣布将推出类 ChatGPT 产品「ChatJD」。

  田奇

  华为的计算资源为其研究大模型提供了天然优势,而科研团队也有强者,其中一个重要带头人就是田奇(IEEE Fellow、国际欧亚科学院院士)。

  田奇也是清华子弟,1992 年从清华大学本科毕业后,先后在美国德雷塞尔大学、伊利诺伊大学香槟分校获得硕博学位,博士导师为华人视觉宗师黄煦涛。2002 年博士毕业后,田奇一直在德克萨斯大学圣安东尼奥分校计算机系任教。2008 年至 2009 年,田奇曾去微软亚研多媒体计算组做研究,2018 年离开微软,出任华为诺亚方舟实验室计算视觉首席科学家。

  田奇本是视觉出身,但近几年也转向 NLP,是华为大模型团队的核心人物。2020 年 3 月,他加入华为云担任华为云人工智能领域首席科学家,同年夏 GPT-3 问世之后,他就立即组建团队,开始了「盘古」大模型的研发。华为因此成为 2020 年最早参与大模型竞赛的大厂之一,盘古 NLP 模型也是业界首个千亿级生成和理解中文大模型。

  华为盘古有实力研发类 ChatGPT,但至今没有宣布要入局。

  在这一波 ChatGPT 中,宣布入场的互联网公司还有腾讯、字节跳动、快手、360、科大讯飞、网易等。

  在2月7日的答投资者提问会议上,周鸿祎称 360 有 200 亿的资金能够支持其类 ChatGPT 技术的研发。在军备竞赛般的 ChatGPT 研发中,大厂的钞能力无疑占有绝对优势。

  有行业人士评价,目前 360 在内的一些大厂在类 ChatGPT 技术上的各项指标只能达到略强于 GPT-2 的水平,与当前的 ChatGPT 相比尚有代差的落后,在语言大模型上属于赤手空拳上阵(如快手、科大讯飞、网易等),所以,类 ChatGPT 测试版的推出时间以及实际效果均存在重大不确定性。

  3

  初创派

  澜舟科技周明

  周明

  周明是百度 CTO 王海峰的同门师兄弟,哈工大子弟,李生高徒,微软亚研自然语言处理方向的早期研究者,是国内 NLP 领域极具影响力的华人科学家之一。

  周明于 1991 年从哈工大博士毕业,博士期间与导师李生共同研制了中英翻译系统 CEMT-I。毕业后他进入清华任职任教,并在 1999 年被微软亚研创始院长李开复挖走,2001 年起担任 NLP 组主任,后升任微软亚研副院长。

  在微软期间,周明在 NLP 技术的产业化上成果丰硕,他参与带队的 ACL 顶会论文就超过百篇,相关技术还应用到了 Windows、Office、Azure、微软小冰等世界级产品中。

  2020 年,周明决心以一种新的方式寻求学术界与工业界的合作,就离开了微软,加入李开复创办的创新工场人工智能工程院,担任首席科学家。

  在大模型堆参数的潮流正火热之时,周明独辟蹊径,选择了轻量化大模型的路线,于 2021 年 6 月正式成立了澜舟科技,并推出了「孟子」大模型。目前,孟子在文本生成上已有多项应用,如营销文案自动生成。但在 ChatGPT 一波中,澜舟科技还没有发声其要参与研发「中国版 ChatGPT」。

  粤港澳大湾区,除了鹏城实验室、腾讯,大模型的玩家还有一个,就是 IDEA 研究院(全称「粤港澳大湾区数字经济研究院」,由沈向洋等知名 AI 科学家在 2020 年创立)。

  张家兴

  张家兴是北大学子,2006 年从北京大学电子系博士毕业后,曾任微软亚洲研究院研究员、蚂蚁金服资深算法专家、360 数科首席科学家,长期深耕自然语言处理领域。现在,他是 IDEA 研究院的讲席科学家,负责认知计算与自然语言研究中心。

  2021 年加入 IDEA 研究院后,张家兴负责预训练大模型的研发,主导了「封神榜」开源模型系列,并紧跟 AIGC 热潮,于去年推出了国内第一个中文版 Stable Diffusion 模型「太乙」。

  ChatGPT 问世之后,张家兴迅速将团队的大模型研发转向了 ChatGPT 的对话任务路线。据其透露,其类 ChatGPT 模型已在内测中,下周将公测,目前模型效果与 ChatGPT 相当,参数只有 50 亿,且生成速度很快。

  他表示,当前他正计划融资,开发千亿模型支撑的类 ChatGPT 产品,并推动其商业化。

  李志飞

  李志飞也是自然语言处理出身。他的博士毕业于约翰霍普金斯大学计算机系语言处理实验室,研究方向为机器翻译和其他 NLP 方向,毕业后加入谷歌的 AI 团队从事机器翻译的研发工作,开发了谷歌的手机离线翻译系统。

  2012 年李志飞拿到红杉资本和真格基金的天使投资后,辞职回国,在语音交互领域创立「出门问问」并担任 CEO。消息称,这家独角兽公司从 2019 年底开始做生成式 AI 应用,2020 年 GPT-3 出来后也一直在跟进大模型,当时他训练了一个中文版本「UCLAI」,也是国内最早做大模型的人之一。

  ChatGPT 出来后,李志飞是国内最早宣布入场 ChatGPT 的玩家之一。

  2022 年,一款名为「Glow」的 AI 虚拟聊天社交软件在市场上颇为流行,用户可赋予机器人性格,实现实时沟通、建立情感连接,推出四个月就积累了上百万用户。

  其背后的开发者是一家颇为神秘的公司——北京稀宇科技有限公司(Minimax),成立于 2021 年,法人为杨斌,中科院自动化所硕士,后去加拿大读博,曾在 Uber 的 AI 研究院工作,从事自动驾驶卡车领域的研发。

  在大模型研发方面,Minimax 称其同时拥有文本到视觉、文本到语音、文本到文本三大模态的基础模型架构。

  元语智能是国内最早向 ChatGPT 宣战的初创公司之一,其团队日前发布了号称是国内首个基于大模写的功能型对话产品「ChatYuan」,但 API 小程序目前「由于涉嫌违反相关法律法规和政策,已暂停服务」,仍处于「系统更新维护」状态。

  该公司位于杭州,成立于 2022 年,创始人为徐亮,是心辰科技原先合作的数据标注团队转变而来。据称ChatYuan 基于 100 亿规模参数模型和 1 亿级对话数据进行训练,从目前效果来看,可实现类似 ChatGPT 的许多功能,不过相比于 ChatGPT 还有一定差距。

  4

  互联网大佬「后浪」派

  ChatGPT所预示的新的商业模式可能性,正被曾经的互联网大佬们尽收眼底。

  尽管他们大多对于近两年的 AI 语言大模型技术未有紧密的跟进,但一旦下场,他们能带来的资源、影响力、号召力、可能性,也许是巨大的。

  原美团联合创始人王慧文的出山近日备受关注,他宣布出资 5000 万美元,以 2 亿美元估值,并为其创立的北京光年之外科技有限公司招募 AI 技术大牛,决心打造「中国的OpenAI」。

  王慧文

  王慧文,清华本科毕业,王兴的大学室友,曾经的美团二号人物,是移动互联网时代一个传奇的存在。从2010 年到 2020 年,王慧文在美团战斗了 10 年,于 42 岁这年退隐。所以,这次 45 岁的他重出江湖,准备高调登上 ChatGPT 这艘船,引得万众瞩目。

  像王慧文这样的大佬,如果进军 ChatGPT,优势是显而易见的。一是有钱,带资入组,开篇就是 5000 万美元;二是有号召力,广发英雄帖后很快吸引了人才和资本;三是身份自由,与大厂相比,束缚更少。

  但短板也明显,就是技术积累。因为,王慧文坦言自己正在努力学 AI 技术,并希望请来技术大牛坐镇。

  业内十分看好进入 ChatGPT 赛道的大佬,还有原搜狗 CEO 王小川。

  他的下场的确非常合适。

  王小川从中学起就表现出编程和数学天赋,1996 年凭竞赛金牌保送至清华计算机系。2003 年从清华硕士毕业后,加入搜狐。

  他在搜狐一手打造了搜狗搜索,2010 年阿里巴巴对搜狗注资后,搜狗从搜狐分拆单独运营,王小川开始担任搜狗公司 CEO。当时的搜狗以超 4 亿的用户量,位列中国第三大互联网公司。直到 2021 年,王小川卸任搜狗 CEO。

  王小川有打造搜索引擎产品的丰富经验,是目前能训练语言大模型的 AI 科学家们十分渴望合作的对象。

  事实上,国内某个正在做类 ChatGPT的大模型团队告诉 AI 科技评论,他们认为王小川是国内的最优人选,正有意请他出山。王小川接下来的动作值得期待。

  更多内容,点击下方关注:

  未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

  公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。


您可能还会对下面的文章感兴趣:

登录 注册 退出