关于ChatGPT，值得掰开的11个细节｜微软

2023-03-13

　　月活用户突破1亿人，电话用了75年，推特用了5年，TikTok用了9个月，而ChatGPT只用了2个月。

　　ChatGPT横空出世，表现惊艳，撩拨了全球科技圈的兴奋神经。而其只是AIGC（人工智能自动生成内容）的一部分，它的走红，标志着AIGC时代不可回头的到来。

　　我们邀请到中欧教授杨蔚、EMBA同学郭润平（中欧EMBA2020级）和李世平（中欧EMBA2022级），为准备拥抱浪潮的敏锐的人，掰开与ChatGPT有关的11个细节。

　　● ● ●

　　关于ChatGPT，值得掰开的11个细节｜微软(图1)

　　微软（中国）有限公司

　　客户成功部门、Azure基础架构技术支持部门总经理

　　1

　　有意思的交易架构

　　OpenAI是ChatGPT的开发公司，微软对OpenAI的投资方式颇为特别。

　　因为交易合约的内容并没有完全公开，基于传媒消息以及双方暴露的信息，媒体打了一个精妙的比喻「OpenAI的创始人Sam Altman相当于把公司长期租给了微软」，租期以微软何时能赚回10倍于投资的金额为限。

　　因此，盈利后的OpenAI的利润分配将按照以下四个阶段进行：

　　第一阶段，将优先保证首批投资者收回初始资本；

　　?第二阶段，微软将有权获得OpenAI 75%的利润，直至收回其130亿美元投资；

　　?第三阶段，在OpenAl的利润达到920亿美元后，微软在该公司的持股比例将下降到49%，剩余49%和2%的利润由其他风险投资者和OpenAl基金会分别分享；

　　?第四阶段，在利润达到1500亿美元后，微软和其他风险投资者的股份将无偿转让给OpenAI的非营利基金。

　　归纳起来，这个交易架构具有四个特点：

　　1. ?强制分红

　　2. ?按照进入公司的阶段不同，通过分红优先保证投资人的本金（其实是优先分红）

　　3. ?阶段性调整分红比例

　　4. ?投资人收益有封顶

　　2

　　ChatGPT聪明的原因

　　GPT-3模型中75%的语料是英文，3%是中文，还有一些西班牙文、法文、德文等语料集，这些学习语料来源于维基百科、美国尚未出版的书、Instagram、脸书、推特，以及中国的微博、知乎等。

　　还有一些是人工标注的语料集，让它能够更智能，或者避免歧视、偏见等语句。模型一共学了45TB的文字资料，完成了任何一个人都无法完成的读书学习任务。

　　ChatGPT具备了融入知识库，理解上下文的能力，能够通过联想某个问题来回答当前的问题，使得它的回答更像是一个智能助手。

　　3

　　押注文本

　　2014年的一篇经典文章《永远押注文本（Always Bet On Text）》阐述了文本相对于其他数据模态的诸多优势：文本是表达、存储、传播、接收信息最高效的路径。

　　在更大的时空尺度下，现在如火如荼的短视频、播客等只会是昙花一现——承载了少量信息传递，却消耗了比文本多出指数级倍数的资源。

　　就像Rust创始人Graydon Hoare说的：「所有的文学和诗歌、历史和哲学、数学、逻辑、编程和工程都依靠文本编码来表达它们的想法，这不是一个巧合。」

　　虽然现在OpenAI也在探索多模态模型的开发，并取得了一定的成就，但是就当前的成果来看，的确在文本上是最亮眼的。而且从资源利用上来说，ChatGPT和DALL-E 2（OpenAI的文本生成图像系统）对于资源的消耗，确实不是一个数量级的。

　　关于ChatGPT，值得掰开的11个细节｜微软(图2)

　　4

　　万亿级的市场规模

　　「在一代人的时间中总有一种产品的出现，它将工程技术从昏暗的地下室、书呆子们臭气熏天的卧室和爱好者们孤独的洞穴中发射出来，变成了你的祖母都知道如何使用的东西。早在1990年就诞生了网络浏览器，但直到1994年Netscape Navigator（网景浏览器）的出现，大多数人才发现了互联网。2022年11月30日，AI迎来了Netscape Navigator 时刻。」

　　后代将很难想象，2022年之前的我们，需要从头开始做的「工作」是多么耗时费力：比如写一篇营销文案，编一段程序实现一个功能，修一张图，拍一段视频……

　　就像2022年的我们，很难想象几个世纪前的某些职业如此低效一样：复制一本书需要一个抄书人劳动几个月，穿一双皮鞋需要鞋匠长时间地手工缝制，送一封信需要邮差快马加鞭好几天……

　　AIGC成熟后的世界，数以亿计的白领脑力进一步释放，配得上万亿级的市场规模。

　　5

　　AIGC不是万能的

　　首先看AIGC能做什么：自动生成文本、图像、视频、代码等，自动化客服服务，翻译跨语言内容，人工智能洞察，设计、收集或总结数据……

　　那么有哪些事AIGC暂时做不到或者做不好？

　　?它不会知道将来会发生什么。这是因为传统的知识结构不足以预测未来发生的事。

　　?它会一本正经地胡说八道。比如写一篇关于碎玻璃对健康有益的故事。

　　?很难将与感情有关的话题回答得尽善尽美。

　　?做不好复杂一些的事情，比如超过十位数的数学题（这点也许会在未来的模型中得以改善）。

　　?在缺乏地图资料的情况下，无法回答路线问题或是物流信息。

　　6

　　只有魔法才能打败魔法

　　2022年底，北密歇根大学的哲学教授宣称读到了一篇「全班最好的论文」。这篇论文探讨了罩袍禁令的道德意义。事后学生告诉教授，论文是AI帮助撰写的。

　　这一事件在推特上发酵，在美国引起激烈的讨论。有人认为ChatGPT能够帮助学生更好地理解论文框架，拓展思维；有人认为它限制了学生的想象，让学生敷衍作业。

　　这件事也改变了部分老师的教学方法，既然有ChatGPT，他们不再要求学生写五页纸的论文，哈佛、耶鲁和罗德岛大学等高校有6000多名教师行动起来，注册并开始使用检查工具GPTZero。

　　与GPTZero类似的检查工具还有几种，但GPTZero更接近商业化。它的工作原理是检测文本的「困惑度」和「突发性」这两项指标，并分别对其打分，从而判定文本是AI还是人类创作的，体现了只有魔法才能打败魔法。

　　7

　　AI超越人类和不如人类的视角

　　超越人类的视角

　　我们其实不必恐慌于AI比我们写文案写得更好，编程和翻译更快，画画比我们更好。这样的事情早就发生过了，比如拖拉机比我们体力更强，汽车和飞机比人类奔跑更快，计算器比人脑计算更快……未来还会有更多事例。

　　不如人类的视角

　　能耗方面，人类大脑每秒可进行1.5的18次方运算。单个GPU每秒执行10的13次方运算，需要10万个GPU才能接近大脑的运算能力。人类大脑消耗的功率大约为25瓦，而一个GPU的功耗是人脑的10倍，即250瓦。电子效率是生物效率的一百万分之一。

　　8

　　AIGC的未解难题

　　著作权归属。OpenAI或者微软并不认为ChatGPT创作出的文字需要有著作权。如果想要为ChatGPT申请一篇论文的第二、第三或者第四作者，至少业界认为这是不被接受的。因为ChatGPT不是一个个体，不具有行为能力。

　　保护道德底线。ChatGPT有时候会一本正经地胡说八道，也会说出一些挑战伦理的语句，因此，怎么避免语句中的歧视、偏见，或者避免用户的隐私泄漏，模型还需要做特殊处理。

　　学习成本高。GPT-3模型学习一次的成本大约为460万美元，耗时几周。研发人员需要喂GPT-3几十个TB的数据，做足够多的标记，有1750亿个参数，投入约1万个GPU、30万个CPU。

　　此外，使用ChatGPT查询都要用到推理，ChatGPT推理一次的成本可能接近0.03厘美元。未来，ChatGPT如果要实现商业闭环，必须想办法降低成本才能更好地服务用户。

　　环境消耗。GPT在推演、学习时，需要使用大量的CPU和GPU，对能源是巨大的消耗。

　　● ● ●

　　关于ChatGPT，值得掰开的11个细节｜微软(图3)

　　AI技术专家

　　9

　　ChatGPT火爆的技术原因

　　ChatGPT的成功，模型参数量大很重要（大力出奇迹），但不是唯一因素。如下图所示，微软和英伟达合作的MT-NLG模型参数量达5300亿，Google的PaLM模型参数量达5400亿，都超过了ChatGPT所用的GPT-3.5模型的1750亿参数量，但它们的效果都不如ChatGPT。

　　关于ChatGPT，值得掰开的11个细节｜微软(图4)

　　图片来源：Beeswarm/bubble plot, sizes linear to scale. Selected highlights only. Alan D. Thompson. December 2022

　　大模型之外，ChatGPT成功的另一个关键因素是基于人类反馈的强化学习（RLHF）。如下图所示，RLHF的三个关键步骤是：模型微调、奖励模型和强化学习。

　　关于ChatGPT，值得掰开的11个细节｜微软(图5)

　　图片来源：《Training language models to follow instructionswith human feedback》

　　模型微调

　　基于迁移学习的技术原理，ChatGTP所用的GTP-3.5模型是在GTP-3模型基础上通过模型微调训练得到的，这意味着GTP-3.5是站在GTP-3这个巨人肩膀上训练得到的，大大节省了训练时间和训练所需的人工标注数据量。模型微调阶段，推测OpenAI投入了40+人的专业标注团队，用了10万量级的精标prompt训练数据。

　　奖励模型

　　为什么要有奖励模型？这是因为对于ChatGTP生成式的内容需要有个量化的评价指标，而且是机器可以给出的量化指标。

　　而所谓奖励模型，就是先让标注员对于一个promt生成的多个内容进行排序，然后计算机会计算生成内容两两之间的差异度。

　　训练之初，ChatGTP奖励模型对于差异度的评判是随机的，但经过不断地训练之后，奖励模型就能很好地进行区分，让排序第一和排序末尾的差异度最大，从而将排序第一的生成内容挑选出来。

　　强化学习

　　强化学习的思想同小孩子学走路的例子很像，有孩子的朋友都有体会，教小孩走路，我们不需要精确地告诉小孩迈腿的高度、踩下的时机、身体的倾斜度等等，就是放手让小孩走，摔倒了鼓励他爬起来再走，走得好我们就给他掌声。

　　其实我们的掌声就是奖励模型，当小孩听到掌声的时候，就知道他走路的各个控制参数是对的，小孩一次次听到掌声，就会一次次强化他走路模型中的参数，这就是强化学习的原理。

　　ChatGPT的强化学习就是基于第二阶段的奖励模型，通过对海量的Prompt输出的生成内容进行打分，然后更新GPT-3.5模型的参数，从而得到了强大的ChatGPT。

　　10

　　中小企业如何拥抱ChatGPT浪潮？

　　ChatGPT的技术原理并不复杂，但其成功是基于GPT-1到GPT-3.5不断迭代进化的过程，这个需要时间。

　　其次ChatGPT的训练是很昂贵的，据推测，ChatGPT训练使用的GPU资源达到万卡规模，单次训练费用大约是460万美元，训练时间为355个GPU年，总成本达到1200万美元。所以，研发类ChatGPT模型是头部AI公司的军备竞赛，不适合中小企业。

　　但是，ChatGPT的浪潮将惠及中小企业，对于中小企业来说，有两个切入点可以拥抱ChatGPT的浪潮。

　　对于偏做应用的企业，可以直接调用ChatGPT或者未来国内类ChatGPT模型的API接口，直接享受流畅的人机对话服务。

　　对于有特定领域数据积累的企业，可以基于ChatGPT的预训练模型进行模型微调，以及模型的蒸馏压缩，得到在特定领域能力更强的小模型，这背后的技术叫迁移学习。

　　在小数据量、低训练成本的情况下训练出一个高精度的模型，这个思想同现实中训练航天员很像。

　　航天员一般是从优秀的战斗机飞行员中选拔出来，就是因为航天员所需的体能和技能同飞行员的要求是相似的。优秀的飞行员经过长期的训练已经具备了相似的体能和技能，在此基础上训练成为合格航天员的速度和成功率就会更高。

　　● ● ●

　　关于ChatGPT，值得掰开的11个细节｜微软(图6)

　　中欧国际工商学院管理学助理教授

　　11

　　替代、机遇与竞争

　　ChatGPT的横空出世，是否意味着教育、软件开发、营销、金融这些当前依靠人力资源创造出巨大价值的行业，会经历颠覆式的改变？而人力资本和人类的智慧在这样的颠覆下，是否真的还有价值？

　　这样的灵魂拷问，在近几百年来技术突飞猛进的历史中，其实已经不止一次出现，从机械化到自动化，从互联网到数字化，似乎不断地验证着熊彼特关于市场经济驱动的创新所带来的创造性破坏。

　　我们有理由相信，ChatGPT及其背后日渐成熟的人工智能技术，也正在成为创造性的破坏力，推动着产业结构和劳动力技能的不断升级和迭代。

　　但ChatGPT的直接影响在某种程度上是被高估了的，其对现有商业和经济活动中的创新和决策流程，或许并没有想象中的替代性。

　　战略管理研究中，卡耐基学派的开创者赫伯特·西蒙在1947年出版的《管理行为》和其后著作中曾指出：个体和组织所做的决策和创新，本质上都是以问题为导向的信息搜索、分析与整合。而信息搜索的广度和整合的能力，则决定了创新和决策的效果。人工智能替代人力资本的终极条件，是真正能够实现自主的创新和决策。

　　ChatGPT问答的方式首先意味着这样的生成式人工智能技术是无法自主发现问题的，那么由其主导的「创新」和「决策」也无从谈起。

　　同时，ChatGPT也不应成为决策中信息搜索的手段。与搜索引擎侧重信息的全面和准确性不同，自然语言模型的处理，侧重的是语言逻辑上的顺畅表达，因此也无法实现有效决策和创新过程中所必须的知识整合。

　　实际上，用生成式人工智能完全替代复杂决策中的信息搜索和整合是很危险的，这意味着将信息的筛选和权衡全部交给了算法，由此产生的信息茧房和认知偏差不仅无法达成创新，甚至会导致生产力和创造力的后退。

　　特别声明：以上文章内容仅代表作者本人观点，不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。

<<让ChatGPT更全面的运用于自动化开发与设计

“ChatGPT之父”出手救急；中国科学家发现新磁子态；B站或将取消播放量显示>>

关于ChatGPT，值得掰开的11个细节｜微软

您可能还会对下面的文章感兴趣：

随便看看