Meta版ChatGPT遭开源代码泄漏，开发者称新 AI 大模型推理速度优于GPT

2023-03-06

　　 Meta版ChatGPT遭开源代码泄漏，开发者称新 AI 大模型推理速度优于GPT(图1)

　　Meta 公司参展 2022 年上海进博会（图片来源：钛媒体 App 编辑拍摄）

　　继微软、谷歌之后，脸书（Facebook）母公司 Meta Platforms（Nasdaq：META）也加入了人工智能（AI）军备竞赛。

　　全力押注元宇宙的 Meta 公司于 2 月下旬发布了新的开源 AI 语言生成大模型（LLM），名为 LLaMA（Large Language Model Meta AI），在帮助研究人员更好推进 AI 相关应用工作。

　　Meta 宣称，尽管 LLaMA 参数规模仅为竞争对手 ChatGPT 的 " 十分之一 "，但性能却优于 OpenAI 的 GPT-3 模型。目前 Meta 提供 70 亿、130 亿、330 亿和 650 亿四种参数规模的 LLaMA 模型。

　　3 月 5 日，一位名为 @Enryu 的开发者在 Medium 平台发文，比较了 LLaMA 和 ChatGPT 在多个开发挑战任务中的效果。结果显示，LLaMA 训练过程算法大部分比 ChatGPT 训练更快、更便宜。他认为，与 ChatGPT 相比，LLaMA 架构更小，但训练过程和单 GPU（图形处理器）芯片推理速度更快，成本更低，而且该库还支持所有 LLaMA 模型架构，用户可对模型进行微调等。

　　与此同时，3 月 6 日，国外匿名论坛 4chan 泄露了 LLaMA 成品库，并且种子文件被合并到了 Meta Research 的 GitHub 上，同时一些项目维护者给予了批准，目前该项目在 GitHub 上已收获 7000 多个星。

　　Meta 首席执行官马克 · 扎克伯格（Mark Zuckerberg）表示，LLaMA 模型旨在帮助研究人员推进工作，在生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等更复杂的任务方面有很大的前景。

　　这意味着，LLaMA 不会像 ChatGPT 一样形成消费级（C 端）产品，而是更强调行业应用。

　　据悉，大模型（LLM）又称为预训练模型、基础模型等，是 " 大算力 + 强算法 " 结合的产物，通过大规模无标注数据上进行训练，然后基于大模型进行应用开发与微调，就可以完成多个应用场景的任务。OpenAI 推出的 ChatGPT，是通过其 AI 大模型、1750 亿参数 GPT-3 的基础上通过指令微调后得到的，即 13 亿参数的 InstructGPT。基于深度学习框架 Transformer 以及 GPT 技术，ChatGPT 不仅可以更好地答题、翻译、写文章，还带有一些数学计算的能力等。

　　因此，根据 Meta 的说法，训练 LLaMA 等较小的基础模型是理想的，用极低的计算能力和资源来测试、验证和探索新的用例，更好适应各种任务定制。比如谷歌推出的 Bard，使用的是轻量级 LaMDA 模型，相比标准版本，轻量化版本模型所需要的运算能力较小，能面向更多使用者开放，使其参与体验。

　　Meta AI 团队隶属于前身 Facebook 人工智能研究中心 ( FAIR），于 2013 年 9 月成立，旨在开发各种形式的人工智能，改进增强现实和 AI 技术。FAIR 由纽约大学深度学习教授、图灵奖获得者杨立昆（Yann LeCun）领导，核心研究包括学习模型支持的记忆网络、自我监督学习和生成对抗网络、文本分类与翻译等方面。2017 年，FAIR 发布开源机器学习框架 PyTorch，随后被用于多种深度学习技术，例如 Tesla 的自动驾驶技术等。2022 年，该团队在两周内利用 AI 预测了 6 亿种潜在蛋白质形状。

　　Meta AI 在其研究论文中指出，在一些基准测试中，LLaMA 130 亿参数规模的模型性能优于 OpenAI 推出的 GPT-3，且能跑在单个 GPU 上；650 亿参数的 LLaMA 模型能够和 DeepMind 700 亿参数的 Chinchilla 模型、谷歌 5400 亿参数的 PaLM 模型竞争。一旦经过更广泛的训练，LLaMA-13B 可能会成为希望在这些系统上运行测试的小型企业的福音，还可以在单个数据中心级 Nvidia Tesla V100 GPU 上运行。但是，它要让它脱离开发者独立工作，还有很长一段路要走。

　　 Meta版ChatGPT遭开源代码泄漏，开发者称新 AI 大模型推理速度优于GPT(图2)

　　与其他大型语言模型一样，LLaMA 的工作原理是将一系列单词作为输入，并预测下一个单词以递归生成文本。不过有趣的是，LLaMA 是继 Glactica 和 Blender Bot 3 之后，Meta 发布的第三个大规模语言模型，前两个大模型在实际应用效果不尽如人意后立即被关闭。

　　Meta 首席 AI 科学家杨立昆称，团队将致力于这种开源模型的研究，新模型会开源给整个 AI 研究社区使用，并授予大学、非政府组织和行业实验室访问权限。另外，Meta 表示其还有更多研究需要做，以解决大型语言模型中的偏见、有害评论等风险。

　　实际上，这场 AI 军备竞赛仍在持续。

　　3 月 2 日凌晨，OpenAI 发布了 Beta 版本的 ChatGPT API，并以收费形式提供给用户使用。据介绍，本次开放的 API 背后模型被命名为 GPT-3.5 turbo，使用了与 ChatGPT 相同的模型。截至目前已经有五家公司宣布接入了 ChatGPT API；

　　OpenAI 投资人、重返世界首富的特斯拉 CEO 马斯克（Elon Musk）也开始表达对 AI 的兴趣。3 月 3 日消息指，马斯克正在接洽研究人员，希望组建一个新的研究实验室，开发能够研发 ChatGPT 替代产品。

　　近期 Meta 披露的 2022 年第四季度财报显示，该公司已连续三个季度出现营收同比下滑，四季度营收 312.54 亿美元，同比下降 4%。其中，广告为 Meta 的支柱业务，为第四季度的总营收贡献超 97%，报告期内，尽管广告展现量增长了 23%，但单位广告价格下滑了 22%。

　　截至美东时间 3 月 3 日收盘，Meta 股价涨 6.14%，报收 185.25 美元 / 股。相比 2022 年股价大跌 6 成，今年初至今，Meta 股价出现回调，大涨近 49%。（本文首发钛媒体 App，作者｜林志佳）

　　更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App

<<ChatGPT与人类未来：AI茧房、安全漏洞与未知的社会形态

当ChatGPT遭遇东方力量：“八边形战士”、“概念猫”刷存在感潮水褪去到底谁在裸泳？>>

Meta版ChatGPT遭开源代码泄漏，开发者称新 AI 大模型推理速度优于GPT

您可能还会对下面的文章感兴趣：

随便看看