大模型没有护城河?OpenAI的“LLM城池”如何攻破,如何防守

作者 | Ben Dickson

译者 | 李睿

审校 | 重楼

出品 | 51CTO技术栈(微信号:blog51cto)

小模型、开源模型正在猛攻GPT-4,OpenAI需要更完善的措施来构建技术方面的护城河,以保护其LLM业务。

2023年5月,谷歌公司泄露的一份内部文件揭示了ChatGPT和GPT-4等大型语言模型(LLM)面临的挑战。这份文件的主要观点是,谷歌公司和OpenAI没有为他们的私有大型语言模型(LLM)构建技术方面的“护城河”。开源模式最终将主导LLM市场。

这份文件中写道:“虽然我们开发的LLM在质量方面仍有一定的优势,但这种优势正在惊人地迅速缩小。开源模型处理速度更快、更可定制、更私密,而且功能更强大。”

而在不到一年的时间里,这份文件中提出的大多数警告都被证明是正确的。开源模型在质量上正在迅速赶上,它们更加灵活,训练和微调的速度也更快。

然而,随着生成式人工智能领域的发展,OpenAI正在采取更加完善的措施来构建技术方面的护城河,以保护其LLM业务。但这一策略并不一定奏效。

1、OpenAI的护城河是如何被攻破的

当OpenAI发布ChatGPT时,大多数观点认为LLM将会随着应用量的增长而改进。GPT-3拥有1750亿个参数,需要采用数百GB的GPU内存和巨额投资来训练和运行。在2022年发布的一些开源LLM是如此庞大和笨拙,以至于很少有企业可以运行它们。

初始,训练和管理LLM的高昂成本就是一条护城河,只有资金充足的企业有实力拥有和开发。OpenAI利用其先发优势确立了自己的领先地位。该公司推出的GPT-3以及后来的ChatGPT和GPT-4实际上已经成为构建LLM应用程序的首选模型。

在其他大型科技公司竞相追赶和投入资金之际,规模较小的企业只能希望通过API购买这些LLM的使用权。

然而,DeepMind研究人员在2022年进行的一项研究表明,开发人员并不需要运行规模巨大的LLM就能获得最先进的结果。这项对名为Chinchilla模型的研究表明,在非常大的数据集上训练的小模型可以与大模型的性能相匹配。研究人员表示,Chinchilla模型的参数为700亿个,其性能优于当时其他最先进的LLM。

虽然DeepMind没有将Chinchilla开源,但其训练方法引领了一个新的研究方向。Meta在2023年2月发布了Llama,这是一个LLM系列,其参数从70亿个到650亿个不等。Llama模型接受了1.4万亿个Tokens的训练,而GPT-3只有3000亿个Tokens。

Llama模型具有资源效率和高性能,并在几个关键基准测试中与ChatGPT进行了比较。而且Llama是开源的,这意味着开发人员能够以非常低的成本直接在他们的服务器上运行它,甚至可以在单个GPU上运行。

在Llama模型发布之后,DeepMind又发布了一系列其他的开源模型,每个模型都是在之前的基础上构建和改进的。许多LLM产品附带许可,允许开发人员使用它们创建LLMLM产品。

模型压缩、量化、低秩适应,以及多年来其他发展起来的技术,使开发人员和企业在其应用程序中采用开源模型变得越来越方便。新的编程框架、低代码/无代码工具和在线平台使一些企业在其基础设施上定制和运行LLM变得更加容易,并且承诺了一些创新,例如在边缘设备上运行的高性能LLM。

公平地说,OpenAI的LLM模型在性能上仍然具有一定优势,目前还没看到能够赶超GPT-4的LLM。但是一些开源模型已经达到并超过了GPT-3.5的性能,而它们赶超GPT-4和其他最先进的LLM只是时间问题。

开源模式将会夺走大型科技公司的技术优势,并使LLM实现商品化。随着转换成本的下降,越来越多的企业将被激励从GPT-4转向低成本的开源模式。即使这些模型在性能上还没有赶超GPT-4,但大多数企业都有专门的需求,可以通过精心调整的LLM来满足这些需求,这种模型的成本很低,并且可以满足数据所有权和隐私等其他需求。

2、GPT商店、用户绑定和集成

由于没有基础设施和技术方面的护城河,OpenAI需要转向其他方面,以确保其业务的可防御性。该公司已经采取了一些战略举措来建造新的护城河。

该公司这一战略的一个重要部分是围绕其旗舰产品ChatGPT创造网络效应。OpenAI在去年11月首次宣布计划推出的GPT Store已上线运行。它是苹果应用商店的人工智能版本,允许用户和开发人员分享他们定制的LLM版本供其他人使用。虽然大多数GPT都将死掉,但其中一些LLM将非常有用,能够提高生产力。

OpenAI还将提供企业功能,允许注册ChatGPT团队计划的企业拥有自己的私有GPT商店。

OpenAI的想法是,有了足够的临界质量,用户会坚持使用ChatGPT,更多的用户会注册ChatGPT Plus计划来访问GPT商店。开发人员将会一直使用这个平台,让他们的产品能够接触到更多的用户。随着发布更多的ChatGPT的内容,用户的大规模使用也将为该公司进行免费宣传,进一步使其成为LLM应用程序的实际载体。

OpenAI正在通过盈利强化网络效应。该公司在其网站声称,“在2024年第一季度,美国GPTs构建者们将根据用户与GPT的互动程度获得报酬。”这意味着他们将激励用户最大程度的参与,以提高产品的粘性。但它也会产生复制社交媒体所有不好的事情的负面影响。

与此同时,OpenAI将加强数据网络效应,以不断改进其产品。如果用户使用的是免费计划,OpenAI将收集他们的数据来进一步训练它的模型。如果用户使用的是ChatGPT Plus计划,除非选择退出数据收集计划,否则他们的数据仍将被收集。

例如,OpenAI在其推特上向用户发布这样的信息:“嘿,你可以在设置页面上选择退出训练,无论是免费还是附加计划。我会确保让团队知道,并在网页上澄清这一点——willdepue (@willdepue) 2024年1月11日”。

另一项重要工作是降低运行ChatGPT的成本。OpenAI首席执行官Sam Altman最近在接受采访时表示,该公司已经成功地将LLM的运营成本降低了40倍。随着开源LLM继续赶超ChatGPT,降低成本将使OpenAI能够为免费和付费用户推出更多功能。

OpenAI也在为未来发展做准备。据称OpenAI在自己的设备上运行ChatGPT,这可能是围绕其LLM专门构建的。这将赋予它垂直整合的力量,就像苹果公司对iOS生态系统的铁腕控制一样。人们看到的可能是计算领域新范式转变的开端。随着该领域的发展和新的计算范式的出现,OpenAI准备推出其垂直堆栈。

参考链接:https://bdtechtalks.com/2024/01/15/how-openai-is-building-its-moat/

文章来源:51cto

联系邮箱:idea2003@foxmail.com

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注