大模型能力竞争终局已定

其惊人的能力引起激烈的讨论:包括老生常谈的「GPT 是否会让某些工作岗位岌岌可危」;是否 GPT 的 iPhone 时代已经到来;是否一批 LLM 方向的 AI 创业公司即将失去生存空间,OpenAI 是否会「赢者通吃」?

2023 年 11 月 6 日兴许会成为一个人类历史上一个里程碑式的时刻,在这一天,美国旧金山迎来了万众瞩目的首次 OpenAI DevDay。期间,OpenAI CEO Sam Altman 展示了无比强大的 GPT4-turbo 和各种面向开发者的更新,这些新的功能覆盖了几乎市场对 ChatGPT 所期望的方方面面,从多模态到长文支持,从外部知识库到 API 指令集,从全面性能更高的性能到全新的 GPT Store。

其惊人的能力引起激烈的讨论:包括老生常谈的「GPT 是否会让某些工作岗位岌岌可危」;是否 GPT 的 iPhone 时代已经到来;是否一批 LLM 方向的 AI 创业公司即将失去生存空间,OpenAI 是否会「赢者通吃」?

这次堪称史诗级的迭代更新,带来纷繁复杂的社会讨论,和未来的无限可能。相较于去追逐细化的各个功能性更新,了解未来发展的脉搏其实才是关键。为此,我们不再赘述各种新功能的意义,而是基于两个核心观点,从科技发展的脉络梳理未来,我们也许正站在新工业革命的新分界点:

1.过往: GPT-3.5 就已经 预示着 LLM 大模型竞争时代的结束

2.未来: 围绕 Agent 的新时代开启,我们称之为 Agent-Centric

这次 DevDay 的主要内容恰恰是「过去」与「未来」中继往开来的里程碑。

大模型能力竞争终局已定

01、GPT 能力的完善与大模型能力竞争的终结

OpenAI 发布 ChatGPT3.5 引爆市场的几个月间,引发了一场大语言模型「大跃进式」的风暴。互联网巨头、风险投资、企业家、AI 初创企业和开源社区投身于大模型的竞赛之中,各种大模型初创公司,各种开源模型层出不穷。在这场混战中,各家大模型都在理解力、数学逻辑、推理、创作等各种能力上你追我赶,而其目标几乎都是能够在综合能力上追赶 ChatGPT。为了战胜 ChatGPT,行业中几乎共识出两个重要的方向,即

1.多模态支持:认为人类的能力和思想来源于语言,文字,画面各种维度,所以实现多模态是超越 LLM 很重要的方式之一

2.记忆力与 token 长度:LLM 最大的亮点之一便是语境中分析,而之前只能支持很短的描述限制了 LLM 的能力,所以,也有想通过增强记忆来提升模型,超越 ChatGPT

大模型能力竞争终局已定

然后实际的事实却大相径庭,ChatGPT 不但在不同版本发布后能力上遥遥领先,而这次的 GPT-4 Turbo 的两个重要改进就是:多模态支持,包括语音,图片,视频等等;128K Token 的长文本支持,大致相当于 300 多页的图书,直接秒杀行业中找到的两个突破方向,结束了比赛。

多模态支持和长文本处理能力的突破注定会被 OpenAI 实现,这背后主要有两个原因。首先,大型语言模型(LLM)的成功很大程度上归因于一种‘暴力美学’,即通过大规模参数的增加实现性能的飞跃和涌现能力的出现。这种方法的核心在于其泛化能力——从一个问题的解决方法中发现解决另一个问题的途径。OpenAI 在模型理解和经验方面处于行业领先地位,加之在基础设施、算力和数据等方面的优势,使其成为这一领域的领跑者。其次,对于多模态和长文本支持这两个方向,由于 AI 研究领域的长期积累,这些主要变成了工程上的实现,而不再是理论上的障碍和挑战。实际上,GPT3.5 问世所体现的泛化能力和在涌现上的突破,就已经是决定性的,也预示着 LLM 能力之争的终结,最近 GPT4-Turbo 的更新只是让这件事情成为既成事实,同时也开启了整个 LLM 革命的新时代。

需要指出,大模型能力之争的终结并不指只有 OpenAI 一家公司独大,而是指其它大模型所发展的方向和生存,不再是以模型基础能力为主要考量,将会向更多复杂的因素延展。

总体来说,大模型竞争格局开启「一超多强」时代,其中 OpenAI 凭借其领先的技术成为「一超」,能力不断的提升,展示了大模型基础性能的天花板;与此同时,一批实力雄厚公司所研发的大模型,虽然在性能上与 OpenAI 的大模型有差距,但是依靠特定方向的能力提升或者其它赛道上的独特优势成为大模型领域的「多强」。在特定地域、特定应用场景、特定生态系统中占据绝对优势。

值得一提的是,在这「多强」中有很重要的一支力量就是开源模型,并且扮演了重要的角色。作为新时代底层基础设施的核心,越是底层,越强调民主和开源精神。如果大公司的大模型强调的是特异化的功能和生态支持提升体验,那么开源模型则具有易于获取和成本效益高的特点。开源模型不仅推动了技术的广泛传播和创新,而且为 AI 创业者提供了一个快速迭代和验证新理论、算法的有效平台,这对新技术的发展和商业化至关重要。如此,开源模型与大公司的闭源模型相辅相成,形成了一个动态平衡和互补的生态系统。

这样的大趋势和新生态系统正在形成中,「一超」的领地门槛高,很难突破,而多强的机遇,正在逐渐显现,其中最大的主线就是新型 AI Agents,各种 AI Agents 将会开启新的智能代理时代。

02、新工业革命时代的 Agent-centric 开启

回顾整个数字时代历史,每个时期都有一个最核心的产品形态,这个核心产品形态是技术能够被全面应用和普惠到每一个人日常生活的媒介,也是在时代革命中最能产生价值和机会的领域。

最近的两次是互联网和移动互联网。以 PC 为主的互联网时代,最重要的产品形态自然是网页,是人们与虚拟交互门户,围绕这个核心,互联网时代即诞生过.com 的巨大泡沫,在泡沫过程中,有潮起潮落的新企业,例如 Yahoo,网景等等,更有抓住了时代机遇,站立在今天世界巅峰的新科技巨头,例如 Google,Amazon,eBay,Microsoft 等等。

在移动互联网时代,我们每天接触的就是各种 APP,APP 就是这个时代的核心产品形态,这个时代成长起来的科技巨头包括国外的 Facebook、Uber、Airbnb,国内的腾讯、阿里、字节跳动都。

APP 是这些巨头曾经一步一步进入人们生活的点点滴滴的媒介。在如今的大模型 AI 时代,这个媒介就是新的 AI Agent,或者说由大模型驱动和赋能的 AI Agent。

从「一超」OpenAI 的 DevDay 来看,这次被行业讨论最多的更新恰恰就是针对 Agent,让普通人和开发者能够以更低的门槛去参与这次 AI 浪潮。

1、OpenAI 面向开发者:Agent 的核心组件

新型 Agent 区别于上一代 AI 或者模型,粗略讲包括以下几个部分:

1.以大模型来实现大脑能力,提供最直觉的结论

2.以记忆和知识库为核心,为特定的领域和目标提供精准的结果,去除「大脑」产生的幻觉

3.以各种外部 API 作为触手,将 Agent 得出的各种结论,转化成实际的行为

除了前面提到的 GPT-4 Turbo 的能力,给了未来各种 Agents 一个更强大的「大脑」,这次 DevDay 的其它更新,其实也都是围绕着构建 Agent,除了一些降低开发门槛,改进开发体验的更新,我们特别要提的三个重要更新,正好与上面 Agent 的核心组件相关:

1.知识数据库 (retrieval platform):任何智能代理的基础都是其知识库。在 DevDay 上,知识数据库的增强成为了焦点,强调了代理(Agents)从广阔、动态的特定信息库中提取知识的能力。DevDay 之后全网火爆的各种 GPTs,最重要的就是使用了这个新的知识库。

2.执行能力:代理不仅能解释任务,更能执行任务的能力被突出展示。这些能力标志着向更加自主、主动的 AI 系统的转变,这些系统能够在最小的人工干预下运作。

3.GPT 商店 – 应用市场:就像曾经革命性地改变了手机使用方式的应用商店一样,GPT 商店即将成为一个以 AI 代理为核心的应用中心市场。这个平台将成为推动众多 AI 驱动服务和创新的跳板。OpenAI 用自己的用户流量和已有生态为未来的 Agent 提供更好的用户获取。

大模型能力竞争终局已定

2、Agent-Centric 时代的开启

正如我们所说的,我们将大模型理解为一个更加基础的新基建,那么在这个基建阶段性完善后,这个世界将迎来基于这个新基建的大变革,这也是我们所说的由大模型引发的工业革命,而在这个革命中,Agent 就是那个核心产品形态,不仅是最上层与所有人交互的媒介是 Agent,整个产业的发展,无论是底层技术,商业模式,中间组件,甚至是人们的生活习惯和行为都会围绕 Agent 来改变,这就是我们所说的 Agent-Centric 时代的开启。

在未来的十年,以大模型作为新基建,Agent 作为核心的产品形态很可能成为大众用户交互的媒介。提升 Agent 的相关性能、体验和使用领域,即将成为推动整个产业链——从底层技术到商业模式的核心目标,Agent 改变人们习惯和行为或成为未来人类社会最重要的范式转变,这就是 Agent Centric 时代的到来。

这里特别要提一下在 Agent-Centric 时代中,Agent 与 LLM 的关系。普遍的观点会觉得 LLM 与 Agent 的关系类似于操作系统(安卓,IOS) 与 APP 之间的关系,这种比喻有助于我们理解 LLM 如何为 Agent 提供智能平台和基础架构。就像这次 DevDay 发布的 GPT Store 被很多人称为「GPT 的 iPhone 时刻」一样,预示着基建的阶段性成熟和 Agent 生态的开启。 

然而这种类比其实遗落了一个这次工业革命很重要的一个原动力——能力的进化。

对应互联网时代的工业演化,将 LLM 比作互联网基础设施可能是一个更为贴切的比喻。在这个类比中,大模型仿佛是互联网本身,而每个 Agent 则像是利用互联网能力的独特应用程序或网站。

正如 4G 和 5G 的推出催生了新一代的应用和服务,大模型的能力提升也将导致 Agent 的创新和进化。这不仅仅是我们对未来的期待,更体现了 LLM 和 Agent 之间深层次的联系和相互依赖。这个类比还预示着未来一种新的无限可能:互联网时代,我们通过网页,APP 与地球上任何角落的其他人直接交换信息和沟通,而未来人与人之间交流都是通过 Agent 的间接交互,这种全新的交互可能会完全改变我们在互联网时代以及移动互联网时代形成的行为和社会协作,我们也将在未来的系列内容中进一步深入探讨这种最深层次的范式转变。

在 2023 年上半年 Stanford 发表关于 Agent 小镇的研究工作,就预示了 Agent-Centric 时代的到来,而 11 月 6 日 OpenAI 的 DevDay 再次给出了里程碑式的提升和印证。全新的时代机遇到来令人兴奋,同时大家也会有疑惑,会不会过段时间 OpenAI 又更新了,之前想做的东西又没用了?巨头是否会赢者通吃?如何才能拥抱 Agent 时代?

03、机遇:跨越临界点之后的方向

在新的工业时代,应该用什么样的方法论去寻找努力和发展的方向,或者说如何才能实现未来的百花齐放的 Agent 世界?一个最基本的原理当然是:做离 OpenAI 最远的东西,从另一个角度「人」去思考问题。之所以 DevDay 让许多创业公司需要重新思考业务、方向和估值模型,很大的根本性原因还在于,很多思维依然停留在为 OpenAI 做一点点乐高式的叠加工作,从 ChatGPT 性能和不足等各种小的角度去做一些中间组件,但是在能力这个维度上,这些「一点点」自然也是 OpenAI 要做的方向,每当 OpenAI 快速迭代后,自然也就失去了原有的高光,甚至迅速失去生存空间。 

那么什么是最远离 OpenAI 东西?

1.专业化和个性化,专注自上而下的发展:市场上对高度专业化和个性化解决方案的需求日益增长。在一个由 OpenAI 的广泛能力定义标准的领域里,为特定行业或用户需求提供定制服务具有巨大的价值。如果大模型是普适的底座,那么 Agent 就会出现各个方向上专属的适配。

2.超越 LLM,做 LLM 做不了的高级认知能力:未来属于那些推动 AI 在认知方面能力极限的人。这包括两个方面:1.开发具有长期记忆和类似人类系统;2.具有思维的主动推理能力的 Agent:GPT-4 Turbo 给出了长 Token 更新,使得 GPT 能够一次性理解一盘 300 页的长文,能够在一段时间记住一篇文章和人类的长期记忆还是有很大的不同的,如何去处理、模拟、超越人的长期记忆是 Agent 方向很重要的课题,也是超越 OpenAI 能力的一个重要的方向。

和长期记忆相关的,另一个重要的能力就是所谓人脑的 System2 能力,这是由诺贝尔经济学奖得主(2002 年)Daniel Kahneman 在其著作《思考:快与慢》中提出人脑的能力可以分为 System1 和 System2。大模型其实是「人脑」system1 的能力,更偏向于直觉,经验,和「快」反应,这是大模型作为预测模型所决定的,那么 Agent 能做的就是补充 System2 的「慢」能力,和长期记忆结合,提供更加复杂的决策、逻辑归因、推理、创作等等。

3.从指令反馈系统转变为能够主动规划和自主决策的系统:在过去大量 Agent 是被动交互,即在人类起始指令和最终目标的指引下,去完成特定任务,那么大模型驱动的 Agent 潜在的可以自己主动的去做规划和自主决策,主动与用户交互,给到完全不一样的体验。这也是大模型本身目前不具有的高阶功能,而且是没有办法完全标准化的功能。这样的能力需要在 Agent 层面实现。

4.重塑人机互动 HCI(Human–Computer Interaction):前面我们就提到了 Agent 在未来会极大重塑人与人之间交互的方式。那么随着大模型本身的提升和对 Agent 更多的支持,我们甚至会重新定义人与机器之间的交互界面和方式,我们的目标应该超越协助,发展成为合作伙伴关系,在这种关系中,AI 系统参与复杂问题的解决和共同创造。

04、结语:深入研究 Agent 的重要性 

(由 GPT4 生成,笔者修改)

在 OpenAI DevDay 展示的技术进步和对未来工业革命脉动的深刻洞察基础上,我们可以预见 AI Agent 的核心角色将成为推动未来技术革新和社会变迁的关键。在这个由 Agent 主导的新纪元,我们不仅将见证技术的突破,还将经历人类行为和社会合作模式的深刻变革。

作为新时代的媒介和合作者,AI Agent 将在提升生活质量、优化商业流程、乃至催生新兴行业方面发挥至关重要的作用。未来的探索和讨论将不可避免地集中于 AI Agent 的开发、应用以及它们如何以全新的方式与人类互动。因此,我们计划在后续的文章中,从工业革命的进程、分类、技术架构、能力突破以及范式转变等多角度系统性地解析新型 AI Agent 的未来发展和技术迭代。希望能够通过深入探讨 AI Agent 的本质和未来走向,了解和进一步把握这个激动人心的时代变革的脉搏。

矢量AI门户网,优质AI资讯内容平台

(0)
上一篇 2023年11月18日 上午10:53
下一篇 2023年9月5日 下午5:18

相关推荐

  • 微软不想被OpenAI架空

    但商场的拳台上没有裁判叫停,扎克伯格说 Threads 的用户规模目标是 10 亿。而只有达到 10 亿目标以后,Meta 才会认真考虑 Threads 赚钱的问题。这一数字相当于推特目前规模的两倍。

    2023年7月31日
    99
  • 第一批用AI炒股的人,完美错过了美股科技股牛市

    至少有 13 家交易所交易基金(ETF)已经利用 AI 应用来管理投资组合。然而,几乎所有这些基金在今年由科技股带动的市场上涨中都未能获得好的回报。相较于标准普尔 500 等基准指数,它们的表现都显得逊色。考虑到投资者对 AI 主题的热情,这颇具讽刺意味,也反映出在股票挑选这一极具竞争性的领域中,技术的局限性。

    2023年8月22日
    148
  • GPT创业四个月,收益几十块

    一位昵称「深绘」的个人开发者,前两天他将自己的创业经历分享到某平台后引来众多关注。他从 3 月份开始基于 GPT 开发网站,实现了联网、画图、修改主题、保存日志,甚至是充话费功能。然而,从 3 月到现在自己累积投入五六千元,注册用户五六千人,收益只有几十块。

    2023年7月21日
    109

发表回复

登录后才能评论