GPT-4突然变得「更懒」、「更笨」,原因为何?

最近几周,OpenAI GPT-4 的用户一直在抱怨性能下降,一些人称该模型与之前的推理能力和其他输出相比「更懒」、「更笨」。甚至在 6 月初,有用户开始反映 GTP-4 生成的代码质量大不如前。

作为世界上最强大的人工智能模型,GPT-4 突然变得不那么强大了。 这让业内人士纷纷议论该系统可能会进行重大重新设计。

GPT-4突然变得「更懒」、「更笨」,原因为何?

最近几周,OpenAI GPT-4 的用户一直在抱怨性能下降,一些人称该模型与之前的推理能力和其他输出相比「更懒」、「更笨」。甚至在 6 月初,有用户开始反映 GTP-4 生成的代码质量大不如前。

用户在 Twitter 和 OpenAI 的在线开发者论坛上表达了他们的不满,涉及诸如逻辑弱化、错误响应增多、无法跟踪所提供的信息、难以遵循指令、忘记在基本软件代码中添加括号以及只记住最近的提示等问题。

一位使用 GPT-4 帮助他为其网站编写功能的开发人员写道,

「当前的 GPT4 令人失望。这就像开了一个月的法拉利,然后突然变成了一辆破旧的旧皮卡。我不确定我是否再愿意为此付钱。」

Roblox 产品负责人 Peter Yang 在推特上表示,该模型生成的输出速度更快,但质量较差。 「只是一些简单的问题,比如让写作更加清晰、简洁以及产生想法。 但我认为写作质量下降了。」他还询问其他人是否注意到这一点。

另一位用户 Frazier MacLeod 回答说:「我发现 GPT-4 变懒了。」

用户 Christi Kennedy 在 OpenAI 开发者论坛上写道,GPT-4 已经开始一遍又一遍地循环输出代码和其他信息。她写到:

「与以前相比,这简直是脑死亡。如果你没有真正体验过它以前的功能,你就不会注意到。但如果你之前真正充分使用过它,你会发现现在它显然要愚蠢得多。」

从缓慢且昂贵,到快速但不准确

与今年早些时候相比,这是一个很大的变化,当时 OpenAI 凭借 ChatGPT 的表现令世界惊叹,科技行业满怀期待地等待着 GPT-4 的推出。 ChatGPT 最初运行在 GPT-3 和 GPT-3.5 上——这些是巨大的底层人工智能模型,为其不可思议的答案提供了动力。

更大的 GPT-4 于 3 月份推出,并迅速成为开发人员和其他科技业内人士的首选模型。 它被广泛认为是现有的最强大的人工智能模型,并且它是多模态的,这意味着它可以理解图像和文本输入。

在最初急于尝试这种新模型后,一些人对使用 GPT-4 感到震惊。 Lamini 是一家帮助开发者构建定制大型语言模型的初创公司,其首席执行官 Sharon Zhou 表示,新模型虽然速度缓慢,但非常准确。

忒修斯之船

直到几周前,情况都是如此。 然后 GPT-4 速度变得更快,但性能明显下降,这引发了整个人工智能社区的讨论,Zhou 和其他专家表示,这表明重大变化正在进行中。

他们表示 OpenAI 可能会创建几个较小的 GPT-4 模型,其行为与大型模型类似,但运行成本更低。

Zhou 说,这种方法被称为「专家混合」(MOE)。 较小的专家模型根据自己的任务和学科领域进行训练,这意味着可能会有一个专门研究生物学的 GPT-4,以及一个专门研究物理、化学等的 GPT-4。 当 GPT-4 用户提出问题时,新系统会知道将该查询发送给哪个专家模型。 为了以防万一,新系统可能会决定向两个或多个专家模型发送查询,然后将结果混合在一起。

「这个想法已经存在了一段时间,这是自然而然的下一步发展,」Zhou 说。

Zhou 将这种情况与「忒修斯之船」进行了比较,这是一个思想实验,随着时间的推移,船的一部分被替换掉,引出了一个问题,什么时候它会变成一艘全新的船?

「OpenAI 正在修改 GPT-4 并将其转变为由较小船只组成的舰队。从我的角度来看,这是一种新模式。有些人会说它是一样的。」

本周,几位人工智能专家在 Twitter 上发布了他们所说的 GPT-4 架构的详细信息。 一家初创公司的创始人 Yam Peleg 在推特上表示,OpenAI 通过使用由 16 个专家组成的 MOE 模型,能够降低成本。 

艾伦人工智能研究所首席执行官 Oren Etzioni 写道:「我『推测』这些猜测大致准确,但我没有得到证实。」

他说,使用 MOE 方法有两个主要的技术原因:生成更好的响应,以及更便宜、更快的响应。

Etzioni 补充道:「『正确』的混合可以同时满足两者,但通常需要在成本和质量之间进行权衡。在这种情况下,有传闻称 OpenAI 正在牺牲一些质量来降低成本。这些模型很难评估(什么构成更好的响应?在什么情况下?)所以这不科学,只是轶事。」

OpenAI 在 2022 年的研究中撰写了有关 MOE 方法的文章,该研究由 OpenAI 总裁、该公司联合创始人格雷格·布罗克曼 (Greg Brockman) 共同撰写。

布罗克曼和他的同事 Lilian Weng 当时写道:

「使用专家混合 (MoE) 方法,仅使用网络的一小部分来计算任何一个输入的输出。一个示例方法是拥有多组权重,网络可以通过以下方式选择要使用的一组权重: 推理时的门控机制。这可以在不增加计算成本的情况下实现更多参数。每组权重都被称为『专家』,希望网络能够学会为每个专家分配专门的计算和技能。」

Zhou 表示,GPT-4 最近几周令人不安的性能下降可能与这次训练和 OpenAI 推出的这批较小的专家 GPT-4 模型有关。

Zhou 说,「当用户测试它时,我们会问很多不同的问题。它不会做得那么好,但它会从我们那里收集数据,它会改进和学习。」

OpenAI 处境堪忧

在凭借 ChatGPT 和 GPT-4 的经验表现而响彻全球科技界并且拿下 10 亿月活量之后,OpenAI 似乎在最近一段时间陷入了困境。距离 GPT-4 在 3 月 15 上线已过去近 4 个月,OpenAI 在产品开发和迭代速度上似乎有所放缓,而让人期待的 GPT-5 音讯全无,而 GPT-4 又频频掉链子。

另一个糟糕的事情是,OpenAI 的增长正在陷入停滞。SimilarWeb 数据显示,6 月份,ChatGPT 增长明显放缓,ChatGPT 的网站与移动客户端的全球流量(PV)环比下降了 9.7%,美国地区的流量环比下降了 10.3%。但增长放缓的并不只是 ChatGPT,根据 AceCamp 的数据,几乎所有的 AI 聊天机器人,在用户数量上,增长都已经停滞,甚至开始出现下降趋势。但这种下降也是必然会出现的,前期增长太快,该使用的用户已经使用,不用的用户仍然不会去用。

如果说 ChatGPT 增长放缓是一种自然趋势,那么 OpenAI 面临的监管困境则是另一个麻烦。当前的生成式 AI 浪潮受到了全球监管机构密切关注,尤其是以 OpenAI 为代表。OpenAI 创始人奥特曼最近几个月正全球奔走,与监管机构接洽,特别是欧洲和美国。今年 4 月份,意大利监管机构宣布禁止使用 ChatGPT。

在美国,OpenAI 正在遭遇最严重的监管危机。7 月 14 日消息,美国联邦贸易委员会 (FTC) 正在对 OpenAI 就是否违反消费者保护法展开广泛调查。长达 20 页的调查文件显示,FTC 正在调查 OpenAI 是否从事了不公平或欺诈行为,从而对消费者造成了「声誉损害」。这是迄今为止 OpenAI 在美国业务面临的最有力的监管威胁。OpenAI CEO 奥特曼表示,此举令人非常失望。

此外,OpenAI 还面临着巨大的竞争压力,其竞争对手正在快速赶上。谷歌支持的 OpenAI 竞争对手 Anthropic 刚刚发布了 GPT-4 竞品 Claude 2。Claude 2 的表现出色,甚至多个基准测试上强于 GPT-4。谷歌的大模型 Bard 昨日同样进行重大升级。马斯克同样虎视眈眈,新的 AI 团队 xAI 昨日正式亮相,成员都是 AI 大牛,多数来自 DeepMind 和 OpenAI 自家老员工。

GPT-4 表现不佳、美国监管打击、竞争对手赶超,OpenAI 曾经绕过的弯路,现在却一处都落不下。奥特曼如何解当前的困局?

矢量AI门户网,优质AI资讯内容平台

(0)
上一篇 2023年7月14日 下午4:18
下一篇 2023年7月14日 下午8:14

相关推荐

  • GPT-4「炼丹」指南:MoE、参数量、训练成本和推理的秘密

    GPT-4 是科学和工程深度结合创新的结果,中间有无数的 tricks,对于外界,如果能了解 GPT-4 的结构就如同获得了最强模型的「炼丹秘方」。这篇内容十分详尽地给出了 GPT-4 的架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、以及 MoE 模型等参数和信息细节。

    2023年7月14日
    122
  • 全球 AI 巨头被诉,ChatGPT 被按下「休止符」?

    该集体诉讼的原告认为,为了赢得「人工智能军备竞赛」,OpenAI 从 ChatGPT 的交互对话以及集成 Chat GPT 的应用程序中「收集、存储、跟踪、共享和披露」数百万人的个人信息,包括产品详细信息、账户信息、姓名、联系方式等。除了直接在网络上抓取信息外,被告还对用户使用 ChatGPT 等产品的过程中产生的数据进行搜集,在起诉书中,原告将其称为第二类盗窃行为。

    2023年9月3日
    94
  • 微软谷歌同时交作业,谷歌绝地反击「赢麻」了

    过去一个季度,谷歌和微软之间的「战斗」可以说是非常焦灼。谷歌 IO、微软 Build 等年度大会先后登场,两家公司关于 AI 的模型更新、产品发布应接不暇。但大家都好奇的是,AI 是否给真正给它们带来了用户和收益,两家公司谁的表现又更胜一筹?

    2023年7月26日
    121

发表回复

登录后才能评论