GPT-4调用插件40次都没成功,果断放弃,无效调用、拒绝回答时有发生

据不完全统计,消息公布之后的没几天,ChatGPT 就上线了 70 多款插件。几个月过去了,这些插件对 ChatGPT 的作用到底如何?本文来自纽约大学的 Ernest Davis 、德克萨斯大学奥斯汀分校的 Scott Aaronson ,他们给 ChatGPT 背后的大模型 GPT-4 调用的插件来了次摸底考试。

GPT-4 调用的第三方插件到底效果如何?有研究者对 Wolfram Alpha 、Code Interpreter 做了份测试。

今年早些时候,OpenAI 开启 ChatGPT 集成第三方插件功能,打破 ChatGPT 不能联网这一封印。

很多人赞叹道:ChatGPT 的横空出世可以看作是「iPhone 时刻」,而第三方插件的集成,就是「iOS App Store」时刻。

据不完全统计,消息公布之后的没几天,ChatGPT 就上线了 70 多款插件。几个月过去了,这些插件对 ChatGPT 的作用到底如何?本文来自纽约大学的 Ernest Davis 、德克萨斯大学奥斯汀分校的 Scott Aaronson ,他们给 ChatGPT 背后的大模型 GPT-4 调用的插件来了次摸底考试。

GPT-4调用插件40次都没成功,果断放弃,无效调用、拒绝回答时有发生

论文地址:https://arxiv.org/pdf/2308.05713.pdf

具体而言,该报告描述了对大型语言模型 GPT-4 在 2023 年 6 月至 8 月期间,使用 Wolfram Alpha(以下称为 GPT4+WA)和 Code Interpreter(以下称为 GPT4+CI)插件,在 105 道高中和大学水平的科学和数学问题上进行了测试。

他们得出以下结论:

在测试的各种问题中,带有任一插件的 GPT-4 明显强于 GPT-4 本身。另外,该研究还得出结论,几乎可以肯定的是 GPT-4 强于一年前存在的 AI。然而,其可靠性还远远不够;它经常输出错误的答案或无法输出任何答案。

从总分来看,本文认为这些系统的表现相当于中等本科生的水平。这些系统解决了一些即使是有能力的学生也会觉得具有挑战性的问题,而它们却无法解决一些即使是中学生也会觉得容易的问题。

除此以外,该研究还发现,GPT-4 和插件之间还有很大的改进空间,特别是 Wolfram Alpha。GPT-4 经常以 Wolfram Alpha 难以接受或产生有用输出的方式来表述问题。

例如,在问题 B.35 中(参见论文附录),GPT-4 调用 Wolfram Alpha 40 次,试图获取某个事件的日期,但都没有成功,然后放弃了,然而,没有插件的 GPT-4 都知道该日期。在问题 A.14 中,要求 GPT-4 以天文学上的长度单位给出答案,Wolfram Alpha 返回了以米表示的正确答案,但随后系统无法将其转换为天文单位,尽管对 Wolfram Alpha 进行了八次调用。

GPT-4 有时还会创建对插件的无用调用,例如在问题 C.11 中,GPT 与 WA 进行了以下交互:

GPT-4调用插件40次都没成功,果断放弃,无效调用、拒绝回答时有发生

这些结果表明,GPT-4 未能充分利用插件的功能,尤其是 Wolfram Alpha。

总体而言,这些系统在可以通过调用单个公式解决的问题上最为强大。他们通常在人类倾向于使用空间可视化来解决的问题上表现较弱。此外,这些系统通常不擅长解决涉及组合多种不同类型计算的问题,难以处理非常大或非常小的数字。GPT-4 有一定能力检测插件返回的答案是否有意义或物理意义,但并不十分可靠,并且几乎没有能力诊断错误原因或从中恢复。

实验结果

该研究创建了三个测试集:「Arbitrary Numerical」测试集、「Calculation-Free」测试集和「Motivated Numerical」测试集。

表 1 为三个测试集问题的成功和失败示例:其中 3 个成功案例,3 个失败案例。在成功案例中,GPT4+WA 和 GPT4+CI 都得到了正确答案,失败案例则相反。

GPT-4调用插件40次都没成功,果断放弃,无效调用、拒绝回答时有发生

作者表示他们的测试集太小,结构也太随意,无法支持统计上有效的结论,但这项研究也暗示了一些结论,两个插件在功能上都很强大,双方都能解决对方无法解决的问题。下面我们看一些实验结果。

下表为在科学和数学上的结果(前 16 个问题)。

GPT-4调用插件40次都没成功,果断放弃,无效调用、拒绝回答时有发生

下表为在科学和数学问题上的结果,包括库仑定律、三维几何、概率等。GPT4+WA 得分为 8.25 分(总分 32 分);GPT4+CI 得分为 10 分(总分 32 分)。

GPT-4调用插件40次都没成功,果断放弃,无效调用、拒绝回答时有发生

下表为在「Calculation-Free」测试集上第 1-32 问题上的结果。问题类别可概括为日食、距离组合问题、河流中各点之间的距离问题等。

GPT-4调用插件40次都没成功,果断放弃,无效调用、拒绝回答时有发生

下表为在「Calculation-Free」测试集上的结果,GPT4+WA: 30.7/53,GPT4+CI:34.2/53 ,随机猜测的得分为 :22.6/53 。

GPT-4调用插件40次都没成功,果断放弃,无效调用、拒绝回答时有发生

下表实验为在 Motivated Numerical 测试集上结果,涉及黑洞、几何、重力等类别,GPT4+WA:14.3/20;GPT4+CI:13.8/20 。

GPT-4调用插件40次都没成功,果断放弃,无效调用、拒绝回答时有发生

矢量AI门户网,优质AI资讯内容平台

(0)
上一篇 2023年8月16日 下午8:33
下一篇 2023年8月18日 上午11:04

相关推荐

  • 技术大爆炸时代,如何避免AI走向失控?

    AI 的失控,指的是 AI 系统在运行中出现了不可预见的行为或结果,这些结果可能与人类的期望不一致,甚至可能带来负面影响。例如,一个自动驾驶汽车系统出现了故障,导致车辆失控,这将会对驾驶员和其他交通参与者的安全带来严重威胁。又或者,一个 AI 系统误判了某个人的行为,导致该人受到了不公正的待遇或惩罚,这将会对该人的权益和自由带来严重影响。

    2023年8月23日
    112
  • 除了ChatGPT,大模型杀手级应用还没有跑出来的原因是什么?

    首先从技术周期上看,举个例子,Garner技术成熟度曲线,LLM远没有到比较成熟的生态繁荣期,现在底层模型技术还在疯狂演进,投资都集中在模型层和中间层,应用层普遍被认为还比较早(比如拾象就是这个观点,)——我个人也比较认可:下半年甚至明年才是应用层冲出来 killer app 的时机,比如某个AI Native的应用快速实现千万级别活跃用户。

    2023年7月16日
    162
  • Open AI首席科学家:ChatGPT可能已经有了意识,AI将万世不朽

    我是来和 OpenAI 的联合创始人兼首席科学家 Sutskever 会面的,他的公司位于旧金山传教区一条不起眼的街道上,办公楼没有任何标志,我想听听他一手打造的这项颠覆世界的技术的下一步计划。我还想知道他的下一步计划,尤其是,为什么建立他公司的下一代旗舰生成模型不再是他的工作重点。

    2023年10月31日
    137

发表回复

登录后才能评论