6000字解读:当前大语言模型LLM研究的10大挑战

输出环境是一个已经被大量讨论过的话题,所以这里我会长话短说。当人工智能模型胡编乱造时,就会产生幻觉。对于许多创意用例来说,幻觉属于功能的一种。然而,对于大多数应用场景来说,幻觉属于一种错误。最近,我与 Dropbox、Langchain、Elastics 和 Anthropic 的专家共同参加了一个关于 LLM 的专题讨论会,在他们看来,企业在实际生产中,应用 LLM 需要克服的首要障碍就是幻觉输出。

让大语言模型变得更完善这个目标,是我一生中,第一次见到这么多的聪明人,同时在为一个共同目标而努力。在同众多业界和学术界人士交流后,我注意到出现了十大研究方向。目前受到关注最多的两个方向是 Hallucinations(输出幻觉) 和 Context Learning。

而对我自己来说,最感兴趣的是下面列出的第 3 个方向(Multimodality 多模态数据模式)、第 5 个方向(New architecture 新架构)和第 6 个方向(GPU alternatives 开发 GPU 替代的解决方案)

LLM 研究的十大公开挑战

  1. 减少并评估输出输出(虚构信息)
  2. 优化上下文长度和上下文构建
  3. 融合其他数据形式
  4. 提升语言模型的速度和成本效益
  5. 设计新的模型架构
  6. 开发替代 GPU 的解决方案
  7. 提升代理(人工智能)的可用性
  8. 改进从人类偏好中学习的能力
  9. 提高聊天界面的效率
  10. 构建用于非英语语言的语言模型
6000字解读:当前大语言模型LLM研究的10大挑战

1. 减少和评估幻觉

输出环境是一个已经被大量讨论过的话题,所以这里我会长话短说。当人工智能模型胡编乱造时,就会产生幻觉。对于许多创意用例来说,幻觉属于功能的一种。然而,对于大多数应用场景来说,幻觉属于一种错误。最近,我与 Dropbox、Langchain、Elastics 和 Anthropic 的专家共同参加了一个关于 LLM 的专题讨论会,在他们看来,企业在实际生产中,应用 LLM 需要克服的首要障碍就是幻觉输出。

降低模型的幻觉输出和制定评估幻觉输出的指标,是一个蓬勃发展的研究课题,目前很多初创公司都在关注这个问题。还有一些技巧可以减少幻觉输出的概率,例如在提示词中添加更多上下文、CoT、自洽性,或者特定要求模型的响应简洁明了。

下面是关于幻觉输出的系列论文和参考资料:

  • Survey of Hallucination in Natural Language Generation(Ji et al., 2022)
  • How Language Model Hallucinations Can Snowball(Zhang et al., 2023)
  • A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity(Bang et al., 2023)
  • Contrastive Learning Reduces Hallucination in Conversations(Sun et al., 2022)
  • Self-Consistency Improves Chain of Thought Reasoning in Language Models(Wang et al., 2022)
  • SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models(Manakul et al., 2023)
  • A simple example of fact-checking and hallucination by NVIDIA’s NeMo-Guardrails

2.优化上下文长度和上下文构建

绝大部分问题都需要上下文。例如,如果我们问 ChatGPT:「哪家越南餐厅最好?」所需的上下文将是「这个餐厅的限定范围到底在哪里?」,因为越南本土最好吃的餐厅与美国的最好吃的越南餐厅,这个问题的范围是不同的。

根据下面这篇很酷的论文《 SITUATEDQA: Incorporating Extra-Linguistic Contexts into QA 》(Zhang&Choi,2021),有相当一部分信息搜索问题的答案与上下文有关,例如,在 Natural Questions NQ-Open 数据集中大约占 16.5%。

(NQ-Open:https://ai.google.com/research/NaturalQuestions)

我个人认为,在企业实际遇到的案例中,这一比例会更高。例如,假设一家公司为客户支持建立了一个聊天机器人,要让这个聊天机器人回答客户关于任何产品的任何问题,所需的上下文很可能是该客户的历史或该产品的信息。由于语言模型会从提供给它的上下文中「学习」,因此这一过程也被称为上下文学习。

客户支持查询所需的上下文

Context length 对于 RAG(检索增强生成)非常重要,而 RAG 已成为大语言模型行业应用场景的主要模式。具体来说,检索增强生成主要分为两个阶段:

第 1 阶段:分块(也称为编制索引)chunking (also known as indexing)

收集 LLM 使用的所有文档,将这些文档分成可以喂入大于模型,以生成嵌入的块,并将这些嵌入存储在向量数据库中。

第 2 阶段:查询

当用户发送查询时,如「我的保险单是否能够支付某种药物 X」,大语言模型会将此查询转换为 embedding,我们称之为 QUERY_EMBEDDING。向量数据库,会获取 embedding 与 QUERY_EMBEDDING 最相似的块。

6000字解读:当前大语言模型LLM研究的10大挑战

上下文长度越长,我们就能在上下文中 squeeze 越多的 chunks 。模型获取的信息越多,它的输出和回应质量就会越高,是这样的吗?

并非总是如此。模型能用多少上下文,和模型使用上下文的效率如何,是两个不同的问题。在努力增加模型上下文长度的同时,我们也在努力提高上下文的效率。有人称之为「提示工程 prompt engineering」或「prompt construction」。例如,最近有一篇论文谈到了模型如何更好地理解索引开头和结尾,而不仅是中间的信息——Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023).

3. 其他数据模式融入(多模态)

在我看来,多模态是非常强大的,但是它也同样被低估了。这里解释一下多模态的应用原因:

首先,许多具体应用场景都需要多模态数据,尤其是在医疗保健、机器人、电子商务、零售、游戏、娱乐等混合数据模态的行业。举例来说:

  • 医疗检测通常需要文本(如医生笔记、患者问卷)和图像(如 CT、X 光片、核磁共振扫描片)。
  • 产品的 Metadata 通常包含图片、视频、描述,甚至表格数据(如生产日期、重量、颜色),因为从需求角度,您可能会需要根据用户的评论或产品照片,自动填补缺失的产品信息,或者希望让用户能够使用形状或颜色等视觉信息,进行产品搜索。

其次,多模态有望大幅提升模型性能。一个既能理解文本又能理解图像的模型,难道不应该比单一能理解文本的模型表现更好吗?基于文本的模型,需要大量文本,以至于我们担心很快就会用完互联网数据来训练基于文本的模型。一旦文本耗尽,我们就需要利用其他数据模式。

6000字解读:当前大语言模型LLM研究的10大挑战

让我特别兴奋的一个使用案例是,多模态技术可以让视障人士浏览互联网和浏览现实世界。

下面是关于多模态相关的系列论文和参考资料:

  • [CLIP] Learning Transferable Visual Models From Natural Language Supervision(OpenAI, 2021)
  • Flamingo: a Visual Language Model for Few-Shot Learning(DeepMind, 2022)
  • BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models(Salesforce, 2023)
  • KOSMOS-1: Language Is Not All You Need: Aligning Perception with Language Models(Microsoft, 2023)
  • PaLM-E: An embodied multimodal language model(Google, 2023)
  • LLaVA: Visual Instruction Tuning(Liu et al., 2023)
  • NeVA: NeMo Vision and Language Assistant (NVIDIA, 2023)

4. 让 LLM 更快、成本更低

当 GPT-3.5 在 2022 年 11 月底首次发布时,很多人对在生产中使用它的延迟和成本表示担忧。然而,自那时以来,延迟 / 成本分析已经迅速发生了变化。在不到半年的时间里,社区找到了一种方法,可以创建一个性能与 GPT-3.5 非常接近的模型,但所需的内存占用仅为 GPT-3.5 的 2% 左右。

这里的启示是:如果你创造出足够优秀的东西,人们会找到一种方法让它变得快速且经济高效。

6000字解读:当前大语言模型LLM研究的10大挑战

以下是《Guanaco 7B》的性能数据,与 ChatGPT GPT-3.5 和 GPT-4 的性能进行了比较,根据《Guanco》论文中的报告。请注意:总体而言,下列关于性能的比较,离完美还差很远,并且,对 LLM 的评估非常非常困难。

Guanaco 7B 与 ChatGPT GPT-3.5 和 GPT-4 的性能比较:

6000字解读:当前大语言模型LLM研究的10大挑战

四年前,当我开始为《设计机器学习系统》一书撰写后来成为「模型压缩」部分的笔记时,我写了关于模型优化 / 压缩的四种主要技术:

  • Quantization:迄今为止最通用的模型优化方法。量化通过使用较少的位数来表示模型的参数来减小模型的大小,例如,可以使用 16 位甚至 4 位来表示浮点数,而不是使用 32 位。
  • Knowledge distillation:一种通过训练小模型来模仿大型模型或模型集合的方法。
  • Low-rank factorization:这里的关键思路是用低维张量代替高维张量,以减少参数数量。例如,可以将 3×3 张量分解为 3×1 和 1×3 张量的乘积,这样就不再需要 9 个参数,而只需要 6 个参数。
  • Pruning

所有上述四种技术在今天仍然适用和流行。Alpaca 采用Knowledge distillation进行训练。QLoRA 结合使用了Low-rank factorization和quantization。

5.设计一种新的模型架构

自 2012 年的 AlexNet 以来,我们看到了许多架构的兴衰,包括 LSTM、seq2seq 等。与这些相比,Transformer 的影响力,令人难以置信。自 2017 年以来,Transformer 就一直存在,而这种架构还能流行多久,还是个未解之谜。

开发一种新架构来超越 Transformer 并不容易。Transformer 在过去 6 年中进行了大量优化,而这种新架构,必须在人们当前关注的硬件,以当前关心的规模运行。

注意:谷歌最初设计 Transformer 是为了在 TPU 上快速运行,后来才在 GPU 上进行了优化。

2021 年,Chris Ré’s lab的 S4 引起了广泛关注,详见《Efficiently Modeling Long Sequences with Structured State Spaces 》(Gu et al., 2021))。Chris Ré’s lab仍在大力开发新架构,最近与初创公司 Together 合作开发的架构 Monarch Mixer(Fu ,2023 年)就是其中之一。

他们的主要思路是,对于现有的 Transformer 架构,注意力的复杂度是序列长度的二次方,而 MLP 的复杂度是模型维度的二次方。具有次二次方复杂度的架构将更加高效。

6000字解读:当前大语言模型LLM研究的10大挑战

Monarch Mixer

6. 开发 GPU 替代方案

自 2012 年的 AlexNet 以来,GPU 一直是深度学习的主导硬件。实际上,AlexNet 受欢迎的一个普遍认可的原因之一是它是首篇成功使用 GPU 来训练神经网络的论文。在 GPU 出现之前,如果想要以 AlexNet 的规模训练模型,需要使用数千个 CPU,就像谷歌在 AlexNet 之前几个月发布的那款。与数千个 CPU 相比,几块 GPU 对于博士生和研究人员来说更加容易得到,从而引发了深度学习研究的繁荣。

在过去的十年里,许多公司,包括大型企业和创业公司,都试图为人工智能创建新的硬件。最值得注意的尝试包括谷歌的 TPU、Graphcore 的 IPU(IPU 的进展如何?)以及 Cerebras。SambaNova 筹集了超过十亿美元来开发新的 AI 芯片,但似乎已转向成为一个生成式 AI 平台。

有一段时间,人们对量子计算抱有很大的期望,其中关键参与者包括:

  • IBM 的 QPU
  • 谷歌的量子计算机在今年早些时候在《自然》杂志上报道了量子误差减少的重大里程碑。其量子虚拟机可以通过 Google Colab 公开访问。
  • 研究实验室,如麻省理工学院量子工程中心、马克斯·普朗克量子光学研究所、芝加哥量子交流中心、奥克里奇国家实验室等。

另一个同样令人兴奋的方向是光子芯片 (photonic chips)。我对这个领域知之尚浅, 所以,如果有错误,请纠正我。现有芯片使用电力来传输数据,这消耗大量的能量并且产生延迟。而光子芯片使用光子来传输数据,利用光速进行更快、更高效的计算。在这个领域,各种初创公司已经融资数亿美元,包括 Lightmatter(2.7 亿美元)、Ayar Labs(2.2 亿美元)、Lightelligence(2 亿美元以上)和 Luminous Computing(1.15 亿美元)。

以下是光子矩阵计算三种主要方法的进展时间线,摘自论文《Photonic matrix multiplication lights up photonic accelerator and beyond》(Zhou,Nature 2022)。这三种不同的方法分别是平面光转换(PLC)、马赫 – 曾德尔干涉仪(MZI)和波分复用(WDM)。

6000字解读:当前大语言模型LLM研究的10大挑战

7. 提高 agents 的可用性

Agent 指可以执行动作的大语言模型(可以理解为那些可以代替你来完成各种任务的代理人,所以叫 Agent),例如浏览互联网、发送电子邮件、预订等。与本文中其他研究方向相比,这可能是最新的方向之一。由于 Agent 本身的新颖性和巨大潜力,人们对 Agent 充满热情。而 Auto-GPT 现在是 GitHub 上 标星数量排名第 25 的、最受欢迎的 repo。GPT-Engineering 是另一个受欢迎的 repo。

尽管这个方向令人兴奋,但人们仍然对大语言模型是否足够可靠和高性能,以及能够被赋予行动的权力,存在疑虑。然而,已经出现了一个应用场景,即将 Agent 用于社会研究,例如著名的斯坦福实验,该实验显示一小簇生成式 Agent 产生了新兴的社会行为:例如,从一个用户指定的想法开始,一个 Agent 想要举办情人节派对,Agent 在接下来的两天里自动传播派对的邀请,结交新朋友,互相邀请参加派对…(Generative Agents: Interactive Simulacra of Human Behavior, Park et al., 2023)

在这个领域最值得注意的创业公司也许是 Adept,由两位前 Transformer 的合著者和前 OpenAI 副总裁创立,到目前为止已经融资近 5 亿美元。去年,他们展示了他们的agent 的如何浏览互联网的,还有就是演示了如何向 Salesforce 添加新账户。

8. 迭代 RLHF

RLHF(从人类反馈中进行强化学习)很酷,但有点技巧性。如果人们找到更好的训练 LLM 的方法,也不奇怪。不过,在 RLHF 方面还存在许多未解决的问题,例如:

①如何用数学方式,表示人类偏好?

目前,人类偏好是通过比较来确定的:人类标注员确定响应 A 是否比响应 B 更好。然而,它没有考虑响应 A 比响应 B 好多少。

②什么是人类偏好 (preference)?

Anthropic 根据输出,在有益、诚实和无害三个方面对其模型的质量进行了衡量。请参阅 Constitutional AI: Harmlessness from AI Feedback (Bai et al., 2022).

DeepMind 试图生成能够取悦大多数人的响应。请参阅 Fine-tuning language models to find agreement among humans with diverse preferences, (Bakker et al., 2022).

此外,我们想要能够表达立场的 AI,还是对任何可能具有争议性的话题回避的传统 AI 呢?

③「人类」偏好究竟是谁的偏好,是否要考虑到文化、宗教、政治倾向等的差异?获得足够代表所有潜在用户的训练数据存在许多挑战。

例如,对于 OpenAI 的 InstructGPT 数据,没有 65 岁以上的标注员。标注员主要是菲律宾人和孟加拉人。请参阅 InstructGPT: Training language models to follow instructions with human feedback (Ouyang et al., 2022).

6000字解读:当前大语言模型LLM研究的10大挑战

InstructGPT 标注员的国籍统计信息

尽管社区主导的努力在其意图上值得赞赏,但可能导致数据存在偏见。例如,对于 OpenAssistant 数据集,222 位(90.5%)回答者中有 201 位自我认定为男性。Jeremy Howard 在 Twitter 上有一个很好的 Thread:

6000字解读:当前大语言模型LLM研究的10大挑战

9.提高聊天界面效率

自 ChatGPT 以来,人们一直在讨论聊天是否是一个适用于各种任务的界面。

详见:

  • Natural language is the lazy user interface(Austin Z. Henley, 2023)
  • Why Chatbots Are Not the Future(Amelia Wattenberger, 2023)
  • What Types of Questions Require Conversation to Answer? A Case Study of AskReddit Questions(Huang et al., 2023)
  • AI chat interfaces could become the primary user interface to read documentation(Tom Johnson, 2023)
  • Interacting with LLMs with Minimal Chat (Eugene Yan, 2023)

然而,这并不是一个新话题。在许多国家,尤其是在亚洲,聊天已经作为超级应用的界面使用了大约十年时间,Dan Grover 在 2014 年就已经写过相关论文。

6000字解读:当前大语言模型LLM研究的10大挑战

2016 年,当许多人认为应用程序已死、聊天机器人将成为未来时,讨论再次变得激烈紧张起来:

  • On chat as interface(Alistair Croll, 2016)
  • Is the Chatbot Trend One Big Misunderstanding?(Will Knight, 2016)
  • Bots won’t replace apps. Better apps will replace apps (Dan Grover, 2016)

我个人喜欢聊天界面,原因如下:

①聊天界面是每个人,甚至是没有先前接触过计算机或互联网的人,都可以迅速学会使用的界面(普适性)。在 2010 年代初,当我在肯尼亚的一个低收入居民区做志愿者时,我惊讶于那里的每个人在手机上进行银行业务时是多么熟悉,通过短信。那个社区没有人有计算机。

② 聊天界面是易于访问的。如果你的双手整忙于其他事情,可以使用语音而不是文本。

③ 聊天也是一个非常强大的界面 — 你可以向它提出任何请求,它都会给予回复,即使回复不一定完美

不过,笔者认为聊天界面在某些方面还可以继续改进:

①单次可交流多条消息

目前,我们基本上假设每次交流只有单轮消息。但这不是我和我的朋友发短信的方式。通常,我需要多条消息来完成我的思考,因为我需要插入不同的数据(例如图像、位置、链接),我可能在之前的消息中遗漏了某些内容,或者只是不想把所有内容都放在单一的大段落里。

②多模态输入

在多模态应用领域,大部分精力都花在构建更好的模型上,而很少花在构建更好的界面上。以 Nvidia 的 NeVA 聊天机器人为例。我不是用户体验专家,但我认为在这里可能有改进的空间。

附注:对这里提到 NeVA 团队表示抱歉,即使有了这个,你们的工作仍然非常酷!

6000字解读:当前大语言模型LLM研究的10大挑战

③将生成式 AI 融入工作流程中

Linus Lee 在他的分享「Generative AI interface beyond chats.」中很好地涵盖了这一点。例如,如果您想问关于您正在处理的图表中的某一列的问题,您应该能够只需指向那一列并提问。

④消息编辑和删除

用户输入的编辑或删除会如何改变与聊天机器人的对话流程?

10. 为非英语语言创建 LLM

我们知道,目前以英语为第一语言的 LLM 在性能、延迟和速度方面都无法很好地适用于许多其他语言。请参阅:

  • ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning(Lai et al., 2023)
  • All languages are NOT created (tokenized) equal (Yennie Jun, 2023)
6000字解读:当前大语言模型LLM研究的10大挑战

我只知道训练越南语的尝试(比如 Symato 社区尝试),不过,本文几位早期读者告诉我,他们认为我不应该把这个方向包括进来,原因如下:

这与其说是一个研究问题,不如说是一个 logistics 问题。我们已经知道如何去做,只是需要有人投入资金和精力。不过,这并不完全正确。大多数语言都被认为是 low-resource 语言,例如,与英语或中文相比,很多语种的高质量数据要少得多,因此可能需要不同的技术来训练大型语言模型。参见:

  • Low-resource Languages: A Review of Past Work and Future Challenges(Magueresse et al., 2020)
  • JW300: A Wide-Coverage Parallel Corpus for Low-Resource Languages (Agić et al., 2019)

那些更为悲观的人认为,在未来,许多语言将会消失,互联网将由两个语言组成的两个宇宙:英语和汉语。这种思潮并不新鲜 – 有人还记得 Esperanto 吗?

人工智能工具,例如机器翻译和聊天机器人,对语言学习的影响仍然不明确。它们会帮助人们更快地学习新语言,还是会完全消除学习新语言的需求。

结论

本文如有任何遗漏,请告知我,为了获取其他观点,请查阅这篇全面的论文《Challenges and Applications of Large Language Models (Kaddour et al., 2023).

上述问题比其他问题更加困难。例如,我认为上述第 10 个问题,即建立非英语语言的 LLM,只要有足够的时间和资源,就会比较简单。

上述第 1 个问题是减少幻觉输出,这将会难得多,因为幻觉只是 LLM 在做概率的事情。

第 4 ,让 LLM 更快、更便宜,这一点永远无法彻底解决。这方面已经取得了很大进展,以后还会有更多进展,但是这个方向的改进将会一直持续。

第 5 项和第 6 项,即新架构和新硬件,非常具有挑战性,但随着时间的推移,它们是不可避免的。由于架构和硬件之间的共生关系——新架构需要针对通用硬件进行优化,而硬件需要支持通用架构,它们可能会由同一家公司来完成。

有些问题仅靠技术知识是无法解决的。例如,第 8 个问题,即改进从人类偏好中学习的方法,可能更多的是一个政策问题,而不是技术问题。第 9 个问题是提高聊天界面的效率,这更像是用户体验问题。我们需要更多具有非技术背景的人员与我们一起解决这些问题。

你最感兴趣的研究方向是什么?认为最有希望解决这些问题的方案是什么?很想听听您的意见。

矢量AI门户网,优质AI资讯内容平台

(0)
上一篇 2023年8月22日 下午1:30
下一篇 2023年8月22日 下午1:53

相关推荐

  • 详解Modular:LLVM之父如何打造未来AI引擎语言?

    编译器 (Compiler),是一种将高级编程语言翻译成计算机可执行代码的软件工具,编译器将程序员编写的源代码转换成计算机可以理解和执行的二进制指令,这些指令被打包成可执行文件或库,以便在计算机上运行程序。

    2023年9月17日
    108
  • 麻省理工AI实验室推出图像大模型PFGM++,性能超过扩散模型

    麻省理工学院 CSAIL 的研究人员将创新的 AI 模型变为现实,想象力的领域不再仅仅是抽象的。 他们的新技术整合了两个看似无关的物理定律,支撑着迄今为止表现最好的生成模型:扩散(diffusion),通常说明元素的随机运动,例如热量渗透到房间或气体膨胀到空间,以及泊松流,它利用了控制电荷活动的原理。

    2023年10月17日
    157
  • 通往AGI之路:ChatGPT背后的逻辑,压缩即智能

    机器学习(Machine learning),对于非计算机背景的朋友来说或许有些陌生。但是我们生活的方方面面都已经被机器学习覆盖。比如,当我们打开知乎、抖音、小红书等软件的时候,系统会自动推荐我们可能感兴趣的内容;当我刚和朋友聊到想买一某品牌的裙子时,打开淘宝就发现搜索推荐已经变成了该品牌;邮件系统会帮我们自动屏蔽垃圾邮件;交通摄像头拍摄司机的行驶照片来推断是否有违规行为。这些都得益于机器学习。

    2023年9月4日
    148

发表回复

登录后才能评论