AI提示工程已成为扩展大模型能力的一种不可或缺的技术,可在不修改核心模型参数的情况下,利用任务特定的指令(即提示词)来增强模型的效果。本文精选了提示工程领域的精彩论文。
大语言模型提示工程的系统调查:技术和应用
对提示工程最近进展的系统分析有助于更好地了解这一迅速发展的领域,并通过阐明提示工程的开放挑战和机会,促进未来研究。
标题:A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications
作者:Pranab Sahoo, Ayush Kumar Singh, Sriparna Saha, Vinija Jain, Samrat Mondal, Aman Chadha
摘要:提示工程已经成为扩展大型语言模型(LLMs)和视觉语言模型(VLMs)能力的一种不可或缺的技术。该方法利用任务特定的指令,即提示,来增强模型的效果,而不修改核心模型参数。提示不是更新模型参数,而是通过仅基于给定提示引发所需的模型行为,使预训练模型无缝集成到下游任务中。提示可以是提供上下文以指导模型的自然语言指令,也可以是激活相关知识的学习向量表示。这一新兴领域已经在各种应用中取得成功,从问答到常识推理。然而,目前对于不同提示工程方法和技术的系统组织和理解仍然存在不足。本调查论文通过按应用领域分类提供最近提示工程进展的结构化概述来填补这一空白。对于每种提示方法,我们提供一个总结,详细介绍提示方法论及其应用,所涉及的模型和使用的数据集。我们还深入探讨每种方法的优势和局限性,并包括一个总结数据集、模型和每种提示技术的关键点的分类图和表格。这种系统分析有助于更好地了解这一迅速发展的领域,并通过阐明提示工程的开放挑战和机会,促进未来研究。
原文链接:https://arxiv.org/abs/2402.07927
Aloe:一系列经过精细调整的开放医疗LLM
本文介绍了Aloe系列,这是一组在其规模范围内高度竞争的开放医疗LLM,并研究了几种高级提示工程策略,以提高各项基准测试的性能,为开放医疗7B LLMs获得了业界领先的结果,在这一规模上前所未有。
标题:Aloe: A Family of Fine-tuned Open Healthcare LLMs
作者:Ashwin Kumar Gururajan, Enrique Lopez-Cuena, Jordi Bayarri-Planas, Adrian Tormos, Daniel Hinjos, Pablo Bernabeu-Perez, Anna Arias-Duart, Pablo Agustin Martin-Torres, Lucia Urcelay-Ganzabal, Marta Gonzalez-Mallo, Sergio Alvarez-Napagao, Eduard Ayguad\u00e9-Parra, Ulises Cort\u00e9s Dario Garcia-Gasulla
摘要:随着大型语言模型(LLMs)在医疗保健和医学领域的能力不断提升,人们越来越需要具有竞争力的开源模型,以维护公共利益。随着高度竞争的开放基础模型日益增多,持续预训练的影响日益不确定。在这项工作中,我们探讨了指导调整、模型合并、对齐、红队测试和高级推理方案的作用,以改进当前的开放模型。为此,我们介绍了Aloe系列,这是一组在其规模范围内高度竞争的开放医疗LLM。Aloe模型是在当前最佳基础模型(Mistral,LLaMA 3)上进行训练的,使用一个结合了公共数据源和改进了合成“思维链”(CoT)的新自定义数据集。Aloe模型经历了对齐阶段,成为使用直接偏好优化的首批政策对齐开放医疗LLM之一,为医疗LLM的道德表现设立了新标准。模型评估扩展到包括各种偏见和毒性数据集、专门的红队测试工作以及医疗LLM急需的风险评估。最后,为了探索当前LLM在推理中的极限,我们研究了几种高级提示工程策略,以提高各项基准测试的性能,为开放医疗7B LLMs获得了业界领先的结果,在这一规模上前所未有。
原文链接:https://arxiv.org/abs/2405.01886
CACTUS:化学代理连接工具-将工具用法连接到科学
使用各种开源LLMs对CACTUS的性能进行评估,一个基于LLM的代理,集成了化学信息学工具,以实现化学和分子发现中的高级推理和问题解决,结果显示CACTUS明显优于基准LLMs。
标题:CACTUS: Chemistry Agent Connecting Tool-Usage to Science
作者:Andrew D. McNaughton, Gautham Ramalaxmi, Agustin Kruel, Carter R. Knutson, Rohith A. Varikoti, Neeraj Kumar
摘要:大型语言模型(LLMs)在各个领域展现出卓越的潜力,但它们经常缺乏访问和推理领域特定知识和工具的能力。在本文中,我们介绍了CACTUS(Chemistry Agent Connecting Tool-Usage to Science),这是一个基于LLM的代理,集成了化学信息学工具,以实现化学和分子发现中的高级推理和问题解决。我们使用各种开源LLMs(包括Gemma-7b、Falcon-7b、MPT-7b、Llama2-7b和Mistral-7b)对CACTUS的性能进行评估,针对成千上万个化学问题的基准测试。我们的结果表明,CACTUS明显优于基准LLMs,无论使用何种提示策略,Gemma-7b和Mistral-7b模型的准确性均最高。此外,我们探讨了领域特定提示和硬件配置对模型性能的影响,强调了提示工程的重要性以及在消费级硬件上部署较小模型而不会显著降低准确性的潜力。通过将开源LLMs的认知能力与领域特定工具结合,CACTUS可以协助研究人员完成分子性质预测、相似性搜索和药物样品评估等任务。此外,CACTUS代表了化学信息学领域的一个重要里程碑,为从事化学和分子发现的研究人员提供了一种适应性工具。通过结合开源LLMs的优势与领域特定工具,CACTUS有潜力加快科学进步,开拓新的前沿,探索新颖、有效和安全的治疗候选药物、催化剂和材料。此外,CACTUS能够与自动实验平台集成,并实时做出数据驱动决策,为自主发现开辟了新的可能性。
原文链接:https://arxiv.org/abs/2405.00972
GhostWriter: 通过个性化和代理增强协作人工智能写作体验
介绍了GhostWriter,这是一个AI增强的写作设计探针,用户可以在其中行使大型语言模型中的增强代理权和个性化,并提出了有关人们与AI辅助写作关系的见解。
标题:GhostWriter: Augmenting Collaborative Human-AI Writing Experiences Through Personalization and Agency
作者:Catherine Yeh, Gonzalo Ramos, Rachel Ng, Andy Huntington, Richard Banks
摘要:大型语言模型(LLMs)变得越来越普遍,并已在提供不同形式的写作辅助方面发挥了普遍作用。然而,由于其有限的个性化和控制能力,LLM驱动的写作系统可能会让用户感到沮丧,尤其是当用户缺乏提示工程经验时。我们认为设计是解决这些挑战的一种方式,介绍了GhostWriter,这是一个AI增强的写作设计探针,用户可以在其中行使增强的代理权和个性化。GhostWriter利用LLMs在用户编写时隐式学习用户的预期写作风格,同时允许通过手动样式编辑和注释进行显式教学时刻。我们研究了18名参与者在两个不同的写作任务上使用GhostWriter,观察到它帮助用户制作个性化的文本生成,并通过提供多种控制系统写作风格的方式来赋予用户权力。通过这项研究,我们提出了关于人们与AI辅助写作的关系的见解,并为未来的工作提供了设计建议。