cs.CL: Wings: 学习多模态大语言模型,无需仅文本遗忘

原标题: Wings: Learning Multimodal LLMs without Text-only Forgetting

作者: Yi-Kai Zhang, Shiyin Lu, Yang Li, Yanqing Ma, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye

机构: 南京大学 阿里巴巴集团

摘要: 多模态大语言模型(MLLMs),首先使用经过训练的LLM初始化,首先将图像与文本对齐,然后在多模态混合输入上进行微调。然而,MLLM灾难性地忘记了仅包含文本而不包含图像的指令,这些指令可以在初始LLM中解决。在本文中,我们提出了Wings,一种在纯文本对话和多模态理解方面表现出色的新型MLLM。分析多模态指令中MLLM的注意力表明,仅文本遗忘与从图像前到图像后文本的注意力转移有关。基于此,我们构建额外的模块,作为增强学习器来补偿注意力转移。视觉和文本学习器相辅相成,就像两侧的“翅膀”,在每个层的注意力块内并行连接。最初,图像和文本输入与视觉学习器对齐,与主要注意力一起运行,平衡对视觉元素的关注。随后,文本学习器与基于注意力的路由协作集成,以混合视觉和文本学习器的输出。我们设计了低秩残差注意力(LoRRA)以确保学习器的高效性。我们的实验结果表明,Wings在纯文本和视觉问答任务中均优于同等规模的MLLMs。在新构建的交错式图像-文本(IIT)基准测试中,Wings在从纯文本丰富到多模态丰富的问答任务中表现出优越性能。

论文链接: https://arxiv.org/pdf/2406.03496

cs.CL: 分析大语言模型在对话摘要中的行为:揭示情境幻觉趋势

原标题: Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends

作者: Sanjana Ramprasad, Elisa Ferracane, Zachary C. Lipton

摘要: 最近大语言模型(LLMs)的进展显著提升了摘要系统的能力。然而,它们仍然面临关于幻觉的担忧。虽然先前的研究在新闻领域广泛评估了LLMs,但大部分对话摘要的评估都集中在基于BART的模型上,导致我们对它们的忠实度理解存在空白。我们的工作通过人类注释来评估LLMs在对话摘要中的忠实度,并专注于识别和分类跨度级别的不一致性。具体而言,我们关注两个知名的LLMs:GPT-4和Alpaca-13B。我们的评估揭示了构成幻觉的微妙之处:LLMs经常生成合理的推断,这些推断受到对话中的间接证据支持,缺乏直接证据,这种模式在旧模型中不太普遍。我们提出了一个精细的错误分类法,创造了“间接推断”类别来归类这些LLMs的行为,并发布了数据集。利用我们的分类法,我们比较了LLMs和旧的微调模型之间的行为差异。此外,我们系统评估了自动错误检测方法在LLMs摘要上的有效性,并发现它们难以检测这些微妙的错误。为解决这个问题,我们引入了两种基于提示的方法进行细粒度错误检测,这些方法优于现有的度量标准,特别是用于识别“间接推断”。

论文链接: https://arxiv.org/pdf/2406.03487

cs.CL: BIPED:用于英语作为第二语言教育的教学系统Pedagogically Informed Tutoring System

原标题: BIPED: Pedagogically Informed Tutoring System for ESL Education

作者: Soonwoo Kwon, Sojung Kim, Minju Park, Seunghyun Lee, Kyuseok Kim

摘要: 大语言模型(LLMs)具有巨大潜力,可以作为现成且成本效益高的英语第二语言学习者的会话智能辅导系统(CITS)。然而,现有的CITS仅设计用于教授简单概念,或者缺乏必要的教学深度来应对多样化的学习策略。为了开发一个更具教学意义的CITS,能够教授复杂概念,我们构建了一个双语教学启发式辅导数据集(BIPED),其中包含一对一的人际英语辅导互动。通过对辅导互动的事后分析,我们得出了对话行为的词汇表(34个导师行为和9个学生行为),我们使用该词汇表进一步注释收集的数据集。基于首先预测适当的导师行为,然后生成相应回应的两步框架,我们分别使用GPT-4和SOLAR-KO实现了两个CITS模型。我们通过实验证明,这些实现的模型不仅复制了人类教师的风格,而且采用了多样化和情境适当的教学策略。

论文链接: https://arxiv.org/pdf/2406.03486

cs.CL: MODABS:用于动态基于方面的多目标学习总结

原标题: MODABS: Multi-Objective Learning for Dynamic Aspect-Based Summarization

作者: Xiaobo Guo, Soroush Vosoughi

机构: 达特茅斯学院

摘要: 在线内容的快速增长需要有效的摘要方法,其中动态基于方面的摘要方法脱颖而出。与传统方法不同,传统方法假定一组已知方面的固定集合,而这种方法适应输入文本的各种方面。我们引入了一种新颖的多目标学习框架,采用 Longformer-编码器-解码器来完成这项任务。该框架优化方面数量预测,最小化生成摘要与每个方面的参考摘要之间的差异,并最大化各个方面摘要之间的差异。大量实验证明,由于生成和参考方面数量的有效对齐,我们的方法在三个不同数据集上明显优于基线方法,而且不会牺牲单方面摘要质量。

论文链接: https://arxiv.org/pdf/2406.03479

cs.CL: 利用同步定义和语义关系来分类语义变化类型

原标题: Using Synchronic Definitions and Semantic Relations to Classify Semantic Change Types

作者: Pierluigi Cassotti, Stefano De Pascale, Nina Tahmasebi

机构: 哥德堡大学 VUB/FWO/KU 耶鲁文

摘要: 有大量证据表明,单词改变含义的方式可以归类为不同类型的变化,突出了旧含义和新含义之间的关系(其中包括泛化、专门化和共同下位词转移)。在本文中,我们提出了一种通过构建一个模型来检测这些变化类型的方法,该模型利用了同时性词汇关系和单词含义定义的信息。具体来说,我们使用了WordNet中的同义词集定义和层次信息,并在Blank(1997年)语义变化类型数据集的数字化版本上进行了测试。最后,我们展示了如何利用这种意义关系来改进模型,无论是用于近似人类对语义相关性的判断,还是用于二元词汇语义变化检测。

论文链接: https://arxiv.org/pdf/2406.03452

cs.CL: ChatGPT翻译诗歌的最佳方式是什么?

原标题: What is the Best Way for ChatGPT to Translate Poetry?

作者: Shanshan Wang, Derek F. Wong, Jingming Yao, Lidia S. Chao

摘要: 机器翻译(MT)在文学作品,特别是诗歌翻译领域的应用历来面临重大挑战。大语言模型(LLM)如ChatGPT的出现为该领域的创新带来了潜力。本研究考察了ChatGPT在英汉诗歌翻译任务中的能力,利用有针对性的提示和小样本场景来确定最佳性能。尽管结果令人鼓舞,我们的分析揭示了ChatGPT生成的翻译中存在持续问题,值得关注。为解决这些缺陷,我们提出了一种解释辅助诗歌机器翻译(EAPMT)方法,利用单语诗歌解释作为翻译过程的指导信息。此外,我们改进了现有的评估标准,以更好地适应现代诗歌翻译的微妙之处。我们邀请了一组专业诗人进行评估,并通过使用GPT-4进行评估。人机评估结果表明,我们的EAPMT方法在性能上优于ChatGPT和现有在线系统的传统翻译方法。本文验证了我们方法的有效性,并为机器辅助文学翻译提供了新颖的视角。

论文链接: https://arxiv.org/pdf/2406.03450

cs.CL: 语言模型是理性的吗?连贯性规范和信念修订的案例。

原标题: Are language models rational? The case of coherence norms and belief revision

作者: Thomas Hofweber, Peter Hase, Elias Stengel-Eskin, Mohit Bansal

摘要: 机器学习模型,特别是语言模型,是否适用于理性规范?本文通过关注一种特殊的理性规范子集:连贯性规范,来探讨这个问题。我们考虑逻辑连贯性规范以及与信念强度相关的连贯性规范。为了理解后者,我们引入了最小认同连接(MAC),并提出了一种捕捉语言模型中信念强度的新解释。这一提议仅基于模型内部下一个标记概率简单地分配信念强度。我们认为,与连贯性相关的理性规范确实适用于某些语言模型,但并非适用于所有模型。这个问题很重要,因为理性与预测和解释行为密切相关,因此与考虑人工智能安全和对齐性以及更一般地理解模型行为相关。

论文链接: https://arxiv.org/pdf/2406.03442

cs.CL: 思维周期:通过稳定解释来衡量大语言模型的信心

原标题: Cycles of Thought: Measuring LLM Confidence through Stable Explanations

作者: Evan Becker, Stefano Soatto

机构: 加州大学洛杉矶分校

摘要: 在许多高风险的机器学习应用中,对模型在预测时表明不确定性是至关重要的。虽然大语言模型(LLMs)可以在各种基准测试中达到甚至超越人类水平的准确性,但它们在错误响应方面过于自信仍然是一个被充分记录的失败模式。传统的机器学习不确定性量化方法往往难以直接适应LLMs,因为实现的计算成本高,而且许多模型是封闭源的。最近提出了各种黑盒方法,但这些方法通常依赖于启发式,如自我言语化的信心。相反,我们提出了一个框架,用于测量LLM对生成的答案解释分布的不确定性。虽然利用解释本身并不是一个新的想法,但通过将每个可能的模型+解释对解释为测试时分类器,我们可以计算出对这些分类器中最有可能的后验答案分布。我们演示了如何使用解释蕴涵作为我们的分类器似然的特定实例框架,可以在五个不同数据集上提高置信度评分指标(特别是AURC和AUROC)超过基线。我们相信这些结果表明我们的框架既是一个基于良好原则又有效的量化LLMs不确定性的方法。

论文链接: https://arxiv.org/pdf/2406.03441

cs.CL: 利用大语言模型自动化生成土耳其教育测验

原标题: Automating Turkish Educational Quiz Generation Using Large Language Models

作者: Kamyar Zeinalipour, Yusuf Gökberk Keptiğ, Marco Maggini, Marco Gori

机构: 锡耶纳大学 意大利

摘要: 从教育内容中制作测验是一项至关重要的活动,通过强化学习并评估理解,使教师和学生受益匪浅。在这项研究中,我们介绍了一种新颖的方法,从土耳其教育文本中生成测验,这标志着在专门针对土耳其教育背景的教育技术领域开展的开拓性工作。我们提出了一个专门的数据集,名为土耳其测验指导,其中包括大量土耳其教育文本,附带多项选择和简答测验。这项研究利用了大语言模型(LLMs)的能力,包括GPT-4-Turbo、GPT-3.5-Turbo、Llama-2-7b-chat-hf和Llama-2-13b-chat-hf,从土耳其教育内容中自动生成测验问题和答案。我们阐明了在土耳其教育材料背景下应用这些LLMs的方法论,从而为自动化土耳其测验生成开辟了新途径。这项研究不仅展示了使用这些模型生成连贯和相关测验内容的有效性,还为除英语以外的其他语言领域的未来研究树立了先例。土耳其测验指导数据集被引入为研究人员和从业者探索教育技术边界以及LLMs在土耳其语中的语言特定应用的宝贵资源。通过针对土耳其等非英语环境中测验生成的挑战,本研究在土耳其教育技术领域做出了重大贡献,为利用LLMs进行跨越多样化语言环境的教育目的提供了见解。

论文链接: https://arxiv.org/pdf/2406.03397

cs.CL: IrokoBench:在大语言模型时代的非洲语言新基准。

原标题: IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models

作者: David Ifeoluwa Adelani, Jessica Ojo, Israel Abebe Azime, Jian Yun Zhuang, Jesujoba O. Alabi, Xuanli He, Millicent Ochieng, Sara Hooker, Andiswa Bukula, En-Shiun Annie Lee, Chiamaka Chukwuneke, Happy Buzaaba, Blessing Sibanda, Godson Kalipe, Jonathan Mukiibi, Salomon Kabongo, Foutse Yuehgoh, Mmasibidi Setaka, Lolwethu Ndolela, Nkiruka Odu, Rooweither Mabuya, Shamsuddeen Hassan Muhammad, Salomey Osei, Sokhar Samb, Tadesse Kebede Guge, Pontus Stenetorp

机构: 伦敦大学学院 萊拉帕人工智能 萨尔兰大学 多伦多大学 微软非洲研究院 人工智能协作 SADiLaR 安大略科技大学 兰开斯特大学 普林斯顿大学 马凯雷大学 莱布尼兹汉诺威大学 法国国家高等职业培训学院 伦敦帝国学院 德乌斯托大学 达喀尔大学 哈勒迈亚大学

摘要: 尽管大语言模型(LLMs)被广泛采用,但它们的显著能力仍然仅限于少数高资源语言。此外,许多低资源语言(例如非洲语言)通常仅在基本文本分类任务上进行评估,因为缺乏适用于高资源语言之外的适当或全面的基准。在本文中,我们介绍了IrokoBench——一个涵盖16种类型多样的低资源非洲语言的人工翻译基准数据集,涵盖三个任务:自然语言推理(AfriXNLI)、数学推理(AfriMGSM)和基于多选知识的问答(AfriMMLU)。我们使用IrokoBench来评估零样本、少样本和翻译测试设置(其中测试集被翻译成英语)在10个开放和四个专有LLMs上的表现。我们的评估揭示了高资源语言(如英语和法语)与低资源非洲语言之间存在显著的性能差距。我们观察到开放和专有模型之间存在显著的性能差距,其中表现最佳的开放模型Aya-101仅达到最佳专有模型GPT-4o性能的58%。在评估之前将测试集翻译成英语有助于弥合那些以英语为中心的较大模型(如LLaMa 3 70B)之间的差距。这些发现表明需要更多的努力来开发和调整针对非洲语言的LLMs。

论文链接: https://arxiv.org/pdf/2406.03368

cs.CL: 基于大语言模型的重新书写不当论证,利用来自机器反馈的强化学习

原标题: LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback

作者: Timon Ziegenbein, Gabriella Skitalinskaya, Alireza Bayat Makou, Henning Wachsmuth

机构: 莱布尼茨大学汉诺威

摘要: 确保在线讨论文明和富有成效是社交媒体平台面临的一项重大挑战。这类平台通常依赖用户和自动检测工具来标记其他用户的不当言论,然后由管理员进行审核。然而,这种事后的内容管理方式既昂贵又耗时,管理员经常被标记内容的数量和严重程度所压倒。相反,一个有前途的替代方案是在内容创建过程中防止负面行为。本文研究了如何在论点中计算地减轻不当语言。我们提出了一种基于强化学习的改写方法,根据现有分类器平衡内容保留和适当性,促使一个经过指导微调的大语言模型(LLM)成为我们的初始策略。与相关的风格转移任务不同,改写不当论点允许永久删除和添加内容。因此,它是在文档级别而不是句子级别上进行处理。我们在绝对和相对人类评估研究中评估了不同的奖励函数加权方案。对非平行数据的系统实验表明,我们的方法可以减轻论点的不当性,同时在很大程度上保留其内容。它明显优于竞争基线,包括少样本学习、促使和人类。

论文链接: https://arxiv.org/pdf/2406.03363

cs.CL: 评估大语言模型应用的挑战:自动化、人工和基于大语言模型方法的分析

原标题: The Challenges of Evaluating LLM Applications: An Analysis of Automated, Human, and LLM-Based Approaches

作者: Bhashithe Abeysinghe, Ruhan Circi

机构: 美国空中研究所

摘要: 聊天机器人自问世以来一直是自然语言生成的一个有趣应用。借助新颖的基于Transformer的生成式AI方法,构建聊天机器人变得轻而易举。针对特定领域(如医学、心理学和一般信息检索)的聊天机器人得到了快速实现。然而,这并不应分散对聊天机器人响应进行评估的必要性。特别是因为自然语言生成社区并不完全就如何有效评估此类应用达成一致。通过这项工作,我们进一步讨论了越来越受欢迎的基于LLM的评估方法,以及它们与人类评估之间的相关性。此外,我们引入了一种全面的分级评估机制,可与人类和基于LLM的评估结合使用。
我们介绍了在我们的一个聊天机器人实现中使用此方案进行的实验评估结果,并随后比较了自动化评估、传统人类评估、分级人类评估和分级LLM评估。结果显示,基于因素的评估能更好地揭示LLM应用中需要改进的方面,并进一步加强了在主功能不是直接检索时在关键领域使用人类评估的论点。

论文链接: https://arxiv.org/pdf/2406.03339

cs.CL: 文档级索赔提取和去文本化以进行事实核查

原标题: Document-level Claim Extraction and Decontextualisation for Fact-Checking

作者: Zhenyun Deng, Michael Schlichtkrul, Andreas Vlachos

机构: 剑桥大学

摘要: 选择要检查的声明对于人类事实核查员来说是一项耗时的任务,特别是对于由多个句子组成并包含多个声明的文件。然而,现有的声明提取方法更多关注于从单个句子中识别和提取声明,例如,识别一个句子是否包含声明或声明在句子中的确切边界。在本文中,我们提出了一种用于事实核查的文档级声明提取方法,旨在从文档中提取值得核查的声明,并对其进行去上下文化处理,以便在无上下文的情况下理解。具体而言,我们首先将声明提取重新构建为提取式摘要,以识别文档中的中心句子,然后通过句子去上下文化重写这些句子,以包含来自原始文档的必要上下文。通过自动度量和事实核查专业人员的评估,我们的方法能够比以往的工作更准确地从文档中提取值得核查的声明,同时改善了证据检索。

论文链接: https://arxiv.org/pdf/2406.03239

cs.CL: 年轻英语学习者语言的错误保留自动语音识别

原标题: Error-preserving Automatic Speech Recognition of Young English Learners’ Language

作者: Janick Michot, Manuela Hürlimann, Jan Deriu, Luzia Sauer, Katsiaryna Mlynchyk, Mark Cieliebak

摘要: 语言学习者需要练习的核心技能之一是说这种语言。目前,学校的学生没有足够的口语机会,缺乏对话练习。语音技术和自然语言处理的最新进展使得可以创建新颖的工具来练习他们的口语技能。在这项工作中,我们解决了这种流程的第一个组成部分,即自动语音识别模块(ASR),它面临着许多挑战:首先,最先进的ASR模型通常是由母语为英语的成年人朗读数据进行训练的,不太适用于年轻语言学习者的语音。其次,大多数ASR系统包含一个强大的语言模型,可以平滑说话者的错误。为了提供纠正性反馈,这是语言学习的关键部分,我们设置中的ASR系统需要保留语言学习者所犯的错误。在这项工作中,我们构建了一个满足这些要求的ASR系统:它适用于年轻语言学习者的即兴语音,并保留他们的错误。为此,我们收集了一个包含瑞士4至6年级学生在不同语言学习任务中所说的英语音频约85小时的语料库,用于训练ASR模型。我们的实验表明,我们的模型受益于对儿童声音的直接微调,并且比其他模型具有更高的错误保留率。

论文链接: https://arxiv.org/pdf/2406.03235

Github: https://github.com/mict-zhaw/chall_e2e_stt

cs.CL: 将 Diderot 的《Encyclopédie》中的命名实体链接到 Wikidata

原标题: Linking Named Entities in Diderot’s Encyclopédie to Wikidata

作者: Pierre Nugues

摘要: 《百科全书》是欧洲18世纪的一部参考书,旨在汇集当时的知识。《维基百科》有着更广泛的目标和抱负。然而,这两部百科全书之间缺乏数字连接可能会妨碍它们的比较以及知识如何演变的研究。《维基百科》的一个关键元素是Wikidata,它为文章提供了结构化数据的图表支持。在本文中,我们描述了对《百科全书》10,300多个条目进行注释的过程,使用Wikidata标识符使我们能够将这些条目连接到图表中。我们考虑了地理和人类实体。《百科全书》不包含人物传记条目,因为它们大多出现在地点的子条目中。我们提取了所有地理条目,并完全注释了所有包含人类实体描述的条目。这涉及超过2,600个指向地点或人类实体的链接。此外,我们还注释了超过9,500个仅包含地理内容的条目。我们描述了注释过程以及应用示例。这一资源可在此 https URL 上获得。

论文链接: https://arxiv.org/pdf/2406.03221

Github: https://github.com/pnugues/encyclopedie_1751

cs.CL: ChatLang-8:基于大语言模型的语法错误校正合成数据生成框架

原标题: ChatLang-8: An LLM-Based Synthetic Data Generation Framework for Grammatical Error Correction

作者: Jeiyoon Park, Chanjun Park, Heuiseok Lim

机构: 韩国大学 Atommerce Upstage AI

摘要: 我们探讨并改进大语言模型(LLMs)生成语法错误校正(GEC)数据的能力。当仅仅生成平行句子时,它们的模式过于简单,不足以作为语料库有价值。为了解决这个问题,我们提出了一个自动化框架,包括主题选择器、语法选择器、提示管理器和评估器。此外,我们引入了一个新的用于GEC任务的数据集,名为\textbf{ChatLang-8},其中包括八种主题名词和23种语法类型。它包含100万对人类般的语法错误。我们的实验表明,与现有的GEC数据集相比,ChatLang-8展现出更加统一的模式构成。此外,我们观察到在使用ChatLang-8而不是现有的GEC数据集时,模型性能有所提升。实验结果表明,我们的框架和ChatLang-8是增强ChatGPT数据生成能力的宝贵资源。

论文链接: https://arxiv.org/pdf/2406.03202

cs.CL: Missci: 重建被误传科学中的谬误

原标题: Missci: Reconstructing Fallacies in Misrepresented Science

作者: Max Glockner, Yufang Hou, Preslav Nakov, Iryna Gurevych

机构: 德国达姆斯塔特工业大学 爱尔兰IBM研究院 MBZUAI

摘要: 社交网络上与健康相关的错误信息可能导致糟糕的决策和现实世界的危险。这类错误信息经常歪曲科学出版物,并将其引用为“证据”以获得被认为可信的可信度。为了有效地自动对抗这种主张,系统必须解释这种主张是如何从引用的出版物中错误推导出来的。目前用于自动事实核查或谬误检测的方法忽略了对(误用的)证据与错误信息主张之间的关系的评估,这是必要的以便检测它们之间的不匹配。为了填补这一空白,我们引入了 Missci,这是一个新颖的论证理论模型,用于谬误推理,同时提供了一个用于检测歪曲生物医学出版物的真实世界错误信息的新数据集。与以往的谬误检测数据集不同,Missci (i) 着重于引用出版物的相关内容与不准确主张之间的隐含谬误,以及 (ii) 要求模型除了对其进行分类外,还要用语言表达出谬误推理。我们将 Missci 提出为一个数据集,用于在零样本设置中测试大语言模型(LLMs)的批判性推理能力,这些模型需要重建现实世界的谬误论证。我们评估了两个代表性的LLM以及通过提示向LLM提供的不同详细程度的关于谬误类别的信息对LLM的影响。我们的实验和人类评估显示了GPT 4的有希望的结果,同时也展示了这一任务的困难之处。

论文链接: https://arxiv.org/pdf/2406.03181

cs.CL: StatBot.Swiss: 双语自然语言开放数据探索

原标题: StatBot.Swiss: Bilingual Open Data Exploration in Natural Language

作者: Farhad Nooralahzadeh, Yi Zhang, Ellery Smith, Sabine Maennel, Cyril Matthey-Doret, Raphaël de Fondville, Kurt Stockinger

机构: 苏黎世应用科学大学 瑞士 瑞士数据科学中心 联邦统计局

摘要: 大语言模型(LLMs)在文本到SQL系统中带来的改进潜力主要是在单语英语数据集上进行评估的。然而,LLMs在其他语言上的表现仍然是未被广泛探索的。在这项工作中,我们发布了StatBot.Swiss数据集,这是第一个用于评估基于真实应用的文本到SQL系统的双语基准。StatBot.Swiss数据集包含455个自然语言/SQL对,涵盖了35个大型数据库,这些数据库的复杂程度各不相同,涵盖了英语和德语两种语言。

我们评估了最先进的LLMs(如GPT-3.5-Turbo和mixtral-8x7b-instruct)在文本到SQL翻译任务中的表现,采用了一种基于上下文学习的方法。我们的实验分析表明,目前的LLMs在我们的新颖双语数据集上生成SQL查询时很难很好地泛化。

论文链接: https://arxiv.org/pdf/2406.03170

cs.CL: CSS:用于大语言模型不确定性量化的对比语义相似性

原标题: CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs

作者: Shuang Ao, Stefan Rueger, Advaith Siddharthan

机构: 开放大学

摘要: 尽管大语言模型(LLMs)具有令人印象深刻的能力,但如何判断何时信任它们生成的内容仍然是一个挑战。最近关于自然语言生成(NLG)不确定性量化的文献利用传统的自然语言推理(NLI)分类器来衡量LLMs响应的语义分散程度。这些研究利用NLI分类器的logits进行语义聚类以估计不确定性。然而,logits表示预测类别的概率,几乎不包含用于潜在聚类的特征信息。相反,对比语言-图像预训练(CLIP)在提取图像-文本对特征并测量它们的相似性方面表现出色。为了扩展其可用性,我们提出了基于CLIP的特征提取模块对文本对获取相似性特征以衡量不确定性。我们将这种方法应用于选择性NLG,以检测并拒绝不可靠的生成内容,以提高LLMs的可信度。我们在几个基准问答数据集上进行了大量实验,使用全面的评估指标。结果表明,我们提出的方法在估计LLMs可靠响应方面优于可比较的基线。结果表明,我们提出的方法在估计LLMs可靠响应方面优于可比较的基线。代码可在\url{此https URL}处获得。

论文链接: https://arxiv.org/pdf/2406.03158

Github: https://github.com/AoShuang92/css_uq_llms

cs.CL: 你站在哪一边?一个用于端到端论点摘要和评估的多任务数据集

原标题: Which Side Are You On? A Multi-task Dataset for End-to-End Argument Summarisation and Evaluation

作者: Hao Li, Yuping Wu, Viktor Schlegel, Riza Batista-Navarro, Tharindu Madusanka, Iqra Zahid, Jiayan Zeng, Xiaochi Wang, Xinran He, Yizhi Li, Goran Nenadic

摘要: 最近大语言模型(LLMs)的进展使得构建一个自动辩论系统来帮助人们综合有说服力的论点不再是不可行的。先前的工作尝试通过整合多个组件来完成这项任务。在我们的工作中,我们引入了一个论点挖掘数据集,涵盖了为辩论准备辩证性论文的端到端过程,其中包括主张和证据识别(任务1 ED)、证据说服力排名(任务2 ECR)、辩证性论文总结和人类偏好排名(任务3 ASR)以及基于人类反馈沿着论点质量维度进行自动评估的度量学习(任务4 SQE)。我们的数据集包含了14k个主张示例,这些示例都完全注释了支持上述任务的各种属性。我们对每个任务评估了多个生成基线,包括代表性的LLMs。我们发现,虽然它们在我们的基准测试中对各个任务显示出有希望的结果,但它们在所有四个任务的端到端性能上都显著下降,无论是在自动化度量还是在以人为中心的评估中。我们提出的数据集所提出的挑战激励了未来关于端到端论点挖掘和总结的研究。该项目的存储库可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2406.03151

Github: https://github.com/HarrywillDr/ArgSum-Datatset

cs.CL: 朝向真实场景:不平衡新意图发现

原标题: Towards Real-world Scenario: Imbalanced New Intent Discovery

作者: Shun Zhang, Chaoran Yan, Jian Yang, Jiaheng Liu, Ying Mo, Jiaqi Bai, Tongliang Li, Zhoujun Li

机构: 北京航空航天大学 清华大学 北京信息科技大学

摘要: 新意图发现(NID)旨在通过利用有限标记和大规模未标记数据,检测已知和先前未定义的用户意图类别。大多数先前的工作通常在一个不切实际的假设下运行,即熟悉和新的意图类别的分布是均匀的,忽视了在现实场景中经常遇到的倾斜和长尾分布。为了弥合这一差距,我们的工作引入了不平衡新意图发现(i-NID)任务,旨在识别长尾分布中的熟悉和新颖意图类别。创建了一个新的基准(ImbaNID-Bench),由三个数据集组成,用于模拟真实世界的长尾分布。ImbaNID-Bench涵盖了从广泛跨领域到特定单一领域意图类别,提供了对实际用例的全面代表。此外,提出了一个强大的基线模型ImbaNID,以实现友好的意图表示聚类。它包括三个阶段:模型预训练,可靠伪标签生成,以及强化模型性能以处理现实世界数据分布复杂性的稳健表示学习。我们在先前的基准和新建立的基准上进行了大量实验,证明了ImbaNID在解决i-NID任务中的卓越性能,突显了其作为一个强大基线的潜力,用于揭示和分类不平衡和长尾分布中的用户意图。

论文链接: https://arxiv.org/pdf/2406.03127

Github: https://github.com/Zkdc/i-NID

cs.CL: 句子嵌入的空间分解

原标题: Space Decomposition for Sentence Embedding

作者: Wuttikorn Ponwitayarat, Peerat Limkonchotiwat, Ekapol Chuangsuwanich, Sarana Nutanong

机构: 威斯特科技学院 朱拉隆功大学

摘要: 确定句对相似性对于各种自然语言处理任务至关重要。解决这个问题的一种常见技术通常在一个从0到5的连续语义文本相似度评分上进行评估。然而,根据STS标注指南中的语言观察,我们发现范围在[4,5]之间的分数表示上限范围样本,而其余的则是下限范围样本。这需要一种新方法来分别处理上限范围和下限范围的类别。在本文中,我们介绍了一种名为MixSP的新型嵌入空间分解方法,利用一种称为Mixture of Specialized Projectors的方法,旨在准确区分和排名上限范围和下限范围的样本。实验结果表明,MixSP显著降低了上限范围和下限范围类别之间的重叠表示,同时在STS和零样本基准测试中表现优于竞争对手。

论文链接: https://arxiv.org/pdf/2406.03125

Github: https://github.com/kornwtp/mixsp

cs.CL: 利用大语言模型外部记忆中的片段级关系

原标题: FragRel: Exploiting Fragment-level Relations in the External Memory of Large Language Models

作者: Xihang Yue, Linchao Zhu, Yi Yang

机构: 浙江大学 CCAI ReLER

摘要: 为了使用大语言模型(LLMs)处理具有无限长度的上下文,最近的研究探索了分层管理长文本。只有几个文本片段被取出并传递到临时工作内存,即LLM的上下文窗口。然而,现有方法孤立地处理文本片段,而不考虑它们的结构连接,因此在处理具有密集相互关系的文本方面能力有限,例如连贯的故事和代码仓库。本文试图通过利用外部存储器中的片段级关系来解决这个问题。首先,我们制定了片段级关系,并针对不同的文本类型提出了几种实例化方法。接下来,我们在先前独立的片段评估基础上引入了一个关系感知的片段评估标准。最后,我们提出了基于片段连接的分层记忆的LLM。我们验证了在长篇故事理解、仓库级代码生成和长期聊天中涉及这些关系的好处。

论文链接: https://arxiv.org/pdf/2406.03092

cs.CL: 加密货币欺诈指南:ChatGPT 如何向我们介绍欺诈?

原标题: Cryptocurrency Frauds for Dummies: How ChatGPT introduces us to fraud?

作者: Wail Zellagui, Abdessamad Imine, Yamina Tadjeddine

机构: Université de Lorraine BETA Cnrs Inria France

摘要: 最近在大语言模型(LLMs)领域取得的进展,特别是ChatGPT系列,催生了一个强大而多才多艺的机器对话者,充满知识,挑战着我们对学习的理解。这个对话者是一把双刃剑:它可以被利用于各种有益的任务,但也可以被用来造成伤害。这项研究探讨了ChatGPT与日益严重的加密货币欺诈问题之间复杂的互动关系。尽管ChatGPT以其适应性和在用于有害目的时的道德考量而闻名,我们强调了ChatGPT与波动的加密货币生态系统中欺诈行为之间可能存在的深刻联系。基于我们对加密货币欺诈的分类,我们展示了如何通过操纵ChatGPT提示来影响输出,绕过道德条款,并实现特定的欺诈目标。此外,我们的研究结果强调了意识到ChatGPT甚至可能成为新手欺诈者的宝贵导师的重要性,以及理解和安全地部署复杂的语言模型,特别是在加密货币欺诈的背景下。最后,我们的研究强调了在数字货币领域负责任和道德地使用大语言模型的重要性,识别潜在风险并解决道德问题。值得注意的是,我们的工作并非旨在鼓励和推广欺诈,而是为了提高人们对使用ChatGPT可能涉及欺诈风险的意识。

论文链接: https://arxiv.org/pdf/2406.03079

cs.CL: 通过基于马尔可夫链的多智能体辩论框架来检测大语言模型的幻觉

原标题: Towards Detecting LLMs Hallucination via Markov Chain-based Multi-agent Debate Framework

作者: Xiaoxi Sun, Jinpeng Li, Yan Zhong, Dongyan Zhao, Rui Yan

机构: 北京大学 王选计算机技术研究所 人民大学中国人民大学高灵学院

摘要: 大语言模型(LLMs)的出现促进了自然语言文本生成技术的发展。但也带来了前所未有的挑战,内容幻觉成为一个重要关注点。现有的解决方案通常涉及在训练过程中进行昂贵且复杂的干预。此外,一些方法强调问题的分解,却忽视了关键的验证过程,导致性能下降或应用受限。为了克服这些限制,我们提出了基于马尔可夫链的多智能体辩论验证框架,以提高简洁主张中幻觉检测的准确性。我们的方法整合了事实核查过程,包括主张检测、证据检索和多智能体验证。在验证阶段,我们通过灵活的基于马尔可夫链的辩论部署多个智能体,验证个别主张,确保细致的验证结果。跨三个生成任务的实验结果表明,我们的方法在基线上取得了显著的改进。

论文链接: https://arxiv.org/pdf/2406.03075

cs.CL: RadBARTsum:针对放射学报告摘要的去噪序列到序列模型的领域特定调整

原标题: RadBARTsum: Domain Specific Adaption of Denoising Sequence-to-Sequence Models for Abstractive Radiology Report Summarization

作者: Jinge Wu, Abul Hasan, Honghan Wu

机构: 伦敦大学学院 格拉斯哥大学

摘要: 放射学报告摘要是一项至关重要的任务,可以帮助医生快速识别临床上重要的发现,而无需查看报告的详细部分。本研究提出了RadBARTsum,这是对BART模型进行领域特定和本体论辅助适应,用于放射学报告的提取式摘要。该方法包括两个主要步骤:1)使用一种新颖的实体屏蔽策略在大量放射学报告语料库上重新训练BART模型,以提高生物医学领域知识学习,2)使用“发现”和“背景”部分微调模型,以预测“印象”部分的摘要任务。实验使用不同的屏蔽策略进行。结果显示,通过领域知识辅助屏蔽的重新训练过程在各种设置下始终提高性能。这项工作为放射学报告摘要贡献了一个领域特定的生成语言模型,并提出了一种利用医学知识实现实体屏蔽语言模型的方法。所提出的方法展示了通过加深对放射学报告临床知识理解来增强语言模型效率的有前景的方向。

论文链接: https://arxiv.org/pdf/2406.03062

cs.CL: 流式语音:使用多任务学习进行同时语音到语音翻译

原标题: StreamSpeech: Simultaneous Speech-to-Speech Translation with Multi-task Learning

作者: Shaolei Zhang, Qingkai Fang, Shoutao Guo, Zhengrui Ma, Min Zhang, Yang Feng

机构: 中国科学院计算技术研究所 中国科学院人工智能安全重点实验室 中国科学院大学 东南大学

摘要: 同时语音到语音翻译(Simul-S2ST,又称流式语音翻译)在接收流式语音输入的同时输出目标语音,这对于实时通信至关重要。除了完成语音之间的翻译,Simul-S2ST 需要一种策略来控制模型在语音输入中的适当时机生成相应的目标语音,从而提出了翻译和策略的双重挑战。在本文中,我们提出了 StreamSpeech,一个直接的 Simul-S2ST 模型,它在多任务学习的统一框架中共同学习翻译和同时策略。遵循多任务学习方法,StreamSpeech 可以通过一个“一体化”无缝模型执行离线和同时语音识别、语音翻译和语音合成。在 CVSS 基准测试上的实验表明,StreamSpeech 在离线 S2ST 和 Simul-S2ST 任务中均实现了最先进的性能。此外,StreamSpeech 能够在同时翻译过程中呈现高质量的中间结果(即 ASR 或翻译结果),为提供更全面的实时通信体验。

论文链接: https://arxiv.org/pdf/2406.03049

Github: https://github.com/ictnlp/streamspeech

cs.CL: 从塔尔扎到托尔金:控制大语言模型的语言熟练度水平以进行内容生成

原标题: From Tarzan to Tolkien: Controlling the Language Proficiency Level of LLMs for Content Generation

作者: Ali Malik, Stephen Mayhew, Chris Piech, Klinton Bicknell

机构: 斯坦福大学 杜林戈公司

摘要: 我们研究了控制大语言模型(LLMs)生成文本难度级别的问题,针对终端用户不完全熟练的情境,比如语言学习者。利用一种新颖的框架,我们评估了几种关键方法的有效性,包括少样本提示、监督微调和强化学习(RL),同时利用 GPT-4 和开源替代方案,如 LLama2-7B 和 Mistral-7B。
我们的研究结果显示,在使用基于提示的策略时,GPT-4 和开源模型之间存在较大的性能差距。然而,我们展示了如何通过精细调整和 RL 对齐来弥合这一差距。我们的最佳模型 CALM(CEFR 对齐语言模型)在成本仅为一小部分的情况下,超越了 GPT-4 和其他策略的性能。我们通过小规模人类研究进一步验证了我们结果的质量。

论文链接: https://arxiv.org/pdf/2406.03030

cs.CL: 揭示选择偏见:探索大语言模型中的顺序和Token敏感性

原标题: Unveiling Selection Biases: Exploring Order and Token Sensitivity in Large Language Models

作者: Sheng-Lun Wei, Cheng-Kuang Wu, Hen-Hsen Huang, Hsin-Hsi Chen

机构: 国立台湾大学 台湾 中央研究院

摘要: 在这篇论文中,我们调查了大语言模型(LLMs)中“选择偏差”现象,重点关注模型在从有序序列中选择最佳选项的问题。我们深入研究了与选项顺序和标记使用相关的偏差,这些偏差显著影响了LLMs的决策过程。我们还通过对多个模型和任务进行广泛的实证分析来量化这些偏差的影响。此外,我们提出了缓解策略以增强模型性能。我们的主要贡献有三个方面:1)精确量化选项顺序和标记对LLMs的影响,2)制定策略以减轻标记和顺序敏感性的影响,以增强鲁棒性,3)提供了跨模型和任务的敏感性详细分析,为创建更稳定可靠的LLM应用程序提供了信息,特别是针对选择问题。

论文链接: https://arxiv.org/pdf/2406.03009

cs.CL: BadAgent: 在大语言模型智能体中插入和激活后门攻击

原标题: BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents

作者: Yifei Wang, Dizhan Xue, Shengjie Zhang, Shengsheng Qian

机构: 郑州大学 中国科学院自动化研究所 中国科学院大学

摘要: 随着大语言模型(LLMs)的繁荣,基于强大的LLM的智能代理已经被开发出来,以提供一套用户定义工具的定制化服务。构建LLM代理的最先进方法采用训练过的LLMs,并在代理任务的数据上进行进一步微调。然而,我们展示了这种方法容易受到我们提出的名为BadAgent的后门攻击的影响,该攻击可以通过在后门数据上进行微调来嵌入后门。在测试时,攻击者可以通过在代理输入或环境中显示触发器来操纵部署的LLM代理执行有害操作。令人惊讶的是,我们提出的攻击方法即使在可信数据上进行微调后仍然非常强大。尽管后门攻击在自然语言处理领域已经得到广泛研究,但据我们所知,我们可能是第一个在更危险的LLM代理上研究这些攻击的人,因为这些代理具有使用外部工具的权限。我们的工作展示了基于不受信任的LLMs或数据构建LLM代理的明显风险。我们的代码在此https URL上公开。

论文链接: https://arxiv.org/pdf/2406.03007

Github: https://github.com/DPamK/BadAgent

cs.CL: 多模态情感分析数据不一致性评估

原标题: Evaluation of data inconsistency for multi-modal sentiment analysis

作者: Yufei Wang, Mengyue Wu

摘要: 情感语义不一致是多模态情感分析(MSA)中普遍存在的挑战。MSA涉及分析在文本、音频和视频等各种模态中表达的情感。每种模态可能传达情感的不同方面,由于人类微妙而微妙的表达,导致不一致性,这可能会阻碍人工智能智能体的预测。在这项工作中,我们引入了一个模态冲突的测试集,并评估了传统多模态情感分析模型和多模态大语言模型(MLLMs)的性能。我们的研究结果显示,在面对语义冲突数据时,传统模型的性能显著下降,并指出了MLLM在处理多模态情感分析时的缺点。我们的研究提出了一个新的挑战,并为未来情感分析系统的发展提供了宝贵的见解。

论文链接: https://arxiv.org/pdf/2406.03004

cs.CL: 阅读可读性指导的成语感知句子简化(RISS)用于中文

原标题: Readability-guided Idiom-aware Sentence Simplification (RISS) for Chinese

作者: Jingshen Zhang, Xinglu Chen, Xinying Qiu, Zhimin Wang, Wenhe Feng

机构: 广东外语外贸大学 语言工程与计算实验室

摘要: 中文句子简化面临挑战,因为缺乏大规模标记的平行语料库和习语的普遍存在。为了解决这些挑战,我们提出了基于可读性指导的习语感知句子简化(RISS)的新框架,该框架将数据增强技术与词汇简化相结合。RISS引入了两个关键组件:(1)可读性指导的释义选择(RPS),一种挖掘高质量句子对的方法,以及(2)习语感知简化(IAS),一种增强习语表达理解和简化的模型。通过使用多阶段和多任务学习策略集成RPS和IAS,RISS在两个中文句子简化数据集上优于先前的最先进方法。此外,当在小型标记数据集上进行微调时,RISS实现了额外的改进。我们的方法展示了更有效和可访问的中文文本简化的潜力。

论文链接: https://arxiv.org/pdf/2406.02974

cs.CL: Docs2KG:大语言模型辅助下的异构文档统一知识图谱构建

原标题: Docs2KG: Unified Knowledge Graph Construction from Heterogeneous Documents Assisted by Large Language Models

作者: Qiang Sun, Yuanyi Luo, Wenxiao Zhang, Sirui Li, Jichunyang Li, Kai Niu, Xiangrui Kong, Wei Liu

机构: 西澳大学 哈尔滨工业大学

摘要: 即使采用保守估计,80% 的企业数据存储在非结构化文件中,这些文件存储在能够容纳异构格式的数据湖中。传统搜索引擎已经无法满足信息检索需求,特别是当任务是浏览和探索以形成洞察时。换句话说,没有明显的搜索关键词可用。由于其自然的视觉吸引力可以减少人类认知负荷,知识图成为异构数据集成和知识表示的最佳选择。
在本文中,我们介绍了 Docs2KG,这是一个新颖的框架,旨在从多样化和异构的非结构化文档中提取多模态信息,包括电子邮件、网页、PDF 文件和 Excel 文件。动态生成代表提取的关键信息的统一知识图,Docs2KG 能够实现对文档数据湖的高效查询和探索。与现有侧重于特定领域数据源或预先设计的模式的方法不同,Docs2KG 提供了一个灵活且可扩展的解决方案,可以适应各种文档结构和内容类型。所提出的框架统一了数据处理,支持多种下游任务,并提高了领域可解释性。Docs2KG 可在此 https URL 上公开访问,并且有一个演示视频可在此 https URL 上观看。

论文链接: https://arxiv.org/pdf/2406.02962

其他链接: https://docs2kg.ai4wa.com

cs.CL: 对抗性矩匹配大语言模型蒸馏

原标题: Adversarial Moment-Matching Distillation of Large Language Models

作者: Chen Jia

机构: 西湖大学 SI-TECH信息技术

摘要: 知识蒸馏(KD)已被证明在指导一个拥有更大教师模型的学生模型方面非常有效,并在改善大型语言模型(LLMs)的计算和内存效率方面取得了实际效益。用于LLMs的最先进的KD方法主要依赖于最小化教师和学生概率预测之间的显式分布距离。我们探索了一种用于LLMs的模仿学习策略,而不是优化这些强制性的行为克隆目标。具体来说,我们通过匹配教师行为的动作值矩从on-policy和off-policy两个角度来最小化模仿差距。为了实现这个动作值矩匹配目标,我们提出了一种对抗训练算法,共同估计匹配距离并优化学生策略以将其最小化。来自任务不可知指令遵循实验和任务特定实验的结果表明了我们方法的有效性,并实现了新的最先进性能。

论文链接: https://arxiv.org/pdf/2406.02959

cs.CL: 神经上下文偏置的文本注入

原标题: Text Injection for Neural Contextual Biasing

作者: Zhong Meng, Zelin Wu, Rohit Prabhavalkar, Cal Peyser, Weiran Wang, Nanxin Chen, Tara N. Sainath, Bhuvana Ramabhadran

机构: 谷歌有限责任公司 美国

摘要: 神经上下文偏置有效地提高了自动语音识别(ASR)对说话者上下文中关键短语的识别能力,特别是那些在训练数据中不常见的短语。本文提出了上下文文本注入(CTI)来增强上下文ASR。CTI不仅利用配对的语音文本数据,还利用一个更大的未配对文本语料库来优化ASR模型及其偏置组件。未配对文本被转换为类似语音的表示,并用于引导模型的注意力集中在相关的偏置短语上。此外,我们引入了一种上下文文本注入(CTI)最小词错误率(MWER)训练,当未配对文本被注入到模型中时,最小化由上下文偏置引起的期望词错误率。实验表明,具有1000亿个文本句子的CTI可以使强神经偏置模型的识别错误率相对降低高达43.3%。CTI-MWER提供了额外的相对改进,达到23.5%。

论文链接: https://arxiv.org/pdf/2406.02921

cs.CL: 多方面评估:多方面评估以探究大语言模型在掌握医学知识方面的能力

原标题: MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge

作者: Yuxuan Zhou, Xien Liu, Chen Ning, Ji Wu

机构: 清华大学

摘要: 大语言模型(LLMs)在各个领域表现出色,也在医学评估基准上取得显著成绩,如MedQA。然而,在真实世界的医学场景中,报告的性能与实际效果之间仍存在显著差距。本文旨在通过采用多方面的检查方案系统地探究当前LLMs对医学知识的实际掌握程度的原因。具体而言,我们开发了一个新颖的评估框架MultifacetEval,以同时检查LLMs在编码和掌握医学知识的程度和覆盖范围在多个方面(比较、矫正、区分和验证)上。基于MultifacetEval框架,我们构建了两个多方面评估数据集:MultiDiseK(通过从临床疾病知识库生成问题)和MultiMedQA(通过将医学基准MedQA中的每个问题重新表述为多方面问题)。在这些多方面数据集上的实验结果表明,当前LLMs在掌握医学知识方面的程度远低于它们在现有医学基准上的表现,表明它们在掌握医学知识方面缺乏深度、精确性和全面性。因此,当前的LLMs尚未准备好应用于真实世界的医学任务。代码和数据集可在此https URL获取。

论文链接: https://arxiv.org/pdf/2406.02919

Github: https://github.com/THUMLP/MultifacetEval

cs.CL: 通过预测反馈改进情感分析的上下文学习

原标题: Improving In-Context Learning with Prediction Feedback for Sentiment Analysis

作者: Hongling Xu, Qianlong Wang, Yice Zhang, Min Yang, Xi Zeng, Bing Qin, Ruifeng Xu

机构: 哈尔滨工业大学深圳研究生院 中国科学院深圳先进技术研究院 鹏城实验室 中国电子科技集团公司第30研究所

摘要: 大语言模型(LLMs)通过上下文学习(ICL)范式在情感分析方面取得了令人期待的结果。然而,它们区分微妙情绪的能力仍然是一个挑战。受人类通过反馈调整理解能力的启发,本文通过融合先前预测和反馈来增强ICL,旨在纠正LLMs的情感误解。具体而言,所提出的框架包括三个步骤:(1)获取LLMs的先前预测,(2)根据正确性设计预测性反馈,以及(3)利用反馈驱动的提示来完善情感理解。跨九个情感分析数据集的实验结果表明,我们的框架优于传统的ICL方法,平均F1值提高了5.95%。

论文链接: https://arxiv.org/pdf/2406.02911

cs.CL: 开放式基于场景的规划:挑战和基准构建

原标题: Open Grounded Planning: Challenges and Benchmark Construction

作者: Shiguang Guo, Ziliang Deng, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun

机构: 中国科学院软件研究所 北京 中国 中国科学院大学 北京 中国

摘要: 大语言模型(LLMs)的出现越来越引起人们对将LLMs用于类似人类规划的注意。现有基于LLM的规划工作要么侧重于利用LLMs固有的语言生成能力来生成自由风格的计划,要么采用强化学习方法来学习在受限环境中有限动作的决策。然而,这两种方法都与现实世界规划中的开放性和可执行性要求存在显著差异。在本文中,我们提出了一个新的规划任务–开放式基础规划。开放式基础规划的主要目标是要求模型基于可变动作集生成可执行计划,从而确保所生成计划的可执行性。为此,我们建立了一个涵盖各种领域的开放式基础规划基准。然后,我们测试了当前最先进的LLMs以及五种规划方法,揭示了现有LLMs和方法仍然难以解决开放领域基础规划所带来的挑战。本文的结果定义并建立了开放式基础规划的基础数据集,并为基于LLM的规划的潜在挑战和未来方向提供了启示。

论文链接: https://arxiv.org/pdf/2406.02903

cs.CL: S2^22GSL:将分段纳入到句法增强图结构学习中,用于基于方面的情感分析

原标题: S2^22GSL: Incorporating Segment to Syntactic Enhanced Graph Structure Learning for Aspect-based Sentiment Analysis

作者: Bingfeng Chen, Qihan Ouyang, Yongqi Luo, Boyan Xu, Ruichu Cai, Zhifeng Hao

机构: 广东工业大学 汕头大学

摘要: 在基于图的方面情感分析(ABSA)中,以往的方法利用图神经网络和注意力机制展现了出色的性能,通过学习静态依赖树和动态潜在树的结构。然而,在复杂的全局结构中同时整合语义和句法信息可能会在图结构学习过程中引入不相关的上下文和句法依赖,从而导致不准确的预测。为了解决上述问题,我们提出了S2^22GSL,将段落转换为句法增强图结构学习应用于ABSA。具体而言,S2^22GSL具有一个基于段落意识的语义图学习和一个基于句法的潜在图学习,分别实现了去除不相关的上下文和依赖。我们进一步提出了一个自适应聚合网络,促进了两个图学习分支的融合,从而实现了跨多种结构的互补。在四个基准测试上的实验结果证明了我们框架的有效性。

论文链接: https://arxiv.org/pdf/2406.02902

cs.CL: 语言模型可以进行知识追踪:将语言模型和知识追踪任务整合的简单而有效方法

原标题: Language Model Can Do Knowledge Tracing: Simple but Effective Method to Integrate Language Model and Knowledge Tracing Task

作者: Unggi Lee, Jiyeong Bae, Dohee Kim, Sookbun Lee, Jaekwon Park, Taekyung Ahn, Gunho Lee, Damji Stratton, Hyeoncheol Kim

机构: Enuma, Inc. 韩国大学 美国密苏里大学系统

摘要: 知识追踪(KT)是在线学习中的关键任务,用于建模学生随时间变化的知识。尽管基于深度学习的KT模型取得了成功,这些模型依赖于数字序列作为数据,但大多数现有方法未能利用问题和概念文本中丰富的语义信息。本文提出了基于语言模型的知识追踪(LKT),这是一个将预训练语言模型(PLMs)与KT方法相结合的新颖框架。通过利用语言模型捕获语义表示的能力,LKT有效地整合了文本信息,并在大型基准数据集上显著优于先前的KT模型。此外,我们证明了LKT可以通过利用PLMs捕获的语义知识有效地解决KT中的冷启动问题。与传统的KT模型相比,LKT的可解释性得到了增强,因为它使用了文本丰富的数据。我们进行了局部可解释的模型不可知解释技术和注意力分数分析,以进一步解释模型的性能。我们的工作突出了将PLMs与KT相结合的潜力,并为KT领域的未来研究铺平了道路。

论文链接: https://arxiv.org/pdf/2406.02893

cs.CL: HYDRA:用于黑盒大语言模型个性化的模型分解框架

原标题: HYDRA: Model Factorization Framework for Black-Box LLM Personalization

作者: Yuchen Zhuang, Haotian Sun, Yue Yu, Qifan Wang, Chao Zhang, Bo Dai

机构: 乔治亚理工学院 Meta AI

摘要: 个性化已经成为现代智能系统中的一个关键研究领域,专注于挖掘用户的行为历史并根据他们的偏好进行调整,以提供定制化的体验。尽管黑盒大型语言模型(LLMs)展现出了显著的少样本能力,但由于其模型参数的固有不透明性,使得生成的输出与个体期望之间存在着重大挑战。现有解决方案主要集中在提示设计上,以整合用户特定的配置文件和行为;然而,这种方法往往由于无法捕捉所有用户之间的共享知识而难以有效泛化。为了解决这些挑战,我们提出了HYDRA,这是一个模型分解框架,旨在捕捉来自历史数据的用户特定行为模式和所有用户之间的共享一般知识,以提供个性化生成。为了捕捉用户特定的行为模式,我们首先训练一个重新排序器,以优先考虑从检索到的顶级相关历史记录中提取的最有用信息。通过将优先考虑的历史记录与相应的查询结合,我们训练一个适配器,以使输出与个体用户特定的偏好相一致,消除了对黑盒LLMs固有模型参数的依赖。重新排序器和适配器都可以分解为一个基础模型,具有多个用户特定头部,类似于一个九头蛇。基础模型保持用户之间的共享知识,而多个个人头部捕捉用户特定的偏好。实验结果表明,HYDRA在LaMP基准测试中的五个不同个性化任务中,相对于现有最先进的基于提示的方法,平均相对改进率为9.01%。我们的实现可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2406.02888

Github: https://github.com/night-chen/HYDRA

cs.CL: PLaD: 使用伪偏好对大语言模型进行基于偏好的蒸馏

原标题: PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs

作者: Rongzhi Zhang, Jiaming Shen, Tianqi Liu, Haorui Wang, Zhen Qin, Feng Han, Jialu Liu, Simon Baumgartner, Michael Bendersky, Chao Zhang

机构: 乔治亚理工学院 谷歌

摘要: 大语言模型(LLMs)在各种任务中展现出令人印象深刻的能力,但其庞大的参数规模限制了它们在资源受限环境中的适用性。知识蒸馏(KD)通过将大型教师模型的专业知识转移给紧凑的学生模型,提供了一种可行的解决方案。然而,当应用于大语言模型时,传统的知识蒸馏技术面临特定挑战,包括对LLM输出的访问受限、显著的师生容量差距以及继承的误校准问题。在这项工作中,我们提出了PLaD,一种新颖的基于偏好的LLM蒸馏框架。PLaD利用师生容量差异生成伪偏好对,其中教师输出优于学生输出。然后,PLaD利用排名损失重新校准学生对序列可能性的估计,将学生的注意力引向理解输出的相对质量,而不仅仅是模仿教师。PLaD避免了需要访问教师LLM内部状态的需求,解决了学生表达能力的限制,并减轻了学生的误校准问题。通过在两个序列生成任务上对各种LLMs进行大量实验,我们展示了我们提出的PLaD框架的有效性。

论文链接: https://arxiv.org/pdf/2406.02886

cs.CL: 过时问题感知解码用于事实知识编辑

原标题: Outdated Issue Aware Decoding for Factual Knowledge Editing

作者: Zengkui Sun, Yijin Liu, Jiaan Wang, Fandong Meng, Jinan Xu, Yufeng Chen, Jie Zhou

摘要: 最近,知识编辑受到越来越多的关注,因为它可以在预训练模型中更新特定知识,而无需重新训练。然而,正如最近的研究所指出的,现有的相关方法往往只是记住编辑知识的表面词组成,而不是真正学习和吸收它。因此,在推理问题上,我们发现现有方法很难利用编辑后的知识来推理出新的答案,往往保留过时的响应,这些响应是由原始模型利用原始知识生成的。然而,过时的响应对于推理问题的正确答案是意外的,我们将其称为过时问题。为了缓解这个问题,在本文中,我们提出了一种简单而有效的解码策略,即过时问题感知解码(DISCO),以提高编辑模型在推理问题上的性能。具体来说,我们捕捉原始模型和编辑模型之间概率分布的差异。此外,我们放大编辑模型中的标记预测差异,以减轻过时问题,从而增强模型在编辑知识方面的性能。实验结果表明,应用DISCO可以增强编辑模型的推理能力,例如,在推理问题上,DISCO的F1分数比之前的SOTA方法高出12.99个百分点,并将过时问题的比率降低到5.78%在zsRE数据集上。

论文链接: https://arxiv.org/pdf/2406.02882

cs.CL: LCS:一种用于零样本神经机器翻译的语言转换策略

原标题: LCS: A Language Converter Strategy for Zero-Shot Neural Machine Translation

作者: Zengkui Sun, Yijin Liu, Fandong Meng, Jinan Xu, Yufeng Chen, Jie Zhou

摘要: 多语言神经机器翻译模型通常通过源语言或目标语言句子前的语言标签(LT)来区分翻译方向。然而,当前的LT策略在零样本翻译中无法像预期的那样指示所需的目标语言,即出现了偏离目标的问题。我们的分析表明,目标语言的指示对目标LT的放置位置非常敏感。例如,将目标LT放在解码器侧时,指示会随着解码步骤的进行迅速下降,而将目标LT放在编码器侧会导致复制或释义源输入。为解决上述问题,我们提出了一种简单而有效的策略,名为语言转换器策略(LCS)。通过将目标语言嵌入顶部编码器层,LCS减轻了编码器中的混淆,并确保解码器稳定地指示语言。在MultiUN、TED和OPUS-100数据集上的实验结果表明,LCS可以显著减轻偏离目标的问题,语言准确率分别高达95.28%、96.21%和85.35%,同时在零样本翻译上分别比普通LT策略高出3.07、3.3和7.93 BLEU分数。

论文链接: https://arxiv.org/pdf/2406.02876

cs.CL: NUMCoT: 使用大语言模型进行链式推理中的数字和计量单位

原标题: NUMCoT: Numerals and Units of Measurement in Chain-of-Thought Reasoning using Large Language Models

作者: Ancheng Xu, Minghuan Tan, Lei Wang, Min Yang, Ruifeng Xu

机构: 中国科学院深圳先进技术研究院 新加坡管理大学计算与信息系统学院 哈尔滨工业大学(深圳)

摘要: 数字系统和计量单位是人类活动中的两个相关主题,并且与表达它们的语言相互影响。目前,对大语言模型(LLMs)的评估通常涉及数学推理,但很少关注数字或单位的细微变化如何极大地改变问题的复杂性以及LLMs的性能。在本文中,我们通过构建带有扰动的数据集来审查现有LLMs在处理数字和计量单位时的表现。我们首先解剖数学问题的推理,将其分解为不同的子过程,如从语言到数字的数字转换和基于单位的计量转换。然后,我们进一步注释了古代中国算术作品中具有挑战性的数字和计量单位的数学问题。对扰动数据集的实验表明,LLMs在处理数字和计量单位转换时仍然遇到困难。

论文链接: https://arxiv.org/pdf/2406.02864

cs.CL: 大语言模型作为评分器:输出顺序对对话评估的影响

原标题: LLM as a Scorer: The Impact of Output Order on Dialogue Evaluation

作者: Yi-Pei Chen, KuanChao Chu, Hideki Nakayama

机构: 东京大学

摘要: 这项研究调查了使用大语言模型(LLMs)对话评估中提示设计的影响。虽然LLMs越来越多地用于评分各种输入,但由于模型对话评估的敏感性和主观性,为对话评估创建有效的提示仍然具有挑战性。我们的研究尝试了不同的提示结构,改变了输出指令的顺序,并包括解释性原因。我们发现,呈现原因和评分的顺序显著影响LLMs的评分,采用“先原因”方法可以产生更全面的评估。这一发现对于提高基于LLM的评估的准确性和一致性至关重要。

论文链接: https://arxiv.org/pdf/2406.02863

cs.CL: Xmodel-LM 技术报告

原标题: Xmodel-LM Technical Report

作者: Yichuan Wang, Yang Liu, Yu Yan, Xucheng Huang, Ling Jiang

摘要: 我们介绍了 Xmodel-LM,这是一个紧凑高效的 11 亿参数的语言模型,预训练数据包含超过 2 万亿个标记。Xmodel-LM 在我们自建的数据集(Xdata)上进行训练,该数据集基于下游任务优化平衡了中文和英文语料,尽管规模较小,但表现出色。它显著超越了现有开源语言模型中规模相似的模型。我们的模型检查点和代码可以在 GitHub 的此网址上公开访问。

论文链接: https://arxiv.org/pdf/2406.02856

Github: https://github.com/XiaoduoAILab/XmodelLM

cs.CL: 使用低秩矩阵完成算法进行高效的最小贝叶斯风险解码

原标题: Efficient Minimum Bayes Risk Decoding using Low-Rank Matrix Completion Algorithms

作者: Firas Trabelsi, David Vilar, Mara Finkelstein, Markus Freitag

机构: 谷歌

摘要: 最小贝叶斯风险(MBR)解码是一种广泛用于文本生成任务的强大解码策略,但其二次计算复杂性限制了其实际应用。本文提出了一种利用矩阵完成技术来近似MBR解码的新方法,重点关注机器翻译任务。我们将MBR解码形式化为一个矩阵完成问题,其中候选假设与伪参考翻译之间的效用度量分数形成一个低秩矩阵。首先,我们在实证上展示了这些分数矩阵确实具有低秩结构。然后,我们通过仅计算分数的随机子集,并通过应用交替最小二乘(ALS)算法高效地恢复矩阵中的缺失条目,从而实现对MBR解码过程的快速近似。我们在机器翻译任务上的实验结果表明,所提出的方法与香草MBR解码相比,仅需要1/16的效用度量计算,同时在WMT22数据集(en<>de和en<>ru)上通过COMET22衡量的翻译质量相等。我们还将我们的方法与其他近似方法进行了基准测试,并展示了与它们相比的质量提升。

论文链接: https://arxiv.org/pdf/2406.02832

cs.CL: 太大而无法失败:更大的语言模型对诱发与痴呆相关的语言异常具有不成比例的弹性

原标题: Too Big to Fail: Larger Language Models are Disproportionately Resilient to Induction of Dementia-Related Linguistic Anomalies

作者: Changye Li, Zhecheng Sheng, Trevor Cohen, Serguei Pakhomov

机构: 明尼苏达大学 华盛顿大学

摘要: 随着人工神经网络的复杂性增加,理解它们的内部运作变得越来越具有挑战性,这在医疗应用中尤为重要。自回归神经语言模型(NLMs)的内在评估指标,困惑度(PPL),可以反映出一个NLM模型对新输入的“惊讶”程度。PPL已被广泛用于理解NLMs的行为。先前的研究结果表明,在预训练的基于Transformer的NLMs中屏蔽注意力层时,PPL的变化反映出与阿尔茨海默病痴呆相关的语言异常。在此基础上,我们探索了一种新颖的双向注意力头切除方法,表现出类似于人类大脑研究中认知和脑储备概念的特性,这些概念认为大脑中拥有更多神经元和更高效的处理的人更能抵抗神经退行性。我们的结果显示,更大的GPT-2模型需要屏蔽/切除的注意力头比例更大,才能显示出与较小模型中屏蔽相似幅度的退化。这些结果表明,Transformer模型中的注意机制可能类似于认知和脑储备概念,并且有可能用于模拟神经退行性疾病和衰老进程的某些方面。

论文链接: https://arxiv.org/pdf/2406.02830

cs.CL: 探讨医生与患者对话摘要的稳健性:对领域外 SOAP 笔记的分析

原标题: Exploring Robustness in Doctor-Patient Conversation Summarization: An Analysis of Out-of-Domain SOAP Notes

作者: Yu-Wen Chen, Julia Hirschberg

机构: 哥伦比亚大学

摘要: 总结医疗对话具有独特的挑战,因为领域专业化和收集领域内训练数据的困难。在这项研究中,我们调查了最先进的医生-患者对话生成式摘要模型在领域外数据上的表现。我们将医生-患者对话的摘要模型分为两种配置:(1)通用模型,不指定主观(S)、客观(O)、评估(A)和计划(P)注释;(2)一个生成带有SOAP部分摘要的面向SOAP的模型。我们分析了基于微调语言模型的方法和GPT在两种配置上的局限性和优势。我们还进行了语言查询和词数分析,以比较来自不同数据集的SOAP注释。结果显示,不同数据集中的参考注释之间存在很强的相关性,表明格式不匹配(即词分布上的差异)并非领域外数据性能下降的主要原因。最后,我们还包括了对SOAP注释的详细分析,以提供关于模型引入的缺失信息和幻觉的见解。

论文链接: https://arxiv.org/pdf/2406.02826

cs.CL: QJL: 1比特量化JL变换,用于KV缓存量化,零开销

原标题: QJL: 1-Bit Quantized JL Transform for KV Cache Quantization with Zero Overhead

作者: Amir Zandieh, Majid Daliri, Insu Han

摘要: 为了提供大语言模型(LLMs)的服务,需要大量内存,因为键-值(KV)嵌入在KV缓存中的存储需求随序列长度增长。压缩KV缓存的有效方法是量化。然而,传统的量化方法由于需要以完整精度存储每个数据块的量化常数(至少一个零点和一个比例),面临着显着的内存开销。根据块大小,这种开销可能会使每个量化数字增加1或2位。我们引入了QJL,一种新的量化方法,它由Johnson-Lindenstrauss(JL)变换后跟随符号位量化组成。与现有方法相比,QJL通过消除存储量化常数的需求来消除内存开销。我们提出了两个向量内积的非对称估计器,并证明将QJL应用于一个向量,将标准JL变换应用于另一个向量而不进行量化,可以提供一个无偏估计器,且失真最小。我们开发了QJL草图及其相应内积估计器的高效实现,包括用于优化计算的轻量级CUDA核心。当应用于各种LLMs和自然语言处理任务以将KV缓存量化为仅3位时,QJL展示了KV缓存内存使用量的超过五倍减少,而不影响准确性,同时实现更快的运行时。代码可在\url{此https URL}处获得。

论文链接: https://arxiv.org/pdf/2406.03482

Github: https://github.com/amirzandieh/QJL

cs.CL: 你的数据是否带来快乐?域上采样在训练结束时的性能提升

原标题: Does your data spark joy? Performance gains from domain upsampling at the end of training

作者: Cody Blakeney, Mansheej Paul, Brett W. Larsen, Sean Owen, Jonathan Frankle

机构: 数据工场 研究院

摘要: 大语言模型(LLMs)的预训练数据集已经增长到由大量CommonCrawl(CC)网页抓取组成的数万亿个标记,以及较小的领域特定数据集。了解这些领域特定数据集对模型能力的影响是昂贵的,因为需要在大规模的FLOP范围内进行训练,才能揭示对困难和新兴基准测试的显著变化。随着使用预训练数据的实验成本不断增加,人们如何确定在一般网络抓取的多样性和领域特定数据的信息密度之间达到最佳平衡呢?在这项工作中,我们展示了如何通过在训练结束时相对于CC对较小的领域特定数据集进行上采样,从而在困难基准测试上提高性能。这种简单的技术使我们能够在MMLU上提高高达6.90个百分点,在GSM8K上提高8.26个百分点,在HumanEval上提高6.17个百分点,相对于为1万亿(T)标记训练的7B模型的基础数据混合,从而与训练时间加倍的Llama-2(7B)模型相媲美。我们实验消融领域上采样的持续时间,从训练的5%到30%,发现10%到20%的比例对于在一般语言建模能力和目标基准测试之间的权衡是最佳的。我们还利用领域上采样来在规模上表征单个数据集对于通过在训练的最后阶段移除它们来改善各种基准测试的效用。这个工具使我们能够以较低的成本顺序进行实验,比起完整的预训练运行要低一个数量级。

论文链接: https://arxiv.org/pdf/2406.03476

cs.CL: 预训练的大语言模型使用傅立叶特征来进行加法计算

原标题: Pre-trained Large Language Models Use Fourier Features to Compute Addition

作者: Tianyi Zhou, Deqing Fu, Vatsal Sharan, Robin Jia

机构: 南加州大学

摘要: 预训练的大语言模型(LLMs)展示了令人印象深刻的数学推理能力,然而它们如何计算基本的算术,比如加法,仍然不清楚。本文表明,预训练的LLMs使用傅里叶特征来进行数字相加——隐藏状态中代表数字的一组在频域中稀疏的特征维度。在模型内部,MLP和注意力层以互补的方式使用傅里叶特征:MLP层主要使用低频特征来近似答案的幅度,而注意力层主要使用高频特征执行模块化加法(例如,计算答案是偶数还是奇数)。预训练对于这种机制至关重要:从头开始训练的模型仅利用低频特征,导致准确性较低。将预训练的token嵌入引入到随机初始化的模型中可以挽救其性能。总体而言,我们的分析表明,适当的预训练表示(例如,傅里叶特征)可以解锁Transformer学习算法任务的精确机制的能力。

论文链接: https://arxiv.org/pdf/2406.03445

cs.CL: 分析大语言模型在合作和谈判游戏中的情绪决策:《好人、坏人和类似绿巨人的 GPT》

原标题: The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games

作者: Mikhail Mozikov, Nikita Severin, Valeria Bodishtianu, Maria Glushanina, Mikhail Baklashkin, Andrey V. Savchenko, Ilya Makarov

摘要: 行为研究实验是社会建模和理解人类互动的重要组成部分。在实践中,许多行为实验面临与内部和外部有效性、可重复性以及社会偏见相关的挑战,这是由于人类用户研究中社会互动和合作的复杂性。大语言模型(LLMs)的最新进展为研究人员提供了一个新的有前途的工具,用于模拟人类行为。然而,现有基于LLM的模拟操作在未经证实的假设下,即LLM代理的行为类似于人类,并且忽略了人类决策中的一个关键因素:情绪。
在本文中,我们介绍了一种新颖的方法论和框架,用于研究LLMs的决策过程以及它们在情绪状态下与人类行为的一致性。对GPT-3.5和GPT-4在两种不同类别的行为博弈理论中的四个游戏进行的实验表明,情绪深刻影响了LLMs的表现,导致了更优策略的制定。虽然GPT-3.5的行为响应与人类参与者之间存在较强的一致性,尤其在讨价还价游戏中尤为明显,但GPT-4表现出一致的行为,忽略了诱发情绪以进行理性决策。令人惊讶的是,情绪提示,尤其是带有“愤怒”情绪,可以破坏GPT-4的“超人类”一致性,使其类似于人类的情绪响应。

论文链接: https://arxiv.org/pdf/2406.03299

cs.CL: SpikeLM: 通过弹性双脉冲机制实现通用脉冲驱动语言建模

原标题: SpikeLM: Towards General Spike-Driven Language Modeling via Elastic Bi-Spiking Mechanisms

作者: Xingrun Xing, Zheng Zhang, Ziyi Ni, Shitao Xiao, Yiming Ju, Siqi Fan, Yequan Wang, Jiajun Zhang, Guoqi Li

摘要: 朝着类似于人脑的高能效人工智能的方向,受生物启发的脉冲神经网络(SNNs)具有生物合理性、事件驱动的稀疏性和二进制激活的优势。最近,大规模语言模型展现出有希望的泛化能力,使得探索更一般的脉冲驱动模型成为一个有价值的问题。然而,现有SNNs中的二进制脉冲无法编码足够的语义信息,为泛化带来了技术挑战。本文提出了第一个用于一般语言任务的完全脉冲机制,包括判别性和生成性任务。与以前的{0,1}级别的脉冲不同,我们提出了一种更一般的脉冲公式,具有双向、弹性幅度和弹性频率编码,同时仍保持SNNs的加法性质。在单个时间步中,脉冲通过方向和幅度信息增强;在脉冲频率方面,设计了一种控制脉冲发射率的策略。我们将这种弹性双脉冲机制应用于语言建模,命名为SpikeLM。这是第一次使用完全脉冲驱动模型处理一般语言任务,其准确性比以前可能的要高得多。SpikeLM还极大地弥合了在语言建模中SNNs和ANNs之间的性能差距。我们的代码可在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.03287

Github: https://github.com/Xingrun-Xing/SpikeLM

cs.CL: FusionBench:深度模型融合的综合基准测试

原标题: FusionBench: A Comprehensive Benchmark of Deep Model Fusion

作者: Anke Tang, Li Shen, Yong Luo, Han Hu, Bo Do, Dacheng Tao

机构: 武汉大学 中山大学 北京理工大学 南洋理工大学

摘要: 深度模型融合是一种新兴技术,以经济高效和数据高效的方式将几个深度神经网络的预测或参数统一到单个模型中。这使得统一模型能够利用原始模型的优势,潜在地超越它们的性能。尽管引入了各种深度模型融合技术,但它们的评估往往不一致,通常不足以验证它们对分布转移的有效性和鲁棒性。为解决这一问题,我们介绍了 FusionBench,这是第一个专门用于深度模型融合的全面基准。FusionBench涵盖了广泛的任务,包括开放词汇图像分类、文本分类和文本生成。每个类别包括最多八个任务,具有相应的任务特定模型,包括完全微调和LoRA微调,以及不同规模的模型,以确保在不同任务、模型规模和微调策略之间进行公平和平衡的各种多任务模型融合技术的比较。我们实施并评估了广泛的深度模型融合技术。这些技术范围从模型集成方法,将预测组合以提高整体性能,到模型合并,将不同模型集成到一个模型中,以及模型混合方法,放大或重新组合原始模型的组件。FusionBench现在包含26个不同任务,74个经过微调的模型和16种融合技术,并且我们致力于不断扩展基准,增加更多任务、模型和融合技术。此外,我们提供了一套资源和指南,以帮助研究人员理解和复制基准结果。主页链接为https URL。

论文链接: https://arxiv.org/pdf/2406.03280

Github: https://tanganke.github.io/fusion_bench/

cs.CL: 大语言模型作为推荐解释的评估者

原标题: Large Language Models as Evaluators for Recommendation Explanations

作者: Xiaoyu Zhang, Yishan Li, Jiayin Wang, Bowen Sun, Weizhi Ma, Peijie Sun, Min Zhang

机构: 清华大学

摘要: 推荐系统的可解释性在学术界和工业界引起了重要关注。为了提供可解释的推荐,已经做出了许多努力,但评估解释质量仍然是一个具有挑战性且未解决的问题。近年来,利用大语言模型作为评估者在自然语言处理任务(例如情感分类、信息提取)中展现出了很有前途的方向,因为它们在遵循指令和常识推理方面具有强大的能力。然而,评估推荐解释文本与这些自然语言生成任务不同,因为其标准与人类感知相关,通常是主观的。在本文中,我们调查了大语言模型是否可以作为推荐解释的评估者。为了回答这个问题,我们利用了先前工作中用户对解释的真实反馈,并额外收集了第三方注释和大语言模型的评估。我们设计并应用了一个三级元评估策略,以衡量评估者标签与用户提供的真实情况之间的相关性。我们的实验表明,诸如GPT4之类的大语言模型可以在适当的提示和设置下提供可比较的评估。我们还提供了进一步的见解,结合人类标签与大语言模型评估过程,并利用多个异构大语言模型评估者的集成来增强评估的准确性和稳定性。我们的研究验证了利用大语言模型作为评估者可以成为评估推荐解释文本的准确、可重复和具有成本效益的解决方案。我们的代码可以在此网址找到。

论文链接: https://arxiv.org/pdf/2406.03248

Github: https://github.com/Xiaoyu-SZ/LLMasEvaluator

cs.CL: 如何截断权重改善语言模型的推理

原标题: How Truncating Weights Improves Reasoning in Language Models

作者: Lei Chen, Joan Bruna, Alberto Bietti

摘要: 除了能够在各种语言中生成流畅文本的能力外,大语言模型在涉及基本形式的逻辑“推理”上取得了成功。最近的研究发现,有选择地从预训练模型的权重矩阵中移除某些组件可以提高这种推理能力。我们通过仔细研究特定权重组件或Transformer块中的全局关联如何存储,特别是前馈层,进一步调查了这一现象。这种关联可能会影响推理任务中的预测,移除相应的组件可能会提高性能。我们在训练过程中对这种情况进行了经验和理论分析,使用了一个带有噪声的基本推理任务上训练的两层Transformer,一个玩具联想记忆模型,以及在简单推理任务上测试的Pythia系列预训练模型。

论文链接: https://arxiv.org/pdf/2406.03068

cs.CL: DriVLMe: 通过具身和社交经验增强基于大语言模型的自主驾驶智能体

原标题: DriVLMe: Enhancing LLM-based Autonomous Driving Agents with Embodied and Social Experiences

作者: Yidong Huang, Jacob Sansom, Ziqiao Ma, Felix Gervits, Joyce Chai

摘要: 最近基础模型(FMs)的进展在自动驾驶领域开辟了新的前景,然而这些研究的实验设置仍然是初步的、过度简化的,并未能捕捉到人类环境中真实驾驶场景的复杂性。目前尚未探讨 FMs 智能体是否能够处理具有自由对话的长视野导航任务,并处理由环境动态或任务变化引起的意外情况。为了探索面对上述挑战时 FMs 的能力和边界,我们引入了基于视频语言模型的 DriVLMe 智能体,以促进人类与自动驾驶车辆之间感知环境和导航的自然有效沟通。我们从模拟环境中的具身经验和真实人类对话中的社交经验中开发了 DriVLMe。虽然 DriVLMe 在开环基准测试和封闭环人类研究中表现出竞争力,但我们揭示了一些限制和挑战,包括不可接受的推理时间、训练数据不平衡、视觉理解有限、多轮交互存在挑战、从机器人经验中简化的语言生成,以及处理环境动态和任务变化等即时意外情况的困难。

论文链接: https://arxiv.org/pdf/2406.03008

cs.CL: 筛选而非混合:基于随机滤波的大语言模型混合物在线门控

原标题: Filtered not Mixed: Stochastic Filtering-Based Online Gating for Mixture of Large Language Models

作者: Raeid Saqur, Anastasis Kratsios, Florian Krach, Yannick Limmer, Jacob-Junqi Tian, John Willes, Blanka Horvath, Frank Rudzicz

摘要: 我们提出了MoE-F——一种正式机制,用于在在线时间序列预测任务中结合NNN个预训练专家大语言模型(LLMs),通过自适应地预测在每个时间步骤上LLM预测的最佳加权。我们的机制利用每个专家运行性能中的条件信息,预测最佳的LLMs组合,以预测其下一步中的时间序列。与静态(学习的)专家混合(MoE)方法不同,MoE-F采用时间自适应随机过滤技术来结合专家。通过将专家选择问题构建为有限状态空间、连续时间隐藏马尔可夫模型(HMM),我们可以利用Wohman-Shiryaev过滤器。我们的方法首先构建了与NNN个单独的LLMs相对应的NNN个并行过滤器。每个过滤器根据其可以访问的信息提出其最佳的LLMs组合。随后,这NNN个过滤器的输出被聚合以优化聚合LLMs的损失的下限,这可以通过封闭形式进行优化,从而生成我们的集成预测器。我们的贡献包括:(I)MoE-F算法——可部署为即插即用的过滤器支架,(II)所提出的基于过滤的门控算法的理论最优性保证,以及(III)在真实的金融市场运动任务上使用最先进的基础和MoE LLMs进行的实证评估和消融结果,其中MoE-F相对于表现最佳的单个LLM专家实现了显著的17%绝对和48.5%相对F1度量改进。

论文链接: https://arxiv.org/pdf/2406.02969

cs.CL: 前文:在大语言模型时代训练私有联邦数据上的语言模型

原标题: PrE-Text: Training Language Models on Private Federated Data in the Age of LLMs

作者: Charlie Hou, Akshat Shrivastava, Hongyuan Zhan, Rylan Conway, Trang Le, Adithya Sagar, Giulia Fanti, Daniel Lazar

摘要: 目前,设备端训练是在私有、分布式用户数据上训练机器学习(ML)模型最常见的方法。尽管如此,设备端训练存在几个缺点:(1)大多数用户设备太小,无法在设备端训练大型模型,(2)设备端训练需要大量通信和计算,(3)设备端训练可能难以调试和部署。为了解决这些问题,我们提出了Private Evolution-Text(PrE-Text),一种用于生成差分私有(DP)合成文本数据的方法。首先,我们展示了在多个数据集上,使用PrE-Text合成数据训练小型模型(适合用户设备的模型)在实际隐私制度下(ϵ=1.29\epsilon=1.29ϵ=1.29ϵ=7.58\epsilon=7.58ϵ=7.58)优于在设备端训练小型模型。我们在使用的轮次减少了9倍、每轮客户端计算减少了6倍、每轮通信减少了100倍的情况下取得了这些结果。其次,在PrE-Text的DP合成数据上微调大型模型可以提高大语言模型(LLM)在相同范围隐私预算下的性能。总的来说,这些结果表明,在DP合成数据上训练可能比在私有分布式数据上设备端训练模型更好。代码可在此网址找到。

论文链接: https://arxiv.org/pdf/2406.02958

Github: https://github.com/houcharlie/PrE-Text

cs.CL: 4D ASR:联合束搜索,集成 CTC、注意力、转录器和掩码预测解码器

原标题: 4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders

作者: Yui Sudo, Muhammad Shakeel, Yosuke Fukumoto, Brian Yan, Jiatong Shi, Yifan Peng, Shinji Watanabe

摘要: 端到端自动语音识别(E2E-ASR)可以分为几种网络架构,例如连接主义时间分类(CTC)、循环神经网络传输器(RNN-T)、基于注意力的编码器-解码器和掩码预测模型。每种网络架构都有优缺点,导致从业者根据应用需求在这些不同模型之间切换。我们提出了一种联合建模方案,其中四个解码器(CTC、RNN-T、注意力和掩码预测)共享相同的编码器,我们称之为4D建模。4D模型使用多任务学习进行训练,这将带来模型正则化,并通过它们的互补属性最大化模型的鲁棒性。为了有效训练4D模型,我们引入了一种稳定多任务学习的两阶段训练策略。此外,我们提出了三种结合三个解码器(CTC、RNN-T和注意力)的新型一遍束搜索算法,以进一步提高性能。这三种束搜索算法在使用哪个解码器作为主要解码器方面有所不同。我们仔细评估了与每种算法相关的性能和计算权衡。实验结果表明,联合训练的4D模型优于仅使用单个解码器训练的E2E-ASR模型。此外,我们证明了所提出的一遍束搜索算法优于先前提出的CTC/注意力解码算法。

论文链接: https://arxiv.org/pdf/2406.02950

cs.CL: 任务导向查询基准(ToQB)

原标题: The Task-oriented Queries Benchmark (ToQB)

作者: Keun Soo Yim

摘要: 面向任务的查询(例如,一次性查询以播放视频、订餐或叫出租车)对于评估虚拟助手、聊天机器人和其他基于大语言模型(LLM)的服务的质量至关重要。然而,针对面向任务的查询的标准基准尚不可用,因为相关自然语言处理(NLP)领域现有的基准主要集中在面向任务的对话上。因此,我们提出了一种新的方法,利用现有的面向任务对话数据集和一个LLM服务高效生成面向任务的查询基准(ToQB)。我们的方法涉及制定潜在的NLP任务,以总结每个对话中发言者的原始意图,详细说明使用LLM服务执行设计的NLP任务的关键步骤,并概述自动化基准生成过程的框架。通过涵盖三个领域(即两个单一任务领域和一个多任务领域)的案例研究,我们演示了如何为这三个领域定制LLM提示(例如,省略系统话语或发言者标签)并表征生成的面向任务的查询。生成的ToQB数据集已向公众提供。我们进一步讨论了社区贡献者可以添加到ToQB的新领域以及其实际应用。

论文链接: https://arxiv.org/pdf/2406.02943

cs.CL: SYN2REAL:利用任务算术来减轻 ASR 领域适应中的合成-真实差异

原标题: SYN2REAL: Leveraging Task Arithmetic for Mitigating Synthetic-Real Discrepancies in ASR Domain Adaptation

作者: Hsuan Su, Hua Farn, Shang-Tse Chen, Hung-yi Lee

摘要: 最近大语言模型(LLMs)的进展引入了“任务向量”概念,在各个领域产生了显著影响,但在语音识别领域仍未得到充分探索。本文提出了一种新颖的“SYN2REAL”任务向量,用于自动语音识别(ASR)中的领域自适应,特别针对仅文本领域。传统的在合成语音上进行微调通常会因声学不匹配而导致性能下降。为解决这一问题,我们提出通过减去在真实语音和合成语音上进行微调的模型之间的参数差异来创建“SYN2REAL”向量。这个向量有效地弥合了两个领域之间的差距。在SLURP数据集上的实验表明,我们的方法使未见目标领域的词错误率平均提高了11.15%,突显了任务向量在增强语音领域自适应方面的潜力。

论文链接: https://arxiv.org/pdf/2406.02925

cs.CL: 从零开始为大语言模型演化符号修剪度量的修剪器-零

原标题: Pruner-Zero: Evolving Symbolic Pruning Metric from scratch for Large Language Models

作者: Peijie Dong, Lujun Li, Zhenheng Tang, Xiang Liu, Xinglin Pan, Qiang Wang, Xiaowen Chu

机构: 清华大学 北京大学 中国科学院

摘要: 尽管大语言模型(LLMs)具有显著的能力,但由于其庞大的体积,面临部署挑战。修剪方法会丢弃一部分权重以加速,但其中许多方法需要重新训练,这是代价高昂且计算需求高的。最近,后训练修剪方法引入了新颖的度量标准,使得可以在无需重新训练的情况下对LLMs进行修剪。然而,这些度量标准需要人类专家的参与和繁琐的试错。为了高效地确定优越的修剪度量标准,我们开发了一个使用遗传编程搜索符号修剪度量标准的自动框架。具体来说,我们设计了一个复杂的搜索空间,涵盖了现有的修剪度量标准,以发现潜在的符号修剪度量标准。我们提出了一种对立操作简化策略,以增加种群的多样性。通过这种方式,Pruner-Zero可以自动生成符号修剪度量标准。基于搜索结果,我们探讨了修剪度量标准与修剪后性能之间的相关性,并总结了一些原则。在LLaMA和LLaMA-2上进行的大量实验,包括语言建模和零样本任务,证明了我们的Pruner-Zero比SOTA后训练修剪方法获得了更优越的性能。代码链接:\url{this https URL}。

论文链接: https://arxiv.org/pdf/2406.02924

Github: https://github.com/pprp/Pruner-Zero

cs.CL: 直接对齐算法中奖励模型过度优化的规模定律

原标题: Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms

作者: Rafael Rafailov, Yaswanth Chittepu, Ryan Park, Harshit Sikchi, Joey Hejna, Bradley Knox, Chelsea Finn, Scott Niekum

机构: 斯坦福大学 马萨诸塞大学阿默斯特分校 德克萨斯大学奥斯汀分校

摘要: 从人类反馈中进行强化学习(RLHF)对于大语言模型(LLMs)的最近成功至关重要,然而,这往往是一个复杂且脆弱的过程。在传统的RLHF框架中,首先训练一个奖励模型来表示人类偏好,然后由在线强化学习(RL)算法使用该模型来优化LLM。这种方法的一个突出问题是\emph{奖励过度优化}或\emph{奖励黑客},即通过学习的代理奖励模型衡量的性能提高,但真实质量达到平稳甚至恶化。直接对齐算法(DDAs)如直接偏好优化已经成为传统RLHF流程的替代方案,通过绕过奖励建模阶段。然而,尽管DDAs不使用单独的代理奖励模型,它们仍然常常因过度优化而恶化。虽然对于DDAs来说,所谓的奖励黑客现象并没有明确定义,但我们仍然发现类似的趋势:在更高的KL预算下,DAA算法表现出与其经典RLHF对应物相似的退化模式。特别是,我们发现DAA方法不仅在广泛的KL预算范围内恶化,而且通常甚至在数据集完成一个时代之前就开始恶化。通过大量的实证实验,本文为DDAs制定和规范了奖励过度优化或黑客问题,并探讨了其在目标、训练制度和模型规模上的后果。

论文链接: https://arxiv.org/pdf/2406.02900

cs.CL: 对话推荐的项目语言模型

原标题: Item-Language Model for Conversational Recommendation

作者: Li Yang, Anushya Subbiah, Hardik Patel, Judith Yue Li, Yanwei Song, Reza Mirghaderi, Vikram Aggarwal

机构: 谷歌研究院 谷歌

摘要: 大语言模型(LLMs)在复杂对话理解、推理和编码等任务上取得了极大成功,这归功于它们的新兴能力。这些新兴能力已经通过多模态扩展到包括图像、音频和视频功能。另一方面,推荐系统对于信息搜索和物品发现需求至关重要。最近,已经尝试将LLMs应用于推荐。目前尝试的一个困难是,基础LLM通常未经过推荐系统数据训练,这些数据主要包含用户交互信号,通常不公开。另一个困难是,用户交互信号往往与自然语言文本具有不同的模式,目前尚不清楚LLM训练设置是否能够从交互信号中学习到比传统推荐系统方法更多的非平凡知识。最后,难以为不同用例训练多个LLMs,并在从推荐系统数据学习时保留原始语言和推理能力。为了解决这三个限制,我们提出了一个物品语言模型(ILM),它由一个物品编码器和一个冻结的LLM组成,物品编码器用于生成文本对齐的物品表示,编码用户交互信号,而冻结的LLM则可以理解这些物品表示,并保留预训练知识。我们进行了大量实验,证明了语言对齐和用户交互知识在物品编码器中的重要性。

论文链接: https://arxiv.org/pdf/2406.02844

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐