训练数据相关

训练策略

大模型的行业应用

文生图/文生视频

  • StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation:针对现有音频驱动的化身视频生成扩散模型难以合成具有自然音频同步和身份一致性的长视频的问题,该研究提出了StableAvatar,这是第一个端到端视频扩散转换器,可以合成无限长度的高质量视频,无需后处理。

  • LL3M: Large Language 3D Modelers:该研究提出了LL3M,一个多智能体系统,它利用预训练的大型语言模型(LLMs)通过在Blender中编写可解释的Python代码来生成3D资产。

  • TBAC-UniImage: Unified Understanding and Generation by Ladder-Side Diffusion Tuning:该论文介绍了TBAC-UniImage,一种用于多模态理解和生成的新型统一模型。通过将预训练的扩散模型(作为生成梯子)与多模态大型语言模型(MLLM)进行深度集成来实现这一点。

  • Being-M0.5: A Real-Time Controllable Vision-Language-Motion Model:这项工作提出了Being-M0.5,这是第一个实时的、可控的VLMM,可以在多个运动生成任务中实现最先进的性能。基于迄今为止最大、最全面的HuMo100M人体运动数据集构建,该数据集包含超过 500 万个自行收集的运动序列、1 亿个多任务指令实例以及解决现有数据集关键差距的详细部分级注释。

  • How Far Are We from Generating Missing Modalities with Foundation Models?:论文评估了多模态基础模型作为缺失模态重建的即插即用解决方案的潜力,识别并正式化了缺失模态重建的三个潜在范例,并对这些范例进行了全面评估,涵盖了 42 个模型变体,包括重建精度和对下游任务的适应性。

  • DanceChat: Large Language Model-Guided Music-to-Dance Generation:音乐到舞蹈生成旨在合成以音乐输入为条件的人类舞蹈动作。为此,论文介绍了一种大型语言模型 (LLM) 引导的音乐到舞蹈生成方法 DanceChat。使用 LLM 作为编舞,提供文本运动指令,为舞蹈生成提供明确的、高级的指导。

  • CoherenDream: Boosting Holistic Text Coherence in 3D Generation via Multimodal Large Language Models Feedback:分数蒸馏采样 (SDS) 在文本到 3D 内容生成中取得了显著成功。然而,基于 SDS 的方法难以保持用户提示的语义保真度,尤其是在涉及具有复杂交互的多个对象时。为了缓解这种限制,提出了一种新的 SDS 目标,称为文本连贯分数蒸馏 (TCSD),它集成了来自多模态大型语言模型 (MLLM) 的对齐反馈。

底层模型架构

视觉强化学习

其他

  • ReferSplat: Referring Segmentation in 3D Gaussian Splatting:该研究提出了一个名为Referring 3D Gaussian Splatting Segmentation (R3DGS) 的新任务,旨在根据自然语言描述在3D Gaussian场景中分割目标对象,这些描述通常包含空间关系或对象属性。为了支持该领域的研究,作者构建了第一个R3DGS数据集Ref-LERF,并提出了一个名为ReferSplat的框架来解决3D多模态理解和空间关系建模的挑战。

  • DoorDet: Semi-Automated Multi-Class Door Detection Dataset via Object Detection and Large Language Models:这项工作提出了一个半自动化的流程,利用最先进的目标检测器和大型语言模型(LLM)来构建一个多类门检测数据集,只需最少的人工干预。该方法首先使用深度目标检测模型将门检测为一个统一的类别,然后LLM根据其视觉和上下文特征对每个检测到的实例进行分类。

  • SAGOnline: Segment Any Gaussians Online:该研究提出了Segment Any Gaussians Online (SAGOnline),一个轻量级且零样本的框架,用于在Gaussian场景中进行实时3D分割,它通过两个关键创新来解决这些限制:(1)一种解耦策略,该策略集成了视频基础模型(例如,SAM2)以实现跨合成视图的视图一致的2D掩码传播;以及(2)一种GPU加速的3D掩码生成和Gaussian级别实例标记算法,该算法将唯一的标识符分配给3D基元,从而实现跨视图的无损多对象跟踪和分割。

  • BadPromptFL: A Novel Backdoor Threat to Prompt-based Federated Learning in Multimodal Models:该研究介绍了BadPromptFL,这是第一个针对多模态对比模型中基于prompt的联邦学习的后门攻击。在BadPromptFL中,受损的客户端共同优化本地后门触发器和prompt嵌入,将中毒的prompt注入到全局聚合过程中。

  • Multi-agent systems for chemical engineering: A review and perspective:大型语言模型(LLM)的多智能体系统(MAS)是一项新兴但发展迅速的技术,它具有通过将复杂的工作流程分解为具有专门知识和工具的协作智能体团队来改变化学工程的潜力。这篇综述调查了化学工程中 MAS 的最新技术。

  • Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models:基于此,我们提出了“全局压缩指挥官”(GlobalCom2),一种用于 HR-LVLM 的新型即插即用令牌压缩框架。GlobalCom2 利用缩略图作为“指挥官”来指导本地作物的压缩,自适应地保留信息丰富的细节,同时消除冗余。

  • Spotter+GPT: Turning Sign Spottings into Sentences with LLMs:本文介绍了一个轻量级的模块化 SLT 框架 Spotter+GPT,它利用了大型语言模型 (LLM) 的强大功能,避免了繁重的端到端训练。

编辑精选

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐