❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


iAgents:多 AI 智能体协作框架

在这里插入图片描述

iAgents 是清华大学推出的多 AI 智能体协作框架,基于 InfoNav 推理机制促进信息交换和任务解决,支持与现有工具和平台的无缝集成。

资源

  1. 项目官网:https://thinkwee.top/iagents
  2. GitHub 仓库:https://github.com/thinkwee/iagents
  3. arXiv 技术论文:https://arxiv.org/pdf/2406.14928

Symphony Creative Studio:AI 创意视频生成工具

在这里插入图片描述

Symphony Creative Studio 是 TikTok 推出的 AI 视频创作工具,集成视频生成、转换和扩展功能,支持 AI 虚拟人物视频创作和视频翻译配音,提升内容制作效率。

资源

  1. 官网地址:https://ads.tiktok.com/creative/creativestudio/home/create

Skywork O1:中文逻辑推理大模型

在这里插入图片描述

Skywork O1 是昆仑万维推出的天工大模型 4.0 O1 版,具备中文逻辑推理能力,提升复杂任务的处理能力,是追求 AGI 的重要一步。

资源

  1. 官网地址:https://www.tiangong.cn/

Agent K v1.0:端到端自主数据科学智能体

在这里插入图片描述

Agent K v1.0 是华为诺亚方舟实验室与伦敦大学团队联合推出的端到端自主数据科学智能体,能自动化处理多种数据科学任务,达到 Kaggle Grandmaster 水平。

资源

  1. arXiv 技术论文:https://arxiv.org/pdf/2411.03562

DanceFusion:音频驱动舞蹈动作生成框架

在这里插入图片描述

DanceFusion 是清华大学推出的音频驱动舞蹈动作重建与生成框架,结合时空 Transformer-VAE 和扩散模型,生成与音乐同步的逼真舞蹈动作。

资源

  1. 项目官网:https://th-mlab.github.io/DanceFusion
  2. arXiv 技术论文:https://arxiv.org/pdf/2411.04646

LLaMA-Mesh:文本驱动 3D 网格生成项目

在这里插入图片描述

LLaMA-Mesh 是清华大学和 NVIDIA 联合推出的项目,基于大型语言模型生成 3D 网格,实现文本提示直接生成 3D 模型的功能。

资源

  1. 项目官网:https://research.nvidia.com/labs/toronto-ai/LLaMA-Mesh
  2. GitHub 仓库:https://github.com/nv-tlabs/LLaMa-Mesh
  3. arXiv 技术论文:https://arxiv.org/pdf/2411.09595

Voyage Multimodal-3:多模态嵌入模型

在这里插入图片描述

Voyage Multimodal-3 是 Voyage AI 推出的多模态嵌入模型,处理交错的文本和图像,支持从 PDF、幻灯片、表格等截图中捕捉关键视觉特征。

资源

  1. 项目官网:https://blog.voyageai.com/2024/11/12/voyage-multimodal-3
  2. GitHub 仓库:https://github.com/voyage-ai/voyage-multimodal-3

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

Logo

Agent 垂直技术社区,欢迎活跃、内容共建,欢迎商务合作。wx: diudiu5555

更多推荐