
今日 AI 简报|七项|清华推出多 AI 智能体协作、AI 创意视频生成、中文版 o1 推理大模型、音频生成舞蹈动作等
本文介绍了多个前沿的 AI 技术和项目,包括多 AI 智能体协作框架、AI 创意视频生成工具、中文逻辑推理大模型、端到端自主数据科学智能体、音频驱动的舞蹈动作生成框架、文本驱动的 3D 网格生成项目和多模态嵌入模型,展示了 AI 在多个领域的创新应用和发展。
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
iAgents:多 AI 智能体协作框架
iAgents 是清华大学推出的多 AI 智能体协作框架,基于 InfoNav 推理机制促进信息交换和任务解决,支持与现有工具和平台的无缝集成。
资源
- 项目官网:https://thinkwee.top/iagents
- GitHub 仓库:https://github.com/thinkwee/iagents
- arXiv 技术论文:https://arxiv.org/pdf/2406.14928
Symphony Creative Studio:AI 创意视频生成工具
Symphony Creative Studio 是 TikTok 推出的 AI 视频创作工具,集成视频生成、转换和扩展功能,支持 AI 虚拟人物视频创作和视频翻译配音,提升内容制作效率。
资源
- 官网地址:https://ads.tiktok.com/creative/creativestudio/home/create
Skywork O1:中文逻辑推理大模型
Skywork O1 是昆仑万维推出的天工大模型 4.0 O1 版,具备中文逻辑推理能力,提升复杂任务的处理能力,是追求 AGI 的重要一步。
资源
- 官网地址:https://www.tiangong.cn/
Agent K v1.0:端到端自主数据科学智能体
Agent K v1.0 是华为诺亚方舟实验室与伦敦大学团队联合推出的端到端自主数据科学智能体,能自动化处理多种数据科学任务,达到 Kaggle Grandmaster 水平。
资源
- arXiv 技术论文:https://arxiv.org/pdf/2411.03562
DanceFusion:音频驱动舞蹈动作生成框架
DanceFusion 是清华大学推出的音频驱动舞蹈动作重建与生成框架,结合时空 Transformer-VAE 和扩散模型,生成与音乐同步的逼真舞蹈动作。
资源
- 项目官网:https://th-mlab.github.io/DanceFusion
- arXiv 技术论文:https://arxiv.org/pdf/2411.04646
LLaMA-Mesh:文本驱动 3D 网格生成项目
LLaMA-Mesh 是清华大学和 NVIDIA 联合推出的项目,基于大型语言模型生成 3D 网格,实现文本提示直接生成 3D 模型的功能。
资源
- 项目官网:https://research.nvidia.com/labs/toronto-ai/LLaMA-Mesh
- GitHub 仓库:https://github.com/nv-tlabs/LLaMa-Mesh
- arXiv 技术论文:https://arxiv.org/pdf/2411.09595
Voyage Multimodal-3:多模态嵌入模型
Voyage Multimodal-3 是 Voyage AI 推出的多模态嵌入模型,处理交错的文本和图像,支持从 PDF、幻灯片、表格等截图中捕捉关键视觉特征。
资源
- 项目官网:https://blog.voyageai.com/2024/11/12/voyage-multimodal-3
- GitHub 仓库:https://github.com/voyage-ai/voyage-multimodal-3
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
更多推荐
所有评论(0)