我们今天继续看一些有趣的事情,看看Deep Research的进展及后续演进以及故事自动分析及配音的大模型应用尝试。

专题化,体系化,会有更多深度思考。大家一起加油。

一、Deep Research的进展及后续演进

来看产业进展,OpenAI今天发布Deep Research(https://openai.com/index/introducing-deep-research/),一个Agent,目标是为在金融、科学、政策和工程等领域从事密集型知识工作的人设计,这类工作需要全面、精确且可靠的调研。对于那些在购买通常需要仔细研究的商品(如汽车、家电和家具)时需要高度个性化建议的精明消费者来说,它同样很有用。每个输出都经过完整记录,附有清晰的引用和对其思考过程的总结,方便用户参考和验证信息。尤其擅长寻找那些需要浏览众多网站才能获得的非直观、小众信息。

实现思路上,如其官方介绍,Deep Research通过端到端强化学习在多个领域的复杂浏览和推理任务中进行训练。通过这种训练,学会了规划并执行多步骤的轨迹,以找到其所需的数据,并在必要时进行回溯和对实时信息做出反应。此外,该模型能够浏览用户上传的文件,使用Python工具绘制并迭代图形,将其生成的图形和网站上的图像嵌入到其回答中,并引用其来源中的具体句子或段落。

也就是说,在具体使用上,只需给出提示,会通过查找、分析并综合数百个在线来源,生成一份综合报告,由即将推出的OpenAI o3模型的一个版本提供支持,该版本经过优化,专门用于网页浏览和数据分析。它利用推理能力搜索、解释和分析互联网上的大量文本、图像和PDF文件,并根据遇到的信息灵活调整。

但是,Deep Research完成工作可能需要5到30分钟,它会花时间深入网络进行研究。

当然,报告其实在真实场景下是富文本,包括图像、引用、段落等信息,所以,其后续还将在这些报告中添加嵌入图像、数据可视化和其他分析输出,以提供更多的清晰度和上下文。

有趣的是,Jina AI也快速了一个Deep Research的开源实现版:node-DeepResearch(https://github.com/jina-ai/node-DeepResearch),该项目使用gemini进行llm操作,brave用于搜索,jina reader用于阅读网页。实现的原理很简单,就是在一个循环中进行搜索、阅读和推理,直到找到答案。

从技术流程的角度来看,其实现流程如下;

具象化的看,其示例中所述,

Query: “who is the biggest? cohere, jina ai, voyage?”,一共包括13steps。

当然,这个其实又是ResearchAgent,所以也会有一些看起来很类似的工作(放到科研领域): 1、《ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models》,https://arxiv.org/abs/2404.07738 ;

2、《PaSa: An LLM Agent for Comprehensive Academic Paper Search》,https://arxiv.org/pdf/2501.10120v1,https://github.com/bytedance/pasa,https://pasa-agent.ai,https://huggingface.co/papers/2501.10120;

3、《ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models》,https://arxiv.org/pdf/2404.07738.pdf

但仔细一看,又像是AI搜索,例如秘塔搜索。所以,核心还是其中workflow的设计,理解意图,搜索医疗,总结大纲,生成内容,润色内容等。

二、故事自动分析及配音的大模型应用尝试

在这里,我们介绍社区成员的一个工作,假期写了一个自动分析故事并加上情感的配音的WebUI,能够通过简单的点击和选择,就完成一个故事的讲述,现在已经开源,地址在:https://github.com/c4fun/tell-stories-webui。

来看其具体实现原理,使用Deepseek自动分析剧本,分派演员、台词和情感;使用CosyVoice2来进行配音。也能自行调整台词和情感,自己克隆声音(3s-10s极速克隆)并保存为演员,最终自动生成整个故事的语音和字幕。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
Logo

更多推荐