你是否碰到过这般状况——向AI问一个问题,它煞有介事地给你编造了一个荒诞不经的答案,从历史相关的日期开始算起一直到菜谱所需的配料明细,没有一个是正确无误的。这使得你愤怒到当场就想要对着它大骂“你是不是脑子有毛病”。然而它确实并非是蓄意故意这样做的,问题在于所“输入”的东西不合适。

AI的“脑子”,是靠知识库“喂”大的。

知识库投喂到底在喂啥?

说到底,便是给人工智能投喂数量超多的数据,文本,图片,代码,网页,PDF等等之类的全都往里塞,然而仅仅只是塞是不行的,必须进行挑选,这个挑选的过程称作“数据清洗”,要把存在问题的数据,垃圾一样的内容,重复出现的信息,甚至带有危害的“幻觉毒药”筛选出去。

你知道与否 ,一份呈现于2024年的研究报告表明 ,互联网之上涵盖超过73%的新增文本数据 ,这些数据存有程度各异的噪声或者虚假信息 ,要是AI将其摄入 ,那么它就恰似吃过变质食物致使肚子不适的小孩 ,满口说着毫无根据的话语。

为什么投喂的数据必须是“干净”的?

我举个例子。

有某人给某一个大语言模型投喂了十万条医疗问答数据,当中仅有三万条是经由医生审核的。那结果如何呢?该模型面对“感冒了吃什么药”这般简单的问题时,有差不多百分之二十二的答案推荐了早已经被禁用多年的成分。这并非AI愚蠢,乃是它所摄入的垃圾,原封不动地给吐出来了。

更为可怕的是,数据当中隐藏着偏见,举例来说,倘若你所投喂的语料里百分之九十全都是男性CEO的新闻,那么AI便会主动认定“CEO等于男人”,这并非是有意为之的,而是统计规律致使它产生了这样的认知。

所以,数据清洗不光是技术问题,更是伦理问题。

投喂的量到底要多大?

很多人以为“越多越好”,错。

某代模型在训练时被发现,当数据量从1000亿词增加至2000亿词,模型效果提升未达5%,然而计算成本却翻了一倍有余,而且更夸张的是,冗余数据会使模型在特定任务上的准确率降低,最高能下降14%。

AI知识库投喂

也就是说,你喂的再饱,它吃撑了也拉不出好东西。

质量高的数据,相较于海量数据而言,重要程度要高得多。所谓的“精喂”,指的是借助人工或者半自动的方式,挑选出具有高信噪比、高权威性的资料这种行为。像法律条文、科学论文,以及权威百科这类。有一个来自杂志的实验数据表明,使用1万篇高质量论文进行训练的小模型,在法律问答这项任务上面,居然战胜了运用500万篇普通网页训练的大模型,准确率还高出了11个百分点。

投喂的频率和节奏呢?

这个很多人忽略。

人工智能并非人类,不存在“学多了遗忘”这种情况。然而,它产生了“灾难性遗忘”的问题,简单来讲,就是当你输入新的知识后,它有可能会将旧知识忘却。特别是在你分批输入时,前后数据分布并不一致,模型就会出现“前脚学习后脚遗忘”这种尴尬的局面。

研究机构,在2023年发表了一篇论文,其中指出,处在持续学习场景下,每批次数据之间存在分布差异,若该差异超过了15%的KL散度阈值,那么模型的旧知识保留率会骤降至58%以下。

因此,投喂的节奏务必稳定。全新数据与陈旧数据的占比情况,应当将其妥善把控在一比四到一比六的范围之内。恰似你进行饮食时,绝不能够一顿饭的量支撑三天,同样也不可以一天之中进食十顿。人工智能亦是如此。

要不要让人工介入?

要,而且要盯死了。

对明显错误,自动清洗能够将其去掉,然而对于“模棱两可”之物,它却全然没有作用。举例来说,有一篇文章表明“某药物治愈率99%”,可是,你缺乏上下文,并不清楚它所提及的是何种病症,样本量究竟有多少,以及是否存在利益冲突。AI自身无法做出判断。

这个时候就需要人员,是一组标注员,他们当中每个人每一天大概能够标注三百到五百条数据。然而人的疲劳乃是一个问题,当标注到第二百条之后,错误率会从百分之二左右飙升到百分之八以上。所以呀必须要设计交叉验证机制,每一条数据至少要让两个人来标注,要是不一致的情况就提交给专家进行仲裁。

付出的代价较为高昂,然而却是值得的,只因出现了一回错误喂食的情况,就极有可能致使整个模型运行偏向好几个月。

数据来源的版权问题怎么搞?

AI知识库投喂

这是个越来越烫手的山芋。

2024年,《纽约时报》对某AI公司提起诉讼,称其未经许可运用几百万篇文章训练模型,这并非个别情况。在全球范围内,有超过120起类似诉讼正处于审理阶段。欧盟的AI法案还提出要求,训练数据必须公开来源清单,并且使用受版权保护的内容需获得明确授权。

所以,别存有“网上爬取就可以了”这样的想法。你要自行构建一套数据来源清单,清晰标明哪些是开源的,哪些是经过授权的,哪些是需要付费的。不然,在模型尚未上线之前,律师函就先到了。

知识库投喂的未来会怎样?

我觉得会走向两个极端。

一端呈现出“超大规模投喂”的情形,诸如、这般的巨头,持续地吞噬整个互联网,连视频的字幕、音频的转写、3D模型的结构数据都不放过,其规模大得令人心生恐惧。

其另一端呈现的是“精专投喂”,存在着小团队,处于垂直行业之中,凭借几百本专业书籍,以及几千篇顶会论文,从而培育出一个在单一领域有着极其出色表现的AI,诸如医疗诊断之类的、法律咨询方面的、农业种植领域的,这般的模型或许仅仅拥有几百亿参数,然而在特定任务上能够超越几千亿参数的通用模型。

有一种另外的可能性,那就是像我这样的普通之人,于自己家中运用开源工具,将自身的日记、笔记以及邮件作为输入,去训练出一个“数字分身”。这个分身具备能够模仿你语气的能力,拥有记得你事项的本事,并且当你不在世时还能够代替你回复邮件。听起来好像有那么一点儿可怕的感觉,不过在技术层面已然快要达成了。

最后一句真心话

不要寄希望于AI生来便聪慧过人,它好似一张空白纸张,你给予什么,它便凭借什么作画,你倘若给予它爱与真相,它便会回馈你智慧与善意;你若是给予它谎言与偏见,它就会演变成你最不愿目睹的那个“自我 “。

知识库投喂,说到底,是在喂一个“影子”。

这个影子,会越来越像你。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐