RAG（大模型+知识库）落地与知识管理的春天

2024-07-17 16:12| 来源: 网络整理| 查看: 265

大模型时代来了，可能你也知道GPT大模型是被海量知识训练出来的，但不知道你有没有问过，什么样的知识才能训练大模型？站在企业的角度，很多企业都有自己的知识库或者文档中心，很多人也都有自己积攒数年的资料库，那是不是用上大模型，就能轻松实现基于自己知识库的智能搜索/智能问答/智能推荐呢？

（一）知识基础形态和知识质量

在传统的搜索、问答、推荐等场景中，通常会返回一整篇的文档，我们还得在这一大篇资料中去找到自己想要的那一段具体内容。不少企业构建的知识库，其实就是文档库。可以说以往的基础知识单元就是一篇篇的文档（也可能是图片、音频、视频）。

而体验过chatGPT/文心一言/讯飞星火等大模型产品就会知道，大模型是直接针对你的问题回复一个精准答案，而newBing这种问答式搜索，也是先给你一段直接回应问题的答案，再提供一些参考资料的链接（参考资料通常是大篇幅的文档）。典型的RAG（搜索增强生成）中，更是先将文档资料切片，把大篇幅的文档切割成一页一页、一段一段、一句一句、一组一组token这样的片段（音频、视频、图片等基本同理，处理过程要复杂一些），回复时再送给大模型去做改写后给出答案。

那么，在大模型时代，更容易被AI利用的知识是什么样的（AI-friendly）？基本的知识单元又是什么样的？结合日常实践，我们认为很可能是：

一个主题（问题） + 一个内容段落 + N个索引标签

下面用一个介绍RAG的具体例子，来说明一个基础知识单元长什么样：

一个主题（问题）：RAG的定义（RAG是什么、RAG是什么意思）

一个内容段落：RAG，英文Retrieval-Augmented Generation的缩写，中文是“搜索增强生成”，是指大模型基于外挂知识库里的知识生成内容，这种方式对于大模型来说可以有效减少幻觉或一本正经的胡说八道，对于知识库来说可以提高知识的利用率，直接搜到或问到你想要的信息。

N个索引标签：#大模型 #知识库 #AI #基础知识

把这样一个基础知识单元，或者叫标准化、结构化的知识，先加工出来，存储在那，当用户问到类似问题的时候回复出来，这样我们的搜索、问答、推荐效果更好。

对这样的知识单元，有这么几种理解角度：

①一个问题加上一个内容段落，就是QA对（问答对）。QA对可以说是AI时代最基础、最常见的知识单元。之前基于小模型的问答机器人通常搭配一个QA知识库，小模型理解用户的意图后，在QA知识库找一条匹配的答案回复用户。在大模型兴起后，语言大模型的微调（fine-tune），也是用预先精挑细选的QA当作案例让大模型来学习，校准模型回复的答案（这个过程有点像教聪明的小孩学习，向他们提问，然后告诉他们正确的答案，他们自己就会自行理解为什么，还能举一反三，准确回答更多相似问题）。

②给段落加上一个主题，通常会让我们阅读时更容易提取这段内容中的关键信息，提升阅读体验。RAG效果增强的实践当中，也有一个典型方法，就是从内容段落中预先提炼出主题来，这样应用时就能更方便检索到这个主题以及相应的内容段落（RAG效果增强的方式方法会在后面的文章中介绍）。

③知识基础单元里为什么有个“索引标签”？为什么要给内容段落打上各种标签（tag）？主要是考虑知识的使用场景，比如以上例子里的知识，在搜索/问答/推荐的时候，用户可能是问大模型领域的RAG，也可能是生物领域的RAG（重组激活基因，Recombination activating genes），知识有了标签可能更准确的返回用户想要的结果，也可以依据这些标签信息来反问用户，澄清用户的意图。再举一个例子，用户在问某款汽车的尺寸时、某个品牌的价格区间时、某类手机的功能时，肯定是想知道这个商品、这个品牌、这个品类的准确信息，如果我们的知识不是按照型号、品类、品牌等预先一条一条分门别类的存储的，那就不能准确回复用户。

④标签（tag）大致有四类，一是企业官方定义的，按照部门、业务领域、场景和细分场景等等实现确定好的标签，这些在知识库里固化下来，在上传知识让大家去选择；二是在上传知识时作者自己觉得里面有什么关键词，自己打上的标签；三是知识应用于搜索/问答/推荐时，用户可能常问的关键词，这个需要熟悉业务场景的人预先分析好和梳理好；四是对原始文档做采集和加工转化时，大模型自动提取出的关键信息标签。

⑤这样“一个主题（问题） + 一个内容段落 + N个索引标签”的QAT基础知识单元，也可以进一步简化为“一个内容段落 + N个索引标签”，因为内容的主题、标题也可以理解为是一种标签，同时也能被大模型抽取出来，而不是事先写好放在那。

在这个QAT或AT知识单元的基础上，再谈一下知识质量和AI友好度的问题。如果知识一开始就是这种知识单元的形式，那AI自然可以很快利用起来。但企业里大多数还是以文档级的知识为主。一整篇的文档，特别是版式复杂、多种格式嵌套的文档，是大模型难以直接加工和消化的。因此目前的RAG实践中，通常得有一个知识预加工的过程。如果一篇文档中，版式是容易切割成一段一段的或一块一块的（chunk），内容段落是符合MECE原则的，段落之间是有清晰界限的，段落内是言之有物、表述准确、紧扣主题的，段落内的文、图、表也是格式简洁、互相呼应的，那这样的知识才是高质量的知识、AI-friendly的知识。如果觉得这些原则比较抽象，可以类比为，如果人阅读起来难受、理解起来费劲的文档，AI消化起来也不会表现太好。另外，可能你会好奇为什么没有文辞优美、用词生动、立意高远之类要求，那是因为大模型可以依据你的基础内容改写成那些语言风格的答案。

以上的讨论还是以文档为主，对于图片、音频、视频等知识形态，基本原则大致相同，但这些知识与多模态大模型紧密相关，这又是一个很有意思的话题，后面另文专门讨论。另外基本的知识单元可能还有多种，除了这种知识点类的，比如还有流程类的、知识组合类的。

（二）知识运营和知识管理体系

在以上“基本知识单元”的基础上，我们继续介绍两个层面的问题，一是与“大模型+知识库”这套模式紧密相关的企业知识运营问题，二是更宏观一些的企业级知识管理体系的问题。

好的、高质量的、AI友好度高的知识，不会天然就出现在企业里，这得通过各种精细的运营才会逐步拥有。同时，企业自然可以直接创作新知识去“拥抱”大模型，但已有的存量知识也不太可能丢掉不要了。对存量和增量知识得有不同的策略。我们觉得大模型时代的企业知识运营至少得考虑以下一些关键环节和关键做法：

①知识生产，或者叫知识创作环节，需要企业制定一些文档（图片/音频/视频）制作的标准和范例，逐步引导大家按照标准模板和优秀范例去生产各种word、excel、PPT等文档和其他形态知识。同时，最好将这些标准固化到知识库系统中，让系统来引导和规范大家。

②知识采集，是指将知识通过系统对接和人工上传，汇聚到知识库里。如果让大家在知识库/文档库中直接撰写知识，知识采集和生产几乎是同一过程，但散落在各人电脑里、各部门的已有文档还得采集过来，因此这也是一个独立步骤。此阶段有个很重要的事情就是给原始文档知识打上预先规划好的标签或者作者能想到的标签。

③知识加工，从原始文档中抽取基本知识单元（或者叫转化为标准化、结构化的知识）的过程。目前大模型及OCR等AI工具在知识抽取时还不够准确，因此需要人工按照文档类型去制定一些抽取规则，让机器学会怎么抽取，或者先让机器抽一遍，人工再对机器抽取拿不准的地方做一些标注，让机器明确怎么抽取。

④知识应用，就是在搜索/问答/推荐等场景落地使用。其实以上说的各步骤，不是顺序推进的，应用场景、业务目标、业务价值、通常是要首先考虑的。业务目标和实际应用场景，不一定是知识能够支撑的，需要专门的分析和筛选，但知识的创作/采集/加工，必须围绕和支撑业务目标和实际应用场景。回到知识应用环节，除了监控搜索/问答/推荐这些场景的使用人数、准确率等指标外，还得获得用户点赞、点踩这些反馈数据，以帮助下一步的知识增补。

⑤知识增补，通过数据监控，将没有答案的问题回到源头去做知识生产，将答案质量不高的知识重新做抽取加工，这就是知识增补的过程。这个过程应该通过系统和线上流程去实现，避免线下传递混乱以及难以实现过程管理。

基于AI时代知识颗粒度的变化（从文档级变成QAT级），因此有了上述这样的知识运营过程的变化。下面我们再简要说一说新的知识管理体系。

在企业知识管理的规划和立项阶段，应该充分调研现有的业务和知识现状。一是深入到文档里面去看看规范度和AI友好度，二是转换为应用视角、用户视角，看看知识搜索、问答、推荐、培训、考试时，用户具体要什么、他们会怎么问，并对这些需求做总结和抽象。知识规划阶段给出的知识架构和知识地图，应该充分吸收这些内容。

在调动大家的积极性、参与知识创造/知识贡献的各种活动时，在做知识管理的全员号召和动员时，应该预先让大家知道相应的知识规则、规范，让大家在实践中去熟悉和运用，持续的产出高质量的知识。在做知识应用效果的激励时，应该将高质量知识带来的搜索/问答/推荐效果转化为激励的依据，让大家看到提高知识质量带来的客观效果。

跳出知识管理去做知识管理，更紧密的与大模型落地去衔接、融合、整合。在大模型在企业落地还需要人工去微调、校准的情况下，知识管理过程中也需要考虑AI效果如何评估，AI测试集、训练集如何搭建，并快速积累相应的知识。在大模型+知识的框架中，知识应用（支持搜索/问答/推荐）之前，应该经过效果验证、达到一定的准确率才去上线，这块应该制定相应的规范、搭建相应的人才组织。

如何学习大模型 AGI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

-END-

👉AGI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）第一阶段：从大模型系统设计入手，讲解大模型的主要方法；