知识库管理
一、知识库概述
元智启知识库基于RAG(Retrieval-Augmented Generation,检索增强生成)技术构建。简单来说,RAG是一种结合「检索」与「生成」的智能问答方式:
检索:当用户提出问题时,系统会先从知识库中找到最相关的内容片段。
生成:AI再根据这些检索到的内容进行理解和组织,用自然语言生成精准、上下文贴合的回答。
企业可以将自身的业务资料、内部规章制度、产品文档、培训教材等上传到知识库中,形成企业的「私有知识库」。
更准确:相比只靠模型记忆,AI能实时引用企业的知识库,避免答非所问。
更灵活:支持多种知识形态(问答、文档、表格、网页等),让智能体能适配不同业务场景。
可控性强:企业上传的内容就是AI的参考信息,保证回答始终符合企业标准。
用途包括:
客服场景:自动回答售后、政策类常见问题,减少人工客服压力。
内部培训:新员工通过智能体快速查询公司制度、流程。
业务支持:销售、医疗、教育等行业中,AI能快速引用专业资料进行辅助答复。
核心优势:
【数据安全与私密性】
您的数据是您最宝贵的资产。上传至元智启知识库的所有内容都将得到严格的隔离和安全保护,
仅用于您自己的 AI 应用进行检索,绝不会被用于训练任何公开的大模型。这确保了您企业核心知识产权和商业机密的安全。
【知识体系动态可控】
市场在变,业务在更新。您可以随时向知识库中增、删、改、查任何知识内容,AI 的知识体系也会即时更新。企业完全掌握了 AI"学什么"和"说什么"的主动权,确保 AI 与业务发展时刻保持同步。
【显著降低 AI 应用成本】
相比于使用更昂贵的模型微调(Fine-tuning)技术,通过 RAG 构建知识库是一种成本效益极高的方案。它无需海量数据和昂贵的计算资源,就能快速让 AI 掌握特定领域的专业知识,实现快速部署和价值转化。
二、创建知识库
创建一个新的知识库是开始的第一步,过程非常简单。
在平台左侧导航栏找到并进入知识库管理页面,点击【创建知识库】按钮。
在弹出的窗口中,输入一个清晰易懂的【知识库名称】(例如:"售后服务 FAQ"、"产品技术规格"),并填写【描述】以便于后续管理。
三、文件管理
创建好知识库后,接下来就是向其中填充"知识"。我们支持多种方式来管理您的知识文件。
3.1 手动创建文件
对于需要精细化管理的内容,您可以直接在知识库内创建。
创建问答(Q&A):
适用场景:适用于标准的"一问一答"场景,如公司规章、客服FAQ等。
创建文档:
适用场景:适用于长篇的、非结构化的文本内容,如产品手册、技术文档、报告等。
3.2 编辑与管理分段详情
无论是导入还是手动创建的文件,我们都支持您对内容的最小单元——"分段"进行精细化管理(增、删、改、查)。
对于文档:您可以查看系统自动切分的段落,并对每个段落进行修改或删除,优化AI的检索效果。
对于表格:您可以像操作Excel一样,在线修改、增加或删除表格中的某一行数据。
对于问答:您可以随时编辑某个问答对的问题或答案。
四、文件导入
在完成知识库创建后,即可通过"文件导入"功能快速沉淀和整理企业知识。元智启支持四种导入方式:文档、问答对、表格、网站导入,并可额外支持从飞书文档、飞书表格导入内容。企业可根据资料形态和使用场景灵活组合多种导入方式,打造高质量的知识库。
4.1 导入类型及适用场景
导入方式 | 支持格式 | 使用场景 | 优势 |
---|---|---|---|
文档导入 | pdf、docx、md、txt、单列csv | 导入产品手册、操作指引、培训资料 | 直接上传原始文件,自动解析分段,快速完成知识沉淀 |
问答导入 | 双列csv | 导入FAQ、标准问答、业务口径等结构化知识 | 回答精准度高,适合高频问题场景 |
表格导入 | Excel、csv | 导入产品SKU、服务清单、参数表 | 可设置检索列,支持结构化检索 |
网站导入 | 网页链接 | 导入博客、产品说明、官网文档 | 快速覆盖长尾知识,降低无结果率 |
组合方式示例:
客服场景:高频问题 → 用问答导入;产品参数 → 用表格导入;公司手册 → 用文档导入;官网资讯 → 用网站导入。
内部知识管理:流程制度 → 文档导入;业务口径 → 问答导入。
4.2 文档导入
系统会自动对长文档进行拆分,便于检索。支持以下解析与分段策略:
解析模式
- 文本解析:提取纯文字内容;
- 增强解析:可提取文字、图片、表格,适用于扫描PDF、复杂表格,基于OCR识别。
分段策略
- 智能分段(默认):自动拆分,保持上下文连贯;
- 自定义分段:支持自定义设置分段长度;
- 层级分段:保留文档层级结构,适合Markdown、Word、PPT等。
导入后可在右侧预览拆分效果,并查看文件Token数量。
4.3 问答导入
- 需下载官方CSV模板,填写【问题】、【答案】两列。
支持两种检索策略:(区别在于AI在匹配用户问题时,是只看您的"标准问题",还是会连同"标准答案"一起看)
同时检索问题和答案(覆盖更广,召回率高):
仅检索问题(命中更精准,适合FAQ场景)
重要提示:选择"仅检索问题"时,请确保问题描述足够全面。
示例说明:
假设您上传了一条问答:
- 标准问题:"什么是知识智能体?"
- 标准答案:"知识智能体是一种结合了知识库和数据库能力的轻量应用,能够处理私有业务相关问题。"
如果用户问:"什么是轻量应用?"
系统在匹配时,发现"标准问题"中并未提及"轻量应用",因此匹配度会非常低,大概率会判定为无法回答。
4.4 表格导入
支持多列Excel/CSV(UTF-8编码)
导入表格时:
如Excel表格中有多个sheet,默认导入Sheet1的数据
表格的第一行数据将作为表头(即列名)
如有合并的单元格,默认将合并单元格中的数据填入左上的原始单元格中
导入后可:
编辑列名(列名将影响AI理解,设置一个含义清晰的列名能够让AI更好的理解该列的内容);
设置参与检索的列(例如:产品参数、服务类别);
非检索列也会保留在结果中,AI仍可引用整行数据进行回答。
索引列(参与检索的列)指的是用户提问时会将用户问题和该列的内容进行语义匹配或关键词匹配。不参与检索不代表用户提问时该列的内容不会被搜索到。
示例:
产品表格含「产品名、SKU、价格、库存」四列,若仅设置「产品名、SKU」参与检索,当提问"XXX产品多少钱"时,AI仍能返回该行的完整信息,包括价格与库存。
4.5 网站导入
可通过网址导入网页内容:
系统自动解析正文内容,并进行分段;
支持提取网页图片;
适合导入产品官网、帮助中心、博客文章。
注意:
网站导入方便快速将网页资源导入知识库中。使用"网站导入"功能时,您提交的网站地址应为您有权支配或使用的自有或第三方网址,并对提交网址内容的合法性承担全部责任。平台仅提供网站解析导入服务,不对您使用网址数据的行为承担任何责任。建议导入博客、公众号文章、文字信息为主的官网、使用说明文档等静态资源网站,不支持导入在线文档、大部分平台型媒体网站和需要登录的网站内容。
4.6 从飞书导入
元智启支持将飞书文档、飞书表格中的数据直接导入知识库,帮助企业快速沉淀内部知识。
注意事项:
仅支持导入当前企业飞书租户内的文档,不可导入他人租户数据;
暂不支持导入飞书多维表格、飞书幻灯片。
4.6.1 配置飞书自建应用
在使用飞书文档/表格导入前,需在飞书开放平台创建一个具备相关权限的企业自建应用,用作访问凭证。
创建自建应用
进入飞书开发平台,点击「创建企业自建应用」。
- 如您在渠道接入飞书托管接入中已创建过自建应用,可直接进入添加权限,无需重复创建。
添加权限
需要为应用添加以下权限:
- 获取与更新通讯录信息
- 查看、评论、编辑和管理云文档
- 获取云空间信息
获取授权凭证
进入「凭证与基础信息」页面,获取AppID和AppSecret,后续将在知识库导入时使用。
4.6.2 凭证授权
进入知识库 → 文件导入页面:
选择文档 → 导入飞书文档或表格 → 导入飞书表格;
点击「去授权」,填写获取的AppID/AppSecret并保存。授权成功后,即可开始导入飞书文档或表格。
4.6.3 导入文档与表格
导入飞书文档
打开需要导入的飞书文档,复制浏览器地址栏中的URL(如在客户端中打开,可点击右上角「复制链接」获取);
在文件导入页面选择「文档类型→导入飞书文档」,粘贴URL(支持多条链接换行导入);
点击「导入」即可预览文档分段结果;
可选择开启增强解析,将文档中的图片一并导入知识库。
导入飞书表格
- 打开需要导入的飞书表格,复制表格的URL;
- 在文件导入页面选择「表格类型→导入飞书表格」,粘贴URL(单次导入一个表格);
- 点击「导入」即可预览表格内容。
表格导入规则:
如表格有多个Sheet,默认导入Sheet1;
第一行作为表头(列名);
合并单元格将取左上角的原始值。
导入后可进行配置:
编辑列名:列名会影响AI的语义理解,建议保持清晰明确;
设置检索列:选择哪些列参与用户问题的语义匹配;
预览数据:确认导入内容的准确性。
五、素材管理
知识库支持为语料段落添加附加素材,包括图片、视频、文件
(PDF、PPT、Word、Excel、CSV、TXT、MD)等。
当回复中命中包含素材的语料时,AI会将素材一并发送,并在网页端或接入渠道端按原始格式直接展示(如直接显示图片、播放视频、跳转小程序等)。
5.1 素材添加方式
素材管理上传
也可在知识库 → 素材管理中提前上传素材,复制生成的素材链接,再粘贴到对应语料的编辑框内。
直接上传
在知识库的语料编辑页面,可直接上传图片、视频或文件。系统会自动将素材转换为链接,并填入语料内容中。
5.2 素材触发与发送
当用户提问命中带有素材的语料时,AI机器人会将语料中的素材直接发送。
为确保素材能够稳定展示,请在使用智能体或工作流时在以下对应位置添加提示指令:
智能体 → 智能体设定(大模型提示词)
工作流 → 大模型节点 → 系统提示词
设定内容:
将知识库信息中的图片、视频、文件链接直接发送出来,不要省略或改写,不要使用 Markdown 格式。
如在文档导入时启用增强解析功能,文档中的图片会被自动提取并上传至知识库的素材管理,可直接在语料中调用。
六、检索测试
在使用知识库的过程中,如果对某个 case 的检索结果有疑问,可以通过知识库配置 → 检索测试页面,模拟用户提问来查看实际的检索情况。检索测试支持语义检索和增强检索两种模式。
6.1 语义检索
基于语料的语义向量相似度进行检索。系统会为每条检索结果展示一个相似度指标,用于表示该语料与提问之间的相关程度。
6.2 增强检索
在语义检索的基础上,结合全文关键词检索,同时输出两种检索结果。每条结果都会附带相似度指标或相关度排序,帮助判断该语料与问题的匹配度。
6.3 示例说明
假设知识库中存有以下语料:
语料A:公司请假流程需在OA系统提交审批。
语料B:病假需附带医院证明,审批人是部门主管。当在检索测试中输入提问"如何请假?"时:
语义检索结果:
- 返回语料A(相似度0.92),因为"请假流程"与"如何请假"在语义上高度匹配。
- 返回语料B(相似度0.71),相关度较低,但仍与"请假"主题有关。
增强检索结果:
同时返回语料A和B,并对"请假""流程"等关键词进行加权匹配。
系统会展示两类结果,帮助用户对比不同检索方式下的匹配情况。
七、定时同步
适用场景:知识库中的【飞书在线文档】、【网页导入的数据】支持开启定时同步。
操作:您可以设置一个同步计划(如每天、每周),系统会自动定期访问这些链接,抓取最新内容并更新到知识库中,确保您的AI始终掌握一手信息,无需人工干预。
开启定时同步开关后,系统会以每日一次的频率自动更新知识库内容。同时,用户也可以通过点击手动同步来立即触发同步任务。
注意事项
系统在同步前会逐一对比每个链接的内容:
若内容未发生变化,则不会更新;
若检测到变更,则会重新执行分段、向量化和入库操作(此过程会消耗一定积分)。
当源网页或在线文档有变更时,系统会在同步时使用最新内容覆盖更新。因此,如果已开启定时同步,不建议在知识库中对网页或在线文档进行手动编辑,以免内容被覆盖。
八、知识库使用
8.1 知识库绑定与应用
知识库需要在智能体中绑定,或者在工作流的"知识库"节点中使用,才能发挥作用。
智能体绑定规则
- 一个智能体可以绑定多个知识库
- 一个知识库可以被多个智能体共享
在工作流中使用知识库能力的详细说明,请参考:工作流 - 知识库节点
8.2 检索策略配置
点击配置按钮,可以修改默认知识库的检索策略。
知识库支持两种检索方式:
8.2.1 语义检索
- 原理:通过知识库语料与用户问题的语义向量相似度匹配,语义相似度越高,语料越容易被检索到。
配置项:
- 相似度阈值:仅使用语义相似度高于该阈值的语料
- 高阈值(如 0.8 以上):结果精准,但可能未命中
- 低阈值(如 0.7 以下):覆盖范围大,但相关性略低
- 语义检索条数:单次问答返回的最大语料数,默认 3 条
8.2.2 增强检索
原理:在语义检索基础上,使用全文关键词检索增强结果
全文检索条数:单次问答通过关键词检索返回的最大语料数,默认1条
系统会将用户问题拆分为关键词组,并在知识库中匹配这些关键词组进行检索
8.3 配置项详细说明
配置项 | 说明 |
---|---|
相似度阈值 | 高阈值(如0.8以上):检索精准,但可能未命中;低阈值(如0.7以下):覆盖广,但相关性略低。可结合"检索测试"功能调整。 |
语义检索条数 | 单次问答通过语义检索返回的最大段落数,默认3条。 |
全文检索条数 | 单次问答通过全文关键词检索返回的最大段落数,默认1条。语义检索条数+全文检索条数总和不可超过10条(优先满足语义检索条数设置)。 |
未命中策略 | 未找到内容时可选择:自由发挥(AI推理回答)、固定文案(使用指定文本回答)、转人工(根据高级配置规则提醒人工处理)。 |
展示知识库引用来源 | 开启后,回复显示来源文件名、网站名及链接,可单独设置引用相似度阈值。 |
8.4 使用示例
语义检索示例
设置:
- 相似度阈值:0.8
- 语义检索条数:3
效果:系统将检索出相似度 ≥ 0.8 的前3条语料生成回复
增强检索示例
设置:
- 相似度阈值:0.75
- 语义检索条数:3
- 全文检索条数:1
效果:系统将检索出相似度 ≥ 0.75 的前3条语料 + 关键词匹配度最高的1条语料生成回复