知识库相关内容

扣子的知识库功能支持上传和存储外部知识内容,并提供了多种检索能力,扣子的知识能力可以解决大模型幻觉,专业领域知识不足的问题,提升大模型回复的准确率

扣子的知识库功能包括两个能力

一是存储和管理外部数据的能力

二是增强检索的能力

  • 数据管理与存储

扣子支持从多种数据源例如本地文档,在线数据,Notion,飞书文档等渠道上传文本和表格数据。上传后,扣子可将知识内容自动切分为一个个内容片段进行存储,同时支持用户自定义内容分片规则,例如通过分段标识符,字符长度等方式进行内容分割。

  • 增强检索

扣子的知识功能还提供了多种检索方式来对存储的内容片段进行检索,例如使用全文检索通过关键词进行内容片段检索和召回。大模型会根据召回的内容片段生成最终的回复内容

知识库类型与限制

使用知识库功能的第一步就是上传知识内容,知识内容分为如下三种知识类型:

对比项 文本类型 表格类型 照片知识库
使用场景 文本知识库支持基于内容片段进行检索和召回,大模型结合召回的内容生成最终内容回复,适用于知识问答等场景 表格知识库支持基于索引列的匹配(表格按行进行划分),同时也支持基于 NL2SQL 的查询和计算 照片知识库支持基于标注信息的匹配,适用于图像生成场景
导入方式 + 本地文档 :从本地文件中导入文本内容,支持.txt, .pdf, .doc ,.docx 文件格式
+ 在线数据:通过自动和手动方式采集指定网页的内容
+ 第三方采集:从飞书文档和 Notion 文档中导入内容
+ 自定义:手动输入要导入的文本内容
+ 本地文档 :从本地文件中导入文本内容,支持.csv 和.xlsx 文件格式
+ 在线数据:通过 API 导入数据
+ 第三方采集:支持从飞书表格中导入数据
+ 自定义:手动输入要导入的表格数据
本地图片:从本地文件中导入图片,支持 JPG,JPEG 和 PNG 图片格式
内容分段 支持自动内容分段和手动分段方式 对于表格内容,默认按行分片,一行就是一个内容片段,不需要再进行分段设置 不涉及
索引 不涉及 扣子支持设置索引字段
用户输入的问题会与设置的索引字段内容对比,根据相似度匹配最相关的内容给大模型用于内容生成
扣子支持设置图片的标注信息
用户输入的问题会与设置的标注信息对比,根据相似度匹配最相关的图片给大模型用于内容生成