Coco AI 快速构建本地文档知识库增强检索+智能问答系统

105

1、之前视频讲解了 RAG 系统

相对比较复杂。

需要部署：Elasticsearch、FSCrawler、通义本地模型、ollama、Gradio 等。

全部前后端代码都需要自己实现，有一定的学习成本。那有没有极简的方式构建呢？

之前一篇文章介绍了：《如何将 Coco AI 与自定义数据源集成？》基于这个自定义数据源的思路，再进一步呢？

其实再进一步就是本文题目的内容了。

数据源唯一id：d1mv5ci6dku3m75bq3tg。

创建完数据源结构如下图所示：

特别说明：目前这里只支持 API 方式生成，0.6 版本不支持通过可视化界面配置生成。

基于 ollama 本地部署的模型进行添加。

应答模型选择好，如下图所示。

数据源头对应好，如下图所示。

代码包括读取、分割文档内容并上传至 Elasticsearch 实例的实用工具。

将《一本书讲透 Elasticsearch 》400页+书稿导入效果如下所示。

详细代码参见：https://articles.zsxq.com/id_5ea0h58pdae2.html

序号	函数名称	参数	返回值	详细说明
1	`read_docx`	`file_path` (字符串): `.docx` 文件路径	字符串列表 (段落)	读取 `.docx` 文件并提取非空段落作为字符串列表。
2	`split_paragraphs`	`paragraphs` (列表): 段落字符串列表 `max_chars` (整数): 每块最大字符数 (默认: 3000)	字符串列表 (分块)	根据最大字符数限制将段落分割成块。
3	`split_by_bytes`	`paragraphs` (列表): 段落字符串列表 `max_bytes` (整数): 每块最大字节数 (默认: 5000)	字符串列表 (分块)	根据最大字节数 (UTF-8 编码) 将段落分割成块。
4	`save_split_docx`	`paragraphs` (列表): 段落字符串列表 `save_path` (字符串): 保存新 `.docx` 文件的路径	无	从段落列表创建新的 `.docx` 文件并保存到指定路径。
5	`process_docx_file`	`file_path` (字符串): 输入 `.docx` 文件路径	字典列表 (文档)	处理 `.docx` 文件，将其分割成块，保存为新 `.docx` 文件，并准备 Elasticsearch 的元数据。
6	`send_to_es`	`document` (字典): 文档元数据和内容	元组: (整数: HTTP 状态码, 字符串: 响应文本)	通过 POST 请求将文档发送到 Elasticsearch 实例。
7	`main`	无	无	主函数，遍历目录中的 `.docx` 文件，处理并上传至 Elasticsearch。