LangChain+通义千问+AnalyticDB向量引擎保姆级教程

3. 学习和构建一些基于不同Chain的小应用Demo，比如基于通义和向量数据库的ChatBot；构建每日金融资讯收集和分析的AI Agent。

还有一些模块比如indexes，retrievers等都是上面这些模块的变种，以及提供一些可调用的工具类，比如Tools等。这里就不再详细展开。我们会在后面的案例中讲解如何使用这些模块来构建自己的应用。

▶︎ Example

基于通义API和ADB-PG向量数据库的ChatBot

▶︎ 问题和挑战

在我们实际给用户提供构建一站式ChatBot的过程中，我们依然遇到了很多问题，比如文本切分过碎，导致语义丢失，文本包含图表，切分后导致段落无法被理解等。

1. 文本切分器 向量的匹配度直接影响召回率，而向量的召回率又和内容本身以及问题紧密联系在一起，哪怕有一个很强大的Embedding模型，如果文本切分本身做的不好，也无法达到用户的预期效果。比如LangChain本身提供CharacterTextSplitter，其会根据标点符号和换行符等来切分段落，在一些多级标题的场景下，小标题会被切分成单独的chunk，与正文分割开，导致被切分的标题和正文都无法很内聚地表达需要表达的内容。

2. 优化切分长度 过长的chunk会导致在召回后达到token限制，过小的chunk又可能丢失想要找到的关键信息。我们尝试过很多切分策略，发现如果不做深度的优化，将文本直接按照200-500个token长度来切分反而效果比较好。

3. 召回优化1.回溯上下文，在某些场景，我们能够准确地召回内容，但是这部分内容并不全，因此我们可以在写入时为chunk按照文章级别构建id，在召回时额外召回最相关chunk的相邻chunk，随后做拼接。

▶︎ Agent System组成

任务拆解

思维树(Tree of Thoughts)(Yao et al.2023)通过在每一步探索多种推理可能性来扩展了CoT。它首先将问题分解为多个思维步骤，并在每一步生成多种思考，创建一个树状结构。搜索过程可以是广度优先搜索（BFS）或深度优先搜索（DFS），每个状态都由分类器（通过提示）或多数投票进行评估。

在对知识密集型任务和决策任务的两个实验中，ReAct都表现比仅包含行动（省略了“思考：…”步骤）更好的回答效果。

● Memory模块

▶︎ 典型案例-AUTOGPT

● Agent_toolkits

这个模块目前是实验性的，其目的是为了模拟代替甚至超越ChatGPT Plugin的能力，通过提供一系列的工具集提供链式调用，来让用户组装自己的workflow。比较典型的包括发送邮件功能，执行Python代码，执行用户提供的SQL，调用zapier api等。

我们可以通过继承BaseToolkit的方式来实现不同的Toolkit，每一个Toolkit都会实现一系列的Tools，一个Tool则包含几个部分，必须要包含的内容有name，description。通过这几个字段来告知LLM这个工具的作用和调用方法，这里就要求注册的Tool最好能够通过name明确表达其用途，同时也可以在description中增加few-shot来做调用example，使得LLM能够更好地理解Tool。同时在LangChain内部已经集成了很多工具，我们可以直接调用这些工具来组成Tools。

● Example2 SQL Agent

▶︎ 问题和挑战

同时，Agent目前能够在比较小的场景胜任工作，比如我们的意图是明确的，同时也只给Agent提供了比较少量的Toolkit来执行任务(10个以内)，且每个Tool的用差异明显，在这种情况下，LLM能够正确选择Tool进行任务，并得到期望的结果。但是当一个Agent里注册了上百个甚至更多工具时，LLM就可能无法正确地选择Tool执行操作了。这里的一个解法是通过多层Agent树的方式来解决，父Agent负责路由分发任务给不同的子Agent。每一个子Agent则仅仅包含和使用有限的Toolkit来执行任务，从而提高Agent复杂场景的任务完成率。

云原生数据仓库AnalyticDB是一种大规模并行处理数据仓库服务，可提供海量数据在线分析服务。在云原生数据仓库能力上全自研企业级向量引擎，支持流式向量数据写入、百亿级向量数据检索；支持结构化数据分析、向量检索和全文检索多路召回，支持对接通义千问等国内外主流大模型。

了解更多 AnalyticDB 介绍和相关解决方案请参考：

AnalyticDB向量引擎介绍：https://www.aliyun.com/activity/database/adbpg_vector

一键部署PAI+通义千问+AnalyticDB向量引擎搭建ChatBot：

https://computenest.console.aliyun.com/user/cn-hangzhou/serviceInstanceCreate?ServiceId=service-ddfecdd9b626465f85b6

References

1. 通义千问官网API文档：https://help.aliyun.com/zh/dashscope/developer-reference/api-details?spm=a2c4g.11186623.0.0.1ea416e9s2tYEJ

2. LangChain官方文档：https://python.langchain.com/docs/get_started/introduction

3. https://github.com/langchain-ai/langchain LangChain源码仓库

4. https://github.com/chatchat-space/Langchain-Chatchat LangChain优秀的中文大模型集成项目

5. OpenAI Cookbook 拥有很多使用LLM构建应用的优秀案例：https://github.com/openai/openai-cookbook

6. https://github.com/RGGH/OpenAI_SQL/blob/master/LangChain_01.ipynb ChatBI example source code

7. Zhao et al. “Calibrate Before Use: Improving Few-shot Performance of Language Models." ICML 2021：https://arxiv.org/abs/2102.09690

8. Yao et al. “ReAct: Synergizing reasoning and acting in language models." ICLR 2023.：https://arxiv.org/abs/2210.03629

9. Yao et al. “Tree of Thoughts: Dliberate Problem Solving with Large Language Models." arXiv preprint arXiv:2305.10601 (2023).：https://arxiv.org/abs/2305.10601

10. Liu et al. “Chain of Hindsight Aligns Language Models with Feedback “ arXiv preprint arXiv:2302.02676 (2023).：https://arxiv.org/abs/2302.02676

11. Zhang et al. “Automatic chain of thought prompting in large language models." arXiv preprint arXiv:2210.03493 (2022).：https://arxiv.org/abs/2210.03493

12. Schick et al. “Toolformer: Language Models Can Teach Themselves to Use Tools." arXiv preprint arXiv:2302.04761 (2023).：https://arxiv.org/abs/2302.04761

13. Yao et al. “Tree of Thoughts: Deliberate Problem Solving with Large Language Models." arXiv preprint arXiv:2305.10601 (2023).：https://arxiv.org/abs/2305.10601

14. https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/#chain-of-thought-cot

15. https://lilianweng.github.io/posts/2023-06-23-agent/ LLM使用优秀的博客文章

2023「云栖大会」将于10月31日在杭州开幕，免费门票，限时申领！

欢迎点击文末「阅读原文」报名参会~数量有限，先到先得

LangChain+通义千问+AnalyticDB向量引擎保姆级教程

▶︎ Example

基于通义API和ADB-PG向量数据库的ChatBot

▶︎ 问题和挑战

在我们实际给用户提供构建一站式ChatBot的过程中，我们依然遇到了很多问题，比如文本切分过碎，导致语义丢失，文本包含图表，切分后导致段落无法被理解等。

▶︎ Agent System组成

任务拆解

● Memory模块

▶︎ 典型案例-AUTOGPT

● Agent_toolkits

● Example2 SQL Agent

▶︎ 问题和挑战

评论