为结构化和非结构化数据上构建Agent的分步指南
第 1 步:定义分块(chunking)策略
- 将您的文档分解为可管理的部分(块)。
- 决定块大小以及块之间是否应该重叠。
第 2 步:应用嵌入(embedding)策略
- 使用 E5 和 BERT 等高级模型将块转换为嵌入。这使得非结构化数据更容易被计算。
第 3 步:实现文档检索器
- 开发一个检索系统,根据步骤 2 中生成的嵌入查询和获取相关块(chunk)。
第 4 步:使用大型语言模型 (LLM)
- 将相关块输入LLM,以在用户提示的上下文中理解和处理内容。
第 5 步:提取元数据
- 从结构化数据源中提取元数据,其中包括架构、示例数据和摘要。
第 6 步:实现元数据文档检索器
- 创建专门用于查询元数据的检索系统。
第 7 步:将 SQL 查询与数据仓库集成- 使用 SQL 查询与数据仓库中存储的结构化数据进行交互。第 8 步:开发快速优化引擎- 该引擎对用户提示进行分类并生成文档检索器查询以查找最相关的信息。第 9 步:创建响应后处理器- 汇总和总结回复,并根据需要创建附件(例如 PDF 或文档)。第 10 步:提供响应- 然后将最终的相关响应呈现给用户。该策略确保agent能够有效地处理和理解结构化和非结构化数据,提供全面且与上下文相关的响应。