Skip to main content

RAG 检索增强生成

OCR 处理

  • PaddleOCR
  • Tesseract

数据工具

  • MongoDB
  • Elasticsearch
  • Neo4j 图数据,比如组织结构数据
  • FAISS(本地,轻量级)
  • Milvus(企业级,支持大规模)
  • Weaviate / Pinecone(托管版,易集成)
  • ClickHouse、DuckDB

数据处理工具

工具/库用途
pandas表格读取与处理
openpyxl / xlrdExcel 格式读取
camelot / tabula从 PDF 表格提取
langchain / llama-index构建 RAG 检索与问答
GPT-4 / Claude智能解释或提取非标准表格含义

数据向量补充处理

将表格每一行或每个字段转换为可读文本块(如“客户张三在2023年3月购买了价值500元的产品”),然后进行 embedding,存入向量数据库,供检索用

案例

image

{
"清单": "经济",
"场景": "无线网",
"类型": "16口POE交换机",
"BOM编码": "9801A5M3",
"产品选型": "US218-HP",
"产品备注": "",
"是否预停产": false
}