按系列顺序整理的完整文章列表,适合从第一篇一路读到最后。
这里暂时还没有摘要,但文章里藏着完整的思考。
实现加载文件的逻辑
将切割的文档转化为向量,供后续的向量数据库使用
语义分块器,根据语义切割文本块
向量数据库管理器
组装检索器、Prompt 和 LLM,实现端到端的问答功能
在控制台跑一下RAG问答
实现多种查询重写策略来提升检索召回率: - 多路查询生成 - HyDE (假设文档嵌入) - 查询扩展
实现 BM25 关键词检索和向量检索的混合策略
使用 Cross-Encoder 模型对检索结果进行精细化重排序
串起 多路查询,混合检索,重排序,父子索引
对比使用,混合检索+重排序的结果
父子索引关联更多相关chunk
重新处理md文件的分割和元数据