文档解析和内容搜索流程优化

jake 2026年03月27日 4 阅读 0 评论更新于 2026-03-29

1. 📂 技术方案

方案介绍

大文档根据页数规则进行分页区间并发解析
文档检索结果增加文档片断内容相似度的处理
文档解析步骤独立出功能接口，方便解析的任务前置(已规划)

核心内容

根据目前相关文档测试案例，微软智能解析出来的段落分段跟原文档其实是高度匹配的
为了保留微软解析数据的一致性，微软的数据入库还是保持与解析的段落数据一致
在大文档页数的场景下，可以根据页数范围规则进行分页区间的并发解析
修改文档搜索的流程，增加判断搜索结果的片段内容是否超过范围上限，判断依据可根据内容token计算，

若超过上限，则需要做文档片断内容的相似度计算，然后取最不相似的内容片段，这样在有限的上下文空间内最大化信息覆盖度，避免内容冗余，同时为后续的文档总结（或其他生成式任务）提供更全面、更具代表性的原始素材，减少 LLM 的 “无效计算”，提升生成效率

2. 🔱 技术流程图

解析流程优化流程图

文档检索优化流程图

评论（0）

暂无评论，快来抢沙发！