1. 📂 技术方案

方案介绍

  1. 大文档根据页数规则进行分页区间并发解析

  2. 文档检索结果增加文档片断内容相似度的处理

  3. 文档解析步骤独立出功能接口,方便解析的任务前置(已规划)

核心内容

  1. 根据目前相关文档测试案例,微软智能解析出来的段落分段跟原文档其实是高度匹配的

  2. 为了保留微软解析数据的一致性,微软的数据入库还是保持与解析的段落数据一致

  3. 在大文档页数的场景下,可以根据页数范围规则进行分页区间的并发解析

  4. 修改文档搜索的流程,增加判断搜索结果的片段内容是否超过范围上限,判断依据可根据内容token计算,

若超过上限,则需要做文档片断内容的相似度计算,然后取最不相似的内容片段,这样在有限的上下文空间内最大化信息覆盖度,避免内容冗余,同时为后续的文档总结(或其他生成式任务)提供更全面、更具代表性的原始素材,减少 LLM 的 “无效计算”,提升生成效率

2. 🔱 技术流程图

解析流程优化流程图

image

文档检索优化流程图

image