1. 📂 技术方案
方案介绍
-
大文档根据页数规则进行分页区间并发解析
-
文档检索结果增加文档片断内容相似度的处理
-
文档解析步骤独立出功能接口,方便解析的任务前置(已规划)
核心内容
-
根据目前相关文档测试案例,微软智能解析出来的段落分段跟原文档其实是高度匹配的
-
为了保留微软解析数据的一致性,微软的数据入库还是保持与解析的段落数据一致
-
在大文档页数的场景下,可以根据页数范围规则进行分页区间的并发解析
-
修改文档搜索的流程,增加判断搜索结果的片段内容是否超过范围上限,判断依据可根据内容token计算,
若超过上限,则需要做文档片断内容的相似度计算,然后取最不相似的内容片段,这样在有限的上下文空间内最大化信息覆盖度,避免内容冗余,同时为后续的文档总结(或其他生成式任务)提供更全面、更具代表性的原始素材,减少 LLM 的 “无效计算”,提升生成效率
2. 🔱 技术流程图
解析流程优化流程图
文档检索优化流程图
暂无评论,快来抢沙发!