天眼查App显示,2025年8月12日,「一种面向机构调研PDF的多模态解析方法」正式进入专利的公布阶段。申请人为益盟股份有限公司,该项计算;推算;计数专利涉及电数字数据处理技术领域。据专利信息显示,通过版式自注意增强模型等,实现解析效率高、完整性好、准确性好,技术效果数据提升达显著优化。发明人为沈鑫瑜;朱洪海。本发明公开了一种面向机构调研PDF的多模态解析方法,涉及电数字数据处理技术领域;其包括如下步骤,步骤1:基于版面分割模型解析PDF文件获得结构化区域和非结构化区域;步骤2:结构化区域的表格经跨页表格重组算法处理获得完整的表格数据,经规则模板匹配算法提取获得关键字段并形成结构化的数据;步骤3:版式自注意增强模型包括依次连接的输入层、Transformer编码层和预训练任务模块,在预训练阶段采用跨模态注意力机制和多模态掩码预训练任务,在微调阶段采用分层微调和对抗训练;步骤4:非结构化区域经版式自注意增强模型处理获得模块化的信息。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。