天眼查App显示,2025年5月6日,「一种基于大模型的文档数据处理方法和装置」正式进入专利公布阶段。申请人为北京百度网讯科技有限公司,该项人工智能技术领域专利涉及大模型与计算机视觉技术的应用场景。据专利信息显示,该技术方案实现了显著优化的数据处理效果。发明人为徐栋。
专利摘要指出,提供了一种基于大模型的文档数据处理方法和装置,具体实现方案包括:获取从可携带文档格式PDF文件中识别的多种不同类型的元素中的至少一个PDF元素;基于所识别的PDF元素确定待处理图像和待处理文本,其中待处理图像包括所识别的至少一个PDF元素的图像,待处理文本包括从待处理图像中识别的文本;基于自注意力机制对待处理文本进行特征提取,以得到待处理文本的自注意力特征;基于交叉注意力机制对待处理文本的自注意力特征和待处理图像的图像特征进行特征提取,以得到用于PDF文件的文本-图像交叉注意力特征;以及至少基于交叉注意力特征确定PDF文件的解析结果。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。