天眼查App显示,2025年6月20日,「一种数据标注方法、装置、设备及存储介质」正式进入专利的公布阶段。申请人为银联商务支付股份有限公司,该项计算专利涉及OCR训练数据的标注任务优化场景。据专利信息显示,该技术能够显著优化训练数据的标注效率。发明人为廖晨、吴宇晖、李欣刚、潘祥、张增辉。 本申请实施例提供一种数据标注方法、装置、设备及存储介质,所述方法可以在获取待标注数据后,根据图像类型,构建识别模板。并获取待标注数据的文字识别数据,以及基于识别模板,在文字识别数据中提取标题数据和内容数据,从而根据标题数据、内容数据以及识别模板生成标注数据。其中,所述标题数据为与标题部分相似度大于或等于相似度阈值的文字内容;所述内容数据为根据文字坐标和内容部分对应位置确定的文字内容。所述方法能够用于OCR训练数据的标注任务中,通过OCR算法模型和数据处理脚本对OCR识别结果进行错误文字修正、错误文字提醒以及文本结构恢复,可有效提升训练数据的标注效率。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。