浪潮卓数大数据产业发展有限公司「基于多特征融合的标讯数据去重方法及系统」专利公布(数据处理专利快讯)

天眼查App显示,2025年6月13日,「基于多特征融合的标讯数据去重方法及系统」正式进入专利的公布阶段。申请人为浪潮卓数大数据产业发展有限公司,该项数据处理专利涉及有效识别并剔除标讯数据中重复记录的技术应用场景。据专利信息显示,该技术可显著优化数据质量并降低存储负担。发明人为陈昕、薛兵、申传旺、赵子墨和孙永超。 「本发明公开了基于多特征融合的标讯数据去重方法及系统,属于数据处理技术领域,要解决的技术问题为如何有效识别并剔除标讯数据中重复记录、以提高数据质量并降低存储负担。包括:获取每日发布的标讯文本数据;基于UIE文本抽取小模型对标讯文本数据进行解析,提取标讯文本数据的关键特征,并为标讯文本数据标注行业标签;基于URL以及提取的关键特征自定义多特征融合的去重规则,基于去重规则对标讯文本数据进行重复数据识别,得到重复的标讯文本数据;将识别出的重复的标讯文本数据存储于专用数据库中。」

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1