天眼查App显示,2025年8月19日,「图像描述的方法、装置、设备、存储介质及程序产品」正式进入专利的公布阶段。申请人为中移(杭州)信息技术有限公司,中国移动通信集团有限公司,该项计算专利涉及图像识别与自然语言生成技术的融合应用。据专利信息显示,该方案通过结合图像中的上下文信息以及物体图像内容的细节信息,提升了图像描述语言的准确性。发明人为林帆,蒲琪然,黄思飞,程宝平,王顶。摘要显示:本申请公开了一种图像描述的方法、装置、设备、存储介质及程序产品,具体技术方案包括:获取待识别图像;利用图像描述生成模型提取待识别图像的区域特征和网格特征;利用图像描述生成模型基于区域特征和网格特征预测得到输入文本;通过自注意力机制计算得到输入文本的自注意力特征;分别计算自注意力特征和区域特征的第一交叉注意力特征以及自注意力特征和网格特征的第二交叉注意力特征;将第一交叉注意力特征和第二交叉注意力特征进行拼接,得到拼接特征;通过拼接特征生成待识别图像对应的图像描述信息。如此,能够结合图像中的上下文信息以及物体图像内容的细节信息生成自然语言描述,提高了图像描述语言的准确性。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。