北京智慧星光信息技术股份有限公司基于多模态图生文大模型的视频分析方法专利公布(人工智能专利快讯)

天眼查App显示,2025年5月13日,「基于多模态图生文大模型的视频分析方法、装置、设备」正式进入专利公布阶段。申请人为北京智慧星光信息技术股份有限公司,该项人工智能专利涉及视频分析技术领域。据专利信息显示,该发明通过结合目标检测的方式防止生成无效文本信息,显著优化了视频分析效率和时效性,同时通过加入矩阵级噪音扰动提高图生文大模型训练的泛化能力,突破性进展使模型能更加准确地进行图像描述。发明人为韩勇、李青龙、骆飞、赵冲。

本发明通过对目标检测模型进行训练,将目标场景作为先验知识创建目标图像描述任务指令,从而聚焦视频中的重点场景更好地生成需要重点关注的图片描述。通过将两个模态输入融合对齐,将文本序列与交叉注意力之后输出矩阵的融合,使得模型能更好地理解指令并更好地生成文本描述,提高模型对视频内容理解的准确性。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1