天眼查App显示,2025年6月10日,「预训练视觉语言模型的方法、装置、设备及存储介质」正式进入专利的公布阶段。申请人为北京达佳互联信息技术有限公司,该项计算机技术专利涉及跨模态对齐的预训练视觉语言模型技术。据专利信息显示,该技术通过样本图像与文本片段的对应关系进行跨模态对齐,显著优化了训练数据的获取成本,并提高了预训练效率。发明人为张祥文、林梓佳。 「本公开提供了一种预训练视觉语言模型的方法、装置、设备及存储介质,属于计算机技术领域。该方法通过从样本图像中分割出样本对象,从样本文本文档中采样得到文本片段,即可根据每个文本片段中包括的至少一个实体名称与样本对象之间的对应关系,将文本片段与包括样本对象的对象图像进行跨模态对齐,从而不需要大规模标注即可得到质量较高的图像‑文本对数据。上述方案极大的降低了训练数据的获取成本,提高了预训练视觉语言模型的效率。」
免责声明:本文内容由开放的智能模型自动生成,仅供参考。