IBM已正式发布小型视觉语言模型Granite-Docling-258M,定位端到端文件转换场景,采用Apache 2.0开源协议,已在Hugging Face上线。
该模型参数量为2.58亿,专为文档表格处理设计,可完整保留版面、表格、数学公式、列表和代码块等结构,识别准确度高于传统OCR软件。
核心技术支持为DocTags,由IBM Research研发,是一种通用文件结构标记语言,能精确描述页面元素的类型、坐标、阅读顺序及跨元素关系,实现内容与版面分离,并支持“先识别元素范围再执行OCR”的处理流程。
完成转换后,DocTags可将输出导出为Markdown、JSON、HTML等格式,或进一步由Docling库处理。
当前模型支持中文、阿拉伯语和日语,尚未达到企业级水准。IBM表示未来将扩展语言覆盖范围,提升模型可靠性,增强DocTags与watsonx.ai的兼容性,并计划将DocTags词汇表纳入Granite分词器及训练流程。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。