作业帮受邀参加人工智能与机器学习创新峰会,大数据负责人许明分享全链路数据治理实践

日前,A2M人工智能与机器学习创新峰会在上海皇冠假日酒店成功举办。作为国内领先的科技公司,作业帮应邀参会。在全链路数据治理专场,作业帮大数据负责人许明围绕企业大数据实践,分享了《作业帮全链路数据治理的演进之路》。

此次大会以“AIGC时代下的AI落地实践、数据智能和基础架构演进”为主题,邀请了100余位行业专家从支撑数字化转型的几个关键技术切面入手,分享前沿的、有典型代表的技术创新及研发实践的架构案例,共同探讨和交流未来技术的发展方向和解决方案。

大数据作为新一轮工业革命中最为活跃的技术创新要素,高质量的管理和应用至关重要。作业帮是最早布局数据治理体系的互联网企业之一,业务范围涉及广泛,在学习工具产品、智能硬件、智能教辅等领域均有布局,数据量相当庞大,如何让多个业务的数据高效运转、规避数据量过大产生的系列问题,有效的数据治理非常关键。此次许明从作业帮数据治理面临的挑战、业界的方案研究、治理方案等几个维度进行了全面解读。

作业帮从成立至今,数据规模翻了数百倍,数据治理的难题多而复杂。比如,在时效性层面,从之前的T+1,逐步提升到小时级、分钟级,T+1有标准的解决方案,小时级、分钟级却缺少标准的方案,如何在开发效率和高可用之间做平衡?在质量上,数据是业务经营决策的重要一环,如何确保数据指标准确性?以及安全合规标准是什么,组织架构如何优化配比等等,每个层面都有着不同的难题。

为了解决上述相关问题,作业帮调研了业界云厂商的成熟方案,从基础的引擎能力到数据集成、数据构建、数据分析等平台能力,再到配套的数据开发治理体系,基本上能够提供一套完整的数据治理的解决方案。“同时,结合作业帮业务现状,将业务相关性低的引擎部分下沉到云厂商,跟业务耦合平台相关的数据收敛到业务侧自主建设。基于上述大原则,明确了我们自有方案的思路。”许明分享到。

作业帮的全链路数据系统分为两大板块,应用平台和基础组件。应用平台覆盖整体数据生产全链路,从数据采集到离线/实时的构建,再到数据应用体系(看板/Addhoc/自定义分析),针对数据构建环节,提供指标建模、数据地图、数据血缘、SLA管理、数据治理等平台能力;基础组件主要包括存储引擎、计算引擎、以及的云服务(消息组件,OLAP引擎等)

全链路数据治理是一个非常复杂和庞大的工程,不可能一蹴而就。许明说,“作业帮的全链路数据治理从三个阶段展开:阶段一,平台规范化,主要解决方案&组件统一问题,平台能力丰富;阶段二,数据指标规范化,主要解决数据治理问题,治理体系从0到1的搭建;阶段三,平台租户化,主要解决各开发平台资源耦合问题,进一步降低数据洞察成本。”

就这样,作业帮的全链路数据治理方案稳步进行。回顾整体的历程,作业帮的大数据全链路数据治理,主要经历了组件标准化、平台能力丰富、数据治理体系建立,以及开发平台租户化、技术升级带来降本等阶段。谈及未来的发展,许明说,“我们下一步主要朝着更智能的数据评价体系、更高效的数据组织形式、更经济的资源使用等方面去拓展。”

声明:本站转载此文目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容,本网站对此声明具有最终解释权。
最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1