从华为差分隐私技术看保护个体数据有多重要

数据分析在各个行业领域中的运用已经显而易见。它可以通过大数据统计分析对大批量群体特征数据进行信息的萃取与提炼,不断提取有用信息,形成研究报告和概括总结,最终帮助大部分机构或公司挖掘出数据更多的内在价值。比如,公司根据数据分析的精准结果做出粗略判断,判断产品生命周期的时长、产品的投放区域、大众喜好的颜色等。

在过去,收集个人数据的方式非常直接,街头问卷调查可以将姓名、性别、手机号、习惯喜好等全部收集起来,如此一来,个人隐私的泄露也更加直观。随着科技、人工智能的发展,在各个平台上收集群体特征已经不再是难事,但是泄露隐患也随之增加。

我们在数据使用过程中,主要的隐私泄露风险有三种:直接识别个体、链接攻击和推理攻击。可以肯定的是,删除姓名、证件号等身份标识能够在一定程度上保护个人隐私,但是并不能完全保证隐私信息的安全性。因为每个参与统计的个体都上传了其个体特征,用于分析的数据集一旦公开发布,攻击者就可以利用链接攻击和推理攻击等差分攻击技术,从最终分析结果中获取用户数据,比如个人消费习惯、收入情况、医疗就诊记录等。

这是发生在1997年的经典案例,卡内基梅隆大学的教授Latanya Sweeney,她将匿名化的GIC数据库(包含每位患者的出生日期、性别和邮政编码)与选民登记记录相连,从而找出了马萨诸塞州州长William Weld的病历。由于大数据报表只需要呈现群体特征,不需要知道每个人的具体情况,因此,保护每个参与统计的个体数据就显得至关重要。

Latanya Sweeney

DWORK于2006年提出了差分隐私(differential privacy)技术,这是一项针对加入失真数据做统计的技术,它可以用噪声干扰计算过程,把原始数据淹没在噪音中,别有用心的人就无法从大数据报表中反推出原始数据。数据在离开个人设备之前,为数据添加噪声,这样云侧也无法识别单个个体的数据。简而言之,攻击者无法判断某个用户的数据是否在这个数据集中,也无法识别至单个人的隐私数据,以此保证多个场景下的个人隐私。比如一名男性参与了抽烟习惯研究的数据库,他不用担心其他分析数据库的人可以找到他的相关信息,甚至不用担心能否查询到他的数据是否在数据库中。

为了在更有效的保护个体用户隐私的基础上,提升用户的使用设备体验,华为在2018年率先将差分隐私技术引入到“用户体验改进计划”中。

在“用户体验改进计划”中,华为希望通过收集用户的设备上有关可靠性、性能、功耗统计数据,故障和错误信息,以及有关用户设备和应用软件使用方式的数据,为用户提供更加可靠、流畅、省电的软硬件系统,打造极致的使用体验。但是只有在获得用户明确同意后,数据才会发送给华为,同时运用差分隐私技术可以在数据中添加随机噪声,华为无法获得真实数据,只有在与其他大量用户数据结合,并且平均掉随机添加的噪声,相关统计信息才会显现。

如此一来,华为在无法获得用户原始数据的基础上既能识别出某些特性的群体使用率、使用次数、留存率等分析数据,不断提升用户使用体验,又可以防止攻击者无法反推出用户的原始隐私数据。

2019年,华为将差分隐私技术应用到华为音乐的“统计分析场景”。通过该技术,华为在实现统计分析的同时改进华为音乐的相关服务与应用,别有用心的攻击者也无法基于差分上报的匿名化数据来推测用户的真实数据。

在隐私保护方面,差分隐私技术具有重大意义。它可以保护很多场景下的个人信息,也让科研人员使用多个数据库研发出新的发现成为可能,攻击者想要再通过差分攻击获取用户数据的可能性已微乎其微。对于华为来说,差分隐私的重要性在于它可以让华为一直坚持把隐私保护作为产品设计的前提,致力于构建用户信任的隐私保护品牌。华为将差分隐私技术应用在“用户体验改进计划”和华为音乐中,为的就是在保护用户隐私的基础上,持续提升用户的设备体验,让用户可以更安心的掌控自己的隐私。现在不妨打开华为音乐,听一首悠闲的音乐吧。

声明:本站转载此文目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容,本网站对此声明具有最终解释权。
Copyright © DoNews 2000-2024 All Rights Reserved
蜀ICP备2024059877号-1     京ICP证151088号
京网文【2018】2361-237号