大数据时代下,如何解决数据隐私之痛?
2022/11/14 18:00:00 JIC投资观察

JIC投资观察原创文章
作者:熊斌、闫冬,中国建投成员企业建投华科
本文3186字,阅读时间约8分钟
新冠疫情肆虐全球,催化各行业加速数字化转型,数据价值进一步凸显,大数据时代扑面而来,伴随数据爆发,泄露风险成为最大潜在安全隐患。
如何既能通过数据流通释放数据价值,又能构建信任机制保护数据源的隐私安全,还能保证数据有效地应用于多方场景,这些时代难题将“隐私计算”从小众“圈子”推向了商业世界和资本竞逐的热门赛道。
01
数据保护时代诞生

数据是现代社会的核心价值和重要资产,特别是三年疫情重塑了我们生活与工作各方面,伴随零售、物流、医疗、金融、出行等交互模块的日益更迭,让网约车的出行数据、视频APP的偏好数据、购物平台的消费数据甚至个人医保端的就医数据成为了数据拥有企业构建行业壁垒的重要法宝,这些数据流动带来的高价值、数据交叉带来的高协同、数据分析带来的高回报,促使企业和个人都开始关注隐私保护,也推动数据时代步入进数据保护时代。
《数据安全法》、《个人信息保护法》与《网络安全法》可以说是我国数据合规的“三驾马车”,三部法律的实施直接构建了我国数据合规的基本法律框架。“三驾马车”明确规定了个人数据是个人所有的数据资产,也就是说各公司、平台要使用个人数据都必须征得个人同意,这对于拥有数据源的运营商而言,预示着无法实现数据共享或变现,数据价值将会被低估或失去意义,同时对于希望获取数据的研究所或科学家而言也只能获取那些有限被允许才能检索的数据集。
这种环境下如何通过数据治理和管理赋能数据价值实现成为重要话题,特别是在金融和医疗领域尤为明显。如同一体系下的银行、证券、保险机构的客户数据、产品数据、业绩数据等因信息保护和监管控制的越加严格,数据信息呈现多个孤岛。伴随银行与互联网、合作方等相关领域的合作日趋密切,各类数据以几何级增长方式迅速膨胀,非结构化数据猛增,给金融机构数据分析和处理都带来极大挑战,逐步暴露出多头管理、欠缺完整、口径多元、分布零散、周期管理缺乏、挖掘应用不足以及共享整合无门等众多数据管理问题。
而数据对于金融行业发展而言也至关重要,数据治理和流动成为继续突破的关键环节。如医疗机构的病例数据、诊疗数据、体征数据等因隐私保护和行业管理的越加严格,医疗数据孤岛化日趋严重且缺乏标准体系,院内及院间的互联互通难以实现、数据质量低成为智慧医疗发展的关键技术难题。制定数据流通规范、搭建数据标准、强化元数据管理需求越发紧迫,30多年医疗信息建设使得医疗数据量和复杂性连年攀升,医疗行业的关注焦点逐步延伸到数据资源的管理和利用,成为支撑医院发展,进一步提高医院管理水平和提升诊疗业务水平的核心。
02
数据资产化应用“良药”

数据资产化包含了数据治理、数据流通以及数据价值实现等多个环节,如何在数据不出本地以及安全加密的环境下,推动数据模型流通、相互训练更好的挖掘价值成为破解数据保护时代下数据价值实现的“药方”,而隐私计算成为了“药方”中的“良药”。
所谓隐私计算,即数据全生命周期收集、治理与使用的计算理论和方法。进一步的理解隐私计算,即是在数据收集、治理和使用的过程中,确保数据安全、真实、可使用,完成数据“可用不可见”的流通,进而实现数据“价值”。隐私计算解决方案的优势在于,在更大程度上确保了数据资产化中数据流通的安全合规。
目前隐私计算主要通过三大技术实现上述功能,这三大技术分别是安全多方计算(Secure Multi-Party Computation,MPC)、可信执行环境(Trusted Execution Environment,TEE)、和联邦学习(Federated Learning, FL)。
安全多方计算主要包括秘密分享、同态加密和混淆电路三个领域。混淆电路是1986年姚期智院士提出的第一个解决方案,秘密分享和同态加密则是传统密码学方法在多方计算上的应用。目前业界采用的主要两种计算方法是秘密分享和同态加密,这两种算法的安全性极高,能够达到AES 128级别。其次,秘密分享和同态加密的通用性也非常高,对数据本身加密不影响计算逻辑,相当于只是将公式里的数换成密文,随后在不解密的情况下完成运算输出密文,然后需求方解密得到结果,可以适配绝大多数算法。虽然有如此多的优点,多方计算在过去40年发展仍较为缓慢。一方面是因为过去40年数据流通性不强,应用场景很少,更多采用明文计算;另一方面,MPC对算力要求高,因此MPC实际操作中计算时间较长,计算效率较低。
可信执行环境是从硬件角度解决数据安全问题的技术。英特尔的SGX是其典型代表。以SGX为例,它是一套拓展的x86指令集,通过使用“飞地(Enclaves)”来实现数据安全保护。所谓飞地,是CPU内置的隔离存储区域,这种区域可以保护数据免受特权级别(如操作系统、BIOS)进程或模块的影响,换言之,即使攻击者可以控制整个软件执行环境,SGX仍然能够有效保护在飞地内处理的数据。从某种意义而言,SGX并没有将系统中的恶意部分作为传统的安全沙箱进行隔离,而是反其道而行,将真正要保护的数据密封到“沙箱”中。可信执行环境最大的优点是计算速度快,因为其实际上是基于安全的硬件环境下的明文计算。所以这项技术更适合用在对安全性要求没那么高的场景中。将来可信执行环境可能会和MPC结合。
联邦学习则是一种分布式机器学习技术,因其早已被开源所以广泛应用,可分横向联邦学习和纵向联邦学习,前者通过融合不同数据集中数据维度大致相同的数据来增加样本量,后者是指不同数据源拥有同一个样本的不同特征时,每个参与方对各自的特征数据进行处理,最终汇总中间结果得到最终模型的场景。联邦学习能够兼顾数据共享和隐私保护的双重目标,能够保证不直接暴露用户具体数据前提下实现有效数据计算结果的输出。联邦学习的优势在于数据样本不外流,但缺点是数据模型需要传递且需要明文计算。其对样本的安全性很友好,但对参数的安全性不友好,所以联邦学习的安全边界实际上是不完整的。另外,虽然联邦学习的梯度传输是受保护的,但其梯度拟合实际上是不受保护的,目前业界采取的方案是用MPC来保护梯度拟合的整个过程。
上述三项技术互相结合运用。在实践中,除了上述这三大技术外,差分隐私、零知识证明等技术也被运用于隐私计算领域,这使得隐私计算可以成为数据合规领域中可行的“技术解”。
03
打造数据隐私之盾

根据中国软件网不完全统计数据,目前国内隐私计算企业主要分为三大类,专注于隐私计算的初创企业,具备学院派背景,专注于数学成就和隐私计算方法的自研;互联网科技公司,专注核心产业,自研隐私计算用以提升自身数据价值;泛数据类企业,专注于数据治理,将隐私计算纳入核心模块赋能产品性能。而目前隐私计算在国内实现了相对成熟的商业应用场景,主要有三大类:金融、医疗、政务。
在金融场景中,目前隐私计算主要应用于风控和营销两个方面。但是,隐私计算对金融领域的影响将不止于这两个方面。隐私计算与区块链技术结合之后,可以改变更多的金融场景,比如跨境支付、供应链金融等。
在医疗场景中,目前隐私计算主要有医疗机构间的数据共享和跨机构跨域的医疗数据开放两大类。前者属于医疗机构、制药企业、基因测序机构、科研机构之间的横向场景,以增加样本数量进行建模;后者则纳入了保险公司、运营商、政务系统、互联网等外部数据,以增加样本特征进行建模。
在政务场景中,目前隐私计算主要帮助政府部门提升公共数据汇聚、管理能力,完善社会数据接入能力以及公共数据治理能力,实现政府部门之间的数据融合,完善一体化大数据平台对公共数据开发利用的支撑能力,实现对公共数据的统一管理、统一治理、统一服务支撑,整体提升一体化大数据平台对公共数据开放的支撑能力。
隐私计算充分调动数据资源方、使用方、运营方、监管方等各方积极性,实现数据资源海量汇聚、交易和流通,进一步盘活了数据资源价值,大大促进了数据要素市场化配置。这把“数据隐私的盾牌”将成为新一代信息技术领域的基础性、支撑性的有力武器,将在很大程度上完善各类软件应用及平台的安全性、合规性,促进大数据、云计算、人工智能、物联网等数字产业实现健康、持续发展。
图片来源:unsplash.com/pexels.com


数字中国赋能精彩新时代
文章为作者独立观点,不代表JIC投资观察立场。
源网页 http://weixin.100md.com
返回 JIC投资观察 返回首页 返回百拇医药