汪溯:10亿查询秒级响应?基于隐私增强计算的数据安全流通!

图片

分享嘉宾:汪溯 阿里云 高级安全专家

编辑整理:李本培 中地数码

出品平台:DataFunTalk

导读:在数字化时代下,数据安全的流通成为传统企业和新型的数字经济企业亟待面对的问题。本文整理自DataFunSummit:数据产品在线峰会阿里云汪溯老师的分享,将以阿里云隐私增强计算产品DataTrust为例,分享阿里云在数据安全领域和隐私计算领域最新的探索和进展。

主要围绕以下三方面内容展开:

  • 当前面临的安全挑战及趋势

  • 数据安全建设思路和实践

  • 数据安全流通的解决方案

01 当前面临的安全挑战及趋势

1. 数字化转型

================

目前,我们国家大力提倡数字经济,随着技术发展,数字经济的一个基础支撑就是设施上云。数字化转型上云存在以下趋势:

IT基础设施云化

IT基础设施云化具有普惠新算力、安全能力弹性可扩展、安全硬件可信三个特性,这也是为什么现在政府和各大企业都会把设施上云,因为通过上云的方式可以提高企业或社会对资源的利用率。

② 核心技术互联网化

IT技术趋势都在逐渐互联网化,其主要有三个特征,分布式架构打破单机能力的限制、云端大数据的实时处理、安全能力在线服务化。由于业务流量的弹性变化,大数据的实时处理以及数据安全体系的建立等需求的存在,安全架构越来越复杂,不能所有的基础设施拥有者或者服务使用者自己构建一套安全体系。安全服务在这种背景下应运而生,也就是由云的基础能力提供商来提供安全服务,然后消费者只要通过这种服务的订阅,就能够享受到云计算带来的安全可控服务。

③ 应用数据化和智能化

应用要以数据为基础来提供相应的服务给到用户,同时要基于数据来做一系列的智能化的决策。应用数据化和智能化主要体现在全域数据可视化,全链路数据安全保护,以数据为中心的安全体系这三个方面。

图片

2. 数据流通面临的安全挑战

既然把数据作为产生价值的一个源头,数据要素就会流动和价值释放。但是它一定和数据治理及隐私保护之间存在对立关系。数据如果无序流动,对整个数据生态治理和隐私保护是一个不可控的威胁。从国家层面讲,既要推动数字经济的发展,促使数据要素化,激发更多的创新和价值的产生和流动,同时也不能够牺牲数据安全和隐私保护。从市场角度讲,数据权益得到保护,才愿意对数据进行共享。

图片

3. 数据安全流通的未来方向

针对数据流通与数据安全之间的矛盾,现在全社会都在广泛讨论通过隐私增强计算的方式解决。以阿里云的视角,认为隐私计算是数据安全流通的未来方向和所有数据共享技术的未来基石,确保数据在流通过程中可用不可见。隐私计算已成为数据流通与价值挖掘的关键技术挑战。

① 隐私增强计算发展趋势

2021年的前沿科技战略趋势中,将隐私增强计算作为未来几年科技发展的趋势之一,目前人工智能应用于各种网络数字经济的活动中,数据越来越起到决定性作用,而数据的打通势必又要用到隐私增强计算作为底层的支撑,所以这就是其作为科技发展趋势的一个非常明确的原因。

② 隐私增强计算的环境依赖

在云厂商上来看,对内部的管控也不能够仅仅是基于对人员操作规范的管控,还要更多地基于从技术和硬件的角度,能够规范数据的使用和可见范围也是非常重要的。现在云厂商如果没有对数据计算过程提供保护技术,从安全评估的角度,就是显著的缺陷。

③ 隐私增强计算技术的分类

隐私增加计算技术其实是提供了一个管道的功能,将明文数据在管道内进行封装,然后在计算端完成数据隐私保护的计算,最后将计算结果输出到相应的授权方。如:数据源提供的都是可用可见的数据,通过差分隐私、同态加密、安全多方计算,零知识证明几种对数据隐私的技术处理,将明文数据转换成隐私增强型数据,这一部分数据是可计算但不可见,最终进行数据分析和机器学习实现对数据的使用。只有这样对数据在流转过程中的强保护,才能够促使数据有更流畅的流转和价值的激发。

图片

4. 隐私增强计算技术发展现状与趋势

① 成熟度

隐私技术作为一个新的技术,发展需要经历完整的成熟度曲线。目前隐私增强计算技术中涉及的数据库加密、云安全评估、数据库的审计和保护技术,已经经历了完整的成熟度曲线,云厂商已经提供了稳定可靠的服务。反观涉及数据安全的技术,如安全多方计算技术,估计五到十年左右才逐渐走向成熟。另外,无论在国内还是欧美产业界,现在更关注的是同态加密、数据安全治理、机密计算,阿里云一个非常大的发力点就在机密计算。

② 数据生命周期安全技术成熟度

数据分为存储状态、传输过程中的状态和运算状态,三个状态都需要进行数据安全保护才能够保证数据全生命周期的安全。目前来说数据的存储和传输都是在能力成熟曲线的平稳阶段,各个厂家都有丰富的技术积累,已经形成非常稳定的生产力。但是在运算时数据的保护则是全新的领域,现在以密码学为代表的各种技术,比如MPC(多方安全计算),都是在解决这个问题。

③ 隐私增强技术行业态势

以硬件厂商为代表的Intel SGX和AMD SEV为代表的硬件解决方案,主要解决计算效率问题。在国内,中国信通院在去年已经提供了多种隐私计算的认证标准和认证体系,而且还在不断推进中,如大数据产品能力测评在去年已经推出,今年将推出更多关于数据隐私和数据安全的测评。

图片

02 数据安全建设思路和实践

1. 数据安全建设现状

图片

① DSMM模型

数据安全能力成熟的模型(国标DSMM),是在国内从事数据和数据安全企业最主要的行为规范,提出了对技术包括整个组织架构体系的严格要求,能力成熟度分为五个等级,从非正式执行到持续优化等级,组织内部需要有良好的机制,不断的去迭代,不断的去优化数据安全能力。

② 数据生命周期维度

从数据生命周期维度上看,数据生命周期分为六个阶段,分别是采集,存储,传输,处理,交换和销毁。这六个过程中都需要有非常严格的数据安全管控策略及其不断演进迭代方式,在任何一个环节有了疏漏,都会造成数据安全威胁和问题。

③ 安全能力维度

从安全能力维度上看,主要包括了人员的能力、采用的技术工具、制度流程,以及组织建设,要有一套自循环的组织架构去维护数据安全。以阿里云应用的特点,通过在端上和互联网经济主体的日常生产活动中产生数据和采集数据,然后对数据进行存储和安全上的分级分类,再放到云上的数据中台做高效的弹性计算。但是在数据生命周期中导出发布还是销毁,都是由业务的形态和用户来决定。

2. 阿里云数据安全建设参考框架

图片

阿里云安全建设思路是由底至上来构建全平台的安全。以DSMM为框架,最基层为基础设施和应用安全,主要防止外部的黑客攻击和恶意的爬取,包括内部恶意人员和外部的网络威胁。基于物理安全、硬件安全、虚拟化安全和可信计算这四大支柱来提供基础设施的安全,从而确保云平台的数据安全。第二层是数据防泄漏,即通过规范内部使用和外部共享,来防止数据泄露。在这个层面上,基于账号管理认证与授权管理、监控操作审计与运营这两大工具集,针对云上数据的全生命周期,提供存储服务、大数据服务,来构建数据防泄露的中间环节。框架顶层要处理合规隐私与合规要求,主要涉及安全中心业务风控和应用安全合规管理,这也是让用户的最终价值体现的点。

3. 阿里云数据安全能力

图片

阿里云的数据安全能力分为五个板块,分别是芯片级安全、数据加密、数据治理、敏感数据使用以及数据防泄漏,每一项都有具体的技术实现方式。芯片级安全就是高等级计算环境的安全,其中包括了机密计算和可信计算;在数据加密领域,提供了落盘加密、BYOK、字段级加密、硬件加密等密钥管理一系列的措施;在数据治理领域、敏感数据使用、数据防泄漏领域阿里云都有强大的技术支撑。

基于上面安全能力的分析,针对安全能力建设整体的架构,阿里云做了数据安全流通的解决方案。

03 安全数据流通的解决方案

1. 机密计算技术

图片

数据需求方和提供方进行直接的数据交互,势必会造成相应的用户敏感,信息泄露、二次流转甚至多次流转,数据特性是可复制且不被控制,知识产权就没法进行保护。

机密计算技术是指原始数据不出域,但是也能实现数据的价值和知识的流通,结合云安全原生实现数据全生命周期的防护。隐私计算解决这些问题的方式是在生产者数据生产者和数据消费者之间,搭建隐私计算平台,以这个平台为中介,让用户将数据在平台进行分享。在计算平台中,通过机密计算的应用方式,提供安全多方计算、同态加密、联邦学习、差分隐私等算法的支持,将原始数据进行变换,转化为隐私计算数据,能够进行隐私计算处理,但同时不会泄露数据的明文。

2. 数据生命全周期保护体系

图片

在云原生安全产品基础上,阿里构建了全生命周期的防护体系。在数据采集、传输、存储、处理、委托处理销毁6个阶段,除数据处理阶段,阿里云传统技术能力已经完全非常好的实现。去年英特尔正式发布第三代智能处理器之后,已经能够在云上环境中建立可信的执行环境,让用户的算法和数据能够安全地传递到云平台上做计算。阿里做了DataTrust这个产品,支持多种计算形态,包括MPC,联邦学习,集中化计算等,也联合了多个团队合作共建,所以在数据流通全生命周期实现了可行的保护。

3. DataTrust隐私增强计算产品核心框架

图片

① 核心技术

DataTrust底层的核心支撑技术为可信执行环境(TEE)、多方安全计算(MPC)、联邦学习(FL)、差分隐私(DP)。基于基础的核心能力,建立了一整套数据分享和交互的计算平台。总体架构上,分为服务端和客户端,客户端作为安全加密终端节点,部署在用户的虚拟网络(VPC),或者在私有机房。通过这种方式做到数据密钥和数据都是在用户的可信域里来进行数据的加密和解密操作。

② 产品架构

产品整个的任务调度运维体系,包括算法的调度,都是在安全调度中心来进行。调度中心部署在云上,提供了五大服务模块,数据管理,密钥管理,远程证明,任务管理和共识审批。通过一系列任务的调度和数据的流转及共识审批,实现用户使用方对数据进行全生命周期的把控,将完全的把控力全部都给到用户。

③ 产品服务和场景应用

在产品服务层面,提供了四个方面的数据计算能力,分别是联合建模,联合预测,联合洞察和算法定制,可将其归纳为一是机器学习,二是数据分析。基于数据分析和数据定制,满足用户对数据共享过程中“可用不可见”的需求。针对不同用户场景,阿里在政务大数据平台、联合智能风控、广告推荐、医疗建模这四个领域,均做了落地的尝试。

4. 工作原理

图片

DataTrust工作原理即在参与方A和B之间,搭建云上协调中心(CSCC),实现中心化的调度。基于CSCC中心,打造数据共享的隐私计算保护管道,同时出于对计算形态和计算效率的考虑,提供高性能可信执行环境的服务计算中心。当数据加密之后传递到CSCC进行计算、导出过程中,所有的数据都不会暴露给CSCC,达到数据可用不可见的效果。

5. 多方数据安全融合过程

图片

数据安全融合的全过程步骤如下:

  • 参与方发起一个项目;

  • 发出多方协作的邀请,进行数据共享;

  • 统一共享后,进行数据同步到云上协调中心;

  • 多方计算的过程中,对计算的算法和结果进行共识审批;

  • 在任务管理端控制界面,让计算开始执行,最终将结果输出。

产品构建的基础理念就是整个生命周期都让用户有把控权和参与权。

6. 安全数据融合解决方案

图片

DataTrust基础底座的安全能力,如数据保护、存储、传输安全方面,都是基于阿里云整套已有的方案。在隐私增强计算层面,提供了非常成熟的商业形态,例如在全域精细运营领域,第一步进行样本对齐,第二步对对齐后的样本数据进行联合建模,根据用户接受度或要求,提供两套建模的环境:一套中心化的高效可信执行环境,另外一套就是基于数据不出域的联盟学习环境,两套都可以实现相同的预测结果,保证计算正确性,不过在做运算的时候要考虑成本和安全性。再上一层的算法模型如深度神经网络、决策树、线性回归都是传统的技术,在产品中都能支持。在业务应用上,应用场景主要在全域精细运营、联合风控和智能广告推荐。

7. 隐私增强计算一体机

图片

基于用户对本地化部署的需求,阿里研发了具有云上安全能力的一体机,一体机具备了云上的同等安全能力和安全等级,已经实现了云端一体化的架构。在机密计算能力上面,也能够实现十亿级别的查询和联合分析的能力,同时具有强安全性,数据可以做到跟硬件强绑定,即使数据盘丢失,也没法解开里面所有数据。另外,实现了一体机的免运维,在用户的环境内,它可以自动进行基本的运维。

8. 资质荣誉

图片

DataTrust产品获得了中国信通院的四项基础能力测评证书,在合规领域和基础能力建设领域,有非常大的投入,在去年的全球云厂商产品安全能力测评里,阿里云排在了安全能力的第二位,仅次于微软,高于亚马逊、谷歌和甲骨文。现在着力的业务场景,在零售、政务、金融、医疗领域,这些领域都有非常强的数据监管和数据分享的需求。我们在这四个领域,都有一些样板式的落地方案。

图片

今天的分享就到这里,谢谢大家。

分享嘉宾:

图片

5 1 投票
文章评分

本文转载自汪溯 | DataFunTalk,原文链接:https://mp.weixin.qq.com/s/QXuDsHOumZqLC4e7egiOAA。

(1)
上一篇 2022-01-28 01:54
下一篇 2022-01-30 03:13

相关推荐

订阅评论
提醒
guest
0 评论
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x
()
x