邬贺铨:大数据共享与开放及保护的挑战
来源: 时间:2017-04-05

   中国工程院院士邬贺铨在28日上午的大

\
  尊敬的陈部长,各位领导,各位专家,早上好,我的报告题目是大数据共享与开放保护的挑战,谈三方面问题,大数据的共享与开放、大数据流通与交易、大数据的利用与保护。
 
  先说说大数据的共享与开放。我们知道现在大数据本身有物理空间的数据,有信息空间的书局,还有智慧空间的数据,这是三元数据。作为网络层面的数据有自媒体数据、富媒体数据、基层网络数据、日志数据,麦肯锡曾经讲过大数据的利用能给美国的保健、欧洲公共管理服务的提供者分别带来3000美元、2500亿欧元和6000亿美元的年度价值,会给经销商带来60%的利润增加,会给制造业带来50%的成本降低。麦肯锡曾经统计过,受教育、运输、消费产品、电力、游戏、保健,如果政府开创数据,大约在保证国家安全和公民隐私的情况下开放数据,可以带来年度的全球经济价值32000亿美元到54000亿美元,所以大数据本身带来的产业价值是很大的。
 
  首先说共享,国务院关于促进大数据发展的行动纲要里提到推动政府信息系统和公共数据的互联共享,消费信息孤岛,避免重复建设和数据打架,增强政府的px; line-height: 28px;"> 
 
  另外需要建立进一步的基础数据库,一方面是要集中存储被共享的数据,同时进行清晰、校验和整合,提供可以共享的目录,以便用户可以接入和收取这些数据。当然还要规定访问的权限,跟你没关的数据你不见得都需要p;
 
  这是政府基础数据共享与交换平台,首先包括人口数据、空间地理数据、宏观地理数据、医疗数据、经济数据,进行融合、重组、转换、关联、安全。提供服务可以提供部门之间综合的服务,部门企业政府的数据共享。
 
  按照行动纲要的要求,明年中央就要构建形成统一的互联网数据平台,习总书记讲要建立全国统一的数据集中的平台,当然这是逻辑上的统一,是不是物理上都是统一,这可以研究。有一些跨神经区域的大数据共享合作的例子,这div>
  按照行动纲要的要求,明年中央就要构建形成统一的互联里讲的是连云港有个区是跨山东和江苏的,跨两个省,它彻底打破了行政区划的限制,整合了山东和江苏相邻的几个地方的监控图像数据,要做统计分析、轨迹展示、布防布控,实现一键查询、统一风控报警、快速判定行窃轨迹等等,目前通过这个平台抓获了国内违反犯罪人员500多名,破案400余起,这仅仅是这一个区和周边五个县就已经取得这么好的成效。这是跨部门的大数据共享,发展行动纲要提出要加快建立公民法人和其他组织的统一社会信用代码制度,要有企业的信息公示系统。目前已经建成了网络执行查获系统,现在已经有13个国家部门、3000多家银行能够查询11类14项,使得全国法院可以了解所有被执行人的情况,实现自动化的精准查询。
 
  中央政府之间的共享,监察部对其他部门有监督作用,他可以共享其他部门的数据,不见得其他政府部门可以共享他的数据,中纪委的数据不太可能跟其他部门全部共享,部分的数据共ght: 28px;"> 
 
  政府跟企业间的数据共享是不对称的,政府提供给企业的数据本身就是可以公开的数据,除此之外政府也不能只给某个企业提供信息,而不给另一个企业提供信息。从国家安全出发,政府是有权调用企业数据,但除此之外企业是不是有义务一定要向政府提供数据,这是有疑问的。在政府调用企业数据的情况下怎么保证企业的商业秘密不泄露,现在还没有完成规范,企事业单位间的数据共享,这实际上是交易行为。在国家大数据行动纲要提到,2018年要开展政府和社会合作开发大数据的试点,不是简ize: 16px; line-height: 28px;">  政府跟企业间的数据共享是不对称的,政府提供给企业的数据本身就是可以公开的数据,除此之外单说政府调用企业的数据,而是政府怎么跟企业合作开发。在关于积极推进互联网+行动计划纲要,开展一批社会治理互联网的应用试点,打通政府部门、企事业单位之间的信息壁垒,利用大数据分析手段提升政府的数据治理能力。政府为了很多数据,很多BAT数据政府是不拥有的,如果政府能把BAT数据融合在一起,对于政府能够掌控社会智慧城市、中国的治理都会有很大的作用。
 
  2013年在北爱尔兰召开的会议提出了开放数据,发布数据是为了激励创新。开放14个重点领域,这里边非常详细。开放数据三项共同行动,激发国家的行动计划,每年都要评估政府开放数据的情况如何。要求发布的数据不是一般的数据,而是高价值的数据,包括预算、民主、环境,另外不仅仅是发布加工过的数据,还要有源数据,往往我们认为政府发布的数据是加工过的,实际上只要不影响国家安全和公民隐私,很多原始数据政府应该开放。开放的数据是要雅黑, arial; font-size: 16px; line-height: 28px;">  2013年在北爱尔兰召开的会议提出了开放数据完整的、重要的、及时的,很重要读,不要对某些公民开放,对某些公民不开放,不能说一定要有授权才能接入,不能开一阵就关掉了。共享是政府部门之间、政府和单位之间,开放是对社会,所以在这点上对开放的要求是很严格的。
 
  美国政府有个开放网站,有些没有开放,公民提出来要求开放的时候要分析,有些就立即开放,有些经过一段时间开放,因为安全隐私原因没法开放要向政府交代。而且开放数据要屏蔽掉隐私,比如他开放人口数据,是安全编码分区域的人口数据,老龄化的有多少,上学儿童有多少,男的多少女的多少等等,可以看出这个地方的情况,还有用电量、犯罪记录、中小学评估等等,可以判断这个地方的学区房值不值得卖。还有小区的污染、噪声等等。还要注意到美国政府的开放数据同时开放了数据挖掘的工具,帮助老百姓利用这些数据,在政府开放数据的平台收集了老百姓通过挖掘这些数据得出的可视化的结果,所以非常有利于公民对社会的了解。美国开放数据可以开放到很多方面,有交通、空气污染、环境、支付各种。
 
  这是英国的开放数据,他在网上,比如你的收入是2万英镑,你就点网上,把鼠标拉到2万英镑,得出你一年的税收是8774英镑,你的税收用到哪里,用到政府运行,每天的税收,1.69用在国防,每个人都可以很清楚地看到你的纳税在政府里的应用状况,是阳光透明的。中间的大图是英国总共收到的税收,6948万亿英镑,其中用在各个方面多少钱,就知道政府开支具体的状况。中国政府开放得怎么样?根据不完全统计,中国政府数据开放平台超过40多,其中沿海经济发达地区占总数的70%,西部中部还是比较少的,我们开放了教育、医疗、文体、环境,开放的数据存在什么问题?开放的总量偏低、结构化程度低、数据质量不高、民众参与反馈不准。我们还有很多方面做得不够。
 
  以北京的政府开放数据为例,去年北京政府主动公开政府信息超过100万条,跟2015年差不多,其中主动公开的文件不到1万件,主动公开的重点政府领域信息73万条,细看一下北京公开的政府信息里主要是关于食品安全标准和食品生产的占了一半,关于企业信用系统占40%,两项加起来占了90%,剩下的只有10%,10%有政府的三公预算、农民征地、政府定价,实际上可以看到还是很不全面的,还有很多可以开放应该开放的数据没有开放。公民关心食品安全,所以这方面的数据比较多。
 
  联合国电子政务发展指数,有三项,信息基础设施、人力资源、在线服务的情况,其中在线服务跟开放数据有关。我们看到两年统计一次,2016年开放电子政务发展最好是英国,中国线服务的情况,其中在线服务跟开放数据有关。我们看到两年统计一次,2016年开放 
  社会上有免费开放数据的例子,有些公司现在在网上已经公开地表示大家只要上网去点,可以看到这些是免费的,谁都可以用,有些比较简单,有些是身份证查询、手机查询、IP地址查询,还有股票、基金等等,当然这些对老百姓可能有点用,但是基本上还是一种比较普通的开放数据。数据共享开放现在面临三大挑战,不愿意共享开放,政府部门各自为政,把数据开成自己的权利,很多政府部门以信息不对称作为手段,缺乏激励机制,和技术部门共享数据还得向公众开放数据,得不到商业回报,因此在多数情况下职能部门对于数据开放消极的被动。现在很多法律法规制度不够具体,不清楚哪些数据可以跨部门共享和向公众开放,数据信息的共享开放有一定的风险,搞不好把一些应该保密的数据开放了,搞不好泄露了公民隐私,目前制度是不明确的,导致了我们政府开放存在风险,责任很难界定。现在缺乏公共平台,共享渠道不畅,过去信息的传递多数是部门之间通过电子邮件进行,安全性保密性可持续性很难保证,没有统一的标准规范,不同职能部门对数据的采集记录标准千差万别,统计口径和时间不一致,没法用。数据开放需要脱敏,缺乏必要的技术和人才支撑,很难按照技术标准来规范。所以实际上我们数据开放面临三大挑战。
  合法性,你卖给我的数据所有权是不是你的,我现在问一些国内的数据交易所数据是哪儿来的,他说政府的数据,我说政府数据不能卖钱,政府数据能公开就是免费,他说有些企业给我的数据,我说首先明确企业给你的数据是不是企业自身的,三大运营商有数据,但数据所有权不是三大运营商的。数据及时性,你给我的数据是2017的数据还是2016的数据,你是不是有实时性。可用性,你给我的数据我能不能容易理解,能不能用我的技术手段进行分析挖掘。安全性,你给我的数据是不是真正把国家安全和个人隐私的都屏蔽掉了,不然我用了以后变成我侵犯别人的商业机密和个人隐私了。我把数据存在你的中介那里,你能不能保证这个存储是安全的,不被污染的,数据不被窃取。
  大数据交易权限。政府的数据如果能够开放那就是免费,不能开放的数据无论多少钱也不能卖,所以政府的数据不存在提供给中介方交易的问题,当然中介方也许收集政府的数据,通过加工可能他有他的劳动,运营商收集的用户数据原则上所有权是用户,BAT收集的数据原则上所有权是用户,但运营商和BAT拥有对数据脱敏对挖掘分析后的加工结构数据的所有权。没有数据所有权,有数据的公司通过挖掘向政府和企业提供咨询报告,是不是允许在保护隐私和国家安全的情况下提供,他没有数据所有权,但是他有数据挖掘能力,他进行挖掘加工了,这个时候他是不是可以提供,没有数据但是有数据挖掘能力的公司可以受委托完成数据挖掘。受委托挖掘以后,他能不能利用数据为非委托方服务呢,应该是不允许,但是现在没有明确规定。
  怎么衡量数据的价值?精加工的数据可视化的数据怎么定价,怎么衡量数据挖掘的工作量,你做了多少工作,一次性买断的数据和可以重复多次出售的数据怎么定价,数据的价值跟时效性什么关系,应该随着时间掉价,是不是需要有对数据评估的第三方机构,现在都是两rgin: 0px; padding: 0px; list-style-type: none; color: rgb(51, 51, 51); font-family: 微软雅黑, arial; font-size: 16px;者来谈。国内的数据流通和交易存在什么问题?我国数据源的活行不够,数据中介机构处于起步阶段。政府企业组织没有充分认识到用外部数据可以对自身工作和业务起到巨大的提升作用,所以一般来讲都很少利用外部数据。很多数据拥有者对数据里蕴含的东西缺乏足够的洞察,不放心让自己的数据进入流通环节,担心企业隐私机密泄露。刚才是不愿意吸收外部数据,这是不愿意把自己数据拿出去流通,大部分数据资源的垄断,关注自己的小生态圈,不愿意把自己的数据资源向生态圈之外的市场提供,所以流通也不够,交易也不够,利用更不够。
  大数据利用和保护。什么数据要保护?和国家安全有关的数据要保护,和企业商业秘密有关的数据要保护,公民隐私的数据要保护。目前欧盟制定了严格的数据保护法案,中国虽然有宏观上的数据保护的要求,但是没有全面的数据保护法规。关于欧盟的数据保护,去年4月份欧洲议会通过了通用数据保护法案,也叫一般数据保护要求。这个法案要在明年5月25日生效,还有一年左右,这个数据保护法案里没有国家安全、企业秘密。涉及欧盟里面的单位对多元数据的处理,这个处理不管在欧盟内部处理还是在欧盟外部处理都要受这个法规管。没有在欧盟里有分支机构,但是你向欧盟的消费者提供服务,不管你的服务是不是收钱也都受这个法规的约束,你对欧盟里头的消费者进行行为监控,欧盟之外如果已经有的法律受欧盟成员国控制的也在这里。所以要注意的是处理者不在欧盟里边不重要,但是欧盟里头的消费者都要受这个管理,中国的企业如果把微信支付宝用到了欧洲,那么一样你也要受这个管理。什么叫多元数据?多元数据是跟个人隐私、专业、公共生活有关的任何信息,包括姓名全、企业秘密。涉及欧盟里面的单位对多元数据的处理,这个处理不管在欧盟内部处理还是在欧盟外部处理都要受这个法规管。没有在欧盟里有分支机构,但是你向欧盟的消费者提供服务,不管你的服务是不是收钱也都受这个法规的约束,你对欧盟里头的消费者进行行为监控,欧盟之外如果已经有的法律受欧盟成员、照片、电子邮件地址、IP地址等。
  针对个人的信息的收集、记录、组织、建构、存储、修改、咨询、使用、传播和其他的应用,包括排列组合,无论是人工处理还是自动化处理,你可以通过这些处理能够针对自然然的工作表现、经济状况、健康状况、个人偏好、兴趣、这里个人隐私的范围是很宽的,包括个人的IP地址都是隐私。个人对自己数据有什么权益?个人具有管理自己个人数据的权益,具有自己的数据被泄露能够获得及时通知的权利以及被遗忘权。对个人数据处理有什么要求?合法公正透明,必须有规有法。目的是有限的,你可能为某一个目的来收集处理,只要是为公共利益或者历史研究的目的、统计的目的,目标是有限的。数据是最小性,你获得我的数据不能把我所有的数据都要,可能跟某个目的有关的数据被使用,但是不能把所有数据都拿走。及时性,你用完以后要毫不延迟的删掉处理掉。存储的有限性。只有为了公共趣、这里个人隐私的范围是很宽的,包括个人的IP地址都是隐私。个人对自己数据有什么权益?个人具有管理自己个人数据的权益,具有自己的数据被泄露能够获得及时通利益或历史研究,个人数据才能长时间存储,其他目的个人数据不能长时间存储。完整性,要保证你收集的数据要有技术措施保证它不能受非法授权、非法处理、遗失丢失损毁。
  关于数据处理什么算合法?并不是说个人数据不能处理,以下的规定可以处理。本人同意可以作为一个或多个特定目的,我特意查了一下所谓本人同意是要书面同意,要写下来同意。我有一个合同,要有个人数据,处理的数据主体在签合同前的请求。处理是为了执行法律,当然要征求。处理是为了保护我自己,为了保护另一个自然人的切身利益,为了保护利益。处理是为了公共利益,处理是为了追求合法的利益的必要,这是允许商业利用,利益的商业部门企业来处理个人数据,首先是为了合法利益,当然不能侵犯提供个人信息的数据的消费者的利益,尤其是儿童。我们现在手机上的APP几乎所有APP都收集个人信息,收集完了如果有合法利益的那是允许的,什么作为一个或多个特定目的,我特意查了一下所谓本人同意是要书面同意,要写下来同意。我有一个合同,要有个人数据,处理的数据主体在签合同前的请求。处理是为了执界定你的合法利益,很多时候不见得是合法利益。有个社会调研,有人提出来你是否愿意为了你将来的应用资费上的优惠牺牲你的隐私,全国有27%的人表示可以牺牲隐私,中国有38%的人表示可以牺牲隐私,中国更多人认为隐私不重要,反而优惠更重要。
  传输存储和开发要有要求,所有的软件包括移动应用的APP在开发阶段和运行数据处理阶段要保护个人数据的隐私,数据控制也含APP,要有充分的技术和措施确保数据和移动应用的完整性,必须应对数据处理面临的风险,处理的时候是不是数据被丢失了,有很多要求。违规怎么办?一般性的违规,处理上限是罚款1千万欧元。如果严重违规的罚款上限是2千万欧元,上一年度的营业额的4%,BAT营业额都到几百亿的话,要罚起来不得了。云计算跟这个法规什么关系?管理者负主流责任,如果一个政府在云里存储了数据,你就是管理者,很多人认为我把数据存在云平台,管理者是云平台,求,所有的软件包括移动应用的APP在开发阶段和运行数据处理阶段要保护个人数据的隐私,数据控制也含APP,要有充分的技术和措施确保数据和移动欧盟提出来你存进去你应该对数据所有的保密、安全负责,所以云平台有云平台的责任,你存数据也有你的责任。法规不受限于公司国籍,不受限于云服务的地理位置,如果在中国存了关于欧洲公民的个人数据,这个法规也适用,所以在中国的云平台里不是说什么数据都存进去有用。目前80%的云服务不会在合同终止的时候立即删除客户的数据,58%的云服务不能提供IT所有权的保证。对2万多个云服务的调查,只有6%的云服务符合这个,如果现在云服务涉及到欧盟的消费者,这里面就危险了。
  对中国有什么影响?法规提出非欧盟成员国公司只要满足下边两个条件就受这个法规的影响。你向欧盟境内可识别的自然人提供商品和服务,收集和处理他们的信息,你做支付宝肯定收集了他的信息,你做微信肯定收集了他的信息。监控欧盟境内可识别自然人的行动收集他们的信息,你做地图服务也收集了信息。在欧盟境内有分析机构的外国公司,-type: none; color: rgb(51, 51, 51); font-family: 微软雅黑, arial; font-size分析机构被作为责任主体强制执行法律要求。如果在欧盟境内没有分支机构,一旦境外公司高管进入欧盟境内将直接执行,你小心,如果你犯规的话,你的高管进去他就罚你,把你抓起来。所以对中国企业的移动应用安全数据收集处理交易产生重大的影响。首当其冲的是银行、电子商务、互联网、IT企业、软硬件生产商。欧盟这个法规既有保护他的意义,也有很多是限制。
  我们国家当然也有一些数据开发应用的文件,工信部出台的大数据产业发展规划,去年出台的网络安全法都提到对个人信息和重要数据在境内存储,保护信息安全和个人隐私,我们的规范都很宏观,不具体,真正违反了怎么样并没有没有。跟欧盟的比,我们准备得还是比较粗的。
 
  最后,数据的价值在于融合与挖掘,政府数据对公众的最大利益在于共享与开放。数据流通与交易有利于促进数据的融合挖掘,数据的使用必须面对保护的责任与义务,尤其是对个人隐私数据的保护。欧盟提出的GDPR将数据保护的严重性提高到前所未有的程度,需要引起我们的高度重视。数据的共享开放、流通交易和数据保护以及数据安全,对数据技术提出的研究挑战,区块链技术在数据流通交易的保护方面能够起到一定的作用,数据的共享开放流通交流使用保护对法律的制定与执行提出了很高要求,同时需要平衡数据的保护与数据的开发利用。
  谢谢。