嘉宾演讲| 数博会官网

主讲

 数据整合——打开政府数据开放之门

  尊敬的鲜祖德总统计师,尊敬的各位领导、各位嘉宾,大家下午好。非常荣幸今天来参加数据商品化发展论坛,首先我非常感谢鲜总给浪潮提供机会,让我们战略合作,共同建设我们的土地,也非常感谢各位领导、各嘉宾一直以来对浪潮的关心和支持。这次数博会是我们共同见证贵州、贵阳创造中国大数据产业历史的峰会,我与大家分享的主题是:数据整合,打开政府数据开放之门。

  很多人应该比较熟悉这则新闻,2013年广州政协的一位委员绘制了一幅审批流程图,一个项目投资,从立项到审批完成,需要盖108个公章,需要799个审批工作日,引发了一场变革。很快广州市政府树立了新的审批流程,审批时间从799个工作日缩短到37个工作日,其中建立数据的共享和整合机制起到了关键的作用。2014年,开放知识基金会发布了2014年世界各国的政府开放数据指数,这个指数已经被很多国家和政府采用和认可,有的甚至将这个指标列为政府工作考核绩效的KPI。数据显示,英国成为了2014年世界各国政府数据最开放的国家,而中国的排名从2013年的第36名下滑到第57名,我们国家的政府开放数据的步伐还需要大大加快。

  今年的两会上提出了有关要政府数据实现共享和开放的建议,李克强总理明确表示建议很好,政府掌握数据要公开,除了涉密、保密之外,数据要最大可能地公开,以方便企业为社会提供服务,为政府的决策和监管提供服务。随即今年四月份,国务院发布了2015年政府信息开放工作要点,这个要点对政府信息公开做了进一步明确的要求,对于建设政府的数据开放平台具有重大的指导意义。政府开放数据,目的是为了提升治理能力和公共服务水平,这就需要在流程上和手段上进行创新。政府开放的前提是什么?就是数据整合,就是要打破数据孤岛,实现数据的互动互联,数据整合的前提是需要业务上云,业务系统应该运行在云上。今天云上贵州已经成为了贵州的一张名片。数据整合是政府开放的基础,也是关键。在技术领域,是基础的也是前沿的。数据共享和数据整合是信息化建设几十年以来的一个痛点,痛点有三个:沉睡的数据如何唤醒,杂乱的数据如何治理,跨界的数据如何融合?沉睡的数据,从我们出生到每个年龄段的健康信息都散落在各个医疗机构、体检中心、科室,我们从未把这些数据利用起来还原我们每个年龄段的健康状况。如果我们能够这些数据整合起来,将对提升生命的宽度和长度起到一定的作用。由于数据产生的时间不一致,数据处理的工具也不一样,数据多种多样,很难用传统的手段和方法快速有效地使用这些数据。跨界的数据,政府之间的数据是孤立的、不通的、不关联的,这就造成了信息孤岛。注册一个公司,要达到法定的开业条件,最少要跑五个部门,相类似的信息表格要重复递交五次。开着宝马车领低保的现象让社保部门非常头疼。如果不能进行数据共享和开放,这种现象很难杜绝。要解决、唤醒沉睡的数据,治理杂乱的数据和共享跨界的数据,需要有两个驱动要素。一个驱动要素是内部驱动,就是政府要具有使用数据来提升公共服务水平的迫切需求。第二个是外部驱动,就是要充分发挥大数据的引领作用,让数据推动数据的开发。唤醒沉睡的数据,就是把沉睡的数据进行充分利用,把数据资产化,把沉睡的数据转化为一个数据资源室。治理杂乱的数据,就要对数据进行标准化,实际上标准化是大数据产业落地的关键环节。总结大数据产业的形态是数据工厂加数据产品加数据电商,数据标准化,很多的清洗、转换以及贴标签的工作都是在数据工厂完成的。融合跨界的数据,就是在各部门之间打造数据共享的平台,要打造政府的一个统一的、综合的数据资源库。如果按照这个思路,就需要一个完整的技术体系,浪潮把这个技术体系称为IOP平台,它有几大部分。

  第一个部分要把不同部门的数据源建立大数据的组织管理,要同步数据,建立关系,把数据集合起来。

  第二个要把集合的数据,因为我们原来杂乱的、沉睡的数据的存放没有标准、没有规范,需要把这些杂乱的、沉睡的数据进行重新分类,按照不同的维度、不同的主题或者是块数据的概念进行存储。对这些归结好的数据,要进行计算、聚类分析,运用分析以及学习的工具,来寻找数据的规律,搭建数据模型,同时用大量的历史数据来训练和完善数据模型,用算法和数据处理技术来寻找数据的价值,产生诸如用户图象、画像,包括趋势分析、销售预测这样的模型。还有一个很关键的,和今天的主题相关的,就是数据如何共赢,如何计量,共赢到什么程度?开发者需要接受什么样的数据格式和样品,如何计量?如果这些问题解决不好,数据仍然推销不出去,很多数据仍然可以沉睡。IOP平台提供了数据服务化,所谓数据服备化,就是把数据资源进行打包和封装,形成套件,这个套件是开发者和创客容易接受的。同时,这个数据服务化还提供一个计量工具,对数据的使用既要像网络流量一样进行计量,这是商品化的一个基础。

  接下来还有要解决数据共享的问题。就是让数据像自来水一样入户,要接入不同的用水设备,像水盆、浴缸、洗衣机一样。在数据服务领域,要提供数据的综合服务、消极服务,以及应用引擎等等。IOP是如何定位的?IOP平台是大数据开放体系很重要的一个技术平台,它是面对政府、面对行业客户的私有云的大数据建设需求而提供的一个开源的、开放的技术平台。我们希望用这个技术平台和技术服务能够和政府客户、行业客户打造行业的大数据处理平台。行业客户、政府客户和合作伙伴,可以对行业应用和特性进行封装,结合技术平台共同组建行业级的大数据处理平台。很多合作伙伴可以在这个平台上进行创新应用,打造行业技术方案。所以说IOP平台,是一个智能化、协作化、服务化、元素化的开放平台。这个平台能给客户带来什么价值呢?主要可以带来三个价值。

  第一,在各个部门不改变原有系统应用架构的基础之上,解决数据整合之困,搭建统一的数据共享和开放体系。既可以避免系统的重复建设,又可以建立公共数据的这样一个平台,既可以使各部门之间进行数据共享,同时又可以开放数据。

  第二,它是面向私有云的开源开放平台。很多政府、很多客户的CIO,可以依靠这个平台开发自己的大数据平台,可以摆脱对平台供应商的依赖,享有充分的自主权。

  第三,这个平台是创新应用的资源平台,可以非常容易地构筑大数据生态圈,可以给行业客户、合作伙伴、创客提供一站式的大数据解决方案,方便、支持大家进行创新应用。希望通过IOP的推广应用,能够真正解决信息化几十年来的痛点,希望它的使用能够把信息化建设真正实现从应用为中心向数据为中心的转变。

  接下来再给大家分享一下山东警务云一个大数据的实践,山东警务云的实践创立了大数据应用的三步法。第一步是业务上云,第二步是数据整合,第三步是创新应用。原来山东省公安厅有86个独立运行的警务业务系统。省厅排除了很多阻力,提出了上云是上策的建议,建立了统一的警务云预算平台。把这86个独立运行的业务系统原封不动地迁移到云上,同时运用IOP的平台整合公安类的数据、社会组织数据以及互联网数据来做创新应用。整合数据的存储容量超过了6T。从创新应用来讲,警务迁户是公安类的新一代的智能搜索引擎,打破了各警种之间的界限,通过一人一档、一案一档、一物一档以及多联系方式、多照片、多地址、多轨迹的一个专题应用。可以深入挖掘、无缝关联每一个人以及相关人的多维度、多时空的信息。同时可以全警力发展,对建设平安中国起着实战的作用。另一个创新应用就是多点碰撞。多点碰撞是基于大数据应用的一个新型的案件线索分析整合工具,是通过大量的信息的碰撞比对,这是一个真实的案例。比如说可以通过对作案时间、作案地点、出行信息、车辆信息、住宿信息以及上网记录等等进行大量的比对碰撞,能够帮助破案民警在看似多个没有相关的案件当中实行并案处理,能够寻找到符合共同特性的人群,在这个人群当中快速锁定嫌疑人,提升破案效率。

  刚才与大家分享了数据整合的三个难点,以及解决思路、IOP的基本功能,包括定位、给客户带来的三个价值和山东警务云的大数据实践。推动数据整合和开放,引领数据消费,孕育数据文明是我们的使命,我们愿竭尽全力和大家一起共同推动数据整合,加快数据开放进程,为建设智能中国和早日实现中国梦贡献力量。谢谢大家。