嘉宾演讲| 数博会官网

主讲

 主旨演讲:大数据时代的政策与标准初探

  非常荣幸今天有这个机会跟大家分享一下有关大数据时代的一些政策和标准的话题,非常高兴在数据贵阳、爽爽的贵阳跟大家一起探讨有关大数据的一些问题,今天主要从几个方面去考虑,跟大家进行一个交流,通过这几天大家的讨论,我想作为标准化,回过头来我们还是要看看何为大数据,大数据到底是什么,这个话题可能是需要大家思考,不断深入分析的一个过程。按照很多人的探讨过程中,大数据并不是一个“大”字就能解决的,它是我们在时代的发展过程中,网络、数据各个方面采集到的一些信息泛滥出来的一个新的名词,有了这些大量的数据资源的基础上,我们可以去解决以前无法解决的一些问题。在这种大数据的时代过程中,我们需要的是一种新兴的处理模式,来处理提高有效的决策点,洞察观察力和流程优化的能力,这些多样的资产称为真正意义上的大数据。在个人的不同的眼中我们如何来看待大数据的概念?首先它是一种新兴的数据的分析方式,在早期的过程中,我们一直在做数据的分析,当时我们所做数据分析过程中都是一些小样、抽样的数据,当这些数据庞大以后我们要对这些不同类型的数据按需类型进行有效的分析,这就产生了一种新兴的数据分析的方式,另一方面,它是一种新兴的数据的应用模式,我们有大量的数据在那里,我们如何将这种数据有效的加工和利用,这是我们在不同的人的调查中所看到的,还有更大范围的信息,在我们今天的调查过程中是这样的一种方式,还有我们有一些新型的引入的数据采集的方式,另外一些非传统的,实时的数据。很多人按照四维的方式来看大数据,我们做了一些研究,在这个过程中,在跟相关的产业专家进行探讨的过程中,我们提出一种五维的方式,把它称之为五维,首先是数量上,大数据过程中,在聚集在一起分析的数量是非常庞大的,在长期的发展过程中,尤其是互联网时代发展过程中,我们天天在创造一些数据,飞速的在发展。每天所创建的数据相当于我们人类社会到2003年所创造的数据量的组合,我们今天每天谈到的,谈论的,是发展中的一些数据,这是数量上的需求。

  另一个是多样性,大数据的形态的不是传统的结构化的数据,有非结构化的,传感性的,我们社交媒体所获得的所有的数据,有文本的、图片的、音频的、视频的等;有结构化的、半结构化的、非结构化的;有公司数据,有政府数据,有我们每个人所产生的数据,我们生活在一个数据不断产生的时代。我们数据产生的数量是非常快的,数据增长的速度是非常巨大的,另一方面由于信息社会的快速发展,我们对信息处理的能力也在不断提升,在访问方面、处理方面,我们也是发生了翻天覆地的变化,从而奠定了我们大数据时代的一个重要的物质基础。另外一方面大数据时代过程中,我们要挖掘数据的价值,我们在所拥有的数据过程中,我们并没有把相关的数据的价值得到有效的发挥,在如何进行数据进一步的挖掘过程中,这也是我们肩负的一个使命。

  另一方面是数据的真实性,在虚拟化社会过程中我们所生产的大量的数据,一方面要通过一种方式来确保数据的真实、有效、客观,这是我们大数据业务发展分析的迫切的需求。同时,我们也可以通过大数据的分析,来真实的还原和洞悉数据背后所隐藏的真实的数据发展趋势。这也就是说我们用数据的方式来还原真相,使我们对后续的发展带来有效的基础。在不同的人的心目中,在大数据的发展过程中多数认为多样性、价值和真实性,和追求的这些内容。

  大数据的发展应用过程中,今天我们很多论坛都从不同的角度去考虑大数据应用的作用,它从改善经济发展方式,改善管理方式,促进行业的发展,推动产业升级,助力智慧城市等等,改变我们人类的生活方式,方方面面,我们今天会议的主题也是在谈。同时我们有了数据,如何使我们的生活更加安全,另一方面通过数据的分析来进一步的改进我们的信息安全产业,服务于信息安全产业,这也是我们很多方面需要考虑的问题。大数据之所以这么重要,各个国家也从各个政策上去考虑发展促进大数据产业的发展。美国作为信息社会发展最为先驱的国家,它们从2012年就开始讨论研究大数据的研究和战略的布局,它在2012年3月份公布了大数据的计划,通过大数据的分析,从提升美国政府,从海量复杂的数据集合中获取知识和洞察观察未来发展的能力,我想大数据的过程中最为主要的是将这些复杂的数据如何进行有效的发现彼此之间的价值,这里面就要开发能对大量数据进行收集、存储、维护、管理、分析、共享的这些先进的技术,大数据并不是简单的信息处理技术,是一种对海量信息进行充分挖掘的过程,所以需要在这方面进一步的提升核心技术。另一方面要利用这些科学技术来加快科学和功能领域中探索发现的步伐,加强国家安全,转变现有的相关的安全的认识,培养一批从事大数据技术研发的人才。大数据过程中,数据这么多,我们如何发掘它的价值,靠的是什么?关键在于人的思维和我们人的智慧。澳大利亚政府也在大数据过程中感到,要利用政府的数据来去提升服务改革,制定更好的公共服务政策,保护公民的隐私,使澳大利亚政府能在这个领域中跻身全球的领先地位。英国也将数据作为新的机遇,把英国的数据提升作为一种战略目标,通过进入信息经济的条件下,英国政府希望在数据挖掘和价值提升方面获得全球的领先地位,为英国公民、企业、学术机构和公共部门创造更多的收益。从而使英国在整个信息社会中占有领先的地位。

  我国也非常重视大数据发展的动向,在14年12月份,国家发改委和工信部也共同探讨了有关大数据发展应用的理论研讨会。大数据的发展过程中更需要底层的设计和发展方向,完善相关的配套法律法规,强化政府在数据共享、开放和深化利用机制上的加强合作,同时加强人才建设等方面的措施。中关村作为中国IT方面发展非常前沿的一个地区,中关村管委会在2014年3月份正式出台了《加快培育大数据产业集群推动产业转型升级的意见》,围绕着建设全球大数据终极目标从六个方面探讨了大数据集群打造的相关措施。这方面在有效的新的决定的过程中,大家如何创造新的一些价值机会,是一个未来发展的重点。

  第三,就是我们看到了贵州,我们今天来到的这个地方,贵州省将大数据作为一种产业加以推动,在今天这样一个会议,我们有这样一个过程,他们希望通过两到三年的积淀,来促进它,把发展大数据作为一种产业的机会,作为提升产业的重要抓手,现在大家在朋友圈里面刷的比较多的就是贵州大数据博览会,贵州省抓住了一个重点,来去考虑如何发挥大数据的作用。谈到了这么多,我们如何从技术角度来看大数据呢?在国际一些相关的组织和企业中,我们和相关的一些机构一直在探讨,从不同的视角,把大数据作为一种技术的参考模型加以考虑,我们通过不同的视角将不同的角色找到不同的决策方,通过不同的角色转换来考虑彼此之间的对应关系,大数据有数据的提供方、有数据系统之间的协调者、大数据应用的提供者、大数据的消费者以及大数据整个框架的提供方,那么技术框架的提供方,我们要依托的是传统的信息技术,来考虑从物理资源到基础设施、网络、计算、存储、虚拟资源以及相关的数据处理平台,包括我们的数据组织、分布,索引,文件系统,以及对数据进一步的加工和处理的方面,包括了计算、分析、批量处理、交互处理、流量处理等等内容,还有我们需要进行数据有效的交互界面,通过这种方式来去加以管理,同时还包括了资源有效的管理和配置。这是作为技术层面上的,作为大数据提供者方面需要考虑的问题。

  另外我们不能忘了安全和隐私的保护内容,这也是在大数据的处理过程中我们需要从这个角度来去考虑的,另外对大数据应用的提供者来说,我们需要对数据进行有效的收集,对数据进行清洗,我们要对数据进行有效的准备,另一方面有这么大量的数据,我们如何进行加工和处理呢?我们重要的是要通过不同的应用对象,找到相关的分析方法,产生不同的应用的主题,为大家做数据的有效分析,产生有效的价值。数据产生过程中我们如何让更多的人能看懂数据呢?我们要把数据进行有效的可视化,进行有效的处理。另一方面我们还要让不同的人,针对不同的方式,对数据的结果进行有效的访问,我们又要采取不同的方式和方法,来提供相关的访问手段。对于数据的提供者来说,我们要通过相关的一些方式,将数据通过一种软件工具把它获取,给应用的提供者;另一方面对数据的交互者来说,通过我们的消费方式获得相关的一些数据所需要的资源,从而构成了一个有效的管理的基础框架,这是一种抽象的方式,从而产生了我们IT的信息技术本身的价值链,同时通过服务的应用和挖掘,产生了信息的价值链。这样促进了整个大数据整体的发展,这个技术框架也是在国际相关的组织在进一步的讨论和完善的过程中。

  大数据这么重要,如何使大家有效的互通和了解呢?国内相关的组织也在考虑相关得标准的研究,在这个过程中,我在这里依次给大家介绍一些相关的组织,国际上ISO、IEC、JTC1、SC32,有一个数据管理和交换分技术委员会,他们的重点是在研究有关的相关的信息管理的基础技术的一些通用技术的研究标准,重点就包括了我们常用的传统数据的语言源数据的管理,我们流程的管理,以及非传统意义上结构化的一些非结构化的语言处理,这个技术委员会正在研究这方面的内容,同时他们也专门成立了大数据的研究工作特别小组,研究在信息技术领域过程中,如何运用已有的传统技术服务于大数据应用,另一方面JTC1在国际标准化组织和ic0全国电子工业委员会专门成立了一个大数据研究组,这个在2014年成立了这个组织,专门在讨论如何考虑国际上的大数据相关的标准方案,标准的计划,ITU,国际电信电联,也在考虑大数据的相关的基础方面,在通信领域如何应用大数据的技术,美国NTST有一个大数据公共工作组,考虑讨论有关在大数据方面的一些开放性的方式,来研究探讨和相关大数据相关的一些标准,我们国家相关的有全国信息技术标准化委员会,成立了工作组讨论研究制定符合国家大数据相关的标准,采取一种开放的方式,请大家能够参与到大数据的标准的制定过程中。

  大数据如何构建一个有效的大数据应用框架呢?实际上大数据的内容,我们看到的框架技术过程中,所涉及的内容是非常多的,为此我们通过一套有效的标准体系框架,来将大数据的标准有机的进行分类和分析,将相关的内容有机结合起来,为后续的标准制定和起草奠定一定的基础,在奠定过程中我们保证基础的标准,首先我们的术语概念,大家在交流的过程中我们概念的统一是作为基础的,另一方面参考模型,我们框架讨论的原点,第二大类是数据的处理,包括了我们数据如何进行整理,对数据如何进行分析,对数据进行保护访问,第三大类,保护数据安全的本身也是进行大数据应用的一个基础,包括了通用的基础要求,以及针对大数据应用过程中我们的隐私保护。还有第四大类是如何保证数据的质量,这也是我们需要考虑的一个主要的问题,这里面包括我们如何通过原数据质量的获取,对数据质量的评价,数据溯源等等方面的内容。第五大类,我们数据的处理离不开相关的数据处理的产品,以及相关得以平台,这里面包括最为基础的关系数据库的产品,非结构化数据的产品,以及商业智能、可视化工具、数据处理平台等等一系列的内容。最后就是应用和服务,如何将这些有效的应用提供给用户,对平台应用的质量,包括我们的测试规范,开放数据的要求,以及数据服务平台的要求,和针对不同领域的数据如何进行有效的分类分级,我们从这个类型上来去考虑。

  目前,我们国家已经开始起草制定相关的一些标准,现在有十项标准正在起草制定过程中,还有一些相关的基础标准正在征求大家的意见,有一些新的要求和新的需求大家可以给我们反映出来。最重要的是大数据的数据,我们对概念如何进行统一,是我们制定和交流的基础,包括了何为大数据,何为小数据,何为快数据等等内容,都是需要我们在概念上加以统一规范的。另一方面刚刚在谈到了技术标准大数据的技术参考模型,技术参考模型还是一个草案阶段,如何让技术参考模型让更多的人理解,定义一种抽象的,能够彼此交流的一种基础,我觉得技术参考模型是很重要的基础,另外一方面我们今天谈到了数据交易,我们在数据交易平台,我们如何对交易类型进行描述,如何对通用的一些交易功能进行要求。另一方面我们还在做的数据导入接口规范,对不同类型的内容,对数据本身我们也在考虑多媒体的数据语义描述的要求,另一方面我们对数据质量,我们也在考虑数据质量评价的指标。那么何为一个成熟的大数据呢?我们也要通过数据能力的评估,建立一套有效的评价体系。对数据源的有效的追溯,我们也在考虑数据溯源的描述的框架。在数据应用过程中,我们在领域应用过程中,我们也在考虑科学数据的引用等等的技术方面。这些正是全国大数据标准工作组在开展的工作,我们竭诚的欢迎各位能加入到这个工作组中,把你们的智慧共同参与进来,因为标准的制定是需要一种开放的态度,需要大家不断的交流促进才能使标准得到有效的应用。

  我想在大数据时代过程中,最为重要的是数据为王,必须采取一种开放、分享、协作、共进的态度,才能促进我们大数据的产业不断发展,才能够推动大数据新的安全产业在大数据的过程中得到有效的促进。谢谢大家!