嘉宾演讲| 数博会官网

主讲

中国数据加工清洗产业发展趋势分析

  各位来宾,大家下午好。非常荣幸能有这样一个机会和大家一起交流关于数据加工清洗产业的一些认识。这两天大家去参加大数据博览会,会看到贵阳市提出的口号,叫数据创造价值。数据是一种资源,它摆在那里、沉睡在那里或者它是一座孤岛的时候,它是很难创造价值的。恩格斯曾说过劳动创造世界,劳动创造价值。这些数据,只有通过劳动、处理、加工、process,才能够真正产生出它的价值,这也是贵阳市提出数据商品化论坛的一个初衷。贵阳市在大数据产业发展中,优先在数据中心、呼叫中心、全程免费wifi、数据源的采集和重组方面有一些很好的基础。在下游、在数据的交易,贵阳市建立了大数据交易所,但是大家有没有发现它缺少一个中间环节,就是对数据的清洗和加工。贵阳市的领导非常有战略的敏感性、战略的意识,所以在这个时候提出来要在贵阳市大力发展数据加工与清洗产业。今天借这个机会,我把赛智咨询在数据加工清洗产业方面研究的一些成果和大家分享一下。

  数据加工清洗是怎样的一个过程?怎么去定义这个过程?其实类比于在工业化时代的机械的加工,或者矿产的加工,它有一个过程,包括矿产的采集、采矿,也有洗矿的过程,冶炼和加工的过程,包装的过程,产品化的过程,最终到商品化的过程。其实数据加工的过程、清洗的过程也是这样一个过程。从各个渠道采集来的各种各样的数据有一个采集的方式,在采集数据之后需要把这些数据存储下来,在用之前需要对这些数据做清洗,因为数据的质量、数据的标准不统一,数据的质量很差,需要做数据的清洗,在这个基础上要做数据的粗加工、深加工、精加工。有些数据涉及到安全、隐私,要进行数据的脱敏,在数据展现给用户的时候,需要对数据做一些可视化的处理、数据的包装,最终形成一个数据的产品,才能够真正在交易场上进行交易,这是它的一个过程,也是我们对数据加工清洗产业的一个定义。这是覆盖了采集、清洗、加工、脱敏、包装这个产业链条上各个环节的这些企业上下游共同构成了一个新的产业形态,叫做数据加工清洗产业。

  数据加工清洗产业应该说很早就存在,信息化一开始做的就是信息的采集、信息的处理。今天我要跟大家分享的是在大数据时代,在今天这样一个面对着海量的、复杂的、多变的数据的形态下,整个数据加工清洗产业的发展趋势是什么?大概总结了十点:

  第一,数据加工对象将呈现多样化、复杂化。这是一个非常明显的趋势。过去我们可能数据加工只需要基于数据库中的数据做数据的查询、重组、检索、处理,再复杂一点,把不同系统中的数据通过数据仓库进行相关的工作,就是抽取、转化、装载这样的工作,做这样的结构化数据的加工。但今天面对的是80%的数据是非结构化数据。什么叫非结构化数据?就是那些不是简单地可以用一个二维表结构所表达的数据,这类数据类型占整个数据类型的80%,对这类数据的处理就会产生不同的数据加工、处理的方式。比如对网络日志数据处理的方式、相关的加工处理的方法和工具,对于视频数据、图象数据、音频数据、各种传感器采集来的数据,对不同的数据处理加工的方式也是不同的,就带来了不同加工类型的加工的工种、加工的产品和企业。在这80%的复杂数据中,每一种类型的数据的加工都可能产生一个市值上百亿的企业。比如语音加工的科大——讯飞、文档数据加工的托尔斯、视频数据加工的相关产业、空间数据加工的相关产业。大家都知道美国有一个上市公司叫splark,splark最擅长处理的就是网络日志数据,它是一个市值上百亿美金的企业。对每一类型的数据加工都可能产生出一个新的产业形态,我下面会具体分享一下。有很多沉睡的纸质的数据,如果真正做大数据分析,那些历史的数据难道不需要去考虑吗?所以这里面也会有数据加工类型的企业,它们做的是纸质文件的数字化加工。比如做文件扫描、图象识别、文件校对,这里也诞生着一个在目前中国的数据加工市场将近一百亿的市场规模。它诞生了像航星永志、东方飞扬这样的一些企业,它们专门就是处理纸质文件的数字化加工。这是一部分的产业形态,后面航星永志的郝总会跟大家交流,这方面我就不详细介绍。对文本、语料的数据加工、挖掘和舆情的分析,这也是一个大约90亿的市场规模,这里要做文本语料的采集、文本语料的深加工、专业辞典的建设、自然语言的处理,这里面用到的核心技术是一些像分子技术等等这样的技术,它也诞生了很多上市公司,像托尔斯很擅长的一个领域就是在这个方面。海量数据、中科点击等这些上市公司,包括方正集团,它们所擅长的就是对文字文本信息怎么做到自然语言的理解,怎么把它分析得更加准确。对语音数据的加工这个产业,就目前的市场规模来看,每年大概有40、50亿的规模,包括语音数据的采集、语音的识别、语音的合成。像苹果、IBM、百度专注于对语音这一类数据的加工、分析和处理。同样,图象的视频数据加工,也是一个几十亿市值的规模,处理的包括图象的采集、标注、分析和图象的预处理,这里有跟图象相关的处理产业,包括加工、处理、分析、应用。比如迅雷,当然它更多的是视频,当然在图象处理方面也是它的一个专长。在空间地理信息加工方面,这个产值更大,每年的市场规模更大,将近一千个亿的市场规模。里面有删格数据、删格图象和影像数据——放大以后不清晰的数据的处理,包括矢量数据的加工处理、空间数据的预处理、地图的整饰、专业地图制作等等形成一个产业形态,国内外很多专注于空间数据处理的企业,也是一个个上市公司所形成的市场规模。所以,数据加工的类型和对象越来越复杂。

  第二,数据加工的自动化水平将不断提升。过去传统数据信息化的处理、结构化的处理,从不同孤立的信息系统中,对数据进行相关的整合,数据的采集、清洗和加工,在数据仓库里做数据的清洗、整合,整合了不同的业务系统中相关的、独立的数据库,这是一个传统的数据加工的自动化的能力。这需要技术水平的支撑、建模的工具、展现的工具,不同类型的企业在这里提供工具,这是传统的,不多讲。在大数据时代,自动化水平一样要有非常高的能力,所以历总说这个论坛跟他不相关,我恰恰说非常相关,为什么?你就是给数据加工清洗产业和数据商品化提供生产设备的,怎么能不相关呢。在大数据时代,非结构化数据的整个数据生产的技术和设备达到了另一个层次和水平,也就是刚才鲜总所说的,大数据带来的是IT产业本身的结构重组和调整升级,IT如果跟不上大数据时代的变化,可能会被淘汰。就像今天IOE面对BAT时候的尴尬一样,如果跟不上这种变化可能就会被淘汰。非结构化数据加工、自动化系统中,我们可以看到,有对P处理的,有对内存计算的,也有非结构化数据的,也有实时数据的,不同类型的数据有不同的手段和处理方法。ETL只是结构化的一部分,抽取过来,更多是基于非结构化的文件系统和处理系统,还有非结构的分析系统和重组系统,构成了未来在大时代的整个自动化能力。

  第三,数据加工清洗将逐步形成流水线生产数据加工清洗将逐步形成流水线生产。从数据的采集,不同智能终端、不同渠道采集的数据做数据清洗,去掉不完整、错误、冗余的数据,做数据的精加工、重组,离线、在线的备份,做数据的分析、可视化,形成一个流水线生产。大家看一个例子,阿里巴巴的数据加工的流水线,是通过这个流水线完成的,看到不同终端的数据被采集过来,这里面有前端服务器的处理,数据通过传输到分发中心进行分发,再到加工车间进行加工,提供了强大的服务器处理数据,通过不同的算法进行分析、挖掘,做数据的建模,根据业务相结合的业务建模,再形成数据的产品,提供给消费者,在这个产品上需要跟业务之间形成互通,形成一个数据交换的平台。在整个阿里巴巴,如马云所说,从IT到DT技术,已经形成了DT技术中一整套的流水线生产,所以整个数据加工呈现出来是流水线的生产趋势。

  第四,数据加工将兼具劳动密集型和技术密集型。它需要大量的员工,解决大量的就业,光有技术是不足以解决所有问题的,不足以实现对这些数据准确的、清晰的加工和分析,形成数据的产品,而需要更多的数据采集工人、数据清洗工人、数据分析师和数据可视化工程师来协助技术系统完成这个工作。随着数据越来越标准化、越来越多,劳动员工的需求量会下降,自动化水平会提升,但现阶段需要更多人员参与。比如高德北京昌平数据生产基地,员工有1500人,占整个高德2800员工的50%以上,这些员工有500名是外业采集数据的,有1000名为内业员工负责地图绘制、校正地图信息,技术和人员形成相互配套的生产模式。在未来,像阿里巴巴这样的公司,包括很多数据云平台的服务商需要数据加工和清洗的工人。所以,数据加工具备劳动密集型的特点。

  第五,数据加工将呈现社会化众筹和众包模式。这是在云计算的平台之外它所体现的一个社会化的特点。需要利用社会力量进行数据的采集,如果我是一家云计算加工的企业,需要河南话的语音数据,需要河南当地人把这个语音采下来,然后传上来,给我一个交易,给他五块钱,河南的语音传给我,这个语料库中就多了河南话的语音语料,就形成了数据众采的模式。数据任务众包,不同的人帮我做处理。美国一家企业做这样的服务模式,数据任务众包,包括网络的数据众爬、社会化数据分析众包。有不同的数据分析师,专业不一样,利用不同人的特长。比如统计局的人擅长这一块,让他来做这一块。互联网公司的人擅长电商,由他做那块,形成一个众包模式,在平台的基础上形成社会化的众筹和众包的发展方式。

  第六,数据深加工将呈现专业化细分。有不同类型的数据,要细分到不同领域,不同领域细分到不同行业,这是一个大的产业形态,不是一家能够独自完成的。我将来可能做政府档案数据加工的一个产业形态,也可能做电信数据的语音识别这一个产业形态,这里面会有很多细分的领域,形成非常大的产业的集群的形态。大家可能会担心,在大数据时代,是不是只有BET去玩了,在平台基础上有众筹众包、各种专业化的细分所形成的产业发展的形态。

  第七,市场竞争将呈现平台马太效应。将来的技术、设备、生产线都会集中到云上去,而这个云可能是目前产业链上下的环节去实现的一个云化。比如互联网公司做云,这些交易所,贵阳的大学交易所也想后延伸做云服务,包括设备商,比如浪潮也在讲云,华为也在讲云,设备商也在往前提升,想提供这个平台,最终平台的提供商是呈现强者更强的,会整合更多的资源,在它的基础上更多的还是社会化、专业化的细分,形成产业生态环境。

  第八,数据安全处理既是数据加工的组成也是数据加工发展的保障。就数据加工这件事,既是数据加工的组成部分、一个基础,是细分领域,同时这个数据安全,又是我们数据加工产业能不能快速发展的保障。所以这个过程中,也有很多工作要做,数据的备份、加密,数据的销毁、恢复,也是一个很多的产业形态。这两天论坛里专门用数据安全来解决数据发展的问题。

  第九,数据分析将成为数据加工的高附加值环节。整个加工产业有一个曲线的高附加值来自数据分析,就是富含着对业务的理解、数据模型和数据能力,这种企业的竞争力非常强。

  第十,数据可视化将大力提升数据产品的体验。因为最终数据的东西要表现出来,要通过可视化来展现形象。数据可视化将大大提升整个数据产品的体验,各种各样的数据的展现能力。而且通过数据可视化,对数据内部的规律有更深层次的发现和探索,后面由海云做专业可视化介绍。

  总之,在这样的趋势下,大家看到,数据加工清洗产业带我们进入什么时代?一个大数据的工业化时代,带来数据的标准化、数据的增值、数据交易能力的形成,这是一个基础。所以贵阳市提出要大力发展数据加工信息产业,这是非常正确的决策。

  建议:第一,加强数据源和数据矿产的建设。第二,要专业化深耕数据加工的细分领域。第三,大力提升数据加工清洗的自动化和自主可控水平。第四,构建数据权声明周期的产业生态环境,提升数据惊异制作和外包能力,加强数据分析的增值能力,提升数据营销和交易能力打造出世界级数加工清洗的龙头企业。这是我今天分享的内容,谢谢各位。