中国高度重视大数据发展。我们秉持创新、协调、绿色、开放、共享的发展理念,围绕建设网络强国、数字中国、智慧社会,全面实施国家大数据战略,助力中国经济从高速增长转向高质量发展。
当前,我国数字经济总量已超过 22 万亿元,占 GDP 比重逾 30%, 中央政府对于发展大数据、人工智能等前沿科技产业极为重视。
大数据的定义
大数据是一个宽泛的概念,从 2001 年“大数据”一词在 Gartner 的研究报告出现至今,大数据一直没有统一的定义。
Gartner 认为大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
国际数据公司(IDC)从大数据的 4 个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。
维基百科对“大数据”的定义是“无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合”。
无论各方对于大数据的定义有何不同,但均体现了大数据“大”的特征。但体量大、结构多样体现更多的是数据特征,对于数据的处理与应用,则需要新技术(新型计算架构、智能算法等)、新理念与新知识。因此大数据不仅“大”,而且“新”,是新资源、新工具和新应用的综合体。
对于大数据的处理与应用,则需要新技术(新型计算架构、智能算法等)、新理念与新知识。因此大数据不仅“大”,而且“新”,是新资源、新工具和新应用的综合体。
大数据的四大特征
在IT界虽然对大数据都有着自己不同的解读。但大家都普遍认为,大数据有着4“V”特征,即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低)。
Volume是指大数据巨大的数据量与数据完整性。十几年前,由于存储方式、科技手段和分析成本等的限制,使得当时许多数据都无法得到记录和保存。即使是可以保存的信号,也大多采用模拟信号保存,当其转变为数字信号的时候,由于信号的采样和转换,都不可避免存在数据的遗漏与丢失。那么现在,大数据的出现,使得信号得以以最原始的状态保存下来,数据量的大小已不是最重要的,数据的完整性才是最重要的。
Variety意味着要在海量、种类繁多的数据间发现其内在关联。在互联网时代,各种设备连成一个整体,个人在这个整体中既是信息的收集者也是信息的传播者,加速了数据量的爆炸式增长和信息多样性。这就必然促使我们要在各种各样的数据中发现数据信息之间的相互关联,把看似无用的信息转变为有效的信息,从而做出正确的判断。
Velocity可以理解为更快地满足实时性需求。目前,对于数据智能化和实时性的要求越来越高,比如开车时会查看智能导航仪查询最短路线,吃饭时会了解其他用户对这家餐厅的评价,见到可口的食物会拍照发微博等诸如此类的人与人、人与机器之间的信息交流互动,这些都不可避免带来数据交换。而数据交换的关键是降低延迟,以近乎实时的方式呈献给用户。
大数据特征里最关键的一点,就是Value。Value的意思是指大数据的价值密度低。大数据时代数据的价值就像沙子淘金,数据量越大,里面真正有价值的东西就越少。现在的任务就是将这些ZB、PB级的数据,利用云计算、智能化开源实现平台等技术,提取出有价值的信息,将信息转化为知识,发现规律,最终用知识促成正确的决策和行动。
大数据的关键技术
大数据作为一种新兴技术,目前尚未形成完善、达成共识的技术标准体系。对大数据的理解和分析,提出了大数据参考架构。
大数据参考架构总体上可以概括为“一个概念体系,二个价值链维度”。“一个概念体系”是指它为大数据参考架构中使用的概念提供了一个构件层级分类体系,即“角色—活动—功能组件”,用于描述参考架构中的逻辑构件及其关系;“二个价值链维度”分别为“IT价值链”和“信息价值链”,其中“IT价值链”反映的是大数据作为一种新兴的数据应用范式对IT技术产生的新需求所带来的价值,“信息价值链”反映的是大数据作为一种数据科学方法论对数据到知识的处理过程中所实现的信息流价值。这些内涵在大数据参考模型图中得到了体现。
大数据的关键技术有:
1、数据收集
大数据时代,数据的来源极其广泛,数据有不同的类型和格式,同时呈现爆发性增长的态势,这些特性对数据收集技术也提出了更高的要求。数据收集需要从不同的数据源实时的或及时的收集不同类型的数据并发送给存储系统或数据中间件系统进行后续处理。数据收集一般可分为设备数据收集和Web数据爬取两类,常常用的数据收集软件有Splunk、Sqoop、Flume、Logstash、Kettle以及各种网络爬虫,如Heritrix、Nutch等。
2、数据预处理
数据的质量对数据的价值大小有直接影响,低质量数据将导致低质量的分析和挖掘结果。广义的数据质量涉及许多因素,如数据的准确性、完整性、一致性、时效性、可信性与可解释性等。
大数据系统中的数据通常具有一个或多个数据源,这些数据源可以包括同构/异构的(大)数据库、文件系统、服务接口等。这些数据源中的数据来源现实世界,容易受到噪声数据、数据值缺失与数据冲突等的影响。此外数据处理、分析、可视化过程中的算法与实现技术复杂多样,往往需要对数据的组织、数据的表达形式、数据的位置等进行一些前置处理。
数据预处理形式上包括数据清理、数据集成、数据归约与数据转换等阶段。
3、数据存储
分布式存储与访问是大数据存储的关键技术,它具有经济、高效、容错好等特点。分布式存储技术与数据存储介质的类型和数据的组织管理形式直接相关。目前的主要数据存储介质类型包括内存、磁盘、磁带等;主要数据组织管理形式包括按行组织、按列组织、按键值组织和按关系组织;主要数据组织管理层次包括按块级组织、文件级组织以及数据库级组织等。
不同的存储介质和组织管理形式对应于不同的大数据特征和应用特点。
4、数据处理
分布式数据处理技术一方面与分布式存储形式直接相关,另一方面也与业务数据的温度类型(冷数据、热数据)相关。目前主要的数据处理计算模型包括MapReduce计算模型、DAG计算模型、BSP计算模型等。
(1)MapReduce分布式计算框架
MapReduce是一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。与传统数据仓库和分析技术相比,MapReduce 适合处理各种类型的数据,包括结构化、半结构化和非结构化数据,并且可以处理数据量为TB 和 PB 级别的超大规模数据。
(2)分布式内存计算系统
使用分布式共享内存进行计算可以有效的减少数据读写和移动的开销,极大的提高数据处理的性能。支持基于内存的数据计算,兼容多种分布式计算框架的通用计算平台是大数据领域所必需的重要关键技术。
(3)分布式流计算系统
在大数据时代,数据的增长速度超过了存储容量的增长,在不远的将来,人们将无法存储所有的数据,同时,数据的价值会随着时间的流逝而不断减少,此外,很多数据涉及用户的隐私无法进行存储。对数据流进行实时处理的技术获得了人们越来越多的关注。
5、数据分析
大数据分析技术包括已有数据信息的分布式统计分析技术,以及未知数据信息的分布式挖掘和深度学习技术。分布式统计分析技术基本都可藉由数据处理技术直接完成,分布式挖掘和深度学习技术则可以进一步细分为:
(1)聚类
聚类指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。
(2)分类
分类是指在一定的有监督的学习前提下,将物体或抽象对象的集合分成多个类的过程。也可以认为,分类是一种基于训练样本数据(这些数据已经被预先贴上了标签)区分另外的样本数据标签的过程,即另外的样本数据应该如何贴标签。
(3)关联分析
关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。关联分析在数据挖掘领域也称为关联规则挖掘。
(4)深度学习
深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。
6、数据可视化
数据可视化(Data Visualization)运用计算机图形学和图像处理技术,将数据换为图形或图像在屏幕上显示出来,并进行交互处理。它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互等多个技术领域。数据可视化概念首先来自科学计算可视化(Visualization in Scientific Computing),科学家们不仅需要通过图形图像来分析由计算机算出的数据,而且需要了解在计算过程中数据的变化。
大数据产业链
大数据产业链包括一切与大数据产生与聚集(数据源)、组织与管理(储存)、分析与发现(技术)、交易、应用与衍生产业相关的所有活动。按照数据价值实现流程,贵阳大数据交易所发布的《2016 年中国大数据交易产业白皮书》将大数据产业链分为六大层级:数据源、大数据硬件支撑层、大数据技术层、大数据交易层、大数据应用层与大数据衍生层,其中每一层都包含相应的 IT 硬件设施、软件技术与信息服务等,构成了大数据产业链的完整闭环。
数据源:
大数据产业基础。数据源是大数据产业链的第一个环节,是大数据产业发展的基础。由于中国大数据流通在全社会还未形成规模,目前数据源区块主要集中在政府管理部门、互联网巨头、移动通讯企业等手中。随着互联网渗透不断深入,数据产生方式也变得更加多样,数据源已经呈现出爆炸式增长,越来越多的企业将加入数据生产和采集行业,数据源将进一步扩大。
硬件支撑:
大数据底层支柱。大数据硬件是指数据产生、采集、传输、存储、计算等一系列与大数据产业链相关的硬件设备。包含传感器、移动智能终端、各种有线/无线传输设备、存储设备、服务器、网络/安全设备等。在大数据需求的刺激下,越来越多的硬件产品都打出“智能牌”。智能硬件逐渐改变人们日常生活的同时,还在用户无触发、无感知的情况下,24 小时不间断采集数据。
技术层:
大数据价值实现手段。大数据技术层指实现一切大数据采集与预处理、存储管理、大数据分析挖掘、大数据安全和大数据可视化的技术手段。大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来,为社会经济活动提供依据,提高各个领域的运行效率,甚至整个社会经济的集约化程度,是大数据价值实现的重要条件。
交易层:
最大化数据价值。随着大数据技术的成熟和发展,大数据在商业上的应用越来越广泛,有关大数据的交互、整合、交换日益增多,大数据交易也应运而生。大数据交易可以打破信息孤岛及行业信息壁垒,汇聚海量高价值数据,对接数据市场的多样化需求,完善产业生态环境,实现数据价值的最大化,对推进大数据产业创新发展方面具有深远意义。目前大数据交易有交易所模式、电商模式、API 模式,大数据的价值通过数据确权、清洗、交易等形式得以释放和体现。
应用层:
大数据价值体现。大数据的价值体现在大数据应用上。大数据产业的下游由大量公司组成,它们基本上扮演的角色是大数据生态圈里的数据提供者、特色服务运营者和产品分销商,基本通过开放平台和搜索引擎获取用户,处于产业的边缘地带。目前,大数据应用在各行各业的发展呈现“阶梯式”格局:互联网行业是大数据应用的领跑者,政府、金融、电信、交通、医疗等领域积极尝试大数据,其中政府、金融会在近几年呈爆发式增长。
衍生层:
大数据下的新业态。大数据衍生层是指基于大数据分析和应用而衍生出来的各种新业态。大数据分析和应用,在经济社会各领域的扩散渗透,不仅促进相关产业生产率水平的提升,同时也衍生出很多与之相关联的新兴产业,使得人类生产生活、工作消费方式发生根本性转变。
我国大数据产业发展现状
1 、政策支撑大数据产业发展
2017 年 1 月工信部发布《大数据产业发展规划(2016-2020年)》,规划认为我国大数据产业发展有五点现状:
1)、信息化积累了丰富的数据资源,我国已成为产生和积累数据量最大、数据类型最丰富的国家之一;
2)、大数据技术创新取得明显突破,在软硬件、平台建设、智能分析及开源技术方面均取得一定进展;
3)、大数据应用推进势头良好,在互联网服务中得到广泛应用,同时向传统产业积极渗透;
4)、我国大数据产业体系初具雏形。龙头企业引领下上下游企业互动的产业格局初步形成,同时基于大数据的创新创业日趋活跃,大数据技术、产业与服务成为社会资本投入的热点;
5)、大数据产业支撑能力日益增强,形成了大数据标准化工作机制,标准体系初步形成,同时大数据安全保障体系和法律法规不断完善。
应用为代表的下游产业将成为大数据主体。中国大数据应用市场规模重点集中在政府和金融等领域,与这几个领域数据量大有关。随着大数据产业上游格局逐渐稳定,硬件设备及技术逐渐成熟,以及政府的不断推动,大数据应用行业增速也将超过其他行业。
目前,大数据也已经成为我国战略方向之一。2017 年 12 月 8 日中央政治局就实施国家大数据战略进行了第二次集体学习,习近平在主持会议时说:“大数据发展日新月异,我们应该审时度势、精心谋划、超前布局、力争主动” 。
2、互联网巨头引领产业发展
BAT 等互联网巨头引领大数据产业。国内互联网企业业务布局各个方向拥有大量用户,拥有巨量的数据,企业对这些数据进行采集于分析,用于支撑其自身的电子商务、定向广告和影视娱乐等传统业务,来获取更多的经济效益。同时,在互联网产业 O2O的趋势下,互联网企业逐渐将业务延伸到金融、保险、旅游、教育、交通服务等多个领域,在这一过程中又进一步丰富了数据来源,促进了分析技术的发展,扩展了大数据分析在诸多行业的应用。
热门行业应用竞争较为激烈。随着大数据逐渐成熟,基础设施逐渐完善,产业上游已经初具规模,各种行业应用不断落地。从需求方来看,企业对于大数据应用的需求持续增强,并着力培育自身的数据资产,各类大数据应用逐渐落地,并成为产业链的核心。
从供给方来看,新兴技术推动大数据技术环境趋向成熟,行业大数据应用逐渐丰富,大数据生态系统多元化程度加强。相比于全球大数据应用于广泛的领域,我国应用主要集中在政府、金融、电商、医疗健康等领域,竞争较为激烈。
3、工业互联网下大数据价值凸显
数据是工业互联网的核心。工业互联网是互联网和新一代信息技术与全球工业系统深度融合集成所形成的产业的应用生态。工业互联网的实质首先是全面互联,在全面互联的基础上,通过数据流动和分析,形成智能化变革,形成新的模式和新的业态,因此工业互联网比互联网更强调数据,更强调充分的联接,数据的传输、集成以及分析和建模,数据是工业互联网的核心。
大数据应用将带来工业企业创新和变革的新时代。通过互联网、移动物联网等带来的低成本感知、高速移动连接、分布式计算和高级分析,信息技术和全球工业系统正在深入融合,给全球工业带来深刻的变革,创新企业的研发、生产、运营、营销和管理方式。
80多家企业联盟,打造工业数据生态体系。2017 年 12 月8 日包括联想牵头海尔、腾讯云、TCL 智能制造等 80多家企业成立了“工业大数据产业应用联盟”,旨在打造覆盖工业企业全价值流程、全产业生命周期的数据生态体系。
4 、“数字中国”加码大数据
数字经济已经成为带动中国经济增长的核心动力。根据腾讯研究院发布的《中国互联网+数字经济指数(2017)》数据,2016 年,中国数字经济总量达到 22.6 万亿元,同比增长超过 18.9%,显著高于当年 GDP 增速,占 GDP 的比重达到 30.3%,对 GDP 的贡献已达到 69.9%。同时,报告测算得出 2016 年数字经济对于我国新增就业的贡献已经超过 1/5,成为带动就业增长的新引擎。
5、美国大数据发展领跑世界,中美仍有明显差异
美国大数据进入国家战略,发展领跑世界。2009 年至今,Data.gov(美国政府数据库)全面开放了 40 万联邦政府原始数据集,同时宣布采用新的“开源政府平台”管理数据,代码将向各国开发者开放。从这个角度看,大数据已成为美国国家创新战略、国家安全战略、国家 ICT 产业发展战略以及国家信息网络安全战略的核心领域。
根据贵阳大数据交易所发布的《2016 年中国大数据交易产业白皮书》的数据,2017 年美国大数据市场规模为 1431 亿美元,按当年人民币对美元平均汇率 6.75 计算,2017 年美国大数据市场规模为中国的 2.7 倍。同时,贵阳大数据交易所预计 2020 年美国大数据市场规模将达到 3823 亿美元,占全球市场份额达到 37.2%,远远超过排名第二的中国,发展领跑世界。虽然近年来中国大数据产业发展迅速,且日趋成熟,但与领跑者美国仍有三到五年的差距。
十九大结束之后,政治局第二次集体学习即“审时度势精心谋划超前布局力争主动,实施国家大数据战略加快建设数字中国”, 更突显国家大数据战略在国家持续发展中的核心地位!明确了大数据战略的核心思想:大数据是信息化发展的新阶段;大数据产业生态要自主可控;推动实体经济和数字经济融合发展;建设全国信息共享体系和平台;大数据要在改善民生领域有所作为;保障国家数据安全。