在线试读

get_product_contenthtml

大数据(big data)是信息化发展的新阶段。随着信息技术和人类生产生活交汇融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、国家管理、人民生活都产生了重大影响。世界各国都把推进经济数字化作为实现创新发展的重要动能,在前沿技术研发、数据开放共享、隐私安全保护、人才培养等方面做了前瞻性布局。

 

大数据发展的背景和意义

大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。

 

发展背景

随着全球信息化的深入发展、互联网的普及和物联网的广泛应用,世界各国的数据量急剧增长。大数据的概念早是由美国易安信(EMC)公司于2011 年5 月提出的。2011年6月,国际数据(IDC)公司发布了题为《从混沌中汲取价值》的报告。根据该报告,全球数据量大约每两年翻一番。全球过去三年内产生的数据量比以往4 万年产生的数据量还要多。2010 年,全球数据量跨入ZB(泽字节)时代,预计到2020 年全球数据量将达到35 ZB。

随着电子商务、物联网、社交网络等的发展,新的数据源和数据采集技术不断出现,使数据类型不断增多,各种非结构化的数据增加了大数据的复杂性,使传统数据库技术无法对其进行高效的分析。在互联网时代,数据的移动已成为信息系统的开销。信息系统需要从“数据围着处理器转”转变为“处理器围着数据转”。

麦肯锡公司认为,许多行业都可以利用大数据提高市场资源配置效率,减少不必要的浪费,促进新想法和新见解的产生。大数据技术的应用对各个行业都具有重要意义,在某些行业将产生更大的收益。虽然许多行业都呈现出大数据增长的态势,但不同行业的数据量有所不同,数据产生和存储的类型也有所区别。政府、金融、电信、互联网、航空等行业的数据量规模较大,比其他行业更加具有通过大数据来创造价值的潜力。例如,金融、电信行业拥有大量用户,通过客户细分和自动化算法可以从利用大数据中获取非常大的收益。互联网公司收集了大量的用户在线行为数据,必将通过应用大数据而大幅获益。

值得指出的是,大数据的真正意义不在“数据量大”,而在于通过数据分析、比对、挖掘等发现新知识、创造新价值、提升新能力。

 

重要意义

在全球范围内,运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势,有关发达国家相继制定实施大数据的战略性文件,大力推动大数据的发展和应用。目前,我国互联网、移动互联网用户规模居全球,拥有丰富的数据资源和巨大应用市场优势,大数据部分关键技术的研发取得突破,涌现出一批互联网创新企业和创新应用,一些地方政府已启动大数据相关工作。坚持创新驱动发展,加快大数据部署,深化大数据应用,已成为稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要与必然选择。

 

1. 大数据成为推动经济转型发展的新动力

以数据流引领技术流、物质流、资金流、人才流,将深刻影响社会分工协作的组织模式,促进生产组织方式的集约和创新。大数据推动社会生产要素的网络化共享、集约化整合、协作化开发和高效化利用,改变了传统的生产经营方式和经济运行机制,可显著提升经济运行水平和效率。大数据持续激发商业模式创新,不断催生新业态,已成为新旧动能转换的重要驱动力。大数据产业正在成为新的经济增长点,将对未来信息产业格局产生重要影响。

 

2. 大数据成为重塑国家竞争优势的新机遇

在全球信息化快速发展的大背景下,大数据已成为国家重要的基础性战略资源,正引领新一轮科技创新。充分利用我国的数据规模优势,实现数据规模、质量和应用水平同步提升,发掘和释放数据资源的潜在价值,有利于更好地发挥数据资源的战略作用,增强网络空间数据主权保护能力,维护国家安全,有效提升国家的竞争力。

 

3. 大数据成为提升政府治理能力的新途径

大数据应用能够揭示传统技术方式难以展现的关联关系,为有效处理复杂的经济社会问题提供新手段。树立“用数据说话,用数据管理,用数据决策,用数据创新”的大数据思维,有利于促进决策科学化,行政管理精细化和精确化,公共资源配置合理化,公共服务人性化,创新市场监管和社会治理模式,提高政府运行整体化和智能化水平,加快构建整体政府、智慧政府、开放政府和服务型政府等新型政府,推进政府治理体系和治理能力现代化。

随着我国信息化建设的深入,许多政府部门和企事业单位都积累了海量的数据资源,迫切需要利用大数据技术对这些数据资源进行处理、分析和挖掘,提高政府部门的行政效能,提高企业的生产经营水平,使海量的数据资源转化为巨大的社会财富。

 

大数据特点和相关技术

 

主要特点

信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家的基础性战略资源,大数据正日益对全球生产、流通、分配、消费活动,以及经济运行机制、社会生活方式和国家治理能力产生重要影响。大数据的特征可以归结为五个V 和一个C。

(1)差异化(variety)程度高。数据种类繁多,来自不同的单位和部门,在编码方式、数据格式、数据标准等方面存在差异,大数据集包含大量的异构数据。

(2)数据量(volume)极大。随着物联网技术的广泛应用,通过各种设备产生的海量数据,其数据规模极为庞大,远大于目前互联网上的信息流量,PB 级别是常态。谷歌每天处理的数据量超过20 PB,为了存储这些数据,谷歌公司在全球建设了一批数据中心。

(3)处理速度(velocity)快。涉及感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值。为了提高大数据集的处理速度,目前人们普遍采用云计算、实时数据库等技术。

(4)时效性(vitality)强。大数据分析结果,只有在特定的时间和空间中才有意义。如果在需要时拿不到大数据分析结果,大数据分析就失去了现实意义。

(5)分析结果可视化(visualization)。可视化在数据工作流中将同时起到解释和探索的作用,数据科学家会将可视化作为寻求问题以及探索数据集新特性的一种方式。数据可视化可以帮助领导干部直观地进行决策。

(6)复杂度(complexity)高。通过数据库处理持久存储的数据不再适用于大数据处理,需要新的方法来满足异构数据统一接入和实时数据处理的需求。大数据分析需要建立复杂的专业模型。

对于党政部门来说,发展大数据无论对“稳增长、调结构、转方式、惠民生、扩内需”,推进供给侧结构性改革,还是推进国家治理体系和治理能力现代化,都具有十分重要的现实意义。

 

相关技术

大数据相关技术包括数据仓库、数据集市、联机分析处理、数据挖掘、数据可视化、Hadoop等,我们简要分析一下后三种技术。

 

1. 数据挖掘

所谓数据挖掘(data mining,DM),是指从数据库的大量数据中揭示出隐含的、先前未知的且有潜在价值的信息的过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。例如,零售公司跟踪客户的购买情况,发现某个客户购买了大量真丝衬衣,这时数据挖掘系统就在此客户和真丝衬衣之间创建关系。销售部门就会看到此信息,直接将真丝衬衣的当前行情以及所有关于真丝衬衣的资料发送给该客户。这样零售商店通过数据挖掘系统就发现了以前未知的关于客户的新信息,并且扩大了经营范围。

 

2. 数据可视化

数据可视化是指将数据库中的每一个数据项作为单个图元(primitive)元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示。用户可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。

目前数据可视化技术分为基于几何的数据可视化技术、面向像素数据的可视化技术、基于图标的数据可视化技术、基于层次的数据可视化技术、基于图像的数据可视化技术和分布式数据可视化技术等。

随着虚拟现实技术的发展,大数据分析结果可以在虚拟空间中展现,用户可以在虚拟空间中直观地观察大数据分析结果。

 

3. Hadoop

Hadoop由Apache 软件基金会研发,是一个能够对大数据进行分布式处理的软件框架,能够以一种可靠、高效、可伸缩的方式对大数据进行处理。

Hadoop的可靠性高,它假设计算元素和存储会失败,为此会维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理 PB 级的数据集。

近年来,物联网、云计算、移动互联网、人工智能、虚拟现实等新一代信息技术飞速发展。大数据与这些新一代信息技术密切相关,例如,物联网可以采集数据,云计算可以处理数据,移动互联网可以传输数据,人工智能可以分析数据,虚拟现实可以展示数据。