大数据时代:中国迎来新挑战

更新时间:2023-11-27 09:30:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

大数据时代:中国迎来新挑战

日期:[2012年11月26日] 版次:[SA26] 版名:[深圳读本 深评] 稿源:[南方都市报] 网友

评论: 0 条

嘉宾简介

涂子沛,知名信息管理专家、专栏作家,先后为《南方都市报》、《IT经理世界》多个报刊网站撰写专栏,著有《大数据》。涂子沛先生在中美两国都有广泛的技术、管理从业经历。

赴美之前,曾在中国省、市、县几级政府的不同部门工作过,现担任

K IT Solutions软件公司亚太事务主任、中国旅美科技协会董事、匹兹堡分会主席。涂子沛先生毕业于卡内基梅隆大学,获信息技术科学硕士、公共管理硕士学位。 关于大数据,我会讲三方面的内容:第一,解读一下大数据现象;第二,谈谈大数据这个现象的意义;第三,讨论一下这个时代对我们意味着什么?具体有一些什么样的挑战?

五因素促成大数据形成

首先讲讲大数据现象。“数据”不是“数字”,对数字可以有很多解读,但是对数据来说,它就是一个有根据的数字,是对客观事件的记录,所以它不仅仅是数字。进入信息社会之后,“数据”的概念和内涵在不断丰富。因为人类发明计算机之后有一个外来词就是“database”,翻译成中文是“数据库”。人类的计算机最早只能处理数据和数字,后来计算机技术不断向前发展,可以处理图像、文档、视频、音频。这一切的东西,无论是文档还是视频、音频,都存放在数据库中,所以,后来大家就把它们统称为“数据”。

不仅是数据的内涵在扩大,数据的体积也在扩大。但是这个“大”的含义也是在不断演变的,最早提出“大数据”的时候,这个“大”意味着重要。到2000年,这个定义又开始慢慢转变,这时很多企业的数据业绩有“太”级别的数据了。2000年,有一个宾夕法尼亚大学的教授定义说“200太的数据是大数据”。我认为大数据不仅仅是从容量来看,容量不是那么重要,而是要从大含量、大价值方面来看。 “大数据”现象是怎么形成的?我认为有5个因素,包括摩尔定律、普适计算、数据挖掘、社交媒体、云计算,它们促成了“大数据”的形成。

首先说摩尔数据。1965年时,英特尔创始人戈登·摩尔发现了一个很重要的现象,总结出一个规律。他说同一个面积的芯片上晶体管的数量在成倍增长,每一到两年就增长一倍。这意味着存储量越来越大,计算量、计算的速度越来越快,越来越密集,同时价格在不断下降。从上世纪50年代人类开始有存储器之后到现在,它的价格下降了300万倍。

1988年时又出现了一个新现象,叫做“普适计算”,是马克·韦泽提出的。1988年,他说人类计算机浪潮应该有三组:第一组是主机阶段,很多人共用一个主机,这个主机非常大。然后,可以人手一机了,但是他说这不是终结,未来时代计算机变得非常微小,计算机会无处不在,甚至融入到日常环境中,你发现不到它在计算。我们现在是否已经进入这个时代了?个人的手机已经很小了,其实它就是一台个人电脑。还有无处不在的传感器。我们现在谈的互联网就是普适计算的一部分,覆盖全球的互联网就是它的一个子概念。它又为我们解决了一个新问题,这时人类收集数据的能力得到增强,不仅仅是保存数据了,我们还可以广泛收集数据,无处不计算。 1989年时,一个新的东西成为热点,这就是“数据挖掘”。超市通过数据挖掘、购买记录,判断出顾客的需要,定向投放广告。数据挖掘有两种:一种是对过去进行挖掘,发现规律,把这种规律提炼出来;一种是对未来进行预测。数据挖掘解决了一个新问题,这就是现在人类不仅收集、保存数据能力很强,分析数据的能力也得到了提高。

2004年之后又有了一个新现象,社交媒体出现了。这时不仅是信息系统,每一个人都在贡献数据。原来的信息记录是一个严整的、有格式的,数据库也是这样的,这个长度是一致的。但是到微博时代就变成了非结构化的数据,每个人都在贡献数据。微博不仅在中国起到了这样的作用,在全世界都起到了很重要的作用。我前两天在北师大和别人交流,他们谈到了一个很有意思的现象。说一个学生总结了一个现象,“信息只能传播信息,行动才能够引发行动”。其实公民社会就是一个可以产生集体行动的社会。

2006年,“云计算”出现了。上世纪80年代的公用电话网解决不了私密通话的问题,后来有一个新技术叫做虚拟技术(VPN ),它解决了这个问题。就是你在想与别人通话时,立刻运行这个软件,就可以架设一条虚拟专线。他们就把这种服务称为“云”。1997年时,就有教授把“云”和“计算”结合到一起。为什么?他们认为计算也会变成这样。不要你去买芯片、处理器,计算会成为一种服务,想要的时候就来。云计算有三种模式:第一种是软件即服务,也就是用互联网上的软件,而不用自己装软件。第二种是平台即服务,用它的软件后,连操作系统都不要装了。第三种是设施即服务,不仅系统不需要了,自己的计算机也不需要了,只需要一个显示器就可以了。

很多专业机构都认为“大数据”这个现象非常重要,是人类下一个创新竞争的前沿。2012年3月份,大数据甚至成为了美国的国家战略、国家行为,美国联邦政府把它上升到与当年的互联网和超级计算一样的高度。当年的互联网,美国政府投资5亿美元,现在对大数据的第一次投资也达到2亿多美元。 从“信息时代”走向“智能时代”

我认为大数据这个现象是一个革命性的变化,它意味着我们从“信息时代”迈向“知识时代”,最后再走向“智能时代”。

在信息时代,信息无所不在。信息时代再向前迈进就是知识时代,知识无所不在。知识是系统化的、有规律的、经过了分门别类整理的信息。进入大数据时代,不仅仅是知识无所不在,而且是智能无所不在。计算机最后就是发展到智能,能自己算,自动识别很多东西。大数据时代出现之后,数据成为一个重要的资源和创新的基础,成为这个生产过程当中一个基本的要素和资产。我们看到数据也可能成为一种可以交易的商品。数据最大的作用就是可增值性,通过整合可以发现新的知识。人类已经从软件时代进入了数据时代,正因为数据的重要,基于数据的创新和竞争成为企业、组织,甚至国家之间的一种竞争形式。

大数据还催生了很多管理创新。美国、英国三所大学合作,把240年庭审记录输入到电脑中去,进行分析,并且与其他数据进行整合,分析犯罪情况与社会的运行,经济情况的改变有没有关系。

社会科学在以前是很难量化的东西。你来研究我,我就会有一种抗拒,行为就被扭曲了。而这个时代的数据那么多,你的个人行为已经在网上被广泛记录了。当这些记录被整合到一起时,人的行为就可以量化了。

怎么去理解大数据?这绝对不能从体积上去理解,而是说人类现在分析数据的能力得到增强了。即使是小的数据,也能从中发掘出大的价值。美国为什么会有一些创新?因为数据是开放的,每个人都可以来挖掘。数据已经成了资产,成为一个创新的前沿,是一定要开放的,只有数据开放才能产生更大的价值。 中国需要法律规范数据发布

大数据对我们的未来意味着什么?意味着我们从知识时代向智能时代的迈进。最后来看一看大数据时代对我们究竟意味着什么样的挑战?特别是对于中国来说,意味着怎样的挑战?

互联网数据是如何产生的?主要是互联网和手机产生的。本来我们应该是个数据大国,但是很可惜,中国的数据很少。为什么?我认为是我们收集数据的意识比较差。

即使有这种数据,数量也是比较低的,公信力也是比较差的。

还有一个很重要的方面是标签,就是你每发一条新的信息都要标签化,给这条信息来打标签。W eb3.0,这是一个什么时代?简单说,就是一个“打标签”的时代,它也叫做“羽翼网”,这时的搜索就会完全改变。“羽翼网”不仅仅是每个网站都有一个网址,每一个数据在网络上都有一个地址,你都可以找到那个数据。然后那个数据有很多标签对它进行定义,相同标签的数据可以自动联系起来。w eb2.0从另外一个角度来说,是一个“推时代”,是被动的时代。而未来时代是“拉时代”,主要权利在你,你想用什么数据在网上拉就行,而不是“推”。

中国数据质量低、公信力差,我们的传统也不重视数据,数据是一个任人打扮的“小姑娘”。我们还有另外一个问题,就是数据一致性低,这也是全世界面临的挑战。在大数据时代,数据要进行整合,这个系统和那个系统的数据要连接起来。这就牵涉到数据的定义了,我们现在面临的挑战是如何把各种不同的信息系统加总起来?现在在设计新系统时就要考虑数据定义必须和其他系统是兼容的,是可以对接起来的。 美国有《数据质量法》,公民、公司、组织对美国政府公布的数据是可以质疑的,可以提起审核、质疑,甚至最后可以打官司。中国也需要这样的法律来规范数据的发布。

在根本上,我们的文化传统或者我们这个国家,按文化传统来说是轻逻辑、轻数字的传统,在别的国家实现了数字化管理时,我们还是不能合理运用数据来进行管理。这就是“数据治国”。当然我们在用它的时候,不能说取代“依法治国”,这是两码事,不能把它极端化。因为数据代表了对客观世界的记录,数据的精神归根到底是一个尊重事实的精神,是一个理性的精神。你把角色建筑在数据之上,而不是建筑在意识形态之上,不是建筑在利益关系之上,而是建筑在事实之上。

还有一个挑战,这就是隐私权的挑战。我们认为隐私权是个人自由的一道屏障。大数据时代,如果有一种力量把所有的信息系统都加总,那你个人还有隐私吗?1974年时,美国就设立了《隐私法》,保护的主体就是数据。信息时代的个人隐私权也集中体现个人控制、编辑、管理自己数据和信息的一种权利。关于隐私权的变迁,在信息社会,隐私权的重心就体现在你的个人数据上。 数据开放和公开不一样

最后谈一谈开放数据。数据的价值在于整合,谁在这个社会中有最多的数据?政府是其中一个,你的数据需要整合,首先就要与人口、地理、天气、经济的信息这些最根本的数据进行整合,所以这部分数据是应该开放的。而开放这部分数据实际上也是有法理根据的,政府是纳税人供养的,它收集了我们的数据,但不开放给我们使用,

这在法理上肯定是不合理的。

在这里,我还要强调一个概念,数据开放和数据公开是不一样的,我们可以举个例子来说明。例如你到商店中买东西,很显然,所有商品的价格是公开的,但是这不叫开放,什么叫开放?例如沃尔玛,把所有商品的价格以电子数据库的形式放到网上,这时另外一个公司可以把它的数据完全下载下来,立刻就与自己的数据对接起来。想象一下,如果所有的商店把它所有销售商品的价格开放到网上,会出现什么情况?这就是开放的效果,而不是公开的效果。

不能仅仅从数据公开的角度来理解数据开放,数据开放是能推进经济由粗放型增长向精细型发展转型的,是有利于经济转型的,是可以推动知识经济和网络经济发展的。数据开放还有什么作用?如果把数据库上的原始数据开放给公民,那么数据的公信力是否会提高?这可以让公民自己去计算。

数据开放的运动在海外绝对不仅仅是停留在政府层面,商业数据也在开放。从这个层面上来说,有一个新的词叫做“数据权”。它首先在英国产生,而不是在美国。开放数据不仅仅是一个知情权的问题,现在还是一个经济问题,是如何推动我国经济的转型升级的问题。 涂子沛

(本文为嘉宾2012年11月18日演讲稿,有删节。)

本文来源:https://www.bwwdw.com/article/8gqt.html

Top