喜忧参半的大数据时代
作者:万洁
2012年美国总统大选,人们普遍认为奥巴马和罗姆尼的选情很接近,评论员们都无法预计哪方会获胜。35岁的数学天才纳特·席尔瓦以主要民调机构在各州不断更新的访查结果数据为基础,在投票当天成功预测奥巴马将有90.9%的机会获得大多数选票。最后结果显示,他对美国50个州投票结果的预测全对了。
艾萨克·阿西莫夫的著名系列科幻小说《基地》中有一位年轻有为的数学家——哈里·谢顿,他在银河帝国首都川陀星球帝国的“十年大会”上发表了一篇论文,文中论证了用数学预测未来发展的若干趋势的可行性及其实现的概率,并将其命名为“心理史学”。心理史学是结合统计学、社会学与心理学,预测人类平均行为和分析未来世界文明的方法。
电影《少数派报告》的世界里,人类已经能通过机器人——“先知”海量检索和观测人类脑波,发现并找出具有犯罪预谋的人,在他们的犯罪行为发生前使其终止,而罪责的判定也是基于对个人未来行为的预测。判定一个人是否有杀人企图,需要三个“先知”一起做出决定。当出现分歧时,按少数服从多数原则定案,但最后若证明少数那一方是正确的话,则会秘密保存一份少数派报告。当男主人公一觉醒来发现自己被当成了嫌犯追捕,他只能东躲西藏,想方设法寻找那份报告,以证明自己的清白。在影片中,掌握数据、预测未来的“先知”可谓一手遮天。
研究人员发现,机器学习,这种源自人工智能的先进分析方法,在精确识别银河系以及绘制完整的室女座星系团星空图方面是最为高效的解决方案。借助这一强大的自动化处理能力,天文学家可以将精力放在绘制和研究室女座星系团方面,而不用再把大量的精力浪费在筛选星系团成员上。
“大数据”虽然给人们带来了很多便利,但是一想到谁掌握了大数据和相关分析技术,谁就有了预测未来、呼风唤雨的本事,是不是感到有些毛骨悚然呢?而且这个“谁”不一定是人,十有八九是冰冷的“超级计算机”。到时候,也许人的命运就会被计算机掌握。
而在现实中,美国早已采用了类似的技术手段对庞大的数据进行分析整理,用于鉴别犯罪行为、侦破案件和反恐。
大家还记得《终结者》系列电影中的“天网”吗?那是美国军方的一个智能军事防御系统,它连接了从B2隐形轰炸机到核弹的所有军事设备。其设计初衷是消除人为错误和应对突发事件的反应延迟,以保证快速有效地反制敌人的进攻。但“天网”后来拥有了自主意识,并认定人类是其威胁,开始操控并生产其他机器人和计算机系统对人类实施攻击。在“天网”控制的T型机器人的追杀下,人类反抗军不得不躲到地下。
2007年,美国联邦调查局计划建立一个大型反恐数据库,以便搜索和分析潜伏在美国境内的恐怖分子。在2008年财政年度预算中,联邦调查局向国会申请了1200万美元专项资金,成立了一个名为“国家安全部门分析中心”的电脑数据库,计划在未来五年内收集60亿项记录,其中包括许多美国居民的个人数据和资料。联邦调查局宣称,这一数据库建成后,将能提升政府现有的数据分析能力,更好地找到个人、地点和事件之间的关联,从而更易于发现潜伏在美国境内的恐怖分子。
在2008年的动作科幻片《鹰眼》中,军方建立了一套系统,主要用于反恐。前端的视频采集点遍布全球每个角落,通过分析采集点获取的原始信息可以判断是否为恐怖组织或恐怖行动。在2011年首播的美剧《疑犯追踪》里,美国政府遭遇“9·11”恐怖袭击后,打造了一台可以每时每刻监视所有人的“机器”以侦测恐怖行动,同时也能预先察觉普通的犯罪行为。
——阿里巴巴集团、淘宝网、支付宝创始人 马云

是福音还是潘多拉魔盒?

人类文明的发展过程始终伴随着隐私的牺牲。在这个时代,我们坐在写字楼的小格间中,双手敲着键盘,两眼盯着屏幕,离开网络就等于和世界失去联系:购买衣物在网上,出行订票在网上,团购美食券在网上,社交相亲在网上,读书学习在网上,就连离开办公桌去吃饭,都要拍照发微博或者分享到朋友圈。而我们的每一个行为,都会被记录,被整理,被分析……
幸运的是,目前我们还没有如此强大的超级计算机。但在这个世界里,你买了什么东西,花了多少钱,喜欢浏览什么网站,在哪个页面上停留了多长时间,等等,这些数据都会被收集起来。这些私人信息被收集起来后会提供给谁?会继续保持匿名,还是在使用后被删除?你无从得知。而且,在这个一切都计算好的世界里,创意、灵感和惊喜在哪里?隐私又怎么保障呢?
大家还没搞清PC时代的时候,移动互联网来了;还没搞清移动互联网的时候,大数据时代来了。
早在2003年,美国《华盛顿邮报》就报道称,佛罗里达州警方于一年前启动了名为“黑客帝国”的秘密计划——他们建立了一个和著名科幻电影《黑客帝国》同名的大型反恐数据库,这个数据库系统搜集了该州几乎所有成年公民的私人信息,因此,它可以在极短的时间内迅速发现各类异常事件和可疑人物,从而避免恐怖事件或犯罪行为的发生。而且,正是在开发该系统的公司的帮助下,美国情报机构才得以将几名“9·11”劫机犯以及他们同伙的犯罪记录一一联系起来。
——北师大文学院教授 吴岩
2012年,奥巴马政府更是将“大数据战略”上升为最高国策,认为大数据是“未来的新石油”,将对数据的占有和控制作为陆权、海权、空权之外的另一种国家核心能力。
2003年算是大数据发展过程中的一个里程碑。那一年,第一例人类基因组完成了测序。继那次突破性的进展后,数以千计的人类、灵长类、老鼠和细菌的基因组扩充着人们所掌握的数据库。每个基因组都有几十亿个“字母”,计算时出现纰漏的危险又催生了生物信息学——这一学科借助软件、硬件以及复杂算法之力,支撑着新的科学类型。
“大数据”这一概念被中国大众熟知,得益于英国惊悚政治剧《纸牌屋》的热播。据称,《纸牌屋》的出品方兼播放平台网飞公司在美国有2700万个订阅用户,用户每天在其网站上都会产生三千多万个反馈行为,比如收藏、暂停、回放或者快进等。此外,订阅用户每天还会给出四百万个评分和三百万次搜索请求。这些都被网飞公司转化成代码,当做内容生产的元素记录下来。早些年,这些数据被用于精准推荐,随着数据挖掘技术的日渐成熟,网飞公司开始将其用于倒推前台的影片生产。从对海量用户数据的分析中,网飞公司得出结论:人们对早期的英剧《纸牌屋》、导演大卫·芬奇和奥斯卡影帝凯文·史派西的期待值出现了高度重合。于是,他们推出了这部由大卫·芬奇导演、凯文·史派西主演的翻拍版《纸牌屋》并获得了成功。
大家以为大数据还只是一个热门话题或者前卫概念吗?当然不是。我们的生活中,它的影子无处不在。
《鹰眼》一开始,男主人公被无端陷害,网络账户里突然冒出巨款,家中堆满了邮寄过来的武器,因此遭到FBI的追捕。女主人公被要挟,她的儿子性命堪忧。这一切使得男女主人公不得不按照一个个莫名电话的指令去完成一个任务。然而操控他们的,不是人,而是一台电脑,准确地说,是一个云计算中心。这个叫做“鹰眼”的系统不仅能够控制门禁系统限制人员的出入、进入银行系统修改账户信息、进入交通系统改变红绿灯的状态,还能进入机场安检系统改变扫描仪的图像。其程序不仅完全脱离人的指挥自行运转,而且变成了控制人类的机器。
2013年,微软纽约研究院经济学家大卫·罗斯柴尔德利用博彩网站、好莱坞证券交易所、各个前哨奖项(如金球奖)、公开的用户数据等等,建立起极其复杂的数据模型,并且不断更新数据、校正误差、升级模型,最终猜中了奥斯卡全部24个奖项中19个的归属。今年的奥斯卡他再接再厉,猜中了21项奥斯卡奖。
此外,大家还可以在网上看到一个全球恐怖事件数据库(http://www.start.umd.edu/gtd/)。该数据库共收录了从1970年至2012年间超过11.3万起恐怖事件,包括事件的时间、地点、所使用的武器、目标类型等。
苹果公司的传奇总裁史蒂夫·乔布斯在与癌症抗争的过程中就采用了这种方法,他是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。他不仅得到了含有一系列标记的样本,还得到了包括整个基因密码的数据文档。因此,他的医生们能够根据他的特定基因组成,按所需效果给药,如果癌症病变导致药物失效,医生可以及时更换另一种药。乔布斯曾笑称:“我要么是第一个通过这种方法战胜癌症的人,要么就是最后一个因为这种方法死于癌症的人。”虽然最后他的愿望都没有实现,但这种获得所有数据而不仅是样本的方法,还是将他的生命延长了好几年。
总之,任何一种技术都是双刃剑,我们享受着“大数据时代”的便利的同时,也要警惕随之而来的威胁。
最酷的大数据应用——治安与反恐
从上面的例子中我们不难看出,“大数据”并不单纯是维基百科中所说的“所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯”。换言之,大数据并不是数据本身,而是一种思维方式,它令人着迷的地方在于用科学的方法挑战了预测学,帮助人们发现未知、进行决策。
打开人人网,页面上会推荐你可能认识的人,其中不乏你失去联系多年的同学和朋友;打开亚马逊,页面上会向你推荐一些商品,其中很可能就有你最近正打算购买的东西。你可能还没有搞清楚什么是大数据,但实际上,你已经被它重重包围了。
2011年,美国加州圣克鲁兹市的警察局对一个名为“PredPol”的犯罪预测软件进行了测试。结果显示,该软件可根据此前犯罪活动发生的时间和地点进行预测,同时参考与犯罪行为和犯罪模式有关的社会学信息,可大幅降低犯罪率。最初,圣克鲁兹警察局利用“PredPol”预测哪些地区有可能发生入室行窃和抢劫车辆的案件。该市大约100名巡警在巡逻时会有针对性地出巡,他们携带的电子卡上会显示附近最有可能发生罪案的15处地点。而在绝大多数的情况(准确率超过三分之二)下,大数据算法预测的罪案都确实发生了。采用“PredPol”后的一年时间里,该市的入室盗窃案件减少了11%,偷车案减少了8%。相应的,逮捕罪犯的成功率则提高了56%。现在,美国已经有超过10个城市的警察局引入了这个大数据算法,其中包括洛杉矶、波士顿和芝加哥。
“基地”三部曲的首部《基地》出版于1951年,而在六十三年后的今天,“心理史学”已经不再是科幻,而是摇身一变,以“大数据”的面貌频频出现在我们的视野里。
最神的大数据应用——关联与预测
目前,根据哈佛大学教授斯威尼的研究,只要知道一个人的年龄、性别和邮编,并与公开的数据库交叉对比,便可识别出87%的人的身份。这意味着,人类隐私权的最后一道防线同样脆弱得不堪一击。这样的事实,令人如何不心惊胆战?
如果说当前科幻文学已经走入一种新科幻的时代,那么我更希望定义这种新科幻为“大数据科幻”。
随着人类发现的星系越来越多,为它们进行分类的工作量也越来越庞大,于是天文学家将目光投向了公众。2007年7月,一项称为“星系动物园”的计划在互联网上启动了。志愿者只需要登录网站(www.galaxyzoo.org)进行注册,并接受一些简单培训,就可以逐个识别照片中的星系。网站开张不到二十四小时,就以每小时收到7万例分类的速度一路推进,第一年就获得了超过五千万例星系分类结果,志愿者人数超过15万。“星系动物园”项目打破了大数据的规矩:它没有对数据进行大规模的挖掘,而是把图像交给众多志愿者,由他们对星系做基础性的分类。通过志愿者们积累的庞大数据是计算机学习分类的理想资料,软件通过志愿者一次又一次的点击,学会了分析这些大数据之后,项目就将关闭。
最早提出大数据概念的学科是天文学和基因学,这两门学科从诞生之日起就依赖基于海量数据的分析方法。后来,计算机实现了数据的数字化,互联网实现了数据的网络化,二者相结合才赋予了大数据生命力。
目前,为了揭示宏伟壮阔的宇宙的本质和规模,天文界的许多创新目标都是绘制宇宙星空图。距我们银河系最近的大型星系团是室女座星系团,它的规模是银河系的2000倍。“新一代室女座星系团观察”(NGVS)组织认为,大数据机器学习是绘制室女座星系团星空图项目的关键。于是,该组织先是通过CFHT天文望远镜(Canada-France-Hawaii Telescope)完成了主要的数据收集工作。观测得到的每幅原始图像约为1.6GB,因此每周需要分析的数据会增加数百TB。然后,项目负责人利用加拿大天文研究先进网络(CANFAR,首个专门针对天文学的云计算平台,旨在为全球的天文学家存储、共享和分析数据)识别出图像中真正属于室女座星系团的天体。
2011年上映的一部悬疑科幻电影《永无止境》中,潦倒的作家艾迪服用了一种正处于试验阶段的神奇蓝色药物——NZT。服用后,他发现自己变得精力充沛,思维清晰,行动敏捷,甚至一些平时不易留意的细节和信息,他都能在瞬间将其重新组合整理并得出推论。后来,他利用这种高智商炒股:先是在短时间内掌握无数公司的资料和背景,将包括公司财报、电视、旧报纸、互联网中的数据和小道消息在内的数据挖掘出来,再联系起来,甚至从Facebook、Twitter的海量社交数据中得到普通大众对某种股票的感情倾向,结果在十天内就赚取了200万美元,神奇的表现让身边的职业投资者们目瞪口呆。这部电影完全可以看作是大数据预测魔力的宣传片。
一个完全测序的人类基因组包含100GB—1000GB的数据量。人类有99.9%的DNA是相同的,假设对许多病人进行全基因组序列分析,将会发现那0.1%的差异能够用来预测和治疗许多疾病,其中包括癌症。从计算能力这方面来说,已经有专门的硬件用于加快基因组数据分析的速度。在过去的十年间,人类基因组的排序成本只有原来的十万分之一,分析时间从13年缩短到了3天以内。

什么是大数据?

无处不在的大数据

最玄的大数据应用——生物与天文
在天文学方面,大数据的重要意义在于,它提供了一种加速我们探索宇宙的方式。
更多内容...
上一篇