“所有模型都是错的,但是有些是有用的。”30 年前,统计学家George Box这么说。他说的是正确的。但是当时我们能有什么选择呢?只有模型,从宇宙哲学方程到人类行为原理的模型,才能连续的(尽管是不完美的)解释我们周围的世界。现在不同了。今天的公司(如谷歌)“生长”在大规模充裕数据的时代,它们不需要错误的模型。事实上,它们根本不需要模型。
60年前,数字化电脑让信息变得易读。20年前,英特网让信息变得易接触。10年前,第一个搜索引擎爬虫让信息变成一个单独的数据库。现在,诸如Google之类的公司正在经历历史上最标准的时代,并将这些庞大文集作为人类社会图书馆。他们都是PETABYTE时代的产物。(注:1 PETABYTE=1024 TB)
PETABYTE时代是与众不同的,因为“更多”是一种与众不同。KB 级的信息存储在软盘里,MB级的信息存储在硬盘里,TB级的信息存储在硬盘阵列(disk arrays)里,PB级的信息存储在云(cloud)里。如果我们沿着信息存储进化的路线探寻,从类似文件夹,到类似文件柜,到类似图书馆,再到……在 PB级别,我们已经想不出有组织的类比了。
在 PB级别,信息不是简单三维、四维的分类和顺序,而是有维度不可知的统计数据。它需要一种完全不同的方法,一个需要我们放松(lose)对数据的约束,而将其视为能被形象化为一个整体的东西。它让我们先从数学角度看数据,然后为数据设立一个环境。例如,谷歌征服了广告世界,仅仅是通过应用了数学:它不假装自己了解文化和广告惯例知识。它仅仅是做了一个假设:更好的数据加上更好的分析工具将会赢得世界。而谷歌是正确的。
谷歌的奠基哲学就是“我们不知道为什么这张网页比那张网页好”:只要引入链接的统计数据说明它好就行了,并不需要语义上或者是因果关系的分析。这就是谷歌不需要掌握一门语言就能翻译的原因(只要给以合适的文集数据,对于谷歌来说,把外星语(原文是Klingon,克林贡语)翻译成波斯语就和把法语翻译成德语一样容易)。这也是谷歌能在没有任何知识、对广告内容没有任何了解的情况下,能把广告和内容融合得这么好的原因。今年三月的O'Reilly 前沿技术会议( O'Reilly Emerging Technology Conference,亦有人译作新技术峰会)上,Peter Norvig(谷歌的研究指导)对 George Box的座右铭进行了更新:所有模型都是错误的,愈加地,你能在没有模型的情况下成功。("All models are wrong, and increasingly you can succeed without them.")
这是一个 大量数据和应用数学取代其他工具的世界。从语言学、社会学的人类行为原理里解脱吧。忘记分类,存在论和哲学吧,谁又能知道为什么人们要做他们做的事情?重要的是,他们“做事”的行为,而我们可以空前“高保真”地追踪并评估这一行为。拥有了足够的数据,数字也能说话。
尽管如此,最大的目标却不是广告,而是科学。科学方法基于可检验的假设之上的。大部分的模型,是科学家脑中形成的系统。于是,模型会被检验,并用实验来证实或伪造“世界如何工作”的理论模型。这就是科学家们几百年来一直使用的工作方法。科学家被训练得认识到:关联关系不一定是因果关系,若仅仅是因为X和Y之间的关联关系,则并不能据此得出结论(这只是巧合)。然而,你必须理解连接这两个变量的潜在因素,一旦你有模型,你就能够自信地连接起两个数据集。数据若没有模型,就只是“噪音”。
但是面对大规模数据,科学家“假设、模型、检验”的方法变得过时了。以物理为例:牛顿模型是近似真相的模型(牛顿模型在原子层面上是错误的,但是依旧有用)。100年前,基于量子力学的统计数据对真相进行了更好的描绘:但是量子力学也只是另一个模型而已,模型都是有缺陷的,模型无疑是对于更复杂的潜在真实的拙劣描述。我们不知道怎样操作那些伪造假设(能量太高,加速器太昂贵等等)的实验,这就是近几十年物理学研究转向对N维大统一理论(grand unified models)的原因.
现在,生物学也向同样的方向发展。我们在学校所教的“显性和隐形基因严格遵循孟德尔法则”的模型已被证明是比牛顿定律更简单的对事实的描述。基因蛋白质交感(gene-protein interactions )和其他实验胚胎学的发现已经动摇了“DNA就是命数“的看法,甚至引入了“环境可以影响遗传特性”这些曾经在基因学上被认定为不可能的事情。简而言之,我们对生物学学得越透彻,我们发现自己离能解释生物的模型越远。
现在有一个更好的办法。PB允许我们这么说:关联关系就已经够了。我们可以不再去寻找模型,我们能够不依靠假设来分析数据。我们能把数字扔到前所未见的最大计算机集群里,让统计数据找到那些科学所不能告诉我们的模式。
最好的实践例子就是: J. Craig Venter的鸟枪基因序列。有了高速序列器(sequencers)和超级计算机来解析它们产生的统计数据, Venter从单细胞体到整个生态系统都进行测序。在2003年,他开始海洋生物的测序,重溯COOK船长的旅行。在2005他开始对空气中的生物测序。他发现了上千种未知细菌和其他生命形式。
如果发现新物种让你想到达尔文和他画的那些雀类,你可能还囿于传统的科学研究方法。Venter几乎不能告诉你任何关于他所发现的物种的信息。他不知道他们长什么样,他们如何生存,还有其他关于他们形态学上的信息。他甚至没有他们完整的染色体组。他所拥有的只是统计性的”点“(blip):一个与基因序列数据库不同的独特序列必定属于一个新的物种。而这个序列可能和其他我们熟知的序列关联。在这种情况下,Venter能对这些动物做一些猜测:这些动物利用独特的方法,把阳光转化为能源、或者他们继承自某一共同祖先。但除了这些,Venter对于此种生物并不比谷歌对于你的MySpace的模型更好。毕竟,这仅仅是数据。可是通过谷歌品质计算方法(Google-quality computing resources)进行分析,对于生物前沿知识,Venter懂得比其他同时代的人都多。
这种思维方法正在趋于主流。在二月,国家科学基金宣布,集群探索( Cluster Exploratory 简称CluE ),致力于研究运行大规模分布计算机平台的项目将由谷歌和IBM以及六个试点学校一同进行。这个集群将包括1600个处理器,大量TB的内存,上百TB的存储器,还有包括GFS(Google File System)、IBM的 Tivoli、谷歌MapReduce的开源版等软件。早期的CluE项目将包括大脑和神经系统的模拟以及其他在湿件和软件之间的生物研究。(注:湿件即除了软件、硬件之外的“件”,即人脑)
学会在这个层次上使用“电脑”可能具有挑战性。但是机遇是很大的:海量数据的新用处,以及咀嚼这些数据的统计性工具,提供了一个理解世界的新方法。关联关系比因果关系重要,科学甚至能在没有一致模型、统一理论,甚至完全不需要任何解释的情况下进步。











理论的终结:数据洪流让科学方法变得过时
翻译: 
马修 榜眼 | Blog
建议重新排版
06/30/2008
Moon.Wong 状元 | Blog
恐怖,页面排版怎么是这样?难道是我的浏览器问题?
06/30/2008
路宛兮 状元 | Blog
不知道现在排版好了没?原来在IE7上浏览是正常的~@@
06/30/2008
Moon.Wong 状元 | Blog
OKl了,之前用的是firefox的浏览器,现在IE7下是正常的
07/01/2008
酒神精神 童生
读起来爽口,且还在听着“思念是一种病”这与PeterMorville的“随意搜寻”描述一样吗?
07/01/2008
isaacmao 举人 | Blog
这篇文章会给国内那些自以为科学理论之上的一些人一些启示,也会让那些视科学为宗教的人理解人的渺小。
08/04/2008
jason68 童生
粗看了一遍,看了个半懂,启发很大,感触挺多。科学,噢科学,你总是让我们陷入了迷惘却又看到了希望。。。
08/10/2008