阅读空间｜数据的力量与危险

作者：时间：2021/03/30 热度：648

参考消息网3月29日报道美国《纽约人》周刊网站3月22日发表文章《有什么是数据做不到的》，副题为“当涉及人和政策时，数字既有用又危险”，作者是数学家汉娜·弗莱。全文摘编如下：

托尼·布莱尔在人群面前通常显得轻松而富有魅力。但2005年4月，在伦敦的一个电视演播室里，与观众中一名女性的交锋让他明显慌了神。布莱尔当时担任英国首相已有八年，一直致力于改进国民保健署。当时，在合理时间段内很难得到医生的预约；患者经常被告知，他们要等几周才能等到下一个空额。布莱尔政府决定通过设定目标来解决这个问题：如果医生在48小时内接诊，就可以得到经济奖励。

布莱尔遇到的难题

这似乎是个合理计划。但观众们知道一个布莱尔及其政府不知道的问题。在全国电视直播中，戴安娜·彻奇冷静地向首相解释说，她儿子的医生要求在一周后给他看病，但诊所却不肯做晚于48小时的预约。否则，医生就会拿不到奖金。如果彻奇想让儿子一周后去看医生，就得等到就诊的前一天，然后在上午8点打电话。

主持人问：“这对您来说是新闻吗？”

布莱尔答道：“对我来说是新闻。”

主持人转向观众问道：“还有人碰到过这种事吗？”

现场乱了。大家开始喊叫，布莱尔开始结巴，全国民众眼见其领导人因为数据错误的经典案例而方寸大乱。

布莱尔及其顾问远非第一批与自身的善意目标发生冲突的人。如果你试图强迫现实世界做某件可以计算的事情，意外后果比比皆是。这是两本有关数据和统计的新书的主题：德博拉·斯通的《计数：我们如何利用数字来决定孰轻孰重》警告了过分依赖数字的危险，蒂姆·哈福德的《数据侦探》则展现了如何避开数据驱动的世界的陷阱。

这两本书问世之际，数据的超凡力量从未如此显而易见。新冠肺炎大流行表明，如果没有详尽的统计数字，世界会多么脆弱。总统选举使得我们的报纸充斥民调和预测，这一切都是为了满足我们对洞见的渴望。在充满不确定性的一年里，数字甚至成为一种安慰。由于它们看似精确客观，我们受到了蛊惑，因此，如果数字未能体现现实的随意性，我们就会感觉遭到了背叛。

“古德哈特定律”

托尼·布莱尔及其政策专家犯下的特殊错误足以归纳成一句格言：一旦有用的数字成为衡量成功的标准，它就不再是有用的数字。这就是所谓的古德哈特定律。德博拉·斯通讲到了规定生产配额的苏联工厂和农庄。纺织厂需要生产具体规定长度的大量布料，因此会调整织布机，生产长而窄的布匹。因为要对采摘的棉花称重，所以乌兹别克的采棉工把棉花浸在水里，使之更重。

同样，当美国在19世纪60年代建成首条横贯大陆的铁路时，企业是按铁轨的英里数领取报酬的。因此，内布拉斯加州奥马哈郊外的一段铁轨铺成了宽弧而不是直线，从而使铁轨增加了毫无必要（但利润丰厚）的若干英里。每当我们用数字替代自己在意的东西时，麻烦就来了。

不过，这个问题不好解决。围绕古德哈特定律产生的问题已经在困扰人工智能设计：如果你们唯一的共同语言是数字，你如何向算法传达一个目标？计算机科学家罗伯特·费尔特曾经创造过一种算法，任务是让飞机降落在航母上。目标是让一架模拟飞机缓慢地停下来，尽可能减少机身受力。遗憾的是，算法在训练中发现了一个漏洞。如果不是让模拟飞机平稳降落，而是故意让它猛然停下，那么机身受力将达到完美的零。但这却使整个系统不堪重负。

数据驱动的世界观

当人们习惯于控制而不是理解事物时，数字可能是最危险的。不过，古德哈特定律其实只是在暗示数据驱动的世界观的一种更基本的局限性。正如蒂姆·哈福德写道的那样，数据“可能是真正重要事物的一个相当不错的替代”，但即便是最好的替代也与实物存在巨大差距。

哈福德援引伟大的心理学家丹尼尔·卡内曼的话说，每当遇到难题，我们习惯于把它换成一个简单问题，而且往往没有注意到自己这样做。这一点在社会意图借助数据回答的问题当中也得到了体现，有个关于学校的著名例子。我们或许很想知道孩子是否接受了良好教育，但很难确定“良好”是什么意思。相反，我们倾向于提出一个相关和比较简单的问题：学生在围绕一些事实接受考查时的表现如何？于是，我们患上了可悲的“应试教育”综合征。

如果想把世界简化到可以用数字加以体现的程度，就会丢掉许多细节。不可避免的疏漏可能会使数据偏向某些群体。斯通讲到，联合国试图制定衡量女性遭受暴力侵害程度的指导方针。欧洲、北美、澳大利亚和新西兰的代表根据各自国家的受害者调查，提出了有关其中包含的暴力类型的想法。这些类型包括打、踢、咬、掌掴、推搡、殴打和锁喉。与此同时，一些孟加拉国妇女提议纳入其他形式的暴力——在印度次大陆并不罕见的行为——比如焚烧妇女、向她们泼酸、把她们从高处推下、强迫她们在畜栏里睡觉。这些行为均未列入最后清单。正如斯通所说的那样，要想计数，必须首先决定应该把什么计算在内。

世界并不总能简单归类。有时必须对把什么计算在内以及如何计算作出艰难判断。

算法不能算出人生

在千年之交，一群研究人员开始为研究他们所谓的“脆弱家庭”招募人员。这些研究人员寻找有新生儿的家庭，以追踪这些孩子及其父母长年累月的发展变化。他们招募了4000多个家庭，初次评估后，该团队在孩子们一岁、三岁、五岁、九岁、十五岁时再次与这些家庭见面。他们每次收集关于孩子发育、家庭状况和周围环境的数据。他们记录关于健康、人口统计、父母关系、孩子生活的社区类型以及就寝时间的细节。研究结束时，研究人员掌握了每个孩子的将近1.3万个数据点。

然后，该团队做了件相当聪明的事。他们决定不一次性公布数据，而是扣住一些最后的数据块，邀请世界各地的研究人员来看看他们是否能预测某些发现。利用这些孩子到那时为止的已知情况，全世界最先进的机器学习算法和数学模型能确定孩子们十五岁时的生活会是什么样吗？

为了突出这一挑战，研究人员被要求预测六个关键指标，比如孩子们十五岁时的学习表现。为了给所有人提供一个基准，该团队还建立了一个近乎简单得可笑的预测模型。该模型只使用四个数据点，其中三个是孩子出生时记录的：母亲的教育水平、婚姻状况和种族。

正如你可能预料到的那样，这个基准模型并不很善于预测将要发生的情况。在表现最佳的类别中，它只解释了大约20%的数据变动。然而，更令人惊讶的是复杂算法的表现。在每个类别中，以充分的、异常丰富的数据集为基础的模型仅比基准模型改进了几个百分点。在六个类别中的四个类别中，没有一种的准确率超过6%。即便表现最佳的算法也只能预测孩子们平均成绩的23%的变动。事实上，在所有方面，表现最佳和最差模型之间的差距始终小于最佳模型与现实之间的差距。也就是说，正如该团队指出的那样，此类模型“更善于预测彼此”，而不是预测人生道路。

并不是说这些模型不好。它们与直觉和猜测相比是个相当大的进步。但“脆弱家庭”的挑战告诫我们，不要以为数字能提供所有答案。

数据的力量

但是，承认数据驱动的现实观存在局限并不是要贬低它的力量。有两点可能是对的：面对现实的细微差别，数字存在不足，但它同时也是我们理解这一现实的最有力手段。

此次大流行中的事件提供了鲜明例证。统计数字无法体现这种病毒导致的实际死亡人数。它不能告诉我们在重症监护病房工作是什么感觉，也不能告诉我们失去亲人是什么感觉。它甚至不能告诉我们死亡的总人数。它无法准确告诉我们何时能恢复正常。但无论如何，如果我们想了解这种病毒有多致命、弄清有效疗法、探索今后可能出现的前景，它是唯一的手段。

数字可能包含人类生存的整个故事。在肯尼亚，每千名儿童中有43名在五岁前死亡。马来西亚只有9名。斯通援引瑞典公共卫生专家汉斯·罗斯林的话说：“这种衡量标准测量了整个社会的温度。因为儿童非常脆弱。有太多东西可以要他们的命。”其他991名儿童得到保护，远离了病菌、饥饿、暴力、医疗匮乏构成的危险。通过这个简单的数字，我们可以清楚地了解儿童活下去所需的一切要素。

哈福德的书用类似的统计数字让我们了解得更加深入。哈福德要我们想象一份每100年发行一次的报纸：他认为，如果现在发行这样一份报纸，那么头版新闻将是儿童死亡率在过去一个世纪里的明显下降。他写道：“想象一下，如果成立一所学校，从世界各地接收100名出生时随机挑选的五岁儿童。1918年，其中32名儿童在上学第一天之前就夭折了。到2018年，只有四名儿童会这样。”哈福德指出，这是了不起的进步，没有什么能比数字更清楚地揭示这一总体进步。

哈福德明确地指出，统计数字可以用来清楚而准确地展现世界。它可以帮助弥补我们生而为人的易错性。我们很容易忘记的是，统计数字也可能会放大这些易错性。正如斯通提醒我们的那样：“要想计算得准确，我们需要谦逊，知道哪些是不能或者不应该计算在内的。”