二、 理论源流
数据新闻的历史来源受益于新闻产业和新闻传播学研究的发展,同时更多地受到了社会科学、统计学、计算机科学、数据科学以及可视化技术的影响。跨学科的影响通过“精确新闻”(precision journalism)、“计算机辅助报道”(computer-assisted report)、新闻可视化、数据科学和开放数据运动等形式持续推动了数据新闻的发展。
我们将数据新闻的历史源流概括为两条主要的脉络:
- 第一条是计算驱动的新闻报道,集中体现了社会科学、统计学、计算机科学、数据科学等科学逻辑的影响,以精确新闻和计算机辅助报道为代表;
- 第二条主要的脉络是可视化驱动的新闻报道,主要体现了可视化理论和技术的艺术设计思路。
- 这两条脉络的逻辑交汇点在于通过数据讲故事,即数据叙事。
一、计算驱动的新闻报道
精确新闻与底特律骚乱
社会科学研究方法和统计学方法构成了数据新闻发展的较早的推动力,对数据新闻的影响集中体现在“精确新闻”提出和发展。精确新闻是由菲利普迈耶在20世纪60年代提出的,就是将社会科学的研究方法,比如抽样调查、内容分析、实验等方法引入到新闻报道当中,来实现资料收集、分析和新闻报道的思路。
1967年,美国底特律市爆发了严重的种族暴乱。当时流行的观点认为骚乱的根源在于在美国南部长大的黑人无法融入美国北部的文化。
- 为了验证这一假设,迈耶和他的同事采用随机抽样的方法,对种族暴乱地区的400多位黑人进行问卷调查。
- 迈耶将数据导入电脑进行了统计分析,结果表明南方人骚乱参与率是8%,而北方人的骚乱参与率高达25%,因而参与骚乱的人多数在北方长大,否定了流行的错误观点。
- 根据调查数据的分析结果,迈耶写了一系列的新闻报道,发表于《底特律自由报》,并将这种新闻报道方式称之为“精确新闻”。
- 1968年,迈耶关于底特律骚乱的系列报道赢得了普利策新闻奖。
- 1973年迈耶出版了《精确新闻》一书,奠定了精确新闻从实践到理论的基础。
精确新闻引起媒体的关注的一个重要原因来源于媒体开展民意调查的诉求,以远离对于政客和商业利益的过度依赖。尤其是20世纪80年代之后,媒体不再轻易相信政客给出的民意调查结果。民意调查依赖于科学的抽样理论和统计方法。媒体涉足抽样调查也就意味着新闻学汲取社会科学的研究方法,因而新闻学本身应当是一门科学,寻找事实的能力是新闻记者力量的源泉。精确新闻报道就是科学的新闻学。迈耶认为社会科学的研究方法可以帮助记者“击败经验猜测、无用行为以及过去的随意性的数据收集。科学方法仍然是人类创造出来的一种应对偏见、痴心妄想和感性忽略的好办法。新闻学缺失需要这些方法,现在比以往更需要,因为这些技能在努力保持着新闻的特性,以免成为娱乐和广告的变体。”。
需要指出的是,早期的新闻客观性要求新闻记者和编辑自身远离数据分析,处于一种被动无知的状态,保证新闻的客观性。而精确新闻则要求新闻记者和编辑自身具备研究能力,能够设计抽样调查方案并进行数据分析,因而超越了简单的客观性。理想的客观性被打破推动了新新闻学(new journalism)
在20世纪60年代被提出,“这把记者从客观性的束缚中解放了出来,允许在新闻报道中增加艺术性的内容使其成为讲故事的人”。但是,新新闻学将新闻推向艺术,助长了编造新闻故事的不良风气,因而不是最适合的理论框架,迈耶依然主张采用科学作为新闻学的主要分析框架。
精确新闻的本质是了解如何处理数据。精确新闻对数据处理的流程包括数据收集、数据存储、数据检索、数据分析、数据清洗和最后的传播。这种对于精确新闻的描述方式与现在在数据新闻工作流程惊人的一致。虽然数据新闻的影响遍布全球,影响范围更大,但是数据新闻虽然继承了精确新闻对于社会科学研究方法和数据的高度重视。作为科学的新闻将理解和解释社会事实作为最重要的目标。
计算机辅助报道与菲利普·迈耶新闻奖
与精确新闻类似,计算机辅助报道是另外一个与数据新闻紧密相关的概念,主要是指采用计算机来帮助记者收集和处理信息。从二战之后计算机发明以来,新闻与计算机技术紧密地关联在一起。伴随着20世纪50年代的大型计算机的出现,计算机辅助报道主要用来处理政府数据;20世纪80年代之后,个人计算机开始逐渐普及和计算能力的提高,计算机辅助报道的领域拓展到商业等诸多领域;到而20世纪90年代之后,伴随着互联网的发展和普及,计算机辅助报道开始涉及利用互联网来辅助数据收集和分析。总体而言,计算机辅助报道经历的历史过程更加漫长,体现了新闻对于数字化技术的依赖。事实上,在1973年《精确新闻》一书出版给读者留下的第一印象是对于电脑的使用。
美国计算机辅助报道学会每年都会颁发“菲利普·迈耶新闻奖”。例如,2017年的菲利普·迈耶新闻奖第一名颁发给了《芝加哥论坛报》关于美国药品安全缺口的报道《危险的剂量》(Dangerous Doses);ProPublica揭露破产保护政策中种族差异的报道获得第二名;巴伐利亚广播公司与《明镜周刊》关于德国房地产市场歧视外国人的报道获得第三名。
无论多可靠的处方药,都可能因与其它药物搭配的方式对患者产生致命危险。但是,人们对于多数药物组合所能产生的不良效果并不清楚,是困扰科学家数十年的问题。
- 《芝加哥论坛报》(Chicago Tribune)与哥伦比亚大学医学中心科研人员展开合作。
- 运用大数据技术和复杂的算法分析食品与药物管理局的数据,查出引起心脏病征兆的药物投诉记录。
- 然后,通过药物组合实验来逐一验证哪些药物确实会导致危险反应。
- 此外,论坛报还派出15名记者拿着医生处方前往多个药房,看是否会被告知相关药物组合的潜在风险。
- 伊利诺伊州很快公布了新的安全规定,在全国范围内的大型连锁药店也开始采取措施,这些举措有望挽救无数生命。
- 聚焦于重大问题、将数据挖掘与实验、实地走访相结合是《危险的剂量》这一新闻报道的亮点。
二、可视化驱动的新闻报道
数据可视化是数据新闻的另外一条主要的历史源流。如果说数据驱动的新闻报道的思路体现了科学研究的逻辑的话,可视化驱动的新闻报道则体现了新闻报道对于视觉之美的追求。数据新闻就理论而言依然是一种传播形式,需要关注传播效果的问题,而可视化传播提供了一条理想的道路。视觉传播的首要目的是“作为协助我们的眼睛和大脑发掘现象背后隐藏信息的一种工具”。
数据可视化是一种高效的信息传播方式,可以利用很小的视觉空间实现最小的视线移动和鼠标滚动,并达到展示一组数据的目的。比如,1950年以来的标准普尔500指数(S&P500)、纳斯达克指数、道琼斯工业指数的三组时间序列,其中包含了超过8万个数据点,可以通过一张简单的时间序列图直接展示出来。读者可以轻松地了解股票价格的长期的起落走势、三种指数之间的关联和差异等信息。但如果读者面对一张超过8万个原始数据点的表格,很难直接从整体层面感知数据所传递的信息。
从受众的角度来讲,数据可视化之所以有效,主要归功于人类高效的模式识别和趋势发现的能力。人类这种强大的模式识别能力来源于人类的进化过程。当原始人类看到草丛中的狮子后,可以在几分之一秒内逃跑。一个具有清晰模式的图像往往具有很强的局部特征(locality),比如构成狮子眼睛的像素局部内具有强关联,而构成眼睛部分的像素与狮子身体其它部分或自然环境的像素之间的关联很低。人类的神经网络可以较好地捕捉这种局部特征,实现快速的模式识别。但是人类执行高效视觉搜索的过程通常只能保持几分钟。图形化的符号可将用户注意力引导到重要的目标,高效地传递信息。
南丁格尔玫瑰图与克里米亚战争
一个展现数据可视化传播效果的案例来自于南丁格尔玫瑰图的故事。1853年,奥斯曼帝国与俄国爆发克里米亚战争,次年3月英法两国为援助奥斯曼帝国向俄罗斯宣战。克里米亚战争一直持续到1956年2月,参战人数超过165万,其中90万人死亡。英国军队因为缺乏医护人员、卫生条件恶劣、供给稀缺,伤员死亡率高达42%。弗罗伦斯·南丁格尔(Florence Nightingale 在结束了护理 伦敦霍乱 患者的工作后,于1854年10月21日和38位护士到克里米亚半岛援助。
- 她分析了堆积如山的军事档案,指出在克里米亚战役中,英军死亡的原因是在战场外感染疾病,及在战场上受伤后没有适当的护理而伤重致死,真正死在战场上的人反而不多。
- 她立即给请前线指挥官致函英国政府,改善前线卫生情况,做好食品和药品保障。
- 但因为前线指挥官发给英国政府的文件过于冗长,充满医学术语,一直没有得到批复。
- 南丁格尔决定自己亲自动手,为了让人更容易发现重点,她绘制了著名的“东部军队死亡原因图”(见图7-1)。
- 南丁格尔玫瑰图以饼状图为基础,采用极坐标将图形均分为12份(12个玫瑰花瓣)用来代表12个月,每一个玫瑰花瓣的半径代表总的死亡人数。
- 其中,三种颜色代表三种死亡原因:蓝色代表感染可以预防或者并不严重的疾病,红色代表负伤,黑色代表其它原因。
- 南丁格尔玫瑰图图一目了然地描述了造成士兵死亡的主要原因是本可治愈的疾病。
- 因为南丁格尔的可视化效果非常好,她建议的军队医疗卫生改革很快得到批准。在军队进行卫生改革后,从1955年四月以后非必要死亡大幅下降。
图7-1 东部军队死亡原因图
x1 | x2 | x3 | x4 | y1 | y2 | y3 | y4 |
---|---|---|---|---|---|---|---|
10 | 10 | 10 | 8 | 8.04 | 9.14 | 7.46 | 6.58 |
8 | 8 | 8 | 8 | 6.95 | 8.14 | 6.77 | 5.76 |
13 | 13 | 13 | 8 | 7.58 | 8.74 | 12.74 | 7.71 |
9 | 9 | 9 | 8 | 8.81 | 8.77 | 7.11 | 8.84 |
11 | 11 | 11 | 8 | 8.33 | 9.26 | 7.81 | 8.47 |
14 | 14 | 14 | 8 | 9.96 | 8.1 | 8.84 | 7.04 |
6 | 6 | 6 | 8 | 7.24 | 6.13 | 6.08 | 5.25 |
4 | 4 | 4 | 19 | 4.26 | 3.1 | 5.39 | 12.5 |
12 | 12 | 12 | 8 | 10.84 | 9.13 | 8.15 | 5.56 |
7 | 7 | 7 | 8 | 4.82 | 7.26 | 6.42 | 7.91 |
5 | 5 | 5 | 8 | 5.68 | 4.74 | 5.73 | 6.89 |
表7-1安斯库姆数据
数据可视化对于统计分析而言同样非常重要。安斯库姆数据(Anscombe dataset),又被称之为安斯库姆四重奏(Anscombe’s quartet),通常被用来说明数据可视化对统计分析的重要性。这个数据包含了四个数据,每一个数据都有11个(x, y)数据点,如表7-1所示。我们做简单的统计分析会发现这四组数据中,
- x值的平均数都是9.0,y值的平均数都是7.5,x值的方差都是10.0,y值的方差都是3.75。
- 此外,它们的相关系数都是0.816,线性回归方程都可以表达为y=3+0.5x。
也就是说单从这些统计数字上看来,四组数据所反映出的实际情况非常相近,而事实上,这四组数据有着天壤之别。
使用统计软件可以非常容易地可视化安斯库姆数据。如图7-2所示,安斯库姆A数据中的x和y之间具有较好的线性关系;而B数据中的x和y则具有明显的非线性关系;在C数据中存在一个明显的异常值,剔除这个异常值之后相关系数将会明显低于0.816;最后,D数据则是一个更极端的例子,其异常值导致了平均数、方差、相关度、线性回归线等所有统计量全部发生偏差。
安斯库姆数据仍然经常被用来说明在根据特定类型的关系进行分析之前, 必须以图表形式进行数据可视化的重要性, 以及描述现实数据集的基本统计量(如均值、方差、相关系数、简单线性回归)不足。
图7-2安斯库姆数据可视化
作为视觉传播的可视化建构了受众阅读的文本,这种文本如同其他的传播内容一样,也具有自身的框架;受众作为观察者花费时间来理解图像传达的信息,通过与图像文本互动而产生了对于信息的理解。因为文本本身就已经有了叙事框架,就有可能偏离社会真实情况,因而任何数据可视化都可能是有偏见的。用现代数据可视化先驱爱德华点塔夫特(Edward R. Tufte)的话来说,“毫无疑问一些图像的确会曲解其背后的数据,使得观看的人无法了解真相”。因而,可以评估数据可视化在多大程度上与真实情况存在差别,并计算一个可视化作品的撒谎因子。按照塔夫特的定义,
\[撒谎因子 = 图像中呈现的效果值/数据中的效果值\]例如,某中等城市房价由2015年的5000元每平米增长到2017年10000米每平米,数据中的房价增幅为(10000-5000)/5000 = 100%。假设数据可视化通过图像中的房子高度来表示房价大小,2015年图像中的房子高度为5cm, 2017年房子高度为15cm,那么图像中呈现的增幅为(15-5)/ 5 = 200%。这样一个数据可视化的撒谎因子 = 200%/100% = 2。当数据可视化偏离数据驱动的方向,充满过多的随意性的时候,就很容易违反 “图像诚实”(Graphic integrity 的基本原则。
数据可视化可以分为探索性可视化和解释性可视化。探索性可视化主要应用于数据分析阶段,数据分析研究人员通过可视化手段快速发现数据中的信号、特征、模式、趋势、异常;解释性可视化则主要存在于视觉呈现阶段,传播者采用可视化工具和手段将已经发现的知识传递给公众。优秀的可视化(优图, graphical excellence)致力于使用有限的空间清晰、准确、高效地传播复杂的想法。更进一步,塔夫特提出好的可视化应该做的九个方面的事情:1. 展现数据;2. 引导读者思考数据;3. 避免歪曲数据所表达的内容;4. 使用有限的空间展现尽量多的数字;5. 保持大数据集的一致性;6. 鼓励眼睛比较数据中的不同部分;7. 从整体到精细结构,从多个层面展示数据;8. 服务于一个明确的目的(描述、探索、解释、装饰);9. 数据可视化要结合对于数据的统计描述和文字描述。
拿破仑与1812年俄罗斯战役
数据可视化对于理解复杂的时空结构和变化过程具有重要的作用。查尔斯·约瑟夫·密纳德的可视化作品“拿破仑在1812年俄罗斯战役中的灾难性损失”是一个典型的代表。如图7-3所示,它采用流地图的形式(后来称之为“桑基图”)巧妙地展现了拿破仑在1812年入侵俄罗斯战争中进军和撤退过程中的军队规模,以及他们返回时的温度(零下30度)。 这张图表显示42万2000人与拿破仑一起穿越纳曼河。其中有2万2千人负责在战役初期进攻北方,其中6000人从最初佯中幸存下来。剩下的40万人分兵两路继续前进,一路兵员锐减,只有10万人幸存下来并从莫斯科返回。但这10万人从莫斯科返回的过程中遭遇了持续下降的温度,只有4000人幸存下来;加上佯攻北方幸存的6000人,最后只有1万人安全返回。在有限的空间中,密纳德展示了六个维度的数据:拿破仑军队规模、进军距离、温度、经纬度、进军方向、特定日期所对应的地点。其中,温度和特定日期在地图下方展示,地图和温度之间通过特地的日期连接起来。
图7-3拿破仑1812年在俄罗斯战役中的灾难性损失
伦敦霍乱
采用数据可视化展现空间结构的另外一个经典的例子来自于约翰·斯诺(John Snow)所绘制的伦敦布罗德街霍乱地图。19世纪中叶,伦敦多次爆发霍乱,大量的穷人因此死亡,但人们找不到疫情的源头。
- 其中比较流行的理论是“瘴气致病论”,即认为城市的污水池中的人畜粪便腐烂产生恶臭,经由空气扩散传播被人吸入呼吸系统是造成霍乱的源头。
- 通过研究患者的症状,斯诺发现,大多数患者的第一症状是恶心呕吐,即消化道出现问题。斯诺由此判断霍乱是在饮食被污染的食物或水之后被感染的,即“污水致病论”。
- 1849年8月,斯诺自费出版了一本小册子《论霍乱的传播模式》,提出霍乱是一种由毒素引起的传染性疾病,主要的传播途径就是被这种毒素污染的水。
- 1854年8月,伦敦苏活区的布罗德街再次爆发霍乱,这是伦敦历史上最严重的疫情之一。不到两个星期,就有五百多人死亡,很多人逃离了这个地区。
- 为了证明自己的观点,斯诺跟踪调查了这一次的疫情。他绘制了这次霍乱的地图,在图中标出了13处公共水井和578例霍乱死亡案例的地点。由该地图可以看到霍乱围绕着布罗德街的一个浅水井。斯诺经过走访发现,83%的死者习惯于使用压水井喝布罗德街水井里的水(见图7-4)。
- 同时,斯诺采用显微镜观察了从布罗德街水泵汲取的水样,发现微小的白色絮状凝固例子。但囿于当时的技术条件,并不能确定这就是致病菌。
- 通过进一步调查,斯诺发现有些住户无人死亡。原来这些人都在剑桥街7号的酒馆里打工,酒馆为他们提供免费啤酒喝,因此他们没有喝从水泵抽上来的水。
- 斯诺还发现距布劳得街水泵不远的波兰街济贫院共有530多名贫民,但只有5例霍乱死亡病例,原因就在于济贫院有自己的水井,饮水不需要从水泵中取水。
- 最有说服力的证据来自于一个居住地距离布罗德街很远而孤立的霍乱病例苏珊娜·艾莉(Susannah Eley)。艾莉喜欢喝布罗德街水井中的水,虽然她离开了布罗德街,但依然饮用那里的水。她在喝下8月31日送去水后于9月2日去世。
- 一系列的证据指向公共水井受到污染是造成霍乱爆发的主要原因。
- 根据这些证据,斯诺成功说服当地市政将压水井的手柄卸掉,缓解了疫情。
- 约翰斯诺因此被认为是现代流行病学和公共卫生医学的奠基人之一。
图7-4 采用热力图的方式重新绘制的1854年伦敦霍乱地图
综上,我们介绍了数据新闻的两大理论脉络。需要指出的是这两者之间并非泾渭分明、毫无联系的,比如运用可视化进行数据分析的作品也被称之为统计图(statistical graphics)。密纳德的“拿破仑1812年在俄罗斯战役中的灾难性损失图”、斯诺的“伦敦霍乱地图”和南丁格尔的“东部军队死亡原因图”是统计图的经典案例。在密纳德、斯诺和南丁格尔构思其可视化作品的时候,都借助了统计学的工具和方法。例如密纳德试图捕捉温度下降和兵员锐减之间的相关关系,斯诺和南丁格尔都采用实地走访调查的方法,南丁格尔还分析了大量的医疗档案。
将新闻选题、计算、可视化三者相结合构成了数据新闻的基本工作流程。