三、 制作流程

从数据新闻的生产过程来看,一般由四个步骤组成:

  • 第一步,确定数据新闻选题;
  • 第二步,数据的收集和整理;
  • 第三步,数据的分析和解读;
  • 第四步,数据新闻写作与可视化呈现。

数据新闻生产的核心是数据驱动。这有两方面的原因构成:一、重大新闻选题需要有高质量数据的支撑才能够更好地实现。“巧妇难为无米之炊”,没有数据或者数据缺失某一个关键维度的信息都会导致无法完成该选题;二、有一部分数据新闻(尤其是探索性的数据新闻)的选题是在探索数据的过程中逐步产生的。因此,数据新闻生产过程并非一个简单的线性进行的过程。基于数据新闻的类型差异,所选择的具体制作流程也会有差异。因此,数据新闻生产流程更应当被看成是一种网络,即任意两个步骤之间都存在前馈和反馈的关系。

image

图7-5 数据新闻生产过程

米尔科·劳伦斯将数据驱动的数据新闻生产看作一个数据价值提升的过程,它从数据开始,经过过滤与可视化后,最终形成故事。从数据价值的角度来看,

  • 原始数据杂乱无章,很少有读者会愿意逐条读取每一项干巴巴的原始数据(data);
  • 经过清洗(过滤)(filter)之后的数据,虽然变得有序,但仍停留在了表象层面;
  • 经过可视化(visualize)的处理,读者可以简单了解到数据背后的模式和不同影响因素之间的关联,可是依然无法明白整个故事的前因后果;
  • 只有到最后成文的数据可视化报道(story)才能最大化数据的价值,使读者最终了解事实背后的机制。经过这一过程,数据对公众的价值提升。

英国记者保罗·布拉德肖(Paul Bradshaw)在其博客中依照传统的新闻叙事结构“倒金字塔”提出了数据新闻的架构

  • 第一,数据新闻的生产是一个倒金字塔,从汇编(compile)问题和数据开始,然后进入到清理数据(clean)开始,同时需要理解社会情境(context),最终组合成文(combine)。
  • 第二,数据新闻的传播(communicate)过程是读者阅览数据可视化报道时的正金字塔结构,这是读者获取到数据新闻价值的过程,这和劳伦斯总结的数据新闻生产环节对公众的价值提升的过程是一致的。
    • 数据新闻通过在社会中的传播来影响社会政策和个体决策。布拉德肖强调了数据新闻在传播过程中的基本机制,尤其是可视化对于启动传播过程的价值。数据通过可视化(visualize)形成的新闻叙事(narrate)后,在各个平台发布实现社交化(socialize),这体现了人性化(humanize)需求,之后按照读者个人(personalise)的兴趣和需求加以应用(utilize)。
    • 制约数据新闻扩散过程的可视化、叙事、社交化、人性化、个性化和应用化值得在数据新闻生产过程中就受到更多重视。

布拉德肖认为数据新闻生产开始于一个汇编问题和数据的过程,即一个数据新闻选题往往具有一个新闻选题,需要一个数据来支撑其想法,或者从一个数据出发,需要找到其中值得分析的问题。

只有将新闻选题和数据“汇编”到一起,才能具备完成数据新闻产品的基本条件。

英国《卫报》“数据博客”前主编西蒙·罗杰斯则更加强调开放数据在数据新闻生产过程中的作用,他认为数据新闻工作流程分为四步:分享数据、清洗数据、分析数据、呈现数据。

  • 首先,从突发新闻报道、政府数据、记者的调查等各种途径获取数据;
  • 然后,开始研究可以用这些数据做些什么,尤其是否需要增加新的数据,如何更好地展现变化;
  • 之后,需要认真清理这些数据;
  • 接着,就可以对数据进行计算,看看是否存在一个故事在里面,并且反复检查可能存在的为问题;
  • 最后是输出,比如分享原始数据、讲一个故事、做一个可视化。“数据博客”所报道的很多数据新闻作品都提供原始数据。

对于数据可视化为主的数据新闻生产而言,会更加强调可视化的设计过程。例如,信息图的设计同样由设计师、编辑、数据分析师三方协同完成,共分为十步。第一步,由编辑和设计师一起选择一个主题;第二步,由编辑开展调查和研究;第三步,由编辑和设计师一起搜集数据;第四步,由编辑、设计师和数据分析师一起分析数据;第五步,由三方一起选择表现形式;第六步,由设计师绘制创意草图;第七步,由三方一起修改编辑;第八步,由设计师完成设计;第九步,由三方进行检查;第十步,最终完成。

image

图7-6 信息图设计过程

汉斯·罗斯林和的Gapminder

接下来我们来介绍一些案例,帮助我们理解数据新闻的制作过程。第一个案例来自于汉斯·罗斯林(Hans Rosling)和他所创建的Gapminder。

  • 选题:在过去的六七十年里,我们所身处的世界已经发生巨大的变化,但我们对于世界的理解依然停留在西方国家(发达国家)和第三世界(发展中国家)的二元对立的划分方法。
  • 数据:罗斯林从世界银行、联合国等众多来源系统地收集了全世界各个国家的数据,他感兴趣的是一些衡量国家发展水平的变量,例如生育数量和人均寿命的关系。更重要的是,他希望可以引入时间作为新的维度,衡量国家发展水平随着时间的变化。
  • 采用Gapminder软件,罗斯林非常生动且有说服力地说明了世界的发展变化。
  • 此外,罗斯林还是一个非常优秀的传播者,从2006年到2014年9年间,他在TED做了十次演讲,取得了前所未有的成功。
  • 更重要的是,他将所收集的丰富的国家数据和Gapminder软件在Gapminder网站上对公众开放,感兴趣的同学可以下载这些数据和Gapminder软件的线下版本练习。

在十九世纪初,全世界各个国家之间的发展水平差距并不大(见图7-7)。比如在1800年,日本的生育数量略大于4,英国为5,中国为5.5,美国为7。。伴随着现代化的发展,在1960年代,世界基本上可以划分为两个阵营。与第三世界国家相比,西方国家的确在人口寿命上更长,剩余数量更少(见图7-8),例如日本的生育数量下降到2,英国下降到2.6,美国下降到3.7,日本、英国和美国的人均寿命在70岁左右;但在过去的60多年里,第三世界国家开始向西方国家的方向移动,生育数量大幅度降低,人均寿命大幅度提高,形成了一个连续变化的谱系(见图7-7),例如,此时中国的生育数量已经接近1,人均寿命超过75岁。罗斯林从一个让自己感到困惑的数据出发,系统地收集数据,采用创新的动态可视化方法,讲述了数据背后的国家发展的故事。

image

图7-7 世界各国女性生育数量与人均寿命(1800年)

image

图7-8 世界各国女性生育数量与人均寿命(1960年)

image

图7-9 世界各国女性生育数量与人均寿命(2015年)

ProPublica和“金钱医生”项目

另外一个例子来自于美国数据新闻调查网站ProPublica所做的题为“金钱医生”(Dollar for Docs)的数据新闻产品。

image

图7-10 ProPublica建立的“金钱医生”数据库(2013-2015)

  • ProPublica定位关注有关公众利益的重要社会问题,因而其数据新闻选题具有重要的意义;
  • 自2009年以来, 17家制药公司及其附属机构披露了 ProPublica 的 Docs 美元数据库, 其中包含了大约40亿美元给医生、其他医疗服务提供商和医疗保健机构。
  • 2009年至2012年的数据由 ProPublica 收集,2013年的大部分数据是由 Obsidian HDS 公司提供。
    • 2009年至2012年早期的数据是由17家医药公司在各自的网站上发布的。因为数据的格式不统一,往往也不提供开放下载。
    • ProPublica被迫采用计算机编程的方法抓取这些数据。例如,通过编写计算机程序,ProPublica从辉瑞制药公司网页下载了4800多条记录。
  • ProPublica使用这些数据建立了一个数据库,用户可以输入医生的姓名进行查询,每个人都可以查询自己的医生是否收受来自制药公司的贿赂,因而其选题具有很高的贴近性。
  • ProPublica的报道产生了深远的社会影响,发表了大量的新闻报道,推动了《医生付费阳光法案》(The Physician Payment Sunshine Act)的出台。

Open Payments is a national disclosure program that promotes a more transparent and accountable health care system. Open Payments houses a publicly accessible database of payments that reporting entities, including drug and medical device companies, make to covered recipients like physicians.

Datasets Downloads

image

https://openpaymentsdata.cms.gov/search

根据《医生付费阳光法案》,制药和医疗设备公司公开支付医生10美元以上的信息将在政府网站上公布; 第一份报告将涵盖2013年8月至12月期间。

  • 得益于该法案,2016年,ProPublica更新了Dollar for Docs的数据,使之涵盖了从2013年8月到2015年12月两年多的时间,涉及1866家医疗行业的公司、近625亿美元、超过80万名医生和1171家医院。
  • 数据显示,2013至2015年,医疗公司每年向618,000名医生支付大约20亿美元的总支出, 此外还有每年6亿美元用于教学医院。
    • 一般付款包括促销演讲、咨询、餐饮、旅游、礼品和版税, 但不包括研究费用。
  • 从2014年到2015年, 收到付款的特定医生发生了很大的变化;
    • 在2015年收到付款的医生中有四分之一在2014年没有收到付款, 反之亦然。
  • 从医药公司获得报酬的医生往往比那些没有收到贿赂的医生开出更多的品牌药物
  • 上千家医药公司的贿赂数据来自于美国医疗保险和医疗补助服务中心的“开放支付数据”。其中2016年的数据已经更新,感兴趣的同学可以下载该数据并进行分析。在较早的版本中,ProPublica也曾报道过关于17家医药公司付款情况的调查。虽然这些公司的市场份额超过50%,但是这些数据可能并不能完全代表整个行业。
  • 通过早期报道制药公司和医疗器械公司为医生支付的资金的情况,ProPublica推动了整个行业的透明化,并反过来是的进一步的数据新闻报道更加系统和全面。

《卫报》和伦敦骚乱报道

最后,我们来看一下英国《卫报》关于伦敦骚乱的数据新闻报道。

  • 2011年的伦敦骚乱开始于8月4日,伦敦北部托特纳姆区29岁的黑人男青年马克达根因非法持有枪械被警察击毙。他的家人于8月6日举行和平抗议,要求警方公布案情详细信息。后来,和平抗议演变为持续五天时间的骚乱,在10个警察辖区内发生了超过5000件与骚乱相关的犯罪事件,共有1984人被审讯。
  • 然而,人们对于引起骚乱的根本的社会原因并不清楚。首相大卫卡梅伦和保守政客认为政客认为劫掠者都是惯犯,与贫困无关,他们转而责备社交媒体是引起骚乱的渊薮,因为参与骚乱者有可能通过社交媒体组织活动,因而建议暂时关闭社交媒体。对于导致骚乱的原因一直没有定论。
  • 为了更好地解读骚乱,《卫报》与伦敦政治经济学院合作,采用定性研究与定量分析相结合的方式,了解人们对于骚乱的看法和背后的动机。
    • 第一个阶段,共采访了270名承认参加过骚乱的人,分析了推特上257万条关于伦敦骚乱的信息;
    • 第二个阶段,采访了130名警察、40名骚乱受害者、75名律师和皇家检察署工作人员。
  • 参与骚乱者将导致骚乱的原因归因为贫穷(86%)、警察暴行(85%)、政府政策(80%)等原因;而《卫报》ICM调查的一般受众认为犯罪(86%)、家教缺失(86%)、道德水准下降(82%),形成鲜明对比。
    • 这进一步说明社会对于骚乱的认识并不同意,有可能存在严重的偏见。
    • 与政客的意见相反,数据表明贫穷是导致骚乱的重要原因。内政部的数据表明法庭上的被告大多来自贫穷的群体。其中35%的成年人在申请失业救济,42%的年轻人在学校享用免费伙食。将参与骚乱者的居住地与多重社会剥夺指数在地图上相互叠加,进一步证实参与骚乱者多来自于贫困地区。
    • 就教育程度而言,参与骚乱者的教育程度不高,获得大学学位的人很少,其中44%的还在上学。
    • 居住地和骚乱地点具有一段距离,因而多为“流窜”作案。
    • 63%的人有前科(受到过警告或惩罚),超过70%的人被逮捕过。这与司法部的数据一致。
      • 因而,骚乱参与者确为“有前科的社会底层”

种族问题再一次成为媒体关注的热点。司法部记录的因骚乱出庭的被告人中黑人占43%,亚裔为7%,白人为33%,基本与人口中的种族比例一致。其中,曼彻斯特等地的骚乱参与者主要是白人。因而没有理由种族是主要的原因。

针对推特上关于伦敦骚乱的分析发现谣言具有一个完整的生成、扩散、消亡的过程,社交媒体具有一定的自我澄清机制,随着时间演化谣言很快湮灭。另一方面,反对骚乱者也通过社交媒体组织清扫街道行动。

results matching ""

    No results matching ""