对谈|董晨宇X方洁X葛书润X邓海滢X惠一蘅:如何让数据成为方法
北京青年报客户端 2023-08-04 10:00

伴随着算法、统计和大数据技术的发展,我们已经进入了利用数据进行交往和沟通的年代。美国地理学者马克·蒙莫尼尔早在20世纪末就断言,“任何受过教育的成年人都不仅仅要具备良好的读写能力和表达能力,还要具备合格的计算能力和图形能力”。“数据叙事”的研究已成为方兴未艾的蓝海。

中国人民大学新闻学院新闻系官方订阅号“RUC新闻坊”,同时也是由人大新闻系运营的新闻采写编评及摄影业务教学与实践平台,他们通过不断借助数据可视化的力量拆解热点话题,引发公众思考,产生了多篇爆款新闻稿件。《把数据作为方法:数据叙事的理论与实践》正是基于对“RUC新闻坊”的田野调查的观察笔记。

4月12日,中国人民大学新闻学院讲师董晨宇,对话国内从事数据新闻研究的学者、中国人民大学新闻学院副教授方洁,及来自RUC新闻坊主创团队代表葛书润、邓海滢、惠一蘅,围绕新书《把数据作为方法》,生动讲解了如何让数据成为方法。以下是这场活动的文字记录。

董晨宇:今天我坐在这里,有了一个全新的身份。首先我是这本书作者方洁老师的学生,第二个身份是这本书其他几位作者的老师,第三个身份就是这本《把数据作为方法》以及RUC新闻坊的读者,以这三个身份为基础,今天我来打开自己的第四个身份,就是这个活动的主持。在活动之前我就在想,一个对数据新闻尚未入门的新手,所关心的问题有哪些?我想以此来串联起今天我们所要谈论的问题。读新闻的学子都知道一本书叫《看见》,那本书让我们感觉新闻是热血的、理想主义的职业。但是谈到数据新闻,大家可能比较陌生。在没有数据新闻的时候,数据是SPSS、Python、R语言,看上去和热血毫无关系。各位怎么看待数据的“冰冷”和新闻“关怀”之间的兼容性?

方洁:其实我在《把数据作为方法》这本书的序言部分对这个问题做了回答:我们以往对数据的很多看法实际上是带着刻板印象的,我认为“数据是冰冷的”这种拟人化的说法不很准确。应该说,当你面对数据却缺乏处理的能力、不会把数据作为方法的时候,你会觉得它好像和你很有距离感,就是一堆没有生命的符号,是“冰冷的”。从另一个角度来讲,也可能是因为我们有的时候习惯于把理性和感性做人为的分割,觉得这个东西是理性的就不应该是感性的。就像很多互联网上的讨论一样,如果理性地去讨论就会被冠以“理中客”的帽子,就可能被批判。但实际上很多好的研究、好的新闻作品都是兼具理性和感性的。所以数据本身可能不分“冷”“热”,更主要的还是看我们怎么去用它。

邓海滢:从工作者的角度来看的话,在挖掘数据新闻的过程中,理性和感性也不是截然分开的。从具体实践上来说,做数据新闻也是需要做传统新闻那样的信念和劲头的。像 GIJN(全球深度报道网)很早就已经把数据调查作为调查报道的一种手法,那调查报道应该是大家认知里最热血的新闻了。像我自己每一次做数据新闻,尤其是数据非常难找的时候,要跟数据“搏斗”并获得答案的时候,我都感到热血沸腾。从这个角度说,我也不觉得数据就是冰冷的,因为你挖掘数据并寻求真相的过程充满挑战,也充满热血。

董晨宇:做一个设想,假如我加入到你们编辑部了,坐在你们中间,我想提一个选题,第一步肯定是要先想想咱们写点什么。那么你们如何判断一个数据新闻选题是否有价值?或者说,什么样的问题才可以被称为或被你们理解为“真问题”?

方洁:从选题的角度来讲的话,我会认为具有这样的几种特质,可能才算提出了一个真问题:首先,是跟公共利益密切相关的问题,它不只是你个人感兴趣或者很少数人感兴趣的问题,而是对更广泛的公众来说有价值的话题。第二,它应该是一些悬而未决的问题,而公众非常想要了解它背后到底有什么未解之谜,你可以帮助他去解答困惑,这也是一个很好的选题。第三,这个选题很可能是主流的舆论场比较忽视的问题,比如说我们之前做的老年人看电视的选题,虽然也有一些媒体做了一些报道,但是它总体上还是被大家所忽视的一个比较严重的问题。包括我们写降价卫生巾,有好多读者看过之后就说,他们从来没有意识到卫生巾原来那么贵,现在才有这种特别切身的感受。这种发掘出来的被忽视的问题,也是真问题。第四,有可能公众对某件事有刻板印象或认知偏见,比如说日常生活中对于性别的某些认知,通过你的选题能破除偏见,我觉得也是真问题。这几类的选题是我自己会比较看重的。

葛书润:其实我们编辑部有一个大群,大群里每天都滚动着各种各样的链接,然后就像快男快女“海选”一样,大家看到什么觉得有意思的都会往里面发。如果有个人觉得我们可以去做一个东西,大家就会就此讨论几句。董老师问的是怎么去找数据新闻,而不是说怎么去找新闻的选题,我们很大的一个局限就是人都在校园内,我们又都是学生,很多新闻现场我们是到不了的,所以在找选题的过程中,我们会注重某个故事是不是特别适合用数据去讲述。但我们也不把自己完全定义成数据新闻媒体,有价值的东西我们都会尝试去报道,比如说我们之前做过的女生在一个毕业求职的群里直接去怼“HR”,说为什么你在这里明确写只招男生不招女生,这个事件其实是更适合用文字的特稿去讲一个完整的故事的,所以我们也没有强行去加一些数据和可视化的元素。我们一直在避免滥用数据和可视化的方法,它们的使用一定要服务我们想表达的最核心的内容。

董晨宇:所以说任何一个方法,我们知道它能用在哪儿和不能用在哪儿可能是同样重要的。任何一个方法如果是“放之四海皆准”的,那这种方法本身的价值就是有疑问的。在你们的实践经历中,有哪些最打动你们自己的数据新闻?

惠一蘅:我想是绘本那一期。在那一期我们提出的问题是:在儿童绘本中,中外都是如何展现性别观念的?由于问题是围绕着绘本中的性别观念,它一定是需要一定的量作为基础的。如果我们想要展现一个类别中的一种观念性的东西,我们就需要分析,在一个比较大的量级中,这种观念是如何展现的,从而才能归纳出一个趋势。需要搜集几千个样本,才可以推断一些结论。这个事情我个人印象非常深刻。

董晨宇:虽然我们都生活在大数据的时代,但是数据的质量其实是参差不齐的,甚至可以说它的真伪本身是这个时代的一种困境。在找数据的时候,怎么判断数据的真伪?对这件事情你们是怎么思考的?

邓海滢:我自己觉得最重要的其实是要对你的数据源有一些清晰的认知,就是什么是好的数据源,哪些是可信的,我们也有很多标准,比如说官方的数据,比如说第一手数据。如果你看到的是转了好多手的研究报告,你当然要去找最初是哪里出来的,因为只有你见到最初的,你才可以去评判这个数据质量到底是怎么样的。当然找数据源还有一个很重要的环节就是核查,最后呈现给读者的一定要经过“把关”。我们也一直在强调做完这个数据之后,首先你得自己去看看它会不会有什么小毛病,会不会不自洽。最简单的,有没有在Excel里加错了,或者说有没有处理好一些“脏”数据,通过内部的检验是可以看出问题的。

还有,在核查数据的时候还是要再去看一眼你最原始的数据,因为人毕竟不是人工智能,有时候打个瞌睡可能就写错小数点了,或者搬运的时候有一些系统操作失误,而且到最后一刻还是要不断地问自己,我挑的数据源是不是真的能过关。总之我觉得,有一套对于数据质量的标准的认知,以及有一套操作核查的规则规范,能够在比较大的程度上去避免数据出现问题。

董晨宇:说到这里,我再想问一个比较具有挑战性的问题:数据是客观的,我们找到数据,用数据说话,这事听起来就特科学。但是因为我是做质化研究的,基本不用数据,做质化研究的人都会喜欢挑量化的毛病:别看你那数据是客观的,但你的解读是主观的。我想问,你们会不会预设立场?有没有可能某一个案例当中,你们的立场和你们找到的数据正好相反?

葛书润:其实做数据新闻和做任何的特稿都一样,你从选题开始,到你去找谁聊、怎么聊,到找什么数据,再到怎么操作,其实都是受到你思维的惯性、知识水平、情感倾向的影响,肯定有预设的立场,这个是根本没有办法回避的。怎么样尽可能地避免这些给我们打的底,不去影响新闻的真实性,首先还是要做大量的前期工作。《把数据作为方法》里讲了,我们每次在做内容之前,都会有像类似写论文的综述的过程,会广泛阅读与话题相关的研究、网友发言、舆论场上的各种发言,甚至还有一些视频弹幕……把这些综合在一起形成自己的判断。至于说得到的数据给的结论和我们一开始想的假设是冲突的怎么办,其实我觉得这反而是很好的事情,一方面就是事实是在挑战你的认知,说明你的假设不成立,那不成立就有不成立的写法。我觉得如果做一个数据内容的作品,从头到尾都是非常丝滑的,这个故事一下子就讲得非常的圆满了,反而可能是一件危险的事情,因为你也许完全根据自己预设的立场去选择了你的方法,然后整个做下来就觉得我自圆其说,但有可能它就是没有拓展你的认知,也没有拓展读者的认知。

董晨宇:最终呈现相反的研究,在实践中也是一种好事儿。因为会受到我们常说的“common sense”的影响,因为我的预设是这样。有一本讲研究方法的书说,研究者最忌讳的事就是“装模作样做研究”,比如说对中国某日报和印度时报在中印边境冲突上的这个问题的报道框架做研究,最后非常骄傲地宣布,我的发现是中国的某日报是向着中国说话,印度时报向着印度说话。这个东西它不太值得去研究,或者至少它的问题是成疑的。但如果我们发现了跟我们预设相反的结论或颠覆我们认知的结论,不管是对我们还是对读者来讲,可能都会有更大的收获。在数据的处理当中,你不得不面对一个现实:我想知道的事和我掌握的数据并不一定完全能够对得上。我们不能任性地要求这个世界,想知道的数据都自动过来。数据可能是不完美的,我的分析方式也可能是不完美的,在这个情况下我们怎么去处理报道?

方洁:这个是很常见的一个问题。在操作的时候,有的时候同学会反馈说我找不到特别能够证实我这个话题的数据,我就会跟他说,如果你找不到特别直接来证实它的,你可以“曲径通幽”,去找到换一个角度来证实它的,就是你不要永远想着必须所有的大路都是非常通畅的。你不能够用这个来解释,那你可能可以用另一个数据来解释它、诠释它。

这个时候你可能要发挥一些对数据的想象力,然后就像前面刚才已经说过,其实数据它本身并不代表它就一定是客观的,它就一定是真实的,因为它跟信息实际上是一样的,就是在我看来,我们做数据新闻的人和做所有的新闻的人都应该有一个最基本的认知,就是对于你所要接触的这些材料,要有一种批判性的思考,要学会质疑它是吧?然后你也要知道你所拿到的数据也好,或者你使用的方法也好,其实都是在有限的空间里面去使用的。

比如说我记得有一个读者问我们,如何用数据新闻的方式去表达微观经济模型。其实这个问题就还挺有意思的,因为经济模型它也是抽象的、有预设条件的,比如说在经济学看来,所有的人都是理性的,所以会有一个最优化的假设在前头,还会有其他条件不变的那种假设,在使用数据的时候很多都是静态的,在静态的环境下你可以去解释它,但是当把它放到动态的现实中,它到底有没有那样的解释力,其实是打问号的。所以我觉得我们在操作的过程中,只能说尽可能的去追求它的真实性和它的解释力,尽可能的接近于真实。

然后我觉得还有一点非常重要,那就是要增加它的透明性。就是你需要去告诉你的读者,你这个东西有可能在某些方面是诠释力不足的。就像我们书上所说的,我们做印度的德尔塔病毒传播报道,当时受感染的网民上Twitter求助的时候,其实我们就意识到我们的数据源它是有偏差的,因为在印度的网民中不是所有人都会用英文的,而且也不是所有人都会去发推特,所以在某种角度上,它不能够代表整个印度的网民。但是换一句话说,它能够代表受教育文化程度相对比较高一些,然后甚至可能是在社会中处于中上层的网民。这样的话,如果他们已经陷入一个非常困苦的境地的话,那么其实反过来也可以证明底层的人可能生活在更加水深火热的境况之下。所以在我们使用这个数据的时候,我也提醒编辑一定要跟读者解释这一点。它在使用的过程中是有限的,我觉得这个是它的透明性的一个体现。

然后还有一点,我觉得现在的新媒体做报道,你要有一种思维,不是这个作品做完发布出来就结束了,而是这个作品做完以后有可能才是它的开始。

因为你发布出去以后,你要接受各种各样的质询,比如说我们之前发的蜜雪冰城指数的那篇,其实有很多读者会跟我们说,这里面用这种统计方法是不是合理,用那种统计方法是不是更好,而我觉得这个本身是一个很有意思的过程,你可以敞开来就是听他们的意见,质疑也好,或者说提出一些改进的意见也好,我觉得如果说我们能够敞开来,然后让他们甚至在下面形成一个自己的这种讨论,在这种讨论中可能形成一种更好的对于这个现象的认知,我觉得这本身也是有价值的。所以从我的角度来讲,我会认为我不是每个作品肯定它就是完美的,它可能是一个在不断的更新过程中要不断地改进的。

董晨宇:就像我们做研究的时候也没有一个完美的研究数据等着我们,我也想做一个大学生的普查,但最后我的大学生样本就是在群里领我红包的那几个人是吧?所以这个肯定是有偏差的。这时候在论文中经常我们会有一部分叫做limitation即研究局限,其实在新闻中也是这样,论文中有研究局限,为的是透明公开可复制,别人想做的时候能把我的局限给补上,能不能做得更好。在数据新闻中方老师解释的其实是同样一个道理,保持透明,承认我们的不足,但是我们要在数据不足的情况下,通过我们的逻辑推演去获得结论,比如您刚才说的逻辑推演,我觉得非常精彩,我们只有互联网的用户,他们是什么人?教育程度高,会说英语还能上推特。这样一群人,连他们都过得不好,那底下的人,按照流行病的一个历史来讲,可能教育程度和疾病其实是呈反向关系的,教育程度越高,他可能疾病的伤害越小,可以推演出来底层的感染有多么厉害,我觉得这是一个我自己也学到非常多的一个地方。

但是再往下走的话,就可能有另外一个担心了。十几年前,时代华纳把它自己的一些大数据公开给了研究者。有一个《纽约时报》的记者做了个事儿,他从这些数据中发现了一个IP地址在美国利尔本地区的一位寡妇爱喝茶叶,然后他就用了这样几个标签找出了这个人是谁,而利尔本的这位阿姨就直接把时代华纳告上了法庭,时代华纳当时负责数据这一块的人就因此辞职了。这是很早期的一个案例了,它说明了数据是一把双刃剑,其中一边就是隐私问题。那么在数据新闻实践中,应用数据过程中伦理的挑战,你们会怎么考虑?

方洁:我先来回应一下,因为这刚好是一个我最近在研究的问题。RUC新闻坊是比较少用商业机构提供的数据的,因为我们是属于学校的公立的机构,也没有人来找我们做商业合作,所以我们不太需要去担忧类似商业性和公共性的平衡之类的问题。我们用的数据几乎全是互联网上或者说相关机构已经公开的数据,因此我们对于这种隐私的忧虑会相对少一些。

在我们的实践中可能会遭遇到两类需要小心的隐私问题,一个就是在互联网上的一些舆情数据。比如说我们去写某个疾病,可能这个疾病在互联网上它有自己的贴吧或社区,在里面大家在畅所欲言,你如果想在这里搜集数据,使用的时候要稍微谨慎一些,比如应该尽量避免对个体数据的呈现,而应该着重去呈现整体的、结构化分析的结果,这样人们就不会去对应地找到病患具体的个人。另一个,我们有的时候也会去找一些个体数据,比如说刚才我们谈到“老年人看电视”,其实我们有走到线下去做调查,会用到某位老年人具体的数据。就像这样的个体数据,在用它的时候你可能要注意一点:要做数据脱敏。比如说隐去一些可能会联系到某个具体人的不必要线索,或者是做一些匿名处理,或者是把数据的颗粒度粗化。我记得一个比较典型的例子,当时“澎湃美数课”做上海人民广场相亲角的数据可视化作品,就把颗粒度给粗化了,以防相关的人被找到。你比如说“中国人民大学某未婚副教授”,可能就比较容易就找到,“某985高校教师”可能就不会那么容易找到,这就是数据脱敏的一些方式。

惠一蘅:我比较同意方老师说的,因为我们不存在和商业机构在大数据方面的合作,所以我们平时遇到的关于数据隐私公开的问题,基本还是在做传统新闻的时候也可能会遇到的,比如说要用化名、要把一些信息隐去。RUC新闻坊对于数据隐私的反思挺多的,关于信息公开和隐私方面,本身就是我们的一类选题,就像我们之前做的《勿知我姓名:流调信息公开的边界》,我们对于隐私问题还是比较有意识的。我印象比较深的是在流调信息公开的非常频繁的那段时间,我们每天都会去梳理各个省市公开的流调数据做结构化。我们对这些数据做二次处理的过程中,会特别的注意这个信息公开的程度,有些还要进行再加工,让它们在制作成稿件的时候更模糊一些。这些确实是必须要做的事情。

董晨宇:这确实是我们必须要做的事情。无论是访谈还是研究,我们都讲究一个知情同意,我的被访者知情同意的,但是在互联网上很难做到,你不可能在贴吧里面让贴吧吧主领头大家签个字我们再来收数据。所以粗颗粒就是非常重要的一点,在研究实践中,研究对象跟我们说了一句话,我们会在不改变他原意的基础上改变一些细节,比如他是湖南人,我们就不给他说成比如湖南某一个地方的人,我们可以说成另外一个地方的人。

我们前面交流了这么多话题,然后继续再往下,我们如何在数据的基础上获得洞见?怎么来得到我们的一个结论?这种跨越是怎么做到的?

方洁:洞见这个词在我看来它是一个很商业化的词汇,我经常看到商业公司会有什么愿景、洞见这种特别大的词,让你“不明觉厉”。我认为做一个好的数据新闻,跟做一项好的研究其实是一样的。刚才我们几个小伙伴都谈到我们去做一个选题的时候,要去做预调研,要去看看别人有没有做过,这些思路跟做研究一样,我们也要去写明我们的作品存在的局限性。我始终认为内容生产者的社会角色是应该为社会生产更多优质的东西,而不是提供更多重复劳动的东西,我还是希望通过我们自己的哪怕是一点点的创新,能够让所谓的信息爆炸的时代里面,有更多就是值得你去停下来看一看的这样的东西。从这个思路出发的话,我觉得我们做每个作品的时候,我们要是都想象去做一个相对比较严谨的研究的话,其实它就会存在一些问题。

比如说我要去能够提出一个有价值的真问题是吧?然后我要去收集数据去论证我的研究假设,然后通过这样的一种严谨的方式,我们可以得出来一些洞见,就是在我看来它其实跟搞研究是一样的,只不过我在做一个通俗化的这样的一个研究工作,而我得出的洞见可能在深度上,无法跟学术研究或者说理论研究去相比的,但是我觉得这个洞见它也是有价值的,因为它从公共传播的角度来讲,它与公众的距离更接近,它更容易被理解,而且它更容易去服务于公众,然后也可以在很深的洞见和公众中间建立一个沟通的桥梁,就是我通过这些浅的洞见去把深的洞见给挖出来,然后你越过这个桥,它就可以走到一个更广阔的天地里去,这是我的看法。

葛书润:因为我们做出一个数据内容,它是非常快的一个东西,跟学术研究这样很长的时间跨度肯定是不一样的,一个东西差不多一周内就得搞出来。其实你要直接说从数据里面得到洞见,上升到某个高度,我觉得是不可能的。我觉得我们所做的工作就是广泛的关联,如果从数据中看到了某种趋势,或者看到了以前大家没有看到的一些新的东西的话,就要去和过去已有的发现,比如旧的新闻报道、学术研究、经典的理论之类的,去进行更广泛的关联。

董晨宇:这个关联其实很体现水平,这考验一个人的阅读量,考验一个人的准备的充分程度。我刚才说洞见,方老师觉得这词太商业了,我们换一个词就是把数据变成知识,这样就学术派一些了。当把数据换成知识的时候,其实很多人都很在乎,一说到这个数据新闻把数据变成知识,马上大家想到一个词就是信息图,叫infographic是吧?

最近几年infographic也成为了英文很多研究的热点话题,尤其是在美国,他们很在乎什么政治选举这种inforgraphic对于选民的一些态度。我问一个接地气的有关infographic的问题,这个东西怎么做好看?做好看会不会牺牲它的精确和连贯?

惠一蘅:在我的经验里,“好看”是可以靠一些美学的共识和审美的训练来做到的。说得更直接一点,如果会画画,会做平面设计的话,对信息图美学效果的提升是非常直接的。董老师问的怎么去平衡信息的逻辑性和美感之间的关系,从我个人学习的路径来看,信息在一张图表上的逻辑和连贯,主要有三个方面:第一,它需要有一个明显的框架。在我们学习数据可视化的课堂上,老师就给我们布置了一个作业,给了我们一张成品的信息图,让我们去用矩形框画Structure。我们在《把数据作为方法》的第十四章做了一个示例,可以很明显地能看出来这种成品的很美的信息图中,可以用矩形来把一个信息的块给框起来的。它会组成一张信息图基础的秩序感。第二,我们看一些产品信息图,会发现信息的主和次表现得特别明显。我当时数据新闻课的结课作业做的是一个跟退耕还林相关的作品,我就是用了这样的实用性技巧,中间画了一个大的树,四周围绕着一些小的信息来构图,不但可以很好地去利用空间,还在视觉上制造了明显的秩序感和主次感。除了这两点之外,第三个我觉得比较重要的是用明显的视觉元素去创造脉络感。

比如下面这张图,它的滑板的轨道,我们的视觉就可以很好地从轨道的最高点最初点往右去滑行,在上面可以看到很多零碎的信息,它也会用牵引线以及序号来标注出来。

包括下面猴子这一张下面的那种流程图一样的图片,把信息用一个很好的脉络给串联起来了。所以说到这里可能大家会发现,美感似乎就在这种信息的秩序中很自然地形成了,因为在去努力达成信息连贯性的过程,就是一个基础的构图过程。构图对一张信息Info graphic来说是最重要的东西。那么美感的达成,就可以利用我们的审美力,利用我们的绘画技巧在上面不断叠加。

大家如果去看一些信息可视化的教材,那些作者都会给出自己最初的手绘草图,以及他们下一步在电脑上制作的电子版的草图,最后他们会把一点点变得精致的过程体现出来,所以我还是挺建议想学可视化的同学,大家可以去学一学画画和平面设计的相关知识,其实在新闻坊里面经常做可视化的同学,一般都是会画画的。

总结一下就是三点:第一个是注意信息的块状结构,第二个是主次分明,第三个就是用视觉元素来创造信息的秩序感。主要是这三点。我们的书里第十四章也写了更多的关于信息图的内容,大家有兴趣可以去参考。

董晨宇:刚才方老师说完之后,让我觉得我也能做,因为我觉得这个东西跟做研究其实很像。但是你说完之后我觉得我做不了,我审美就很差,也不会画画。大家如果也跟我一样,应该怎么办呢?

惠一蘅:我们所有人都是从零开始的。我建议大家,第一个是要去注入理性的知识,第二个就是去感性地感受。我在大三刚上数据新闻课的时候,课余时间经常去看画展,去学那些画的构图,带着目的去看,后来慢慢的有了感觉,这个跟绘画的兴趣是相辅相成的。我本来就挺喜欢画画的,入了数据可视化的“坑”之后,就更觉得画画真不错,所以就关注了很多相关的东西。大家可以慢慢地培养,只要有兴趣就好。

董晨宇:刚才我们展示了一些国外的作品,我能不能首先这样做一个判断,我们国内的数据新闻的起步比国外晚,是这样的吗?

方洁:从时间的角度来讲的话,是要晚几年的。

董晨宇:有人问中外数据新闻的差异到底有多大?我不太确定他想表达的是“差异”还是“差距”,因为这是两个事。方老师是怎么看的?

方:我出去讲课的时候也会有人有这种疑问。我首先觉得你要从具体的时间的角度维度来看的话,的确它是一个舶来品,在国外的话,数据新闻可能是在2000年开始就兴起了,但是在国内的话,更严谨地说,应该说2012年左右才慢慢开始。

其实之前我们也曾一度出现过精确新闻报道,它也采用一些社会科学研究方法来做新闻。在上世纪八九十年代的时候,曾经也在国内掀起过一波比较小的风潮,但是因为那个时候数据本身没有像现在这么容易获取,互联网上到处都是数据,那个时候要做一个那样的新闻,我记得当时好像我看过一本书里面就是反思当年后来为什么结束这样的一种新闻形态,是说因为他们当时要做一个调查,可能要花不少经费,但是报纸上出这么一个新闻,它实际能够看到的回馈却是没有那么明显,所以很多开办这样精确新闻的栏目也就纷纷都关闭了。

这段时间我带着自己的研究生在做一个话题,想看看近代国内的对于数据的认知和包括数据可视化的一些认知,我觉得还是蛮好玩的。可以看到静态报刊上还是有非常多相关的东西,它当然不能够被称为我们现在完整意义上的数据新闻。如果说你一定要从时间维度来讲,我们的确比别人要晚一点。

但是对于“差距”,我是这么理解的:我觉得更好的表达方式应该是说我们在不同的土壤上会开出不一样的花朵,花不一定要长成像别人的那个样子才是一朵花。我不是刻意要拔高国内的数据新闻的实践,而是我认为国内的数据新闻实践是有它的“在地特色”的。比如说我们可能比国外更早的就开始移动端设计的探索。我们虽然比他们起步晚,但我们也做了很多比较好的解释性这个角度的数据新闻。尽管可能与国外的数据新闻相比,我们在调查性的角度的开掘相对比较少,我觉得是很可以理解的。因为我们所处的土壤不一样,我们的新闻的报道的环境、公众的数据的传统、文化的背景,这些因素都可能会使我们长出不一样的花朵来,所以“差距”或者说“差异”肯定是存在的。

但是这几年我的总体的感受是,有越来越多的院校开始推出数据新闻的相关的课程,越来越多的院校的学生会去参加数据新闻的比赛,参加比赛的一些新闻机构也在增多,包括我之前在给“镝数”每年做的案例的点评中,我也看到了很多我以前不知道的一些机构在做数据新闻,而且还做得可圈可点的。一些请我讲课的政府机构,也在关注如何用数据来改进他们的方法工作等。如果大家对于数据有了这样的接纳度,那么从长远的角度来讲,我们的数据新闻还是很有发展前景的。

董晨宇:在我们预收集问题的时候,大家问的最多的是“新手怎么能够入门?”这事我想分开问,几位有老师有学生,你们可以通过不同的角度来提供经验。

方洁:我本身就是从“小白”开始进入这个领域的,从2013年写了第一篇论文,2015年开课,可以说是要迅速从一个小白成长为“要能够告诉我的学生这个东西该怎么做”(的老师)。我开始的时候也不是很有底,后来到课堂上我跟学生讲怎么来进入这个领域的时候,我都会用6个字,就是“多看多思多练”。

多看,我记得我和我们学院王树良老师曾经聊过这个话题,他说你看100场展览,和你只看10场展览的感觉是不一样的。我最开始的时候就是广泛地看各种作品,国内外的所有的数据新闻作品都看,去采访了解背后的故事,所以现在站在学生面前,几乎是你告诉我一个题,我就可以告诉你这个题以前有没有人做过;或者人家做的比较好的,我就可以推荐给你。如果说你看的作品非常少,你无从去判断哪个东西是好的。

多思,是说你在看的过程中是要去思考的,人家为什么这么做,它这个好在什么地方,妙在哪里。当你感受到作品妙处的时候,你会觉得你跟这个作品的创作者达到了一种心灵的共振,会忽然有一种心灵相通的感觉。你可以通过作品去认识对方。进一步你会思考,他怎么能够想到用这样的方式来表达呢?他怎么能够想到用这种数据来做呢?你既会感慨,又深受启发。如果说你能达到这个程度,我觉得对你来说肯定是有收获的。

然后还有一个是多练,你看了100场展览,看了1000个作品,却从来不去做数据新闻,你也就谈不上了解这个东西。你会觉得别人做的东西都很容易,但是实际上是眼高手低。你在做的过程中就会碰到问题,然后就会想到怎么去解决这个问题。在这个过程中其实是对你自己的一个历练和提升。你把这些东西都堆积起来以后,就会形成自己的一种良性循环。时间长了,别人会觉得你好厉害,你自己都不知道自己已经成为大牛了。

董晨宇:其实和写论文也有点像,要多看,看完了之后要多思考。一个好的作品,不论是什么类型的作品,你真入门之后就能感觉到跟作者心灵相通,能感受到他的技巧。我觉得您说的第三个特别重要,就是不能光看,要多练。通常大家看完了之后就觉得写得真好、做得真好,你们继续做,我就在旁边欣赏,因为我觉得不缺我这个了。还有一种是,在学习当中大家遇到的问题,总觉得看着很容易,但其实做着没那么容易。其实有些人也会说我写的不如你好、做的不如你好,但并不妨碍我批评你。当你真正去做的时候才能发现这事儿没那么容易。方法只有在做的过程中慢慢积累,这是方老师给大家的一点建议。

几位从创作者的角度,怎么看这个事?

邓海滢:我现身说法一下,其实我是从方老师的数据新闻课开始入“坑”的,我们方老师当年最狠的一点就是你们要在一个学期里面做出一个非常完整、深度的数据新闻作品。其实前半个学期肯定什么都不会,还在学习阶段,实际做作品就那么两个月时间。那会儿我跟书润还有子璐搭档,几个人也轴,一定要做难的数据,不要找二手的,一定要自己去收集去统计;图也不能简单套模板,即使套模板我也得自己写代码去套。我现在脑子有一个我们宿舍走廊的画面,舍友都关灯睡觉了,我就搬个椅子在外面,用采集器把数据弄下来之后,一一核对了5000多条;另一个画面是快交稿的那天晚上,在我们“院媒”的编辑室熬到了6点,其实是有点熬不住了。我用ECharts画图,这是个用JS代码写的可视化网站。我完全不会代码,幸好JS代码是你会英文和对位置就行。虽然那个图现在看起来是挺丑的,当时就有一种“天啊我居然能做出来!”的感觉。因为我可能和很多读新闻的同学一样是纯文科生,当时突然发现自己也可以去掌握这些看似很“厉害”的技术,我自己还能去画,就觉得非常有成就感。

所以我觉得最重要的一点,你要真想做这个事儿,你就放开去做。哪怕你一开始不会,你可以当你的第一个案例,就是你学习的过程。我现在可能半个小时能画好一张图,当初可能得画五六个小时,但不要紧,这五六个小时就是留在我心中最重要的学习过程。所以我觉得这种“以赛代练”的压力反而能够促使你去做很多事情。我最想说一点就是大家一定要敢于去做,今天听我们聊完之后,比方说最近有什么新闻,你就自己去做一个试试看,不一定要在哪里发布,但是动手开始,就是你进入这个领域并且成为大师的第一步。

董晨宇:你有热爱,有热情,再去不懈地去练,就是为爱而“卷”是吧?其实很多初学者都有一个误区,就是没想好直路在哪的时候我不迈第一步,那就永远迈不出第一步,因为你是一定会走弯路的。

惠一蘅:在这次活动之前我还去翻了一下我早期做的一些东西,就觉得我刚学数据新闻的时候好自信啊,那种图都敢给方老师发过去。但是最好的就是方老师和当时接触到的所有老师、前辈都不吝啬鼓励和赞美,这个是我在学习初期一件很幸运的事情。

不知道大家刚接触数据新闻的时候会不会有这样的倾向,我接触过一些开始想要去做数据新闻的人,以及我自己刚做的时候,总是会把数据理解成数字。我第一次做出来的作品,包括图,上面都是一些非常小的零散的数字,它们之间是没有关联也没有任何推论的,就这样在报告里面摘一点数字出来填上去,这可能是初学者都要经历的过程。这种时候就需要用“70万的数据”来洗礼一下——当时在数据新闻课堂上做的第一个作业,是一个70万规模的地震数据,要做分析。当时也没有命题,就是说去分析一下,得出一些结论,这建立了我对数据的观念。每个学数据新闻、做数据新闻的人,可能最初都要经历一次自己处理庞大数据的过程,不一定是用SPSS或者Python,可能只用Excel,但是一定要有这样的过程。做到最后我自己到了一个“返璞归真”的阶段——反而越来越喜欢用小数据去讲故事了,但是这样处理大数据的经历还是觉得非常值得,因为它是学数据新闻必经的环节。

我初期做可视化比较多,如果要从可视化的角度来说入门的话,除了刚刚说到的一些感性的感受,在知识上,第一步就是要去熟悉软件的操作,因为虽然早期的可视化是手绘的,但是现在的数据新闻作品大多数还是要和工具结合,先把Adobe Illustrator、Flourish 、Tableau这种软件先熟悉一下,是第一步。其次是要去看一些很好的教材,这个我们在书里也提到了。第三步是要多去泡线下的图书馆或者书店,我自己就泡书店看到了很多与平面设计相关的书籍、信息可视化的书。除了这些,在网上也可以去搜索数据可视化、信息可视化的关键词,像信息图、信息可视化、infographic、information graphics,只要多阅读都可以,这个是我的一些体会。

葛书润:刚才两位都讲了一些技术层面的东西,我从观念层面做一些补充。我觉得大家一方面不要把数据处理和做图这两个东西看得太难,觉得不迈过这个门槛的话根本没有办法做数据新闻,我觉得根本不是这样的。

一蘅刚才也说了,会有一些非常炫酷的大数据、大型的作品给人很大的冲击,但很小的数据同样可以玩出“花样”来。其实我自己非常喜欢我们公号《一码通不通?全国健康码大测评》那篇文章,在全国还在用健康码的时候,我们每人用自己的手机,一个一个去测试各个省的健康码的隐私保护怎么样、打开需要几步、有没有“适老”的配套措施等等,评估健康码作为公共的基础设施做得怎么样。其实全国就那么多省,我们做下来这个数据也就一两天,但这个样本是非常有价值的。所以有解读的意识、选题的意识,小数据也可以做出非常好的作品。

另外我想说,数据新闻说到底还是新闻,像选题、写作或者说讲故事,这些新闻人的“老”的基本功同样非常重要。很多一眼看下来让人不喜欢的数据新闻作品,很像调查报告,上来就是为什么、怎么样、背景是什么,总有陈词滥调的感觉,因为这些作品没有用新闻的选题意识把它“拎”起来。做新闻就像解一道题一样,你首先要抓住题的关键在哪里,然后你怎么样去“破”它,这是我认为最重要的东西。像可视化、像数据,这些看起来有一些门槛的东西,并不是找不到选题、文字功底很差,或者缺乏其他基本功的“遮羞布”。

董晨宇:好的数据新闻不等于难的数据,简单的数据也可以做出好的作品。所以大家不用特别的担心自己无法入门。

我们今天其实是从怎么理解数据新闻数据的冰冷,一直聊到了怎么一步步去做出来,到后面我们聊到了中外的差别和各位给入门者的一些建议。期待你们有更多精彩的数据新闻作品呈现给大家,也期待有更多的人可以领略数据新闻的精彩。

编辑/韩世容

相关阅读
董宇辉遇上李娟,到底奇怪在哪里
红星新闻 2024-09-01
对谈|凯博文x陈行甲x赵琦:理解真正的照护,从倾听被照护者的声音开始
北京青年报客户端 2024-07-05
罗永浩:东方甄选会继续推进“去董化”,帮董宇辉就像在帮年轻时的自己
澎湃新闻 2023-12-19
东方甄选掉粉200万,董宇辉涨粉300万!俞敏洪需要“检讨”什么
澎湃新闻 2023-12-16
罗永浩:董宇辉的价值被严重低估,电商巨头都在尝试接洽他
澎湃新闻 2023-12-16
对谈|那个混乱时代缝隙中的“水下之人”——​吕晓宇《水下之人》新书分享
北京青年报客户端 2023-12-08
对谈丨魏思孝x刘诗宇x王雪:如何贴近当下的“小镇青年”
北京青年报客户端 2023-12-08
对谈|李凤群x戴瑶琴x周洁茹:多数女性的痛苦被吞回去了,而极少数跑了出来
北京青年报客户端 2023-11-14
最新评论