传媒教育网

 找回密码
 实名注册

QQ登录

只需一步,快速开始

搜索
做个试验
楼主: admin
打印 上一主题 下一主题

数据新闻案例集锦

[复制链接]
111#
 楼主| 发表于 2018-11-9 15:12:36 | 只看该作者
【案例】创刊词 | 数据新闻,不只是美 [color=rgba(0, 0, 0, 0.298039)]

今天:第19个中国记者节。

在这个有意义的日子,我们,国内第一个数据新闻报道专业的师生,推出了自己的微信公号——白杨数新观察

五年前,中传新闻学院率先开始的数据新闻报道专业教育,而今已初见成效,国内第一批年轻而专业的数据新闻人已经成才。时下,从事数据新闻报道的记者已然成为专业群体的新兴力量。

我们深信,数据新闻报道,不只是追求视觉化的美,发现新闻,呈现真相,才是应该恪守的专业理想和价值理念。

做一名掌握数据科学知识的新闻人,我们来了!

原文链接:https://mp.weixin.qq.com/s/o6MoOPlLudS8CuEcRPx2PA

编辑:冉玲琳


112#
 楼主| 发表于 2019-1-8 20:20:11 | 只看该作者
【案例】数据新闻工作坊作品 | 改革开放40年来,红遍大江南北的歌曲往事
本周起,“智慧与创意实验室”公众号、“创新融媒体实验室”头条号和“华东师范大学传播学院”公众号将同步推出6组数据新闻和H5新闻作品。这些作品围绕改革开放40年“伟大时代·城市记忆”主题,用数据说话,用充满创意的表现形式,从经济、教育、民生、文化等不同侧面,体现中国经济的伟大跨越、人民生活的日新月异、迈向复兴的光明图景。

“悠悠岁月像一首流淌的歌,曼妙旋律汇聚成一条蜿蜒的河。改革开放40年来,每一个时代的歌曲都打上了时代的烙印,记录着时代的心声。我们希望采撷岁月长河中最经典的40首歌曲,串起改革开放以来的那些峥嵘岁月,勾起难忘的集体记忆。

40年,值得珍藏,更值得回望。”


Part.1
作品介绍

改革开放40年来,娱乐成为人们生活中的一个重要部分。其中,每一个时期的流行歌曲,很好地体现了当时人们的对音乐的偏好,一定程度上反映了时代背景、社会风气等。
该作品旨在以人们喜爱的音乐为出发点,回忆改革开放以来的那些峥嵘岁月。

作品基于改开放40周年以来流行的歌曲库,从中选取出那些传唱范围最广,同时意义相对积极向上的歌曲,以每10年为一个周期进行一个总结回顾。


Part.2
数据来源

榜单来源中华文本库(略有修改)
图片、歌曲素材来源于网络


Part.3
表现形式

H5

(首页介绍:红色幕布拉开,显示主题)

(年份选择页:以每10年为一个阶段,为不同受众设置优先选择聆听歌曲的交互界面)

(内容页面:视听结合,每年一首当年流行歌曲介绍+音乐欣赏,可点击上下翻页,或返回年份选择页)

编辑:冉玲琳



113#
 楼主| 发表于 2019-3-2 00:32:14 | 只看该作者
【案例】

6本书带你深入了解数据新闻 | 书单来啦



编辑:付莎莎
链接:https://mp.weixin.qq.com/s/zIabMBmih7fREpj4S1vjXw
114#
发表于 2019-7-5 22:52:35 | 只看该作者
【案例】
记者训练营 | 记者如何读取和解释数据
文章来源:编译自美国非营利机构新闻媒体联盟(News Media Alliance)
如今,我们阅读的很多文章都是以数据为基础的。我们一直在谈论民意调查,预算和“数据”。与此同时,收集数据也变得容易很多。问题是,我们并不能总是正确或全面地报告结果。
解释数据
您需要问自己关于数据的第一个问题是为什么要首先寻找信息,研究背后的重大问题是什么?人们通常会对结果或假设进行预测。正如弗兰克所说,“如果你是那个提出问题的人,你必须做好准备,让事实尽量与你的想法不同。”
收集数据时,您需要考虑如何询问问题以及您要求回答的对象。
弗兰克说,保持信任的关键是使方法透明化。数据是否值得信赖的一个标准是,数据的视觉呈现是否被正确标记。这可能听起来很简单,但你需要“警惕没有陈述值的图形”,因为它们可以轻松操纵你对数字的感知。
收集数据
一个值得关注的问题:如何收集数据的?虽然技术为我们提供了大量的投票选择,但并非所有投票都是平等的。每种方法都有额外的好处和陷阱。
例如,如果您进行Twitter调查,就可以很容易地提出一个问题并立即得到答复。然而你的调查对象很可能只是你的固定粉丝,比如Fox News Twitter民意调查提出与NBC相同的问题,但根据受众的不同获得完全不同的结果。而且由于Twitter无法收集有关调查者的数据,因此无法以任何细微的方式解释数据。
Facebook或Instagram上进行的民意调查也是如此。因此,虽然这些民意调查非常适合为故事添加色彩,但它们并不是使用既定的科学流程来完成的,也不会提供真正可用的数字。
所以想要获得最可信的调查结果,最好是聘用专业的数据研究公司。这些公司拥有专业的人口统计学(年龄,种族,性别,收入和教育水平,已婚或未婚,家庭中的儿童等)和响应其调查的地理区域的主题,确保统计上显着的结果(即结果)没有偶然到达或由于外部因素)。
报告数据
一旦你掌握了所有数字,就必须考虑如何呈现它们。四舍五入就是数据中的一个大问题,它有可能会明显的改变最后的数字。
此外,您需要考虑诸如误差范围之类的事情。也就是说,如果你想要更专业的数据,你应该要注意到误差幅度或引用支持您的发现的其他调查。
样本量也很重要。例如,如果调查有关美国成年人相关的数据,该研究公司将从不同的人口统计和地理区域招募足够的受访者,以使美国人口普查创建代表性样本,确保他们可以将结果应用于所有成年人美国人。
您还需要查看最初询问的问题,这可能会影响结果。如果问题只说一件事,但研究报告说了别的话,就会有一种脱节,导致读者误解数据的真实含义。
在这个新闻影响力很大的时代,记者需要尽自己的一份力量来服务读者,并为他们提供丰富的信息,使他们能够成为生活的知情者。
编辑:高杰

115#
发表于 2019-8-3 23:51:11 | 只看该作者
【案例】

致亲爱的数据:我如何从数据中发现有趣的世界?
在图像化传播的今天,该如何定义一则好的数据新闻?什么样的选题是具有传播力的?在数据新闻制作的过程中有什么值得关注的地方?数据新闻又有什么独特价值?
本期全媒派(ID:quanmeipai)获得授权,实录数可视运营编辑李岚做客全媒派真爱群的讲座全文,与大家分享她对数据新闻的理解和思考。
好看酷炫≠数据可视化数据新闻的评判维度

我觉得好的数据新闻可以从以下五个维度评判。

第一,传播量。
对于传播量来说,最重要的是有一个好选题,比如两会、高考志愿填报这样的热门选题,点击量都会很高。我们在两会期间与CGTN合作的Who Runs China就是把2000多名人大代表的数据汇总起来,从性别、学历、省份等维度分析全国人大代表的特征。
这个作品给我最大的印象就是特别好看,色彩搭配非常合适、互动体验也很酷炫。但是我觉得数据新闻只有好看、酷炫是不够的,最根本的还是要让读者看懂,如果不能让读者明白数据是在表达什么,就不能算作是一个好的数据新闻作品。
例如下图就是想用粒子柱状图来呈现全国人大代表的出生年份和男女性别比例的情况。从这张图可以很清晰地看到90后女性人大代表越来越多的趋势。
第二,数据新闻作品不仅要好看,还要能够让读者看懂,要善用图表来传达信息。以下这些网站可以帮助大家了解图表应该怎么使用。
1. datavizcatalogue.com

2. FT可视化词典

3. ant-v


4. junkcharts
好的数据新闻应该是直观且容易理解的。
现在我们可以看到很多“一图看懂”系列的作品,但是一图看懂并不等于好的数据新闻。这些作品多由文字和图表结合,如果去掉文字只看图表就能明白其涵义,我觉得这才算好的数据新闻,否则就还有很多可以改进的空间。


第三,制作的精良程度。
有一个在数据新闻界特别有名的奖项,叫做Data Journalism Awards。这一奖项比较偏向大规模媒体制作的质感精良的作品,去年财新就获得过DJA的奖项。他们有一个作品叫做《高铁六小时能到的地方,你想去哪个?》,做了一个交互新闻,比如说我从北京出发,坐5个小时高铁能到哪些地方?这种就是大家喜闻乐见的话题,很多用户也愿意去点击、互动。


第四,小而美的作品。
小而美,就是跟我们每个人生活息息相关的一些数据,比如你使用手机APP的时长。例如,iPhone会自动跟踪APP每天的使用时长,数据新闻的制作人员可以把时间轴拉长,来研究用户的手机使用习惯。从这样的数据当中研究员常常能发现一些有趣的规律,实现对生活的小反思也挺有意思。 第五,短平快的操作。
界面新闻有一个数据栏目组,几乎每天都能出一篇稿子,能做到日更是很厉害的。因为数据新闻有一个很大的特点就是新闻性,需要赶时效。时效性意味着大家在短期内会比较关注这个话题,能够形成一定的讨论度并获得较高的点击量。 另外,跟大家分享一些优秀的数据新闻作品的来源。除了刚刚提到的DJA之外,国际上还有三个比较出名的与数据新闻相关的大赛,分别是信息之美、SOPA、SND。除了这些大赛之外,还有一些国外的媒体,例如彭博社、纽约时报、卫报,他们都有专业的数据新闻团队做出过很多优秀的作品;国内的财新、澎湃这些媒体也都是值得大家关注的。还有最近一两年来,一些自媒体也做出了很多不错的数据新闻作品。今年6月份澎湃新闻主办了“2019数据创作者大会”,会上涌现出了非常多优秀的作者。
《数据新闻2.0:变与不变|数据创作者大会演讲实录①》这篇文章沉淀了会上很多有意思的观点。

图片来源:澎湃新闻 2019数据创作者大会
选题先行VS数据先行

数可视之前做的一些有意思的作品通常都是先有选题,然后再根据选题去找数据,比如看一些行业研究报告、咨询某一特定领域的专家等等,这种操作方式可以在一个较短的时间内收集到足够的数据把作品完成。
我觉得今后我们可以更侧重于数据先行。
比如在拥有很多数据的前提下,先用一些可视化工具把数据整理成一个大概的图表,看看这些数据到底能够呈现一个什么样的规律,或者进一步挖掘数据背后可以分享的故事。
这里我给大家分享财新数据新闻团队负责人黄晨老师之前一次讲座的内容
《财新黄晨:先有故事还是先有数据?,她在分享中也提到了这个问题,到底是先有故事还是先有数据?其实选题和数据是相辅相成的关系,即使我们先得到了数据,数据也可能是单一的,还需要围绕这个数据去发散性地寻找更多数据源,这样数据新闻的内容才会更丰富。如果数据源是可靠的、数据是充足的,这就是一个比较好操作的数据新闻选题了。
还有一个小问题,就是什么样的选题是比较适合做成数据新闻的。人大有一个公众号叫做RUC新闻坊,它汇总了从2012到2017年这五年来国际性数据新闻大赛的一些获奖作品,从其中涉及到的报道主题中发现了一些规律。政治类、公共服务类、医疗、战争、犯罪、人口、环境等,这些选题是比较容易获奖的。

图片来源:RUC新闻坊

我们把视野拉回到国内,会发现国内数据新闻的话题主要是聚焦在商业、城市规划相关的话题上,比如说房地产、地铁交通等等,像环境类、教育类也是涉及比较多的主题。

图片来源:澎湃新闻 2019数据创作者大会

这里还需要再强调一点,我们使用数据时,标明数据来源是很重要的。这既可以增加报道的权威性,也可以方便同业者之间相互交流。
写文案、做设计、敲代码数据新闻人的十八般武艺

我们常说做一个全能的数据新闻人需要三个方面的能力,分别是写文案、做设计和写代码。
一个好的数据新闻产品需要这三个方面的人才相互配合完成。新闻编辑需要清楚自己到底擅长什么,是文案策划能力比较强、脑洞大擅长挖坑?还是设计审美好,视觉表达能力强?要多结合自己擅长的领域扬长避短。


图片来源:黄志敏 数据新闻入门
以我自己为例,在数据呈现之外我会更多承担数据分析或是寻找数据来源的工作。
首先,找到合适的数据并且表达出来。
因为在实际操作中,找数据是一个非常耗时间的事情,需要建立一种搜索思维。询问专家学者或是查找论文是很重要的渠道,有时论文当中会提到非常有帮助的数据来源或是数据库,站在他人的肩膀上可以帮助我们省去许多寻找数据的力气。
其次,理解数据,尝试发现其中有趣的结论点。
对于数据内容的理解和表达,很考验从业者能否从数据当中挖掘有趣的结论点。打一个比方,把数据当做被采访对象,去拷问数据,对数据做出一些假设再去进行验证,看看数据能不能给你答案。这一点其实非常锻炼刚入行的从业者,这需要你对某些垂直领域进行深耕。
第三,清晰明了的可视化设计。
判断可视化设计好坏的关键点在于,去掉文字后你的图标是否还能清楚的表达。数据新闻不仅要好看酷炫,让读者能够看明白才是关键。编辑需要考虑使用什么样的图标来呈现数据是最合适的。

我把做数据新闻的小技巧总结为四点:拷问你的数据;快速完成能力;寻找数据量丰富的选题;掌握数据分析技巧。
在寻找有趣的结论点的过程中我们会比较容易观察一些数据的异常值,比如,我们做过一个问卷调查,发现收入越高的人对自己的颜值越自信,但是这个结论是预料之中的,怎么才能挖掘到有趣的点呢?我们会把这个数据拆分,拆分成男女两个性别,并发现男性在收入越高时对自我颜值越自信,但女性可能呈现出一个波动式的上升和下降的趋势。
快速完成一个选题内容也是很重要的,因为新闻具有时效性,读者不会给新闻制作者太长时间的注意力,我们需要在规定时间内对重要和次要内容进行取舍去完成一篇完整的文章。两到三天完成一个作品已经算是比较长的操作周期了。
另外,我们会尽量找数据比较丰富的题目入手。比如我们之前做过北京地铁的数据,我们发现北京地铁的官方微博会发布每一次地铁的故障数据,于是我们把这些数据搜集起来做了一个关于北京地铁避坑指南的作品,最后也收到了不错的反响。
基于之前数据新闻的获奖作品,不难发现这些作品中多数都使用了比较简单的数据分析思路,比如比较平均值、最大值、最小值、方差,对比不同年份的数据等等。所以我们常用到的数据分析技巧都是很基本的,在我们中小学的时候就已经学过了。
数据新闻的独特价值

数据新闻的独特价值,我觉得可以归纳总结三点。
首先是为读者减负,因为人们读图的速度大概比看文字要快100倍。数据新闻通过编辑对数据的理解再提炼出来要点,最后制作出信息图表,是能够真正实现一图读懂很多信息的。




第二,数据新闻是编辑把自己觉得有趣的内容传达给受众的过程。比如设计师Giorgia和Stefanie做了一个叫做dear-data的数据可视化项目。这个项目持续了大约一年多的时间,两个人分别在两个不同的国家,把自己生活中一些有趣的数据发现通过手绘明信片的形式邮寄给对方。这个小项目很有意思也足够打动人,还获得了2015年“信息之美”的数据可视化项目金奖。




最后,我觉得数据新闻是在真正地与大家分享一些有价值的内容,是对读者有帮助的。
比如高考季,B站上有一个UP主把2017年全国高校的数据汇总做了一个交互网页,其中包括985、211高校的排名情况以及优势学科等等。我觉得这个作品就能够很好的帮助到考生去选学校、选专业等。唯一可以优化的地方在于,如果能够加上分数匹配或是院校的推荐就更好了,可以说是一个择校神器了。


注:讲座分享时间为2019年6月19日
编辑:王豪

116#
发表于 2019-8-7 00:06:05 | 只看该作者
【案例
如何让数据在新闻评论中“说话”
随着大数据在新闻报道中运用得越来越多,如何在一篇新闻评论中更好地运用数据说话,让论述更为严谨、科学,是一个值得探讨的话题。事实上,除了财经类媒体,综合类、都市类媒体在新闻评论中运用数据论述观点还是少数。
编者按:写这篇论文时,我还是评论编辑,但因为《中国记者》刊发时,我已经换了工作岗位。在征得《中国记者》编辑老师同意的情况下,我将此文转发至我个人公号,以飨各位读者。由于版权问题,如有任何机构或个人转载,请联系《中国记者》。
有着“互联网之父”之称的蒂姆·伯纳斯·李(Tim Berners-lee)宣称,分析数据将成为未来新闻的特征。数据已经成为新闻报道中的“常客”,甚至可以说在一些媒体中已经成为一种新闻报道形式,其形态也正愈来愈多元,比如可视化。
数据也出现在新闻评论中,并且在一些媒体得到了广泛应用。不仅财经媒体,都市类媒体的新闻评论也应用不少。
问题是,数字是容易让人感觉枯燥乏味的“信息”,尤其对于大部分是文科毕业的新闻人来说。因此,如何驾驭好数据,也是一道摆在媒体编辑面前的难题。
但有用的数据会“说话”,而且能够让一篇新闻评论的说服力更强大。因此,如何在新闻评论中用好数据就日益成为评论编辑的一门“必修课”。
为什么新闻评论中要引用数据?
从上述统计数据看,综合类报纸的社论引用数据相对偏少。像《南方都市报》,26篇社论中有15篇未引用数据,《北京青年报》25篇社论有16篇未引用数据。
《新京报》例外,28篇社论仅有7篇未引用数据。从数据出现在社论中的概率来说,这与两家财经类报纸《21世纪经济报道》和《第一财经日报》基本相同——4篇社论中仅有(或还不到)1篇未引用数据。这说明,数据分析,即量化分析的应用,正逐渐被非财经类媒体所重视。
为什么数据作为“证据”在新闻评论中会出现得越来越频繁呢?
新闻评论所采用的逻辑论证方法一般有演绎法、归纳法和类比法。但事实上,不管是演绎法(由一般原理推出特殊情况下的结论),归纳法(从个别知识的前提推出一般知识的结论),还是类比法(根据两个或两类事物在一系列属性上的相同或相似,推出它们在其他属性上也相同或相似)[1],在纷繁复杂的现实面前,这些论证方法都存在一些逻辑链上的瑕疵。
而数据不存在上述问题,只要相关数据统计足够多,并拉长到一个足够长的历史时间段来看,数据所呈现出来的规律本身就是一个很好的结论,无须证明。也正因为这个特征,数据可以让一篇新闻评论的论述避免空洞、模糊,从而让论述更加严谨、科学。
比如,评价一个地方或一种现象,在过去往往会用“很大变化”“很大改观”来形容,但实际上,任何事例或者“众所周知”都是片面、不够科学的论述。只有基于有效的数据论述,才能让这种“很大变化”“很大改观”在受众中引起“共鸣”。
以美国为例,从较短的2010-2017年这个时间段来看,其经济增速在1.49%-2.86%间波动。拉长到更长的1961-2017年这个时间段来说,其经济增速则是在正负间波动。(节选自《新京报》2019120日社论《用“区间值”为GDP增长留合理空间》)
这组数据本身就有一个明确的指向,GDP的增长是会波动的,在一个较短时间内波动幅度没那么大,但放到一个更长的历史时间看,这种波动幅度就很明显。因此,数据本身所呈现出来的规律就告诉受众一个结论,不需要语言“赘述”。
数据在新闻评论中的作用与应用
新闻评论中运用较多的还是定性分析法,即依据预测者的主观判断分析能力来推断事物的性质和发展趋势。
而量化分析法,即将一些不具体、模糊的因素用具体的数据来表示,从而达到分析比较的目的。以《新京报》2019220日社论《把故宫15亿文创“账本”当做一种激励》为例,为了说明故宫文创是一种“激励”,作者引用了一组这样的数据:
故宫的文创产品销售额2013年为6亿元,到2016年为近10亿元,2017年达到15亿元。
从这三个数据,受众可以清楚地知道:故宫的文创项目取得了多大变化,多大成绩。如果仅用一个“变化很大”“增长很快”的词语来论述,就显得模糊,甚至让受众感到论述“无力”。
德国之声电视台的米尔科·劳伦兹(MirkoLorenz)在谈到数据新闻的作用时表示,只有把复杂的事实组织成条理清晰、易于理解和记忆的故事,公众才能获取更多益处。[2]显然,故宫文创项目的销售收入两年增长了两倍,这组数据告诉了受众一个清晰的“增长”“变化”概念。在日常工作中,数据应用主要分两个层面:
(一)简单应用
1.作为由头
今年春节期间,由于可评的“新闻由头”有限,有不少媒体社论的新闻由头就是数据新闻。比如《新京报》《南方都市报》《北京青年报》《21世纪经济报道》都有类似现象,以节假日不停刊的《新京报》为例,29日、10日和12日的社论由头均为数据新闻。
210日的社论《纠错案件数量增加,凸显检察监督成效》新闻由头是,2018年刑事检察工作的一个进展情况:
依法决定不批捕29万余人,不起诉14万余人,同比分别上升10.8%22.3%;对认为确有错误的刑事裁判提出抗诉8504件,同比上升7.2%;监督纠正不当减刑、假释、暂予监外执行3.9万人,同比上升38.9%
数据在这种时候即是这篇社论的“新闻由头”,也是这篇评论成立的一个有力“论据”。实际上,不仅这一篇社论,其他报纸春节期间的相关社论也都存在这种现象,数据新闻在扮演“新闻由头”角色功能时,也充当了该篇社论的重要“论据”角色。
这些数据也向受众传递了一个明确的信息:变化;发生了什么样的变化。再比如《21世纪经济报道》2019213日的社论《开启中国电影工业化的新时代》一文,开头是这样一组数据:
2019年春节档,中国本土制作的7部影片竞争激烈,整个假期期间电影票房达58.4亿元,观影人次达1.3亿。其中,25日,正月初一的单日票房达14.43亿元,刷新了去年正月初一12.68亿元的单日票房纪录。
“刷新了去年正月初一12.68亿元的单日票房纪录”。这样一个数据的对比,受众就能很清晰地知道一个观点指向。可以说,数据在新闻评论中的出现,拒绝了概念的模糊,逻辑的混淆。
2.作为“论据”
先看一段话:
相关统计显示,城市60%的消费发生在夜间,大型商场每天18时至22时的销售额占比超过全天销售额的50%
这组数据是为了证明前一句话:“近年来市民夜间活动时间延长和夜生活的兴起,越来越成为一种趋势”。
如果说这篇社论的论证是金字塔结构,那这组数据就是这个金字塔的“底座”。只有这个底座牢靠,这篇新闻评论的观点——缓解夜间“出行难”,才能更好繁荣夜间经济——才能立得起来。
而数据本身所传递出来的观点也说明:既然夜生活已经成为一种趋势,而且在整个消费占比中比重这么高,那么,如何保证这些人的交通出行也就是一个城市管理的重要课题,是一个不可回避的问题。否则,消费经济作为我国经济新的牵引动力就会成为空谈。
(二)深度应用
前述例证中所引用的数据只是作为一个简单的信息来告诉受众,它无法延展出更多知识含量。但有一些数据引用,虽然看上去也与前述例证没有区别,却是写作者经过加工处理后得到的结论,是经过大量数据比对后自然呈现出来的结论。
比如,前面提到的美国GDP增长的数据。这就是一组典型的经过加工处理的数据“信息”,这些数据本身呈现出了这样一个规律:“经济发展除了呈现出由高到低的增长趋势这个特征外,也呈现出波动性特征”。它是一个完全可以用于指导实践的“信息”,它告诉执政者,不能无视经济发展受到各种因素影响而呈现出来的“波动”的事实。
就像中国人民大学新闻学院副教授方洁所说的,这些数据经过加工处理后不再只是简单的信息,而是一种“知识”:作为经过了加工处理的数据信息,是可以用于指导实践的[3]。这就是对数据的深度应用。
因而,这样的数据加工也就让信息有了更多的知识含量,是目标受众一定会喜欢的知识。
再比如,前述提到的纠错案件的数据一样,现在公布的数据只是2018年与2017的变化,如果能够拿出10年,甚至20年的数据变化,那么这组数据本身所传递出来的信息,作者再提炼出这些变化背后的规律来告诉受众,这在一篇新闻评论中就是深度应用的体现。
再如,前述提到的夜间消费的情况,如果条件允许,梳理出近10年来甚至再长一段时间里的夜间消费在整个消费经济中的占比变化,包括消费经济本身在拉动GDP增长效用的变化。把这些数据所呈现出来的规律提炼出来告诉受众,这也是一种非常好的深度应用的体现。因为数据胜于雄辩。
引用数据需要注意的事项
数据引用,也是有注意事项的。不是拿来的数据都可以用,数据的可靠性就是第一个要注意的事项。因此,找第一手数据就显得尤为关键。
(一)第一手数据
以《新京报》2019223日社论《以经常居住地落户制提升民众获得感》为例,该文第五段引述了一组关于留守儿童和“随迁子女”的数据:
“根据教育部20188月发布的2017年教育统计数据显示,2017年义务教育阶段进城务工人员随迁子女、随迁子女和农村留守儿童数分别是1361.51万、1835.74万和1389.74万人。也就是说,每三个义务教育阶段的学生中就至少有一个是进城务工人员随迁子女、随迁子女和留守儿童。”
因为这组数据“之大”,很多人看到这组数据的第一反应都是:真的吗?事实上,这就是教育部官网公开的数据。但这样三个数据加一块就是一个很好的“力证”。解决户籍问题对于增加民众获得感、幸福感有多么重要:一个如此庞大的群体在异地他乡“漂着”,又何从谈起幸福感、获得感?
之所以强调数据必须是“第一手数据”,就是因为在实际使用过程中,有一些写作者可能并不会深究数据的来源,可能就是从某篇新闻报道中看到一个数据就拿过来用。“第一手数据”可以来自于政府部门官网,也可以是上市公司财报,或者权威的第三方机构公布的数据。
后两个都相对容易获取,随着近年来我国政务信息公开的深入开展,政府部门的统计数据也都会例行公开,所以只要找到相关部门的官方网站即可轻松获取到相关“第一手数据”。
(二)数据引用要适量
除了数据可靠之外,如何适度引述数据也是一个需要注意的事项,否则也会降低评论传播的效力。毕竟,一篇评论的论述是需要被受众“知道”才算达到了写作的目的,否则就“白写”了。
以某财经类报纸的一篇社论《春节消费强劲显示减税效力》为例,这篇总计8段内容的新闻评论,总共引用了4处数据:第二段、第四段、第五段和第六段,总计596字,而全文仅1240字。不管是从段落数还是字数来说,数据的引述都有点儿多。
比如,为了证明“房产销量下行之际,其他重要领域消费数据却表现不俗,旅游和电影票房就是其中代表”这个观点,第四段、第五段引述了大量数据:
“房产销量下行之际,其他重要领域消费数据却表现不俗,旅游和电影票房就是其中代表。截至21018时,春节档电影票房累计超过55亿元,其中首部国产科幻片《流浪地球》票房、口碑双丰收,以票房19.24亿元居首,其次为票房14.10亿元的《疯狂外星人》和票房10.13亿元的《飞驰人生》。
近年来,旅游消费日益成为春节度假的重要形式。根据中国旅游研究院(文化和旅游部数据中心)综合测算,全国旅游接待总人数4.15亿人次,同比增长7.6%;实现旅游收入5139亿元,同比增长8.2%。以上海为例,据银联商务大数据监测,春节期间(201923日~9日)共发生消费177.3亿元,外来游客消费次数高达519.4万人次。”
这两段数据引述,很容易让受众“掠过去”,甚至不会读完这篇评论。其实,一般受众也不会关心这么多数据。压缩成一段来处理其实就可以的,电影和旅游各引述一个数据即可。比如简述成这样:
“房产销量下行之际,其他重要领域消费数据却表现不俗,旅游和电影票房就是其中代表。以电影票房为例,截至21018时,春节档电影票房累计超过55亿元。旅游业也有同样的表现,春节期间全国实现旅游收入5139亿元,同比增长8.2%。”
引述的数据量过多,不仅容易影响阅读,如果受众都不愿意看下去,这篇评论的所有辩论努力都宣告失败,而且也容易让观点的阐述陷于表面,而无法进行深入阐述。毕竟,新闻评论的篇幅是有限的,过多文字用于引述数据,那论述就必然要肤浅些,不通透些。
【注释】
[1]马少华:《新闻评论》,第80页,中南大学出版社2005年版.
[2](德)米尔科·劳伦兹(MirkoLorenz)在2010年阿姆斯特当召开的第一届国际数
据新闻圆桌会议上的发言.
[3]方洁:《数据新闻概论》,第11页,中国人民大学出版社2019年版.
来源:辛酉杂谈
链接:https://mp.weixin.qq.com/s/QJh1Gn6p7gUcRIIdFh2i-g
编辑:晓晴

117#
发表于 2019-8-9 23:27:25 | 只看该作者
【案例】


拯救数据科学的“半贝叶斯人”


编译:赵伟、张秋玥、钱天培
一位科学家在他的论文中写道:"人类知识的大部分是围绕因果关系而不是概率关系组织的,而概率微积分的语法并不足以描述这些关系......正因如此,我认为自己只是半个贝叶斯人"。
或许一场关于自然语言处理的精彩辩论可以告诉我们何谓“半个贝叶斯人”,让我们把时光拨回到几年前。
一场精彩的辩论
辩论的双方分别是:号称“现代语言学之父”Noam Chomsky、身为谷歌研发总监的Peter Norvig。他们分别是自然语言处理领域的旧派和新派代表。
当谈到该领域的发展方向时,Chomsky说到:
“想象一下,有人说他想要消灭物理系并转而使用‘正确’的方式。所谓‘正确’的方式是将真实世界发生的事情录制成无数录像带,然后将这数十亿字节的数据输入最大、最快的计算机,并进行复杂的统计分析 - 你知道的,对所有东西都用一下贝叶斯方法 - 你就能对接下来会发生的事情做一些预测。事实上,你做的预测会比物理学家能给出的好得多。“如果‘成功’被定义为对大量混乱的未分析数据的合理近似,那么这样做的结果比物理学家的更接近‘成功’。显而易见,这样一来,诸如绝对光滑平面之类的思想实验就不复存在了。但这样做,你将不会得到科学所一直致力于达到的那种理解水平 - 你所得到的只是对正在发生的事情的近似。”
Chomsky在许多其他场合也强调了这种观点:当前对‘成功’自然语言处理的定义 —— 即预测准确性 —— 并不科学。将“一些巨大的语料库”投入到“复杂的机器”,仅仅是“未分析数据的近似处理”简直就像撞大运,并不能使我们“真正理解”语言。
他认为,科学的首要目标是发现关于系统实际运作的“解释性原理”,而实现目标的“正确方法”则是“让理论引导数据”:通过精心设计的实验抽离掉“不相关干扰”,以此来研究系统的基本性质 - 就像自伽利略以来的现代科学研究方法一样。简而言之:“只处理待分析的混乱数据不太可能让你明白任何原理,就算你是伽利略也不行。”
Norvig随后以一篇长文回应了Chomsky的主张,这篇文章挑战了Chomsky在科学上的‘成功’的观念,并为使用概率模型象征人类语言处理进行了辩护。Norvig指出,语言处理中几乎所有主要的应用领域 - 搜索引擎、语音识别、机器翻译和问答 - 都是由训练有素的概率模型主导,因为它们比基于理论/逻辑规则的旧工具表现得更好。
他认为,Chomsky关于科学上的“成功”的标准 - 强调找到原因而忽视方法的重要性 – 是误入歧途,这可以引用Richard Feynman的话加以说明:“没有论证,物理学可以进步;但没有事实,我们寸步难行。”
说起来其实还挺low的,Norvig顺带提了一句 - 概率模型“每年创造数万亿美元的收入,而Chomsky理论的产物几亿美元都不到。” (注:数据来自在亚马逊上Chomsky著作的销售额)
Norvig揣测,Chomsky对“对一切应用贝叶斯方法”的蔑视实际上来自于Leo Breiman所描述的统计模型中两种文化之间的分裂。
1)数据建模文化,它假设自然是一个内部变量随机联系的黑箱,建模者的任务就是确定最符合这些联系的模型;
2)算法建模文化,它假设黑箱中的关联太复杂而不能用简单模型来描述,此时建模者的任务就是使用能最好地用输入量估计输出量的算法,而不再期望黑箱内变量真正的潜在联系可以被理解。
Norvig认为Chomsky可能对概率模型(数据建模文化)本身并没有什么意见,他只是针对具有“亿万参数”且难以解释的算法模型,因为它根本无法解决“为什么”的问题。
Norvig属于2号阵营,他们认为像语言这样的系统过于复杂、随机,很难用一小组参数来表示;抽离出复杂性就类似于制造一个实际上不存在的、“完全符合永恒领域的神秘设施”,因此“忽略了语言是什么以及它是如何工作的。”
Norvig在另一篇论文中重申,“我们应该停止以创造完美理论为目的的行为。我们应当拥抱系统复杂性、并接受数据就是有用的这一特点。”。他指出,在语音识别、机器翻译甚至是几乎所有使用网页数据的机器学习应用中,例如基于数百万计具体特征的n-gram统计模型或线性分类器的这些简单模型,比试图发现普遍规律的精美模型表现更好。
这次辩论最让人们受触动的不是Chomsky和Norvig的分歧,而是他们的共识:他们都同意,不试图去理解变量就用统计学习方法分析大量数据往往会产生比试图给变量之间的关系建模更好的预测效果。
而且我们也并非唯一被这一现象困扰的人:那些被访谈过许多的具有数学科学背景的人也认为这是违反直觉的 - 最符合事物基本结构关系的方法难道不应该也是预测得最为准确的吗?我们怎么能在不知道事物如何实际运作的情况下做精准的预测呢?
预测与因果推论
即使在经济学和其它社会科学等学术领域,预测能力和解释能力的概念也通常被混为一谈 - 显示出高解释力的模型通常被认为是具有高度预测性的。但是,构建最佳预测模型的方法与构建最佳解释模型的方法完全不同,建模决策通常要考虑两个目标之间的权衡。为了说明这两种方法上的差异,下面是“An Introduction to Statistical Learning”(ISL,统计学习导引)中一段关于预测和推理建模的简短摘要。
预测建模
预测模型的基本原理相对简单,使用一组已知的输入X来估计Y。如果X的误差项平均为零,则可以使用以下方法预测Y:





其中ƒ是由X提供的关于Y的系统信息,当给定X时,它给出结果Ŷ(Y的预测)。只要能准确地预测Y,ƒ的确切函数形式通常是不重要的,它被视为“黑箱”。
这种模型的准确度可以分解为两部分,可减少的误差和不可减少的误差:




为了提高模型的预测准确性,模型主要目标是通过使用最合适的统计学习技术来使可减少的误差最小,从而估计ƒ。
推理建模
当我们的目标是理解X和Y之间的关系,比如Y是如何作为X的函数而变化时,ƒ不能被视为“黑箱”,因为我们无法在不知道函数形式的情况下理解X对Y的影响ƒ。
几乎总是如此,在推理建模时,使用参数化方法来估计ƒ。参数化是指通过假设参数形式的ƒ并通过假设的参数来简化对ƒ的估计的方法。这种方法有两个一般步骤:
假设ƒ的函数形式。最常见的假设是ƒ是关于X的线性函数:



使用数据拟合模型,也即找到参数值β0、β1、...、βp,使得:






最常用的拟合模型的方法是普通最小二乘法(OLS)。
灵活性/可解释性的权衡
你可能已经在想:我们怎么知道ƒ是否具有线性形式?因为ƒ的真实形式是未知的,我们也不知道,如果我们选择的模型与真实的ƒ相差太远,那么估计就会有偏差。那为什么我们要先做出如此肯定的假设呢?这是因为模型的灵活性和可解释性之间存在内在的权衡。灵活性是指模型可以生成的用以适应ƒ的多种不同的可能函数形式的形状范围,因此模型越灵活,它产生的形状就能符合得越好,预测精度就越高。但是更灵活的模型通常更复杂并且需要更多参数来拟合,并且ƒ的估计通常变得太复杂以至于任何预测因子的关联都难以解释。另一方面,线性模型中的参数相对简单且可解释,即使它在准确预测方面做得不是很好。这是ISL中的一张图表,它说明了不同统计学习模型中的这种灵活性-可解释性之间的权衡:



正如你所看到的,具有更好预测精度、同时也更灵活的机器学习模型(例如支持向量机和Boosting方法)的可解释性非常低。对ƒ的函数形式进行较肯定的假设使模型更具解释性,推理建模在这个过程中也放弃了对预测准确性的追求。
因果识别/反事实推理
但是,请等一等!即使用了能很好符合并且高度可解释的模型,你仍然不能将这些统计数据用作证明因果关系的独立证据。这是因为,“相关性不是因果关系”啊!这里有一个简单的例子:假设你有一百个旗杆及其阴影的长度和太阳位置的数据。你知道阴影的长度是由杆的长度和太阳的位置决定的,但是即便你将杆的长度设置为因变量而把阴影长度作为自变量,你的模型仍然会十分符合统计显著性系数。显然,你不能说杆子的长度受阴影长度影响。这就是为什么我们不能仅通过统计模型进行因果推理,我们还需要背景知识和理论来证明我们的结论。因此,因果推理的数据分析和统计建模通常要受到理论模型的严格指导。
即使你确实有一个坚实的理论依据说X导致Y,确定因果关系仍然非常棘手。这是因为,评估因果效应涉及要识别在没有发生X的“反事实世界“里会发生什么,这显然是你观察不到的。
这还有另一个简单的例子:设想一下你要确定维生素C对健康的影响。你有某人是否服用维生素的数据(如果他们这样做则X = 1;否则为0),以及一些二元化的健康状况(如果他们健康则Y = 1;否则为0),如下所示:



Y1代表服用维生素C的人的健康状况,Y0代表那些不服用维生素C的人的健康状况。为了确定维生素C对健康的影响,我们要估计平均治疗效果:
𝛉 = E(Y₁)- E(Y₀)
但是为了做到这一点,我们需要知道不服用维生素C、但原本有服用维生素C的人的健康状况,反之亦然(或E(Y0 | X = 1)和E (Y1 | X = 0)),表中的星号表示不可观察的反事实结果。没有这些输入,我们就不能一致地评估平均治疗效果(θ)。
更糟糕的是,想象一下这种情况:健康的人往往服用维生素C,不健康的人则不会。在这种情况下,即使维生素C实际上对健康没有任何影响,恐怕也会显示强烈的治疗效果。在此,先前的健康状况被称为影响维生素C摄入和健康状况(X和Y)的混淆因素,这导致对𝛉估计的偏差。
产生𝛉的相合估计的最安全的方法是通过对治疗进行随机化实验,使X独立于Y。当随机分配治疗实验时,未治疗组结果的均值可以作为代表治疗组的反事实结果的无偏值,并可以保证这样做消除了混淆因素。A/B测试就以这个观点为指导。但是随机实验并不总是可行的(甚至可能是不道德的,比如如果我们想要研究吸烟或吃太多巧克力饼干对健康影响的话),在这些情况下,必须通过观察常常是非随机实验的数据来评估因果效应。有许多统计技术通过构建反事实结果或模拟观测数据中的随机治疗分配来识别非实验环境中的因果效应,但可以想象,这些类型的分析结果往往不是非常稳健或可重复。更重要的是,这些方法的造成障碍的层面并不是为了提高模型的预测准确性而设计的,而是为了通过结合逻辑和统计推断来提出因果关系的证据。
评价预测模型是否成功比因果模型要容易得多 ——预测模型有标准的性能度量,但评估因果模型的相对成功要困难得多。但即使因果推理很棘手,也并不意味着我们应该停止尝试。预测模型和因果模型有着非常不同的目的,需要非常不同的数据和统计建模过程,通常这两点同时发生。这一关于电影业的例子说明了这一点:电影制片厂使用预测模型来预测票房收入,以预测电影发行的票房结果,评估其电影放映组合的金融风险/回报等。但预测模型在理解电影市场的结构和动态并为投资决策提供信息方面不是很有用。这是因为在电影制作过程的早期阶段(通常是发布日期之前的好几年),当做出投资决策时,可能的票房结果的方差非常高,因此基于早期阶段输入数据的预测模型的准确性要大为降低。预测模型在电影发行日期附近才是最准确的,然而这个时候绝大多数制作决策已经被制定,预测也就失去了行动指导力。另一方面,因果推理建模允许制片商了解到,不同的生产特征如何影响生产过程早期阶段的潜在收入,因此对于帮助制定其策略至关重要。
我们真的过分强调预测嘛?
从定量研究文献的现状来看,不难看出为什么Chomsky感到不安 - 预测模型现在主导着学术界和业界。对学术预印本的文本分析发现,在增长最快的定量研究领域中,近十年来越来越关注预测。例如,在AI中,提及与“预测”相关的术语的论文数量增长了2倍以上,而提及与“推理”相关的术语的论文数量自2013年以来已经下降了一半。现今的数据科学课程在很大程度上忽略了因果推理方法,并且数据科学业界大多期望从业者专注于预测模型。即使像Kaggle和Netflix大奖赛这样高调的数据科学竞赛也总是专注于改进预测性能指标。
另一方面,仍有许多领域没有对经验预测给予足够的重视,尽管它们可以从机器学习和预测建模方面的进步中受益。
但是,把目前的状况描述为“Chomsky队”和“Norvig队”之间的文化战争似乎是一个错误的选择 —— 谁说我们只能二选一的呢,在很多时候这两种观点会相互交流相互促进。
为了让机器学习模型更易于理解,我们能做得还有很多。比方说,我对斯坦福大学Susan Athey在因果推理方法中应用机器学习技术的工作尤其感兴趣。




最后,我想以Judea Pearl的大作《The book of why》中的结论做结尾。Pearl曾于20世纪80年代领导了AI研究工作,以便让机器可以使用贝叶斯网络进行概率推理;但自那时起他便成为AI只关注概率关联风气的最大批评者,认为这样会阻碍这个领域的发展进步。
与Chomsky的观点相仿,Pearl认为“深度学习取得的所有璀璨成就仅仅相当于数据拟合曲线”,而直到今天AI仍在做与机器30年前就会做的同样的事情(预测和诊断/分类),现在只是表现得稍好一点,但预测和诊断“仅仅是人类智慧的一角。”
他认为,制造真正的能像人类一样思考的智能机器的关键,是教会机器思考因果关系,这样机器就可以提出反事实问题、设计实验,并找到科学问题的新答案。他过去三十年的工作重点是为机器建立形式语言,以便使因果推理成为可能;这类似于他在贝叶斯网络上所做的工作,其能使机器建立概率关联。


相关报道:
https://towardsdatascience.com/predicting-vs-explaining-69b516f90796


来源:大数据文摘
链接:https://mp.weixin.qq.com/s/RpKtZRlTafgM4wKw3dUt3g


编辑:晓晴

118#
发表于 2019-9-6 23:29:57 | 只看该作者
【案例】
大数据告诉你外媒是否热衷于报道中国负面新闻?

在很多人印象中,外媒热衷报道中国负面新闻,是个毋庸置疑的事实。

但是大数据告诉你:你也许错了。

西方媒体真的是看不得中国好,专门报道中国的负面新闻吗?

先问是不是,再问怎么看待可好?

如果随机(选择性地)抽几条负面新闻或正面新闻来证明自己的看法,这种做法显然是片面的,还是用大量数据来解释吧,这样更有说服力。

先介绍数据:

研究的数据来源是一个叫GDELT的项目,它全天候监控着全球各国、100多种语言的媒体,媒体类别涵盖印刷、广播、网络……


GDELT会给每一篇报道标注了一个“褒贬指数”,褒贬指数为负表示这是一篇负面报道,负数越大越负面;褒贬指数为正表示这是一篇正面报道,正数越大越正面。

理论上,媒体如果没偏见,正面和负面报道一样多,那么,平均褒贬指数就应该为0。

每一篇都被GDELT标记了各种metadata:包括出版社,记者名,详细时间地点,类别等等。

另外还标记了文章内几个主要对象:地名,人名,事件之类的。

首先统计的是英国媒体:

英国媒体对不同国家进行报道时的褒贬指数如下:

(。。。代表跳过了几个国家)

英国媒体评价最高的国家,有:
日本、中国、新加坡、印度、加拿大、澳大利亚、韩国、巴西等

英国媒体评价最差的,有:
俄罗斯、法国、朝鲜、以色列、伊朗、南非等

然后态度一般的,有:
美国、德国、荷兰、巴西、西班牙、意大利等

中国虽然不是第一最好的,但是已经很高很高了,英国媒体对其他国家的态度基本上都不如对中国好。

英国媒体显然很不爱国,对自己的祖国的评价居然是负数。

对铁杆盟友美国的报道比对自己祖国要略好一点,但仍只有0.127。

对中国的报道就正面得多了,高达1.335。

下面看美国媒体:

美国记者对自己国家的负面评价情况比英国还严重,但是对其他国家的态度基本上跟英国一致。

美国媒体人简直是专职黑自己祖国!!

再调查一下其他国家媒体怎么看待中国

是这样的结果:
韩国:-1.639
日本:-1.554
越南:-1.420
土耳其:-1.098
菲律宾:-0.892
印尼:-0.848
泰国:-0.805
瑞典:-0.567
挪威:-0.488
印度:0.068
美国:0.307
新加坡:0.359
新西兰:0.557
墨西哥:0.602
古巴:0.729
加拿大:0.766
伊朗:0.845
巴西:0.853
俄罗斯:1.119
西班牙:1.150
德国:1.186
法国:1.202
澳大利亚:1.256
英国:1.335
巴基斯坦:1.737
荷兰:1.814
爱尔兰:1.926
意大利:2.034
以色列:2.229
南非:2.301
芬兰:2.350
捷克:2.384
丹麦:2.756
波兰:3.285
匈牙利:3.460
(再高也都是东欧国家)

数据说明,爱负面报道中国的国家确实有,但不是西方国家。

专职黑中国的头几名是:
韩国:-1.639
日本:-1.554
越南:-1.420

下面看看中国媒体对自己祖国和西方大国的态度:
这才是亮点啊!!!

显而易见,中国媒体对西方大国都持批判态度。

在原文的完整表格中,数十个国家,中国媒体仅对六个国家的褒贬指数呈正数:

中国、巴基斯坦、加拿大、意大利、新加坡、新西兰,其他国家则全为负数。

这里得出一个很激动人心的发现:

中国的媒体是最爱国的,对自己国家的评价远远凌驾于世界各国之上!

这种情况在其他国家的媒体中几乎从未出现(研究中未含对朝鲜的统计数据)。

中国媒体对美国的态度:-2.091,但是美国很显然都在比较正面地报道中国的事,数据在零上。

就算日本对中国有-1.554 的偏见程度,中国对日本却有-2.257的偏见程度。

从这些指数的角度来看,最偏见的媒体很可能就是中国媒体。

最后,为以上统计结果作一个要点总结:
1、西方大国媒体对中国的报道都以褒扬为主。
2、中国媒体对西方大国的报道都以批判为主。
3、英美媒体都爱黑自己祖国。
4、中国媒体都爱赞美自己祖国。
5、中国媒体对大部分外国的评价,都低于对方对中国的评价:
美国对中国评分0.307;中国对美国评分-2.091;英国对中国评分1.335,中国对英国评分-0.859;日本对中国评分-1.554,中国对日本评分-2.257。

在很多人印象中,外媒热衷报道中国负面新闻,是个毋庸置疑的事实。

但是大数据告诉你:你也许错了。

产生这种错误感觉的原因可能有以下几个:
1、你看到的外国对中国的报道都不是原文,都是转载的,很多正面报道中国的文章未获转载,获转载的多是负面报道。
2、正面新闻不容易给人留下深刻印象;负面新闻易留下深刻印象,记忆也更长久。
3、我们活在一个对自己祖国评价极高的新闻环境里了,外国媒体哪怕对中国也是以赞扬为主,但这种赞扬的力度仍远不及中国媒体,所以横向比较之下,我们还是会觉得外国媒体对中国不友善。





编辑:董莉



119#
发表于 2021-6-16 16:07:14 | 只看该作者
【案例】






编辑:王奕
120#
发表于 2021-7-9 18:27:59 | 只看该作者

【案例】







编辑:王奕

发表回复

您需要登录后才可以回帖 登录 | 实名注册

本版积分规则

掌上论坛|小黑屋|传媒教育网 ( 蜀ICP备16019560号-1

Copyright 2013 小马版权所有 All Rights Reserved.

Powered by Discuz! X3.2

© 2016-2022 Comsenz Inc.

快速回复 返回顶部 返回列表