十一月 23, 2013 by 洪烨林
背景介绍: 这门课最初是由哥伦比亚大学新闻学院下属的 Tow Center(数据新闻研究中心)为其计算机和新闻双学位的硕士开设,由 Jonathan Stray教授。Jonathan Stray不仅是一个专业记者,同时也是一个计算机科学方面的专家。他的经历包括作为自由撰稿人为《纽约时报》、《外交政策》、《连线》供稿,在香港、柏林、旧金山做记者,以及为Adobe Systems开发并行程序语言等等。目前在为美联社做一个为调查记者开发的开源文件档案分析系统。 课程目标: 该课程以介绍计算机科学中与新闻有关领域的最新研究和发展为目标,不仅教授怎样用技术辅助个人进行新闻报道,还会教授如何设计相关软件系统,如可以每天提供信息的搜索引擎等。课程重点不在教授算法或者编程,而在于以应用为导向的研究和设计之上。 本课程的跨度有十四周(本文列出的十一周都是以授课为主,未列出的是以小组讨论为主),会以研讨的形式进行,每周课程的推荐阅读以及计算技术是讨论的基础和重点。 第一周:基础
首先需要思考计算机科学和新闻交叉点在哪里;计算机技术主要在以下这四个领域对新闻报道有所帮助:以数据推动的报道,故事的展现示方式,信息筛选以及影响跟踪。在这一周,讲授会以数据的概念为主。具体来说,需要学习的是在数据挖掘,语言处理,机器学习以及视觉化的许多算法中数据是如何呈现的。这周主要从两个方面进行学习,一是对象矢量化(这句话翻译不确定,因为不是很理解 对象的矢量化),二是对高维空间的可视化。 推荐阅读: - What should the digital public sphere do?, Jonathan Stray
- Computational Journalism, Cohen, Turner, Hamilton
- Precision Journalism, Ch.1, Journalism and the Scientific Tradition, Philip Meyer
- The Jobless rate for People Like You, New York Times
- Dollars for Docs, ProPublica
- What did private security contractors do in Iraq and document mining methodology, Jonathan Stray
- The network of global corporate control, Vitali et. al.
- World Government Data, The Guardian UK
- NICAR journalism database library
第二周:文本分析 能不能用机器来帮助理解文本呢?这一周,将学习一些基本的文本分析技术,从字数统计到话题建模,并且还要探讨一些被广泛运用的算法,比如搜索引擎,文档集可视化,判别两篇文章是不是关于同一个故事,怎样发现流行话题。矢量空间文档模型是新闻内容处理算法中最为重要的一种,我们需要运用它来理解每个归类和个人化的系统是怎样运作的。 推荐阅读:
- Online Natural Language Processing Course, Stanford University
- A full-text visualization of the Iraq war logs, Jonathan Stray
- Introduction to Information Retrieval Chapter 6, Scoring, Term Weighting, and The Vector Space Model, Manning, Raghavan, and Schütze.
- Probabilistic Topic Models, David M. Blei
- General purpose computer-assisted clustering and conceptualization, Justin Grimmer, Gary King
- Watchwords: Reading China Through its Party Vocabulary, Qian Gang
- Message Machine, ProPublica
第三周:信息过载以及筛选算法 本周课程首先将通过一些基本概念了解筛选在新闻报道中的地位,接着以 Newsblaster(这是一款由哥伦比亚大学开发,类似于Google News的新闻聚合系统)为例,来学习如何用纯算法进行筛选。 推荐阅读: 第四周:社交软件和社交筛选 在上一周筛选算法的基础上,这周将要把这个概念带进社交网络中。首先将回顾社交软件这个带有独特活力的交叉领域,运用由Joel Spolsky建议的”架构”这个概念来进行类比以及来思考软件是怎样影响行为的,之后将研究社交媒体以及它们在新闻界中的角色,包括在信息传播和收集以及寻找新闻线索中的作用。 推荐阅读: - A Group is its own worst enemy, Clay Shirky
- What’s the point of social news?, Jonathan Stray
- Finding and Assessing Social Information Sources in the Context of Journalism, Nick Diakopolous et al.
- Learning from Stackoverflow, first fifteen minutes, Joel Spolsky
- Norms, Laws, and Code, Jonathan Stray
- What is Twitter, a Social Network or a News Media?, Haewoon Kwak, et al,
- International reporting in the age of participatory media, Ethan Zuckerman
- We The Media. Introduction and Chapter 1, Dan Gillmor,
- Are we stuck in filter bubbles? Here are five potential paths out, Jonathan Stray
第五周:混合筛选,推荐和对话 上两周已经从纯算法以及社交模式两个角度学习了筛选。这周要学习将软件和人结合起来的系统,研究”推荐”系统及其算法,接着将转向线上讨论以及保证“好对话”(这是一个没有单一定义的社交结果)的混合技术。最后,将研究一个利用个人喜好来推动机器学习算法的例子:Google Web search。 推荐阅读: 第六周:视觉化 本周将介绍视觉化是如何帮助人们理解信息的。将了解信息图和视觉化之间的区别,信息探索和呈现的不同。从用户体验,图标设计以及人类视觉系统几个方面来学习设计准则。除此之外,思考一下在新闻中的视觉化,相比于其他领域有什么特别之处? 推荐阅读: 第七周:结构化新闻学和知识展示 新闻是文本、视频、音频的集合还是知识的展示?这周课将从细节入手思考这个问题,并将深入研究知识怎样在电脑上进行呈现。传统的关系数据库模型在新闻工作往往并不合适,所以将更多地关注所谓“数据链接”的呈现方式,这种呈现方式被广泛地应用以及越来越流行。比如最近Google推出的知识图谱(Knowledge Graph), 但是从非结构化文档中产生这样的数据还是有一定难度的。为此,将研究Reverb算法。 推荐阅读: 第八周:网络分析 网络分析(Network analysis,也被称作链接分析)是一种很有前景的技术,它主要用来描述多样化的个人和组织之间的关系,它在情报和法律执行领域被广泛运用,但是在新闻领域却很少提及.本周将围绕它的基本技术和算法,来理解一些实际问题. 推荐阅读: - Analyzing the Data Behind Skin and Bone, ICIJ
- Identifying the Community Power Structure, an old handbook for community development workers about figuring out who is influential by very manual processes.
- Simmelian Backbones: Amplifying Hidden Homophily in Facebook Networks. A soophisticated and sociologically-aware network analysis method.
- Visualizing Communities, Jonathan Stray
- The network of global corporate control, Vitali et. al.
- The Dynamics of Protest Recruitment through an Online Network, Sandra González-Bailón, et al.
- Sections I and II of Community Detection in Graphs, Fortunato
- Centrality and Network Flow, Borgatti
- Exploring Enron, Jeffrey Heer
- Galleon’s Web, Wall Street Journal
- Muckety
- Theyrule.net,
- Who Runs Hong Kong?, South China Morning Post
第九周:从数据中得出结论 当你下载了所有的数据,运行了算法以及完成了分析之后,怎样才能验证你结论的正确?幸运的是,从统计到智能分析,都有以计算不确定性的角度来决定事情真相的传统。 推荐阅读: 第十周:安全,监督和审查 谁在观察人们网络上的行为?在21世纪如何保护你的线人?谁有方法接触这些大众情报?可以随时搜索到所有信息的能力,在实际中以及伦理上对于新闻界意味着什么?在本周的课程上,将探讨谁在观察,怎样观察,以及怎样利用对威胁建模建立安全计划。 推荐阅读:
第十一周:追踪信息流及其影响 信息是如何在网络这个生态系统中流动的?当一个故事发表之后会有什么变化?话题在社交网络中是怎样传播的?结合社交网络中的技术以及生物信息学,本周将研究怎样去能追踪在网络中变动的信息。 推荐阅读:
- Metrics, Metrics everywhere: Can we measure the impact of journalism?, Jonathan Stray
- Meme-tracking and the Dynamics of the News Cycle, Leskovec et al.
- The role of social networks in information diffusion, Eytan Bakshy et al.
- Defining Moments in Risk Communication Research: 1996–2005, Katherine McComas
- Chain Letters and Evolutionary Histories, Charles H. Bennett, Ming Li and Bin Ma
- Competition among memes in a world with limited attention, Weng et al.
- Zach Seward, In the news cycle, memes spread more like a heartbeat than a virus
- How hidden networks orchestrated Stop Kony 2012, Gilad Lotan
本课表为2013年秋季版本,独家授权翻译,转载请注明。
想要保存喜欢过的文章吗?立即关联或创建无觅帐号? 不再提示!
您可能也喜欢:
|