传媒教育网

 找回密码
 实名注册

QQ登录

只需一步,快速开始

搜索
做个试验
楼主: admin
打印 上一主题 下一主题

新闻语言的语用案例

[复制链接]
421#
 楼主| 发表于 2013-11-24 12:40:25 | 只看该作者
【案例】
徐昕
//@大案://@//@营口81岁老人被劳教:
//@愚-言:
//@孔智勇-:
→_→ //@洪晃ilook:中国最大的恐怖分子是中石油和中石化。

@作业本
XX挺住!XX不哭!XX加油!XX坚强!XXXXX你大爷,这不是地震,不是洪水,青岛也不是灾区,别往天灾上引,这是人祸!是人祸就该立即追责,死了47个怎么挺住?炸成这样还不哭?还忽悠人们要坚强要加油,怎么坚强怎么加油?

(24874)|
轉發(30385)
|
評論(8987)

11月23日23 : 01來自新浪微博手机版


(32)|
轉發(112)|
收藏|
評論(24)

9分鐘前
來自新浪微博


422#
 楼主| 发表于 2013-11-29 13:27:48 | 只看该作者
【案例】
@历史解密网站
总算找到了珍贵的《全部甲骨文对照表》值得收藏。






(51)|
轉發(1985)
|
評論(143)

11月28日08 : 49來自皮皮时光机


|
轉發|
收藏|
評論

20分鐘前
來自360浏览器超速版
|
檢舉

423#
 楼主| 发表于 2013-12-2 12:37:53 | 只看该作者
本帖最后由 admin 于 2013-12-2 12:39 编辑

【案例】

《民众的称呼》:开会时称人民,落户时称居民,强拆时称刁民,发怒时称屁民,收税时成了公民!

领导的称谓:开会时是代表,行政时是官员,视察时是领导,执法时是公务,宣传时是公仆!

话题:官员截下患癌访民后大笑摆胜利手势(图)[查看原文]
http://comment.news.163.com/news3_bbs/9F2BHVCM00014AED.html

424#
发表于 2013-12-2 18:17:54 | 只看该作者
【案例】
@深蓝财经网
【又见神奇新华体:好多“文章说”】新华网最近发布了一篇《没有了祖国你将什么都不是》的帖文,随后又继续发一篇文章推广这篇贴文。小编发现,很多很多“文章说”哦,难道这就是传说中的新华体?http://t.cn/8kqqv02






|
轉發(53)
|
評論(14)

今天 16:19來自专业版微博


|
轉發(7)|
收藏|
評論(6)

22分鐘前
來自iPhone客户端


425#
发表于 2013-12-2 20:57:20 | 只看该作者


1、语料标注
1. 语料介绍
哈工大中文篇章关系语料 (HIT-CDTB)
包括525篇标注文本,语料生文本来源于OntoNotes 4.0中的以下四类文本:
     1. bn (broad news)
     2. mz (magazine)
     3. nw (new wire)
     4. wb (web)

针对每一篇文本,我们标注了以下三部分内容:分句篇章关系、复句篇章关系和句群篇章关系。
    p3:  分句篇章关系是指篇章关系涉及到的两个关系元素位于同一个句子内;
    p2:  复句篇章关系表示两个关系元素是两个独立的句子
    p1:  句群篇章关系是指篇章关系涉及的两个关系元素都是句子集合。

显式篇章关系:
     指由显式关联词标识的篇章关系。标注过程中,通常从识别篇章关联词入手,根据关联词判断是否存在篇章关系,但并不是所有的关联词都标识了篇章关系,因此需要标注人员进行识别。 在标注过程中需要首先识别显式关联词,再根据关联词寻找关系元素。

隐式篇章关系:
     隐式关系是指没有显式关联词的篇章关系。在很多情况下,汉语篇章关系并没有关联词,识别难度比显式关系更大。在标注过程中,首先需要标注人员识别隐式关系,并选择合适的连词插入关系,以此标识该篇章关系。


2. 语料标注
针对原始语料:

    " 前几天大家想出去玩,但是天气一直不好,就没有出去。天气预报说今天天气会很好,大家决定去旁边的白云山上玩。"


该语料中共存在两个篇章关系,第一句话中是一个典型显式转折关系。第二句话是一个典型的隐式因果关系。

[size=+1]2.1: 显式篇章关系标注示例




[size=+1]2.2 隐式篇章关系标注示例





3. 标注手册
标注手册下载>>>
4. 语料存储格式
语料的标注的结果的存放格式分为两种,txt版和xml版。txt版本的存储格式见上面的标注示例.


[size=+1]4.1 : 显式篇章关系xml版本存储格式如下:





[size=+1]4.2: 隐式篇章关系xml版本存储格式如下:




2、语料分析
1. 关联词分析

此次标注的关联词分为显式关联词和隐式关联词两种。 显式关联词主要是指在实际语料中出现的,用于指示篇章关系的关联词。 隐式关联词主要是指在实际语料中没有出现的,由标注人员手工插入用于指示篇章关系的关联词。 针对标注出来的关联词,主要从以下几个方面进行统计分析: 关联词出现频率;关联词在句群,复句和分句中的分布规律; 关联词在实际语料中的使用频率; 并列关联词;关联词指示能力分析。


常见的显式关联词包括以下几个类别:


普通关联词

可以单独使用来标识篇章关系的关联词,例如:但是,由于,不过等。

例如:小强今天没来上课,因为他生病了。


带修饰关联词

很多普通关联词可以搭配副词使用,例如:部分原因,尤其是等。

例如:他最近成绩不好,部分原因是身体不好的原因。


平行关联词

这样的关联词通常由两部分组成,例如:一方面…另一方面…,一边…一边…等。

例如:一方面经济发展迅速,人民生活水平大大提高;另一方面环境问题却日渐严重。1.1: 关联词出现频率
该统计结果主要是用来分析在标注结果中每个关联词出现的次数的分布规律。

根据关联词的显式和隐式,将统计结果分成了两部分,即显式关联词在标注结果中的出现频率以及隐式关联词在标注结果中的出现频率。


显式关联词出现频率

语料中标注出来的显式关联词共有1472种,它们总共出现的次数是11519次。 其中显式关联词出现频率前20的各个关联词出现次数以及它们在总次数中占据的比例如表1和表2所示。

表1:显式关联词中出现次数排名前1-10的各个关联词
关联词但是因为如果不过所以而且
次数630579467458344337318256254204
比例5.47%5.03%4.05%3.98%2.99%2.93%2.76%2.22%2.21%1.77%


表2:显式关联词中出现次数排名前11-20的各个关联词
关联词并且因此然而由于为了以及之后其中
次数203197192169162144134131129129
比例1.76%1.71%1.67%1.47%1.41%1.25%1.16%1.14%1.12%1.12%


2. 关联词表
关联词表分为两个部分;

unSingleWord.txt: 单个字作为关联词的词表。每行表示一个关联词,以及它作为显式关联词和隐式关联词的次数

unParallelWord.txt: 并列关联词词表。每行表示一个关联词,以及它作为显式关联词和隐式关联词的次数

中文关联词词表下载>>>



3. 显式关系分析
此次标注的篇章关系主要分为三个级别的篇章关系:句群关系、复句关系和分句关系。标注的篇章关系共6个大类:1时序关系、2因果关系、3条件关系、4比较关系、5扩展关系、6并列关系。 显式关系是指在语料中有显式关联词明确指示的篇章关系。在所有标注的显式关系结果中,6类篇章关系的分布情况如图3-2所示。


4. 隐式篇章关系分析
隐式关系是指没有明显的关联词指示的,但却由标注人员认为存在的,手动标注的篇章关系。在隐式关系中,6类篇章关系的分布情况如图3-3所示。





3、语料下载
1. 课题介绍
    负责人:刘挺教授

依托单位:哈尔滨工业大学

项目类型:国家自然科学基金 重点项目

项目名称:篇章级中文语义分析理论与方法



2. 语料下载

感谢您关注
哈工大中文篇章关系语料(HIT-CDTB), 本语料由哈工大社会计算与信息检索研究中心开发。
本次语料标注工作属于中心承担的自然科学基金重点项目“中文篇章及语义分析理论与方法”的部分工作内容;

语料包含525篇Ontonotes中文语料的标注结果,覆盖了句群关系、复句关系、分句关系等多级信息。
为促进国内相关研究发展,推动学术交流,我们决定
将语料免费对学术界开放,欢迎大家下载使用。
    • 如果您希望了解我们的语料,这里是小集合语料样例(50篇)下载
<语料样例下载(50篇)>

    • 如果您希望获取全部语料,请下载签署
<哈工大社会计算与信息检索研究中心共享资源协议>,并联系秦兵教授([email protected])。

特别说明:
1) 请您所在课题组负责人签署协议,并将协议Word电子版直接发送给
秦兵教授([email protected]), 协商语料的具体交付方式。

2) HIT-SCIR共享资源的完整数据和相关程序库的完整版本只免费提供给“高校和科研院所”用于科学研究,对于独立个人或者商业公司的申请恕不免费提供。
3) 在发表论文和申报成果时声明“使用了哈工大社会计算与信息检索研究中心中文篇章关系语料”,并且引用以下论文:
    张牧宇,宋原,秦兵,刘挺. 中文篇章级语义关系识别. 中文信息学报. 已录用(待发表).
    同时,发信给[email protected],说明发表论文题目或取得成果的出处等情况。
具体要求请参见共享资源协议内容


3. 发表文章
中文篇章级关系体系及类型标注;张牧宇,秦兵,刘挺;中文信息学报,已录用

中文篇章级句间语义关系识别;张牧宇,宋原,秦兵,刘挺;中文信息学报,已录用



4. 联系我们
如果您有任何问题,欢迎随时与我们联系。


秦兵(教授、博士生导师)

Homepage:
http://ir.hit.edu.cn/~qinb/


E-mail:[email protected]


张牧宇(博士研究生)

Homepage:
http://ir.hit.edu.cn/~myzhang/


E-mail:[email protected]


姬建辉(硕士研究生)

Homepage:
http://ir.hit.edu.cn/~jhji/


E-mail:[email protected]
http://ir.hit.edu.cn/hit-cdtb/index.html







426#
 楼主| 发表于 2013-12-6 20:51:06 | 只看该作者
【案例】
twccl
真是越來越陽謀了 //@陈远: //@宪阁微观:运用之妙:也是、照样及其他 //@吴铭: 转发微博


@张懿婧
近日《环球时报》的《没有了祖国你将什么都不是》中有一句名言:“就算换了个小的政党来,其实也是利益集团中心的个别人来操纵。”这个“也是”用的太妙了。此外之前新华社的《美国才是这个时代的最大恶棍》这个“才是”也是绝妙。《多党轮流执政照样腐败》中的“照样”更让我们心服口服。
(42)| 轉發(227) | 評論(55)
今天 10:28來自Android客户端
| 轉發(2)| 收藏| 評論(2)
7分鐘前 來自新浪微博
427#
 楼主| 发表于 2013-12-8 17:15:22 | 只看该作者
【案例】
夏骏
也是长期意识形态泛化,“统一思想”的成果。//@王东成cyu: 语言即存在,语言是社会生活的“化验单”。“军事术语泛化”是语言暴力化、粗鄙化的反映。除了“军事术语泛化”,还有语言的“物质化”和语言的“行政化”,例如动辄XX工程、XX领导等。这是人的异化、工具化、主奴化的反映。

@独俏逍遥
在大陆,有个持续了几十年的现象,叫“军事术语泛化”。文革时爱说开火、炮打、火线、誓师;搞建设叫战役、攻坚、打硬仗;集合一帮人叫指挥部、突击队、同一条战线、打造某某航母;表态时说站好岗、放好哨。表明我们:具有暴力倾向、习惯命令强制、凡事没有长性、要求速战速决!转

(3)|
轉發(64)
|
評論(16)

今天 15:38來自iPad客户端


|
轉發(3)|
收藏|
評論

6分鐘前
來自360浏览器超速版


]
428#
 楼主| 发表于 2013-12-13 21:45:01 | 只看该作者
【案例】
田科武
将前朝驸马爷说成天下头号千古逆贼、狗不如的人间渣滓,许多国人觉得朝鲜滑稽可笑。其实我们告别犯罪分子丧心病狂、罪大恶极、十恶不赦之类的语汇也没多长时间。即使语言上告别了,这样的观念仍在许多人内心深处蠢蠢欲动,时常见诸媒体的公开逮捕和游街示众就是明证。嘲笑朝鲜不如反思自己。
(3)| 轉發(26)| 收藏| 評論(4)

429#
 楼主| 发表于 2013-12-31 12:52:33 | 只看该作者
【案例】
//@醉虾饺: //@kingsouleater00th:一盘包子引发的血案 //@疯-良-话: //@石下顽草5世:转发微博

@漫画2厅
【盘点2013——流行语】1·我和我的小伙伴们都惊呆了;2·土豪;3·女汉子;4·高端大气上档次;5·点赞;6·上头条;7·中国大妈;8·待我长发及腰;9·奇葩;10·涨姿势(漫画:邝飚)


  • (6)


(2)| 轉發(38) | 評論(8)
12月30日08 : 47來自新浪微博

| 轉發(2)| 收藏| 評論
7分鐘前 來自新浪微博 |  檢舉






430#
 楼主| 发表于 2014-1-2 10:42:14 | 只看该作者
【案例】
谭人玮
//@中青报曹林: 我经常在报社洗手间偶遇十八大代表:)

@刘万永
以前的新闻,经常有一句话:记者来到XX时,正赶上~~后来也琢磨,怎么每次都这么巧?现在明白了,用新闻学术语讲,这叫“偶遇”。

(3)| 轉發(30) | 評論(12)
今天 09:15來自iPhone客户端


| 轉發(2)| 收藏| 評論(1)
24分鐘前 來自新浪微博 |  檢舉



发表回复

您需要登录后才可以回帖 登录 | 实名注册

本版积分规则

掌上论坛|小黑屋|传媒教育网 ( 蜀ICP备16019560号-1

Copyright 2013 小马版权所有 All Rights Reserved.

Powered by Discuz! X3.2

© 2016-2022 Comsenz Inc.

快速回复 返回顶部 返回列表