1、语料标注
1. 语料介绍
哈工大中文篇章关系语料 (HIT-CDTB)
包括525篇标注文本,语料生文本来源于OntoNotes 4.0中的以下四类文本: 1. bn (broad news) 2. mz (magazine) 3. nw (new wire) 4. wb (web)
针对每一篇文本,我们标注了以下三部分内容:分句篇章关系、复句篇章关系和句群篇章关系。 p3: 分句篇章关系是指篇章关系涉及到的两个关系元素位于同一个句子内; p2: 复句篇章关系表示两个关系元素是两个独立的句子 p1: 句群篇章关系是指篇章关系涉及的两个关系元素都是句子集合。
显式篇章关系:
指由显式关联词标识的篇章关系。标注过程中,通常从识别篇章关联词入手,根据关联词判断是否存在篇章关系,但并不是所有的关联词都标识了篇章关系,因此需要标注人员进行识别。 在标注过程中需要首先识别显式关联词,再根据关联词寻找关系元素。
隐式篇章关系:
隐式关系是指没有显式关联词的篇章关系。在很多情况下,汉语篇章关系并没有关联词,识别难度比显式关系更大。在标注过程中,首先需要标注人员识别隐式关系,并选择合适的连词插入关系,以此标识该篇章关系。
2. 语料标注
针对原始语料:
" 前几天大家想出去玩,但是天气一直不好,就没有出去。天气预报说今天天气会很好,大家决定去旁边的白云山上玩。"
该语料中共存在两个篇章关系,第一句话中是一个典型显式转折关系。第二句话是一个典型的隐式因果关系。
[size=+1]2.1: 显式篇章关系标注示例
[size=+1]2.2 隐式篇章关系标注示例
3. 标注手册
标注手册下载>>>
4. 语料存储格式
语料的标注的结果的存放格式分为两种,txt版和xml版。txt版本的存储格式见上面的标注示例.
[size=+1]4.1 : 显式篇章关系xml版本存储格式如下:
[size=+1]4.2: 隐式篇章关系xml版本存储格式如下:
2、语料分析
1. 关联词分析
此次标注的关联词分为显式关联词和隐式关联词两种。 显式关联词主要是指在实际语料中出现的,用于指示篇章关系的关联词。 隐式关联词主要是指在实际语料中没有出现的,由标注人员手工插入用于指示篇章关系的关联词。 针对标注出来的关联词,主要从以下几个方面进行统计分析: 关联词出现频率;关联词在句群,复句和分句中的分布规律; 关联词在实际语料中的使用频率; 并列关联词;关联词指示能力分析。
常见的显式关联词包括以下几个类别:
普通关联词
可以单独使用来标识篇章关系的关联词,例如:但是,由于,不过等。
例如:小强今天没来上课,因为他生病了。
带修饰关联词
很多普通关联词可以搭配副词使用,例如:部分原因,尤其是等。
例如:他最近成绩不好,部分原因是身体不好的原因。
平行关联词
这样的关联词通常由两部分组成,例如:一方面…另一方面…,一边…一边…等。
例如:一方面经济发展迅速,人民生活水平大大提高;另一方面环境问题却日渐严重。1.1: 关联词出现频率
该统计结果主要是用来分析在标注结果中每个关联词出现的次数的分布规律。
根据关联词的显式和隐式,将统计结果分成了两部分,即显式关联词在标注结果中的出现频率以及隐式关联词在标注结果中的出现频率。
显式关联词出现频率
语料中标注出来的显式关联词共有1472种,它们总共出现的次数是11519次。 其中显式关联词出现频率前20的各个关联词出现次数以及它们在总次数中占据的比例如表1和表2所示。
表1:显式关联词中出现次数排名前1-10的各个关联词 关联词 | 但 | 但是 | 因为 | 而 | 如果 | 不过 | 也 | 所以 | 并 | 而且 | 次数 | 630 | 579 | 467 | 458 | 344 | 337 | 318 | 256 | 254 | 204 | 比例 | 5.47% | 5.03% | 4.05% | 3.98% | 2.99% | 2.93% | 2.76% | 2.22% | 2.21% | 1.77% |
表2:显式关联词中出现次数排名前11-20的各个关联词 关联词 | 并且 | 因此 | 和 | 然而 | 还 | 由于 | 为了 | 以及 | 之后 | 其中 | 次数 | 203 | 197 | 192 | 169 | 162 | 144 | 134 | 131 | 129 | 129 | 比例 | 1.76% | 1.71% | 1.67% | 1.47% | 1.41% | 1.25% | 1.16% | 1.14% | 1.12% | 1.12% |
2. 关联词表
关联词表分为两个部分;
unSingleWord.txt: 单个字作为关联词的词表。每行表示一个关联词,以及它作为显式关联词和隐式关联词的次数
unParallelWord.txt: 并列关联词词表。每行表示一个关联词,以及它作为显式关联词和隐式关联词的次数
中文关联词词表下载>>>
3. 显式关系分析
此次标注的篇章关系主要分为三个级别的篇章关系:句群关系、复句关系和分句关系。标注的篇章关系共6个大类:1时序关系、2因果关系、3条件关系、4比较关系、5扩展关系、6并列关系。 显式关系是指在语料中有显式关联词明确指示的篇章关系。在所有标注的显式关系结果中,6类篇章关系的分布情况如图3-2所示。
4. 隐式篇章关系分析
隐式关系是指没有明显的关联词指示的,但却由标注人员认为存在的,手动标注的篇章关系。在隐式关系中,6类篇章关系的分布情况如图3-3所示。
3、语料下载
1. 课题介绍
负责人:刘挺教授
依托单位:哈尔滨工业大学
项目类型:国家自然科学基金 重点项目
项目名称:篇章级中文语义分析理论与方法
2. 语料下载
感谢您关注
哈工大中文篇章关系语料(HIT-CDTB), 本语料由哈工大社会计算与信息检索研究中心开发。
本次语料标注工作属于中心承担的自然科学基金重点项目“中文篇章及语义分析理论与方法”的部分工作内容;
语料包含525篇Ontonotes中文语料的标注结果,覆盖了句群关系、复句关系、分句关系等多级信息。 为促进国内相关研究发展,推动学术交流,我们决定
将语料免费对学术界开放,欢迎大家下载使用。
• 如果您希望了解我们的语料,这里是小集合语料样例(50篇)下载
<语料样例下载(50篇)>
• 如果您希望获取全部语料,请下载签署
<哈工大社会计算与信息检索研究中心共享资源协议>,并联系秦兵教授([email protected])。
特别说明:
1) 请您所在课题组负责人签署协议,并将协议Word电子版直接发送给
秦兵教授([email protected]), 协商语料的具体交付方式。
2) HIT-SCIR共享资源的完整数据和相关程序库的完整版本只免费提供给“高校和科研院所”用于科学研究,对于独立个人或者商业公司的申请恕不免费提供。
3) 在发表论文和申报成果时声明“使用了哈工大社会计算与信息检索研究中心中文篇章关系语料”,并且引用以下论文:
张牧宇,宋原,秦兵,刘挺. 中文篇章级语义关系识别. 中文信息学报. 已录用(待发表).
同时,发信给[email protected],说明发表论文题目或取得成果的出处等情况。
具体要求请参见共享资源协议内容
3. 发表文章
中文篇章级关系体系及类型标注;张牧宇,秦兵,刘挺;中文信息学报,已录用
中文篇章级句间语义关系识别;张牧宇,宋原,秦兵,刘挺;中文信息学报,已录用
4. 联系我们
如果您有任何问题,欢迎随时与我们联系。
秦兵(教授、博士生导师)
Homepage:
http://ir.hit.edu.cn/~qinb/
E-mail:[email protected]
张牧宇(博士研究生)
Homepage:
http://ir.hit.edu.cn/~myzhang/
E-mail:[email protected]
姬建辉(硕士研究生)
Homepage:
http://ir.hit.edu.cn/~jhji/
E-mail:[email protected]
http://ir.hit.edu.cn/hit-cdtb/index.html
|