【案例】
国家“语料库”全解析
作者:《瞭望东方周刊》记者张静 | 北京报道 点击: 58
“国家语委前排的二层小楼简直就成了军事基地,谁都不能随便进入,录入工作是由解放军二炮某部完成的。录入进来的字词,又人工校对了7遍。”
2012年7月25日,国家语言资源监测与研究中心平面媒体分中心、北京语言大学、中国新闻技术工作者联合会、中国中文信息学会联合发布“2012年春夏季中国报纸流行语”。“神舟九号”位居综合类流行语第一,其他进入前十的流行语是:明胶、黄岩岛、伦敦奥运会、穆巴拉克、小微企业、欧洲杯、学雷锋、农业科技和舌尖上的中国。 2005年,教育部语言文字信息管理司和国内一些高校联合建设了国家语言资源监测与研究中心,上述平面媒体分中心的主要任务是建设平面媒体动态流通语料库,自2001年开始,每年根据“发行量、发行地域、发行周期、媒体价值、阅读率”等因素,选择15种网络版报纸内容作为语料库的采集源,目前已形成了近30亿字的“国家语言资源监测语料库”。 利用监测语料库,国家语言资源监测与研究中心从2005年开始发布中国语言生活状况报告、年度流行语和年度新词。 “上述工作就是在网络上搜集上亿字的资源,分领域抓文本,看词语集,做交集,按时间段跟踪,测算词语使用频率并解释其背后的经济社会文化背景。”原教育部语言文字应用研究所副所长、国家语委语言文字规范标准测查认证中心主任靳光瑾告诉《瞭望东方周刊》。 “我们这个时代已经进入到语料库时代,也就是用电子形式保存的真实语言材料将作为对一个时代的记录而被保存。”北京语言大学党委书记、原教育部语言文字信息管理司司长李宇明在接受《瞭望东方周刊》采访时总结说。 国家语料库依据什么来选择语言原材料,它又究竟为我们的时代保存了些什么? 改革开放后的语料占50% “监测语料库是动态的,其基础来自‘现代汉语平衡语料库’,两个语料库的研究重点不一样。”教育部语言文字应用研究所计算语言学研究室主任肖航告诉《瞭望东方周刊》,奠定我国语料库基本模式的是由国家语言文字工作委员会牵头、上世纪90年代初开始研发、历时十年、反映中国20世纪现代汉语整体发展情况的现代汉语平衡语料库。 世界上第一个标准语料库是1961年建立的美国Brown语料库,随着各国对语言作为一种国家资源的认识的深化,各国政府和学术机构都开始投资建设大型语料库。1980年到1993年,欧美国家建设有超过50个语料库并投入使用。 上世纪90年代初期,随着计算机技术在中国兴起,国家语委于1992年12月提出建设现代汉语语料库项目。 “语言的边界非常大,不断新陈代谢,很难把握它,这样大的整体怎么去调查分析。”肖航介绍说,国家语委最后决定按照国际标准采用小样本抽样的方法来建语料库,“小样本,大样本量,尽可能多地搜集原材料,单一来源则不能太多”。 1992年4月,国家语委召开现代汉语语料库选材原则专家论证会,1993年1月制订出选材原则。“因为要反映中国现代汉语的全貌,在选材上就要注重平衡性原则。抽样要注意文体、时间和地区三个方面的平衡性。”李宇明说。 “在语料的选择上,要有别于专业性、地域性和纯口语性。尽可能提高所选语料在采字、采词和采义等方面的广度。”肖航说。 在语料的选材分类上,专家组最终定了3大分类:人文与社会科学类、自然科学类和综合类,占比分别是50%、30%和20%,每一大类下又分了若干小类,样本一共分布在37类里。这37类并不是一成不变的,进入21世纪后,信息技术和电子科技的研究成为后起之秀,37种分类也为这些新出现的科目做出调整,自然科学类调整较大,增加了信息技术等方面的分类。 从时间看,语料库将自1919年开始的现代汉语划分为5个阶段:1919~1925年,五四时期的白话文仍留有文言痕迹,这部分样本只占总体的5%;1926年~1949年,白话文逐步脱离文言痕迹,现代汉语逐渐成熟,样本约占15%;1950年~1965年,新中国的成立给社会生活带来巨大变化,新词新语大量涌现,这时期的样本约占25%;1966年~1976年,“文革”时期的许多词语仅作为历史词语存在于现代汉语中,特殊时期的样本量很小,只占5%;语料库大部分的样本量来自1977年以后,改革开放后,现代汉语有了新发展,这一时期的样本量占到总体的50%。 保持样本平衡性 从来源看,语言材料多选用政论性文章、新闻报道、各类文学艺术作品、科普读物、通俗读物、学术专论及各种应用文语体等现代汉语作品。样本容量2000字,上下允许有500字的浮动。书籍的抽样数量一般占全书字数的3%~5%,字数最多不超过10000字;报纸采用整版选用的方式,为了避免重复,不同报纸选用不同月份;刊物所选字数不超过5000字。 对于2000字的样本容量,肖航解释说:“首先是因为同一个来源的样本不要太多的原则,希望样本选材来源更广泛;第二,国际上一般规定采集样本不能超过原材料内容的3%~5%,否则会构成侵犯版权。” 据肖航介绍,文学作品采样采用掐头去尾的方法来保持样本的平衡性,“掐头去尾会破坏文本的流畅性,但字词语法的采样不受影响。文学层面的不通顺跟语料库研究意图不冲突”。 按照选材原则,国家语委将抽样任务下发给北京语言大学、北京师范大学、中国人民大学等高校,从国家图书馆和高校图书馆一共抽取了4万多个样本,而这4万多个样本里,同样一本文学作品可能还有3~5个版本。 “一共找了多少本书可想而知。国际上对语料库的两大要求——大规模和真实性,在现代汉语平衡语料库上体现得十分明显。”肖航说。 在坚持语料分布的平衡性原则上,曾经参与了选材原则专家论证会的国家语委咨询委员会委员、教育部语言文字应用研究所研究员李行健深有体会。 “比如,鲁迅这样一个大家,他的作品是现代汉语,但有很多文言的成分夹杂在里面,比较古奥,因此根据平衡性原则,语料库要有来自鲁迅作品的语料,但不宜过多。”李行健告诉《瞭望东方周刊》,“诗歌就不能当做一般的语料,因为这种文体太宽泛灵活,如果用诗歌体做样本,会不符合研究现代汉语语法的原则。” “神马”为什么没收入 按照平衡性原则采集回来的4万多个样本被称为“生语料库”,将其录入进计算机进行加工也是一项大规模的工作。 靳光瑾回忆说:“那个时候做语料库真是倾全国之力。国家投入200万元,采样后没有经过加工的生语料库要一个字一个字地录入计算机。国家语委前排的二层小楼简直就成了军事基地,谁都不能随便进入,录入工作是由解放军二炮某部完成的。录入进来的字词,又人工校对了7遍。” 1998年底,7000万字的生语料库建成。 李宇明将生语料库的真实性特点概括为“有见必录”,“样本原文中的错别字也得收入,然后做上标记。生语料库反映现代汉语用词和语法的情况都没有问题,但是它的用字情况并不能很好地反映真实面貌。” 由于上世纪末我国的计算机字库水平有限,仅有的6000多个字在收录现代汉语方面远远不够,所以在录入时会把繁体字、异体字改换成相应的简体字、正体字,有时还需要造字。 “生语料库”必须进一步加工成“熟语料库”,才能发挥作用。国家语委遵循国外信息处理领域通用的语料库加工方式,标注分词和词性,制定了《信息处理用词类标记集规范》,以机助人校的方式加工,最后得出可供使用的5000万字标注语料。 据肖航介绍,2000年以后每年保持增加300万字的速度更新语料,然后进行整体校对,目前在使用的语料库校对数据仅更新到2003年。“2004年以后语料库在新的环境下该怎么做,方向选择上产生了摇摆。” “原来报刊是语言文字的最主要载体,现在都有了电子版本,有些语料甚至没有印刷版,技术手段升级,语料选材可以做得更大,但2003年之后的语料采集量我们不敢加太多,加太多就压掉了之前的语料比例,语料比例一旦轻易改变,平衡性就会受到影响。”肖航说。 而靳光瑾认为,现代汉语平衡语料库应该呈现一种动态更新的平衡。 “每年应该有15%的新陈代谢,有新旧替换才能反映语言的发展,体现出语言的与时俱进,又不影响原来的词频和使用情况。”靳光瑾说。 21世纪特别是近几年出现的网络语言,也在现代汉语平衡语料库的收入范围,但在语言整体里并不占很大比例。“网络语言是小群体语言,跟语言普通的面貌不太一样,虽然比较刺激眼球,实际上占语言整体总量比例并不大。”肖航说,语料库会从博客、微博和论坛里采集语料资源,但网络语言仅作为现代汉语整体情况的一个补充,不是重要组成部分。 《现代汉语词典》第六版的修订也利用了语料库查询词频。至于“神马”这类网络通用词语为何未被收入,李宇明解释说:“词典编纂要考虑定量分析,因为它在整个语料库里的词频还没达到一定分量,在平面媒体、严肃媒体用得较少,没进入到我们民族的共同语言当中去,所以没有收入。” 从语料库看词语的生命力 为词典编纂和制定语言文字规范和标准服务,是现代汉语平衡语料库的主要用途之一。 李行健是《现代汉语规范词典》的主编,他告诉本刊记者:“词典收什么词,如何选择,要用语料库先搞出一个词表,再进行人工干预。语义和注释都要用语料库的资源。” 语料库建设完成后,其价值的充分体现,还要看对这个庞大的语言仓库如何进行人工干预。 “语言就是记录生活的,每个词语都有一段故事,通过语料库可以研究社会的现状与发展趋势。”李宇明说,“比如‘农民工’,在语料库里搜索这个词语就能看到它出现的时间,通过词频曲线图就可以分析它在什么时期特别受到关注。” 肖航向本刊记者展示了“改革开放”和“市场经济”两个词汇的词频曲线图。截取现代汉语平衡语料库中1976年到2005年的《人民日报》等主要报纸上两个词汇的语料,按照每一万字出现的词语个数频率做成了曲线图。 从曲线图上可以看到,1976~1986年间,两个词语的词频在起步阶段。“改革开放”从1985年出现在《人民日报》上,1986年开始呈明显上升趋势,而“市场经济”曲线仍旧平缓,直到1992年两个词语的词频猛然上升,最高峰时“改革开放”在主要报纸上每万字中就出现了3.7767次。 肖航解释了词频变化的两个原因:“一是词汇所代表的话题本身的活跃性对词频分布造成决定性的影响;二是报纸内容中心的变化、报纸内容范围扩展也会对词频分布造成大的影响。例如,报纸内容范围扩大,某一领域所占的比例自然降低,领域词汇所占的比例也就相应下降。” “通过语料库研究社会语言的变化,可以看出词语是有生命的。有的词语在解放前死了,解放后又活了,而活了的意义可能会不一样。很多新词新语,字还是那个字,意思却变了。比如盖帽子的‘盖’,作为字古已有之,但‘盖帽子’的意思却是‘文革’时出现的。”靳光瑾说。 类似的例子还有许多称呼用词,改革开放初期,年轻女子都愿意被称作小姐,而当下小姐这个词又被社会默认为与性从业人员发生了关联。肖航说:“而和‘小姐’同一时期的‘公子’则一直没有回到生活中,一个原因是因为其他词语能够代替表达它的意思。” 相对于现代汉语平衡语料库,功能是监测当下语言生活的“监测语料库”采用更鲜活的抽样原则,这个库里的词语“活在当下”。以检测语料库为基础的中国语言生活状况报告,除了年度流行语、年度新词等已经公布的信息以外,还向有关部门提供了诸如人名表、地名表、省市排行榜、单位排行榜、科技排行榜等参考资料。 “语料库对于中国的各个部门了解中国语言的现状,是个可持续的开发资源。”李宇明说。 用方言做军事密码 “某些国家的军事组织随时都在监测全世界的网络语言,哪个国家的哪些词汇使用频率一旦猛增,他们就会分析并预测这个国家发生了哪种状况。例如,2006年化妆品品牌SK-II在网络的使用词频猛增,不久后,SK-II化妆品检测出铬和钕的新闻使得其暂时退出中国市场。”靳光瑾举例说。 “我们的监测语料库目前也承担了网络舆情分析的功能,”李宇明说,“语料库的发展,对网络安全是很重要的,网络安全涉及金融、军事和信息战略安全。中国要壮大自己的网络力量,没有语料库是不可能的。” “但我国现在的语料库发展水平还不够,计算机处理语言的能力还不够,目前所用的‘关键词技术’是一种比较落后的技术,把很多有用的信息都堵掉了。帮助计算机正确理解语言,自动进行语料知识挖掘,提高自动翻译水平,才能提高国家信息化的能力。”李宇明说,“发达国家虽然掌握了语料库的核心技术,但我们有我们的优越性,那就是汉语和中国其他少数民族语言的独特性。我们自己研发了录入汉字和少数民族文字的技术,外国人搞不懂。” 靳光瑾指出,进入21世纪,互联网上的海量文本一方面为语言处理提供了巨大需求,一方面又提供了语言处理的真实训练和测试数据。我国自上世纪90年代初就开始进行中文分词的研究工作,但至今还未开发出一个像日语分词系统那样被广为接受的分词标注系统。 “在计算机语言处理技术层面,语料库的词性标注工作能起到训练机器学习自动标注的作用。”靳光瑾说。 语料库不仅能在文本上助力信息技术的提升,国家语委在2008年启动建设的“中国语言资源有声数据库”还可以利用声音在保卫国家安全方面发力。 有声数据库采集的是中国各少数民族语言及方言的有声资料,在进行科学的整理和加工后,除了发挥保护中华各民族语言文化遗产的功能外,还可用作军事密码,有利于国家安全。 李宇明说:“电影《风语者》中,美国人在二战的时候用印第安语做军事密码,日本人怎么都破译不了。当年在战场上,我们国家也曾用温州话做过密码。未来计算机破解密码的能力非常强大,保密要求越来越高。我国有这么多民族语言和方言,通过分析和加工,可以成为保卫国家安全的工具,也可为公安系统破案提供帮助,犯罪嫌疑人的声音或用语在语料库和有声数据库里一对比就能缩小搜索范围,特别是在反恐缉毒这些领域会很有帮助。” |