新闻语言的语用案例

admin · 发表于 2012-8-4 09:57:52

【案例】

任卫新：让了。//@和谐老怪: 牛B一让

◆◆@殷慧芬的微博：“中国让出金牌耪首“？一个“让“字,媒体的厚颜有时让人无语。

轉發(344) | 評論(110) 今天08:34 來自Android客户端

轉發(8)| 收藏| 評論(9) 10分鐘前來自新浪微博 | 舉報

admin · 发表于 2012-8-9 21:55:28

【案例】

天涯乔木：汉语词典要重编了。

◆◆@天涯乔木：【称谓新解】：1、上帝：以前是神，现在是消费者。2、同志：以前是志同道合之人，现在是同性恋者。3、亲爱的：以前是恋人或夫妻，现在是同事或朋友。4、小姐：以前是富贵人家的千金，现在是失足妇女。4、老板：以前是生意人，现在是生意人或首长。5、老大：以前黑道头目，现在是一把手。

轉發(17) | 評論(7) 今天20:19 來自新浪微博

轉發| 收藏| 評論

admin · 发表于 2012-8-15 18:38:03

【案例】

白胖黑莓球：好书法//@周末画报杨晓丹: 有内涵

◆◆@光的深处：这两天歌功颂德的声音已然响过暴雨，今天看到所有的新闻舆论字斟句酌，遣词造句之严谨，可谓汉字的博大精深。

轉發(1928) | 評論(240) 7月24日13:52 來自iPhone客户端

轉發| 收藏| 評論 24分鐘前來自新浪微博 | 舉報

admin · 发表于 2012-8-18 00:56:46

【案例】

刘瑄地盘：贵国，好词哦//@赵拴科老师: 转发微博

◆◆@历史新知：【贵国您好】在微博中老是看到“贵国”这词，开始不解，甚至感有些讨厌，哪有称自己国家为“贵”国的？后来才明白，网友是指在这个国家里：油价很贵，房价很贵，车价很贵，菜价很贵，养孩子很贵，上学很贵，医药费很贵，进口的很贵，国产的也很贵……所以才俗称贵国。@闲闻趣事 @思想史略轉發(8) | 評論(2) 48分鐘前來自皮皮时光机

轉發| 收藏| 評論 5分鐘前來自新浪微博 | 舉報

白雪 · 发表于 2012-8-20 17:33:10

【案例】
王传涛：年度网络热词传递现实冷思考

8月18日，上海交大发布《中国社会舆情与危机管理报告》，对2011年的网络热词进行盘点。“郭美美”、“PM2.5”、“五道杠”等词汇均入选年度热词。蓝皮书指出，随着互联网的发展，热词的更替频率加快，所表达的也从最初字面含义向网民对社会深层隐衷转换，往往能直接反映某一个或一些成为一时焦点的社会现象与事件。(8月19日《新民晚报》)
　　网络热词的出现与更新换代，是一个“年年岁岁花相似，岁岁年年人不同”的问题。随着网络时代的来临，无论哪一年，都会出现属于那一年的网络热词。

　　2009年，我们记住了“被”、“杯具”、“雷人”、“山寨”；2010年，我们记住了“我爸是李刚”、“给力”、“神马都是浮云”。2011年，“晒三公”、“郭美美”、“PM2.5”、“五道杠”又闪亮登场。虽然每年都有不同的内容，不变的是，在每一年的网络热词之中，总能找到相通的公共诉求——网民正在用网络进行属于自己的利益表达。对公权力而言，就要在这些网络热词之中发现这些诉求，听懂这些利益表达，并着力解决问题。

　　例如，“郭美美”暴露了我国慈善事业管理中的硬伤所在；“PM2.5”代表了空气污染尤其是城市中的空气污染，反映了公众对于治污问题的纠结；“五道杠”则反映了教育中对青少年价值观塑造的短板。网络的出现、发展和繁荣，让民意上传有了新的路径。“围观改变中国”，“围观”之后的“转发”、“评论”会促进事件的发酵，网络热词也就因此形成。

　　崔永元曾说：“网友很聪明，权力和政府不要跟网民们玩捉迷藏。”是正视网络热词，还是回避，是发掘还是屏蔽，答案十分明了。截至去年12月底，中国网民数量突破5亿，已经达到5.13亿。如此广泛的网络受众，会在网络中形成许多声音与行动；既有呐喊，也有抱怨，既有声援，也有实实在在的行动。网络热词，就应该受到重视。

　　网络热词的出现，不仅仅是词汇的更新与丰富，也不仅仅是为春晚上冯巩的小品平添几个笑料，而有着真真正正的公共诉求。而在公共诉求得到正视的同时，公众的自觉意识和权利意识也有所增长，这是社会进一步成长成熟的必要条件。因此，希望权力能够以更大的热情来关注网络热词。然后，付之于实际行动，替民解忧，促进社会进步。(王传涛)

http://news.sina.com.cn/pl/2012-08-20/073924998557.shtml

admin · 发表于 2012-8-21 11:30:01

【案例】词义

元平：电影《春娇与志明》中，北京帅哥黄晓明爱上了港产丑妇Brenda，该剧的编剧陆以心说，“内地女生婚后大多不工作，生小孩做家务，老公所有的工资都上交，每个月只给一点点零花钱。相反，我们常说“港女”讨人厌，但其实真正会跟着你吃苦、供楼、不介意养家的，是香港女生。”

◆◆@全球新闻眼2012 ：【港女经济学】“港女”，泛指拜金、势利、脾气差且有公主病的香港女生。论坛上铺天盖地的负面讨论，人口比例失调、高学历高收入等原因，将“港女”与剩女相联系，催生一批为“港女”解决婚姻难题的高收费机构。Speed Dating 300，相亲课5000，一对一配对数万至数十万。（晓莹）http://t.cn/zW8RIXN

轉發(1) | 評論(1) 9分鐘前來自新浪微博

轉發| 收藏| 評論 30秒前來自微博桌面 | 舉報

admin · 发表于 2012-8-21 17:21:06

【案例】
国家“语料库”全解析

作者：《瞭望东方周刊》记者张静 | 北京报道点击： 58

“国家语委前排的二层小楼简直就成了军事基地，谁都不能随便进入，录入工作是由解放军二炮某部完成的。录入进来的字词，又人工校对了7遍。”

2012年7月25日，国家语言资源监测与研究中心平面媒体分中心、北京语言大学、中国新闻技术工作者联合会、中国中文信息学会联合发布“2012年春夏季中国报纸流行语”。“神舟九号”位居综合类流行语第一，其他进入前十的流行语是：明胶、黄岩岛、伦敦奥运会、穆巴拉克、小微企业、欧洲杯、学雷锋、农业科技和舌尖上的中国。

2005年，教育部语言文字信息管理司和国内一些高校联合建设了国家语言资源监测与研究中心，上述平面媒体分中心的主要任务是建设平面媒体动态流通语料库，自2001年开始，每年根据“发行量、发行地域、发行周期、媒体价值、阅读率”等因素，选择15种网络版报纸内容作为语料库的采集源，目前已形成了近30亿字的“国家语言资源监测语料库”。

利用监测语料库，国家语言资源监测与研究中心从2005年开始发布中国语言生活状况报告、年度流行语和年度新词。

“上述工作就是在网络上搜集上亿字的资源，分领域抓文本，看词语集，做交集，按时间段跟踪，测算词语使用频率并解释其背后的经济社会文化背景。”原教育部语言文字应用研究所副所长、国家语委语言文字规范标准测查认证中心主任靳光瑾告诉《瞭望东方周刊》。

“我们这个时代已经进入到语料库时代，也就是用电子形式保存的真实语言材料将作为对一个时代的记录而被保存。”北京语言大学党委书记、原教育部语言文字信息管理司司长李宇明在接受《瞭望东方周刊》采访时总结说。

国家语料库依据什么来选择语言原材料，它又究竟为我们的时代保存了些什么？

改革开放后的语料占50%

“监测语料库是动态的，其基础来自‘现代汉语平衡语料库’，两个语料库的研究重点不一样。”教育部语言文字应用研究所计算语言学研究室主任肖航告诉《瞭望东方周刊》，奠定我国语料库基本模式的是由国家语言文字工作委员会牵头、上世纪90年代初开始研发、历时十年、反映中国20世纪现代汉语整体发展情况的现代汉语平衡语料库。

世界上第一个标准语料库是1961年建立的美国Brown语料库，随着各国对语言作为一种国家资源的认识的深化，各国政府和学术机构都开始投资建设大型语料库。1980年到1993年，欧美国家建设有超过50个语料库并投入使用。

上世纪90年代初期，随着计算机技术在中国兴起，国家语委于1992年12月提出建设现代汉语语料库项目。

“语言的边界非常大，不断新陈代谢，很难把握它，这样大的整体怎么去调查分析。”肖航介绍说，国家语委最后决定按照国际标准采用小样本抽样的方法来建语料库，“小样本，大样本量，尽可能多地搜集原材料，单一来源则不能太多”。

1992年4月，国家语委召开现代汉语语料库选材原则专家论证会，1993年1月制订出选材原则。“因为要反映中国现代汉语的全貌，在选材上就要注重平衡性原则。抽样要注意文体、时间和地区三个方面的平衡性。”李宇明说。

“在语料的选择上，要有别于专业性、地域性和纯口语性。尽可能提高所选语料在采字、采词和采义等方面的广度。”肖航说。

在语料的选材分类上，专家组最终定了3大分类：人文与社会科学类、自然科学类和综合类，占比分别是50%、30%和20%，每一大类下又分了若干小类，样本一共分布在37类里。这37类并不是一成不变的，进入21世纪后，信息技术和电子科技的研究成为后起之秀，37种分类也为这些新出现的科目做出调整，自然科学类调整较大，增加了信息技术等方面的分类。

从时间看，语料库将自1919年开始的现代汉语划分为5个阶段：1919~1925年，五四时期的白话文仍留有文言痕迹，这部分样本只占总体的5%；1926年~1949年，白话文逐步脱离文言痕迹，现代汉语逐渐成熟，样本约占15%；1950年~1965年，新中国的成立给社会生活带来巨大变化，新词新语大量涌现，这时期的样本约占25%；1966年~1976年，“文革”时期的许多词语仅作为历史词语存在于现代汉语中，特殊时期的样本量很小，只占5%；语料库大部分的样本量来自1977年以后，改革开放后，现代汉语有了新发展，这一时期的样本量占到总体的50%。

保持样本平衡性

从来源看，语言材料多选用政论性文章、新闻报道、各类文学艺术作品、科普读物、通俗读物、学术专论及各种应用文语体等现代汉语作品。样本容量2000字，上下允许有500字的浮动。书籍的抽样数量一般占全书字数的3%~5%，字数最多不超过10000字；报纸采用整版选用的方式，为了避免重复，不同报纸选用不同月份；刊物所选字数不超过5000字。

对于2000字的样本容量，肖航解释说：“首先是因为同一个来源的样本不要太多的原则，希望样本选材来源更广泛；第二，国际上一般规定采集样本不能超过原材料内容的3%~5%，否则会构成侵犯版权。”

据肖航介绍，文学作品采样采用掐头去尾的方法来保持样本的平衡性，“掐头去尾会破坏文本的流畅性，但字词语法的采样不受影响。文学层面的不通顺跟语料库研究意图不冲突”。

按照选材原则，国家语委将抽样任务下发给北京语言大学、北京师范大学、中国人民大学等高校，从国家图书馆和高校图书馆一共抽取了4万多个样本，而这4万多个样本里，同样一本文学作品可能还有3~5个版本。

“一共找了多少本书可想而知。国际上对语料库的两大要求——大规模和真实性，在现代汉语平衡语料库上体现得十分明显。”肖航说。

在坚持语料分布的平衡性原则上，曾经参与了选材原则专家论证会的国家语委咨询委员会委员、教育部语言文字应用研究所研究员李行健深有体会。

“比如，鲁迅这样一个大家，他的作品是现代汉语，但有很多文言的成分夹杂在里面，比较古奥，因此根据平衡性原则，语料库要有来自鲁迅作品的语料，但不宜过多。”李行健告诉《瞭望东方周刊》，“诗歌就不能当做一般的语料，因为这种文体太宽泛灵活，如果用诗歌体做样本，会不符合研究现代汉语语法的原则。”

“神马”为什么没收入

按照平衡性原则采集回来的4万多个样本被称为“生语料库”，将其录入进计算机进行加工也是一项大规模的工作。

靳光瑾回忆说：“那个时候做语料库真是倾全国之力。国家投入200万元，采样后没有经过加工的生语料库要一个字一个字地录入计算机。国家语委前排的二层小楼简直就成了军事基地，谁都不能随便进入，录入工作是由解放军二炮某部完成的。录入进来的字词，又人工校对了7遍。”

1998年底，7000万字的生语料库建成。

李宇明将生语料库的真实性特点概括为“有见必录”，“样本原文中的错别字也得收入，然后做上标记。生语料库反映现代汉语用词和语法的情况都没有问题，但是它的用字情况并不能很好地反映真实面貌。”

由于上世纪末我国的计算机字库水平有限，仅有的6000多个字在收录现代汉语方面远远不够，所以在录入时会把繁体字、异体字改换成相应的简体字、正体字，有时还需要造字。

“生语料库”必须进一步加工成“熟语料库”，才能发挥作用。国家语委遵循国外信息处理领域通用的语料库加工方式，标注分词和词性，制定了《信息处理用词类标记集规范》，以机助人校的方式加工，最后得出可供使用的5000万字标注语料。

据肖航介绍，2000年以后每年保持增加300万字的速度更新语料，然后进行整体校对，目前在使用的语料库校对数据仅更新到2003年。“2004年以后语料库在新的环境下该怎么做，方向选择上产生了摇摆。”

“原来报刊是语言文字的最主要载体，现在都有了电子版本，有些语料甚至没有印刷版，技术手段升级，语料选材可以做得更大，但2003年之后的语料采集量我们不敢加太多，加太多就压掉了之前的语料比例，语料比例一旦轻易改变，平衡性就会受到影响。”肖航说。

而靳光瑾认为，现代汉语平衡语料库应该呈现一种动态更新的平衡。

“每年应该有15%的新陈代谢，有新旧替换才能反映语言的发展，体现出语言的与时俱进，又不影响原来的词频和使用情况。”靳光瑾说。

21世纪特别是近几年出现的网络语言，也在现代汉语平衡语料库的收入范围，但在语言整体里并不占很大比例。“网络语言是小群体语言，跟语言普通的面貌不太一样，虽然比较刺激眼球，实际上占语言整体总量比例并不大。”肖航说，语料库会从博客、微博和论坛里采集语料资源，但网络语言仅作为现代汉语整体情况的一个补充，不是重要组成部分。

《现代汉语词典》第六版的修订也利用了语料库查询词频。至于“神马”这类网络通用词语为何未被收入，李宇明解释说：“词典编纂要考虑定量分析，因为它在整个语料库里的词频还没达到一定分量，在平面媒体、严肃媒体用得较少，没进入到我们民族的共同语言当中去，所以没有收入。”

从语料库看词语的生命力

为词典编纂和制定语言文字规范和标准服务，是现代汉语平衡语料库的主要用途之一。

李行健是《现代汉语规范词典》的主编，他告诉本刊记者：“词典收什么词，如何选择，要用语料库先搞出一个词表，再进行人工干预。语义和注释都要用语料库的资源。”

语料库建设完成后，其价值的充分体现，还要看对这个庞大的语言仓库如何进行人工干预。

“语言就是记录生活的，每个词语都有一段故事，通过语料库可以研究社会的现状与发展趋势。”李宇明说，“比如‘农民工’，在语料库里搜索这个词语就能看到它出现的时间，通过词频曲线图就可以分析它在什么时期特别受到关注。”

肖航向本刊记者展示了“改革开放”和“市场经济”两个词汇的词频曲线图。截取现代汉语平衡语料库中1976年到2005年的《人民日报》等主要报纸上两个词汇的语料，按照每一万字出现的词语个数频率做成了曲线图。

从曲线图上可以看到，1976~1986年间，两个词语的词频在起步阶段。“改革开放”从1985年出现在《人民日报》上，1986年开始呈明显上升趋势，而“市场经济”曲线仍旧平缓，直到1992年两个词语的词频猛然上升，最高峰时“改革开放”在主要报纸上每万字中就出现了3.7767次。

肖航解释了词频变化的两个原因：“一是词汇所代表的话题本身的活跃性对词频分布造成决定性的影响；二是报纸内容中心的变化、报纸内容范围扩展也会对词频分布造成大的影响。例如，报纸内容范围扩大，某一领域所占的比例自然降低，领域词汇所占的比例也就相应下降。”

“通过语料库研究社会语言的变化，可以看出词语是有生命的。有的词语在解放前死了，解放后又活了，而活了的意义可能会不一样。很多新词新语，字还是那个字，意思却变了。比如盖帽子的‘盖’，作为字古已有之，但‘盖帽子’的意思却是‘文革’时出现的。”靳光瑾说。

类似的例子还有许多称呼用词，改革开放初期，年轻女子都愿意被称作小姐，而当下小姐这个词又被社会默认为与性从业人员发生了关联。肖航说：“而和‘小姐’同一时期的‘公子’则一直没有回到生活中，一个原因是因为其他词语能够代替表达它的意思。”

相对于现代汉语平衡语料库，功能是监测当下语言生活的“监测语料库”采用更鲜活的抽样原则，这个库里的词语“活在当下”。以检测语料库为基础的中国语言生活状况报告，除了年度流行语、年度新词等已经公布的信息以外，还向有关部门提供了诸如人名表、地名表、省市排行榜、单位排行榜、科技排行榜等参考资料。

“语料库对于中国的各个部门了解中国语言的现状，是个可持续的开发资源。”李宇明说。

用方言做军事密码

“某些国家的军事组织随时都在监测全世界的网络语言，哪个国家的哪些词汇使用频率一旦猛增，他们就会分析并预测这个国家发生了哪种状况。例如，2006年化妆品品牌SK-II在网络的使用词频猛增，不久后，SK-II化妆品检测出铬和钕的新闻使得其暂时退出中国市场。”靳光瑾举例说。

“我们的监测语料库目前也承担了网络舆情分析的功能，”李宇明说，“语料库的发展，对网络安全是很重要的，网络安全涉及金融、军事和信息战略安全。中国要壮大自己的网络力量，没有语料库是不可能的。”

“但我国现在的语料库发展水平还不够，计算机处理语言的能力还不够，目前所用的‘关键词技术’是一种比较落后的技术，把很多有用的信息都堵掉了。帮助计算机正确理解语言，自动进行语料知识挖掘，提高自动翻译水平，才能提高国家信息化的能力。”李宇明说，“发达国家虽然掌握了语料库的核心技术，但我们有我们的优越性，那就是汉语和中国其他少数民族语言的独特性。我们自己研发了录入汉字和少数民族文字的技术，外国人搞不懂。”

靳光瑾指出，进入21世纪，互联网上的海量文本一方面为语言处理提供了巨大需求，一方面又提供了语言处理的真实训练和测试数据。我国自上世纪90年代初就开始进行中文分词的研究工作，但至今还未开发出一个像日语分词系统那样被广为接受的分词标注系统。

“在计算机语言处理技术层面，语料库的词性标注工作能起到训练机器学习自动标注的作用。”靳光瑾说。

语料库不仅能在文本上助力信息技术的提升，国家语委在2008年启动建设的“中国语言资源有声数据库”还可以利用声音在保卫国家安全方面发力。

有声数据库采集的是中国各少数民族语言及方言的有声资料，在进行科学的整理和加工后，除了发挥保护中华各民族语言文化遗产的功能外，还可用作军事密码，有利于国家安全。

李宇明说：“电影《风语者》中，美国人在二战的时候用印第安语做军事密码，日本人怎么都破译不了。当年在战场上，我们国家也曾用温州话做过密码。未来计算机破解密码的能力非常强大，保密要求越来越高。我国有这么多民族语言和方言，通过分析和加工，可以成为保卫国家安全的工具，也可为公安系统破案提供帮助，犯罪嫌疑人的声音或用语在语料库和有声数据库里一对比就能缩小搜索范围，特别是在反恐缉毒这些领域会很有帮助。”

http://www.lwdf.cn/wwwroot/dfzk/current/256296.shtml

admin · 发表于 2012-8-22 10:05:45

【案例】外来词语
话题：香港保钓委元老：不会让打砸日本商品的愤青登岛[查看原文]

erosnet [网易日本网友]： 2012-08-22 07:13:42 发表你看看你家里的电器,电视机里有日本发明的原件.电脑里有,手机里也有日本发明的原件等等.都卸除掉好吗.
以后出门也别唱卡拉OK了,那是日本发明的.
也不要吃方便面,那也是日本人的发明.
做菜时不要放味精了,那是日本发明.
还有很多词汇都是通过从日本进入中国的.查下字典吧.科学，人权、金库、特权、哲学、表象、美学、背景、化石、战线、环境、艺术、医学、入场券、下水道、公证人、分类表，互惠、独占、交流、高压、特许、否定、肯定、表决、欢送等等还有很多.
所以说,,什么事都动动脑子再行动好吗.你一个人得了马嗖的抵制这,抵制那.你先把你自己否定了再去抵制好吗.什么时候你真正的回到丛林与神农架野人一起生活了,你再出来喊叫抵制日货吧,我相信那时的你站出来说的每句话都会震惊全世界的关注.比你现在要有力的多.没准能上时代杂志.
顶[83]
http://comment.news.163.com/news ... G0DPIV0001124J.html

admin · 发表于 2012-8-22 11:20:31

【案例】谐音字
@养心养生斋：#搞笑#【中国文字真厉害】北京就是背景。上海就是商海。欲望，就是渔网。老公，就是劳工。晚上，就是玩赏。云雨，就是孕育。升职，便是升值。同居，便是痛聚。誓言，就是失言。男人，就是难人。理想，就是离乡。缘分，就是怨愤。失去，就是拾取。清醒，就是庆幸。结婚就是皆昏。。。【@愚乐搞笑】

收起|查看大圖|向左轉|向右轉

轉發(110)
|
評論(20)今天05:50
來自皮皮时光机

admin · 发表于 2012-8-23 11:05:47

【案例】少数民族语言的语音拼音

安替：看看壮语拼音，你就知道汉语沙文主义对少数民族音转工作的损伤了。第一，拼音迁就汉语，第二，音调竟然字母化（每个字最后一个字母是音调）。这导致壮语拼音系统，只能用来印在钞票上作秀，很难用于对外交流。

轉發(7)|
收藏|
評論(20)33分鐘前
來自新浪微博
|
舉報

◆◆
新浪微博社區管理中心舉報處理大廳，歡迎查閱！

同時轉發到我的微博

評論

共20条全部
|
認證用戶
|
關注的人
 刘海明8888 ：为政治需要，人造的文字。 (10秒前)

刪除|
回覆

当年的我不复返：回复@粟淡淡:壮族有个屁历史。。。根本就是汉人。。。 (3分鐘前)

查看對話|
回覆

当年的我不复返：历史上壮族根本没有文字，只能用拼音代替 (5分鐘前)

回覆

我是林溪Lynn：回复@書林Franklin:。。。。有困难啊..老湿连壮语的样子都木有见过..>< (9分鐘前)

查看對話|
回覆

安替：回复@李靖云:我是说拼音系统迁就汉语辅音 (16分鐘前)

查看對話|
回覆

Q齊Q：这和什么主义没有关系，无非是工作不认真。而汉语拼音，包括普通话都已经注定了是个子集，并且是个非常小的子集，它是用于尽可能保证沟通的，确实不可能照顾太多，而中国又太大。这方面，还是应该学普通话，同时保留自己的方言。很多民族吧，本来也是人为的。 (16分鐘前)

回覆

李靖云：反了，老壮文就是以汉语为基础，甚至被看作方言。建国后搞了新壮文，基于罗马拼音，根本推行不下去，只好改回来，以汉语为基础。这是搞少数民族文字改革失败的典型。 (18分鐘前)

回覆

老虎之围脖：我不同意什么汉语沙文主义，我觉得国家对待少数民族一直是比较善意和友好的，比如你在校的时候，不是每月都比我们汉族同学多一些补贴的嘛，你这样的说法觉得有让汉族和少数民族有罅隙的感觉 (19分鐘前)

回覆

刘江总编：壮族知识分子干嘛去了？ (21分鐘前)

回覆

粟淡淡：作为壮族妹纸，表示大力支持少数民族文化复兴。 (22分鐘前)

回覆

姚栋_DV ：其实拼音对于南方的汉语方言也非常不适用，吴语、闽语、粤语都有很多的音和声调完全不可能拼得出。 (24分鐘前)

回覆

後面還有9條評論，點擊查看>>

帐号		自动登录	找回密码
密码			实名注册