北京大学现代汉语语料库基本加工规范(续) 被引量：18

The Basic Processing of Contemporary Chinese Corpus at Peking University SPECIFICATION

下载PDF

导出

摘要北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉 ,更广泛地向专家、同行征询意见 ,以便进一步修订。 The Institute of Computational Linguistics,Peking University has completed the basic processing of a contemporary Chinese corpus that has 27 million Chinese Characters.In addition to word segmentation and part of speech tagging,the processing involves the tagging of proper nouns (person names,place names,organization names and so on),morpheme subcategories and the special usages of verbs and adjectives.The success of this large scale language engineering is attributed to the SPECIFICATION,which had been made beforehand and was being perfected while in use.We are hereby making an introduction to the SPECIFICATION through this publication,thus inviting the comments from all the experts and our colleagues for the improvement of it.

作者俞士汶段慧明朱学锋孙斌

机构地区北京大学计算机系

出处《中文信息学报》 CSCD 北大核心 2002年第6期58-65,共8页 Journal of Chinese Information Processing

基金国家自然基金 (6 94 830 0 3) 973项目 (G19980 30 5 0 7- 4 ) 86 3项目 (2 0 0 1AA114 0 )

关键词北京大学现代汉语语料库加工规范词语切分词性标注名词标注汉字处理系统 contemporary Chinese corpus word segmentation part of speech tagging specification

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1周强,张伟,俞士汶.汉语树库的构建[J].中文信息学报,1997,11(4):42-51. 被引量：32
2周强陈力为等.一个人机互助的汉语语料库多级加工处理系统CCMP.计算语言学进展与应用[M].北京:清华大学出版社,1995.50.
3俞士汶.网上的基础语言信息资源[J].术语标准化与信息技术,2001(4):19-23. 被引量：2
4俞士汶,朱学锋,段慧明.大规模现代汉语标注语料库的加工规范[J].中文信息学报,2000,14(6):58-64. 被引量：30
5俞士汶,朱学锋,王惠.《现代汉语语法信息词典》的新进展[J].中文信息学报,2001,15(1):59-64. 被引量：9
6俞士汶,段慧明,朱学锋.汉语词的概率语法属性描述[J].语言文字应用,2001(3):21-26. 被引量：6

二级参考文献26

1俞士汶,朱学锋,李峰.现代汉语语素库的开发及应用[J].世界汉语教学,1999,13(2):39-46. 被引量：14
2朱学锋,俞士汶,王惠.现代汉语五万词语归类的实践[J].语言文字应用,1997(4):89-95. 被引量：8
3段慧明,松井久仁於,徐国伟,胡国昕,俞士汶.大规模汉语标注语料库的制作与使用[J].语言文字应用,2000(2):72-77. 被引量：20
4周强.基于语料库和面向统计学的自然语言处理技术[J].计算机科学,1995,22(4):36-40. 被引量：25
5俞士汶,朱学锋,王惠,张芸芸.现代汉语语法信息词典规格说明书[J].中文信息学报,1996,10(2):1-22. 被引量：34
6周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量：35
7俞士汶.关于语言信息处理技术的展望[J].计算机世界,1997,(1):127-127.
8周强，Proc ICCC’96，1996年
9周强，软件学报，1996年，7卷，增刊，315页
10周强，中文信息学报，1996年

共引文献72

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
3张彦军.多角度身体动作类近义词辨析选择方法的研究[J].微型电脑应用,2011(10):17-20.
4王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
5俞士汶,段慧明,朱学锋,张化瑞.综合型语言知识库的建设与利用[J].中文信息学报,2004,18(5):1-10. 被引量：29
6张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9
7俞士汶,朱学锋.关于汉语信息处理的认识及其研究方略[J].语言文字应用,2002(2):51-58. 被引量：5
8俞士汶,段慧明,朱学锋.汉语词的概率语法属性描述[J].语言文字应用,2001(3):21-26. 被引量：6
9尹一瓴,陈群秀.现代汉语语义知识库用于句法分析的研究[J].计算机应用,2004,24(B12):264-267. 被引量：1
10詹卫东.80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J].当代语言学,2000,2(2):63-73. 被引量：13

同被引文献183

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2殷志平.构造缩略语的方法和原则[J].语言教学与研究,1999(2):73-82. 被引量：46
3贾彦德.对现代汉语语义格的认识与划分[J].语文研究,1997(3):24-30. 被引量：12
4孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
5黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
6宋柔.关于分词规范的探讨[J].语言文字应用,1997(3):113-114. 被引量：12
7赵淑华,刘社会,胡翔.北京语言学院现代汉语精读教材主课文句型统计报告[J].语言教学与研究,1995(2):11-26. 被引量：23
8冯胜利.论汉语的“韵律词”[J].中国社会科学,1996(1):161-176. 被引量：251
9戚晓杰.谈网络语言的谐音表义[J].修辞学习,2002(3):21-21. 被引量：30
10邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59

引证文献18

1吴思颖,吴扬扬.一种实体模式匹配算法[J].郑州大学学报（理学版）,2011,43(1):50-56. 被引量：1
2孙广路,郎非,薛一波.基于条件随机域和语义类的中文组块分析方法[J].哈尔滨工业大学学报,2011,43(7):135-139. 被引量：5
3通拉嘎,赵小兵.汉语分词规范对《信息处理用现代蒙古语切分规范》建立的启示[J].广西社会科学,2011(10):130-134.
4傅成宏.现代汉语兼语结构的机器探测[J].合肥学院学报（社会科学版）,2011,28(6):52-56.
5冯敏萱,曲维光.英汉平行语料中双语兼类词消歧研究[J].山东大学学报（工学版）,2011,41(6):18-23.
6张丽青,寿永熙,马志强.最大熵算法在汉语拼音标注中的研究与实现[J].微电子学与计算机,2012,29(8):120-122. 被引量：1
7刘盈盈,罗森林,冯扬,韩磊,陈功,王倩.BFS-CTC汉语句义结构标注语料库[J].中文信息学报,2013,27(1):72-80. 被引量：5
8舒燕,吕学强.搜索引擎日志短语标注规范[J].中文信息学报,2013,27(2):47-51.
9王倩,罗森林,韩磊,潘丽敏.基于谓词及句义类型块的汉语句义类型识别[J].中文信息学报,2014,28(2):8-16. 被引量：3
10陈学丽,李茹,王赛,王智强.汉语框架网中未登录词元的框架选择[J].中文信息学报,2014,28(3):48-54. 被引量：2

二级引证文献63

1吴义诚.名词和动词[J].外国语,2023,46(5):13-23. 被引量：2
2李卫平,杨杰,王钢.融合相对熵与自适应LLE的两阶段文本降维方法[J].微电子学与计算机,2015,32(4):56-60.
3李业刚,黄河燕.汉语组块分析研究综述[J].中文信息学报,2013,27(3):1-8. 被引量：12
4蒋亚平,赵军伟,田月霞.IBM算法及其在Snort系统下的实现[J].郑州大学学报（理学版）,2014,46(2):50-54.
5韩磊,罗森林,潘丽敏,魏超.融合词法和句法特征的汉语谓词高精度识别方法[J].浙江大学学报（工学版）,2014,48(12):2107-2114. 被引量：4
6贾遂民,雷利利,胡明生.基于规则的复句关系词的自动标识[J].中文信息学报,2015,29(1):44-48. 被引量：4
7魏楚元,湛强,樊孝忠,毛煜,张大奎.融合事件信息的中文问答系统问题语义表征[J].中文信息学报,2015,29(1):146-154. 被引量：2
8罗森林,韩磊,潘丽敏,魏超.Construction method of Chinese sentential semantic structure[J].Journal of Beijing Institute of Technology,2015,24(1):110-117. 被引量：1
9韩磊,罗森林,陈倩柔,潘丽敏.Fast Chinese syntactic parsing method based on conditional random fields[J].Journal of Beijing Institute of Technology,2015,24(4):519-525.
10仵永栩,吕学强,周强,关晓炟.汉语概念复合块的自动分析[J].中文信息学报,2016,30(2):1-11. 被引量：1

1俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002,16(5):49-64. 被引量：126
2俞士汶,朱学锋,段慧明.大规模现代汉语标注语料库的加工规范[J].中文信息学报,2000,14(6):58-64. 被引量：30
3王才彩.一劳永逸——让Word和WPS帮你搞定用户资料[J].大众电脑,2004(10):84-84.
4李寒.Word的高级排序功能[J].个人电脑,2004,10(10):388-388.
5曹国钧.文字处理系统WPS使用故障及技巧(三)[J].电脑编程技巧与维护,1995(3):63-64.
6蔡长安.用WPS进行复杂版面的编排[J].电脑,1994(2):38-40.
7刘文江,富文军.利用CRT及8051单片机实现汉字的显示输出[J].沈阳电力高等专科学校学报,2001,3(3):39-40.
8陆福明.微机汉字处理系统应该规范化国产化[J].中文信息,1991(1):71-72.
9王正勇.WPS汉字处理处理系统使用期限的解密[J].微计算机信息,1995,11(6):57-57.
10陈惠兰,周恩辉,孙梅鸾.WPS5．1在PC机上异常现象的排除[J].河北师范大学学报（自然科学版）,1996,20(3):23-24.

中文信息学报

2002年第6期

浏览历史

内容加载中请稍等...