中文分词中未登录词分布规律及处理方法研究被引量：2

下载PDF

导出

摘要本文以较大规模汉语语料库为基础,对中文分词中的未登录词分布规律进行考察,提出了词增长代价、语料效率等评价指标,借此来定量考察语料规模与未登录词之间的内在关系。调查结果显示,随着语料规模的不断扩大,未登录词的覆盖率也随之增大,但同时词增长代价也越来越大,而新增未登录词的词例数占新增总词例数的比例始终保持在一个较低水平,造成语料效率较低。基于该调查结果,提出针对"伪未登录词"使用定向收集语料的方法来扩充训练集,从而在不过分扩大语料规模的前提下,更有针对性地为未登录词识别提供语言知识,提高分词的准确率和领域适应性。本文在SIGHAN组织的第二届中文分词评测语料上进行实验,结果显示该方法能够有效提高分词准确率。

作者邢富坤

机构地区解放军外国语学院语言工程系

出处《解放军外国语学院学报》 CSSCI 北大核心 2013年第5期27-32,共6页 Journal of PLA University of Foreign Languages

关键词中文分词机器学习未登录词伪未登录词

分类号 H087 [语言文字—语言学]

引文网络
相关文献

参考文献5

1李寿山,黄居仁.基于词边界分类的中文分词方法[J].中文信息学报,2010,24(1):3-7. 被引量：6
2罗彦彦,黄德根.基于CRFs边缘概率的中文分词[J].中文信息学报,2009,23(5):3-8. 被引量：19
3黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
4曾韶西,王以柔,刘鸿先.低温光照下与黄瓜子叶叶绿素降低有关的酶促反应[J].植物生理学报（0257-4829),1991,17(2):177-182. 被引量：264
5刘家尧,衣艳君,白克智,梁峥.盐度和CO_2倍增环境下碱蓬幼苗呼吸酶活性的变化[J].应用生态学报,1998,9(4):354-358. 被引量：8

二级参考文献37

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
7杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
8黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
9Nianwen Xue.Chinese Word Segmentation as Character Tagging[J].Computational Linguistics and Chinese Language Processing,2003,8(1):29-48.
10Hai Zhao,Chang-Ning Huang and Mu Li.An Improved Chinese Word Segmentation System with Conditional Random Field[C]//Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing.Sydney,Australia:2006:108-117.

共引文献528

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
4宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
5段九菊,郭世荣,康云艳.外源亚精胺对盐胁迫下黄瓜幼苗活性氧代谢的影响[J].农业工程学报,2005,21(z2):87-91. 被引量：6
6高志杰,王国华.黄瓜对低温反应的研究进展[J].华北农学报,2002,17(z1):29-31. 被引量：10
7马莲菊,张阳,卜宁,李娜,刘婷.壳寡糖缓解小麦镉毒害的某些生理特性研究[J].环境科学与技术,2010,33(6):31-34. 被引量：9
8章艺,刘鹏,史锋,朱淑颖,陈旭微.高铁胁迫对大豆叶片体内保护系统及膜脂过氧化的影响[J].中国油料作物学报,2004,26(2):65-68. 被引量：37
9于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
10郑姗姗,李丹,蒋欣梅,于锡宏,于广建,燕冲.渐降低温胁迫对黄瓜幼苗叶绿体膜相关指标的影响[J].浙江大学学报（理学版）,2012,39(5):582-586. 被引量：3

同被引文献16

1李文中,濮建忠.语料库索引在外语教学中的应用[J].解放军外国语学院学报,2001,24(2):20-25. 被引量：143
2刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：67
3黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
4黄建传,宋柔.标点句标注研究[C]//孙茂松,陈群秀.内容计算的研究与应用前沿--第九届全国计算语言学学术会议论文集.大连,2007:359-364.
5Garside, R. The robust tagging of unrestricted text: The BNC experience [C] //J. Thomas & M. Short. Using Corpora for Language Research : Studies in the Honour of Geoffrey Leech. London: The Longman Press, 1996: 167-180.
6Garside, R. & N. Smith. A hybrid grammatical tagger: CLAWS4 [C] //R. Garside, G. Leech & A. McEnery. Corpus Annotation : Linguistic Information from Computer Text Corpora. London: The Longman Press, 1997: 102-121.
7Ide, N. & L. Romary. International standard for a linguistic annotation framework [J]. Journal of Natural Lan- guage Engineering, 2004, 10 (3) : 211-225.
8Kuebler, S. & H. Zinsmeister. Corpus Linguistics and Linguistically Annotated Corpora [M]. London : Looms- bury Academic, 2015.
9Leech, G., R. Garside & M. Bryant. CLAWS4 : The tagging of the British National Corpus [C] //Proceedings of the 15^th International Conference on Computational Linguistics (COLING 94), Kyoto, Japan, 1994: 622- 628.
10Liddy, L. & E. Hovy. Natural Language Processing [EB/OL]. (2007-04-04) [2014-12-20]. http: // www. itl. nist. gov/iaui/894. 02/minds. html.

引证文献2

1邢富坤.面向语言处理的语料库标注:回顾与反思[J].解放军外国语学院学报,2015,38(3):8-13. 被引量：8
2杨涛.中文信息处理中的自动分词方法研究[J].现代交际,2019(7):93-95. 被引量：8

二级引证文献16

1邓静子,韩正猛,张宇轩,李雨龙,吴禹成,陈荣,梁芸.MgmtDEAP管理科学与工程学术英语语料库的创建[J].语料库语言学,2022,9(2):145-156.
2郭崇慧,许蒙.一种基于众包模式的试题知识点标注方法[J].信息与管理研究,2019,0(6):64-72. 被引量：3
3刘新芳,王云.汉英博士论文致谢辞逻辑诉诸修辞对比研究[J].解放军外国语学院学报,2016,39(6):27-35. 被引量：3
4荆礼楠,曹永红.面向自然语言处理的情感标注:回顾与展望[J].安徽文学（下半月）,2018,0(1):79-80.
5徐博龙.应用Jieba和Wordcloud库的词云设计与优化[J].福建电脑,2019,35(6):25-28. 被引量：20
6徐建国,韩琮师.改进K-means算法在高校舆情中的应用[J].软件导刊,2019,18(7):142-144. 被引量：4
7吴俊杰,秦晨.基于文本处理的指标数据提取[J].科技创新导报,2019,16(30):107-107. 被引量：1
8聂曼影,梁力中,陶光毅.基于非关系型数据库的大规模住院病案首页数据挖掘方法[J].中国档案,2020(5):66-68. 被引量：6
9杨健.基于Python的janome日文分词技术的研究与实现[J].IT经理世界,2020,23(5):214-215.
10余国倩,陶光毅,赵天宇,刘冰.基于非关系型数据库的水文数据分析方法研究[J].水利信息化,2021(2):49-53.

1李建美.翻译理论在中国的发展概况[J].北方文学（中）,2013(6):172-172.
2徐媛媛.汉译英时关于显性“的”与隐形“的”的处理方法研究——以《新标准大学英语3》为例[J].明日风尚,2016,0(16):266-266.
3潘杏汶.多义语素“药”的构词分析[J].语文教学与研究（综合天地）,2009(2):88-89.
4姜礼立.辨析“随意”和“随便”——基于语料库的计量研究[J].语文知识,2013(2):106-108. 被引量：1
5郭笑.基于语料库的“随意”“随便”的多角度辨析[J].乐山师范学院学报,2013,28(6):56-61. 被引量：3
6佟福奇.《颜氏家训》数名结构功能考察[J].才智,2011,0(23):192-193. 被引量：2
7葛厚伟.1997-2011年经济类英语新词认知语义阐释[J].中州大学学报,2012,29(3):66-70. 被引量：1
8陈丽江.从ACL-SIGHAN国际分词竞赛看已知词和未登录词识别的平衡问题[J].南京师范大学文学院学报,2005(1):184-188.
9麻彩霞.“‘很’+一般动词带宾语”格式的定量考察[J].汉字文化,2014(6):40-45.
10周雷,李颖,石崇德.汉语科技词汇构词研究初探[J].情报工程,2015,1(3):64-75. 被引量：2

解放军外国语学院学报

2013年第5期

浏览历史

内容加载中请稍等...

中文分词中未登录词分布规律及处理方法研究被引量：2

参考文献5

二级参考文献37

共引文献528

同被引文献16

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

中文分词中未登录词分布规律及处理方法研究 被引量：2

参考文献5

二级参考文献37

共引文献528

同被引文献16

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

中文分词中未登录词分布规律及处理方法研究被引量：2