自适应分词算法中的未登录词识别技术研究被引量：5

Research on Unlisted Words Identification in Chinese Self-adaptive Segmentation

下载PDF

导出

摘要深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词。同时,算法通过对绝大部分的交集歧义的识别有效地解决了识别未登录词时导致的新的切分歧义的问题。在网络时文的开放性测试中,分词算法的分词准确率约为90.1%,未登录词识别的准确率、召回率分别为91.2%和94.7%。 This paper studied on the unlisted words identification.And then it came up with a new unlisted words identification algorithm which is composed of several rules,such as the rule of identification of numerals and quantifiers,auxiliary rules of border words,auxiliary rules of functional word,the rule of unlisted words identification based on memory and the rule of right or left detecting methods to identify unlisted words.At the same time,by comparing the results of the bi-directional segmentation algorithm,the algorithm identifies the most common crossing ambiguities to make identification of unlisted words and crossing ambiguities integrative.In an open evaluation of the latest web documents,the segmentation accuracy rate which is about 90.1%,accuracy rate and recall rate of the unlisted words identification is 91.2%and 94.7%.

作者程冲黄水清

机构地区南京农业大学信息科技学院

出处《情报学报》 CSSCI 北大核心 2009年第4期530-536,共7页 Journal of the China Society for Scientific and Technical Information

关键词汉语分词未登录词识别交集型歧义汉语分词系统 Chinese segmentation unlisted words identification crossing ambiguity Chinese segmentation system

分类号 TP391.4 [自动化与计算机技术—计算机应用技术] TP316.7 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
2龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量：26
3刘涌泉.再谈词的问题[J].中文信息学报,1988,(2):47-50.
4孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6黄水清,程冲.基于既定词表的自适应汉语分词技术研究[J].现代图书情报技术,2006(5):13-17. 被引量：4
7SunM S, Shen D Y, et al. Cseg & Tag 1.0: A practical word segmenter and POS tagger for Chinese texts [ C ] // Proceedings of the 5th Conference on Applied Natural Language Processing, 1997 : 119-126.
8翟风英.统计与字典相结合的中文分词[D].吉林大学硕士学位论文,2005.5.
9Sun M S, Benjamin K T. Ambiguity resolution in Chinese word segmentation[ J ]. Information and Computation, 1995 : 121-126.
10陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26

二级参考文献77

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
4孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
5黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
6刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
7董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
8孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
9苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
10孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101

共引文献258

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
2梁晓弘,杨文安.分词技术在信息处理中的研究综述[J].电脑知识与技术（过刊）,2007(22):1100-1102. 被引量：1
3周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
4张泉,曾国荪,王伟,孙明军,谷华楠.基于改进的模糊C-均值聚类的信任文摘[J].计算机研究与发展,2008,45(z1):268-273. 被引量：2
5刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
6郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
7王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
8王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
9黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1
10洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.

同被引文献121

1张瑞霞,肖汉.基于知网的词图构造[J].华北水利水电学院学报,2008(3):53-56. 被引量：6
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3李纲,程明结,寇广增.基于情感倾向识别的汽车评论挖掘系统构建[J].情报学报,2011,30(2):204-211. 被引量：14
4秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
5刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：67
6武琳.Web2.0时代信息交流模式分析[J].情报杂志,2006,25(3):10-12. 被引量：46
7罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128. 被引量：19
8傅间莲,陈群秀.一种新的自动文摘系统评价方法[J].计算机工程与应用,2006,42(18):176-177. 被引量：8
9刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
10张雪英.基于机器学习的文本自动分类研究进展[J].情报学报,2006,25(6):730-739. 被引量：11

引证文献5

1蒋建洪,赵嵩正,罗玫.词典与统计方法结合的中文分词模型研究及应用[J].计算机工程与设计,2012,33(1):387-391. 被引量：18
2张瑞霞,杨国增,吴慧欣.基于《知网》的汉语未登录词语义相似度计算[J].中文信息学报,2012,26(1):16-21. 被引量：8
3周蕾,朱巧明.词结合型未登录词识别方法研究[J].常熟理工学院学报,2012,26(4):110-114.
4胡新明,夏火松.在线评论中用户商品属性偏好识别方法研究[J].情报杂志,2012,31(9):197-201. 被引量：5
5王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22. 被引量：7

二级引证文献38

1那勇,李明全.基于深度学习的中文自动分词研究[J].吉林广播电视大学学报,2019(12):58-59.
2张瑞霞,杨国增,闫新庆.基于知网的汉语普通未登录词语义分析模型[J].计算机应用与软件,2012,29(8):126-130. 被引量：4
3王颖,都云程,卢献华,吕学强.基于专利搜索日志的同义词挖掘[J].计算机工程与设计,2013,34(3):1029-1033. 被引量：1
4吐尔地·托合提,艾克白尔·帕塔尔,艾斯卡尔·艾木都拉.维吾尔文无监督自动切分及无监督特征选择[J].模式识别与人工智能,2013,26(9):845-852. 被引量：3
5陈媛媛,聂规划,刘平峰,欧阳由.Web文档本体模型与实例析取算法研究[J].情报杂志,2014,33(4):144-147.
6白涛,张太红,吴乃宁.基于词典和全切分的中文农业网页分词算法的研究[J].新疆农业大学学报,2014,37(2):168-172. 被引量：1
7张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014(9):91-98. 被引量：9
8张晓孪.基于语义的智能信息处理技术的研究[J].微型电脑应用,2014,30(11):55-57. 被引量：4
9付丽娜,肖和,姬东鸿.基于OC-SVM的新情感词识别[J].计算机应用研究,2015,32(7):1946-1948. 被引量：3
10黄贤英,刘英涛,饶勤菲.一种基于公共词块的英文短文本相似度算法[J].重庆理工大学学报（自然科学）,2015,29(8):88-93. 被引量：7

1史晓东,卢亚军.央金藏文分词系统[J].中文信息学报,2011,25(4):54-56. 被引量：30
2娄珽,宋柔,李卫亮,罗智勇.现代汉语分词系统通用接口设计与实现[J].中文信息学报,2001,15(5):1-7. 被引量：6
3谈文蓉,杨宪泽,谈进,刘莉.MIS智能接口中汉语分词系统的设计与应用[J].计算机科学,2006,33(7):204-206. 被引量：5
4葛锐.汉语分词技术初探[J].软件,2013,34(3):140-141. 被引量：4
5沈达阳,孙茂松,黄昌宁.汉语分词系统中的信息集成和最佳路径搜索方法[J].中文信息学报,1997,11(2):34-47. 被引量：13
6李双龙,刘群,王成耀.基于条件随机场的汉语分词系统[J].微计算机信息,2006,22(10S):178-180. 被引量：15
7《梦幻迪士尼》开放性测试前瞻:丰富多样的3D魔法战斗[J].电脑爱好者,2009(18):117-117.
8王中立.汉语自动分词中切分歧义及处理技术[J].许昌学院学报,2006,25(2):118-121. 被引量：1
9应志伟,柴佩琪,陈其晖.文语转换系统中基于语料的汉语自动分词研究[J].计算机应用,2000,20(2):8-11. 被引量：8
10张学孝.创新要从“虚”字下功夫——从IBM操作系统的发展看软件创新的启示[J].中国计算机用户,2005(37):54-54.

情报学报

2009年第4期

浏览历史

内容加载中请稍等...

自适应分词算法中的未登录词识别技术研究被引量：5

参考文献11

二级参考文献77

共引文献258

同被引文献121

引证文献5

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

自适应分词算法中的未登录词识别技术研究 被引量：5

参考文献11

二级参考文献77

共引文献258

同被引文献121

引证文献5

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

自适应分词算法中的未登录词识别技术研究被引量：5