基于CNET模型的无词典汉语自动分词算法研究

AUTOMATIC CHINESE WORD SEGMENTATION ALGORITHM WITHOUT DICTIONARY BASED ON CNET MODEL

下载PDF

导出

摘要提出了一种新的汉语统计模型CNET,在此基础上提出了一种汉语无词典自动分词算法。该算法首先学习要进行处理的汉语语料,构建CNET,然后根据学习到的知识再去对原始语料进行分词。实验结果表明,该算法分词正确率在70%以上。 A new static model CNET for Chinese language is proposed, and an automatic word segmentation algorithm without dictionary based on CNET is also presented. This method first learns from the context to be processed, and then starts to segment the words with the static information of CNET. Preliminary experiments show that the correctness of this method is about 77%.

作者刘龙飞陈斌党荣

机构地区渭南师范学院教务处渭南师范学院财务处

出处《计算机应用与软件》 CSCD 北大核心 2007年第10期219-221,共3页 Computer Applications and Software

关键词汉语自动分词互信息 CNET Automatic Chinese word segmentation Mutual information CNET

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1998,12(1):17-25. 被引量：65
2孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语自动分词中的作用[J].中文信息学报,1999,13(1):27-34. 被引量：51
3韩客松,王永成,陈桂林.汉语语言的无词典分词模型系统[J].计算机应用研究,1999,16(10):8-9. 被引量：22
4殷建平.汉语自动分词方法[J].计算机工程与科学,1998,20(3):60-66. 被引量：32
5文庭孝,侯经川,邱均平,张洋.汉语自动分词新思维:无词典切分[J].情报杂志,2005,24(2):2-4. 被引量：2
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
7孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
8张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60

二级参考文献125

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
5刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
6董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
7孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
8黄祥喜.书面汉语自动分词的现状和问题[J].情报学报,1989,8(2):125-133. 被引量：11
9徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
10孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87

共引文献339

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
2张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
3周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
4张泉,曾国荪,王伟,孙明军,谷华楠.基于改进的模糊C-均值聚类的信任文摘[J].计算机研究与发展,2008,45(z1):268-273. 被引量：2
5曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
6郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
7王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
8肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
9许桢.基于语义网的文本分类系统设计与实现[J].硅谷,2009,2(18).
10洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.

1CNET China[J].程序员,2007(10).
2王轩,李巍,王晓龙,赵淑香.大标记集汉语字(词)Markov 语言模型的建立[J].哈尔滨工业大学学报,1997,29(5):23-27. 被引量：3
3郑耿忠.自动分词算法在智能答疑系统中的应用研究[J].计算机工程与设计,2007,28(9):2224-2226. 被引量：4
4黄莉.词法分析在自然语言处理中的地位和作用[J].价值工程,2010,29(10):157-157. 被引量：2
5傅立云,刘新.基于词典的汉语自动分词算法的改进[J].情报杂志,2006,25(1):40-41. 被引量：10
6张贤,周娅.多次Hash自动分词算法[J].微计算机信息,2009,25(24):214-216.
7谢康,杨义先,张玲,杜晓峰,辛阳.基于CNN同心邻域极值的多车道智能交通系统图像多车牌区域的边缘检测[J].高技术通讯,2014,24(10):1029-1036.
8张辉,武亚红,黄润才.基于规则和统计的汉语多输出切分系统[J].微电子学与计算机,2007,24(7):56-58. 被引量：1
9萨查·舍甘.iOS 7偷师学艺胜于蓝[J].电脑时空,2013(8):9-9.
10蒋微.中文搜索引擎的自动分词算法[J].电脑开发与应用,2002,15(6):26-27. 被引量：2

计算机应用与软件

2007年第10期

浏览历史

内容加载中请稍等...

基于CNET模型的无词典汉语自动分词算法研究

参考文献8

二级参考文献125

共引文献339

相关作者

相关机构

相关主题

浏览历史