一种改进的统计与后串最大匹配的中文分词算法研究被引量：7

Research of Chinese Word Segmentation Algorithms Based on Statistics and Reverse Maximum Match

下载PDF

导出

摘要在比较各种传统分词方法优缺点的基础上,本文提出了一种新的分词算法。它采用改进的双向Markov链统计方法对词库进行更新,再利用基于词典的有穷自动机后串最大匹配算法以及博弈树搜索算法进行分词。实验结果表明,该分词算法在分词准确性、效率以及生词辨识上取得了良好的效果。 This paper analyzes several traditional methods for the Chinese word segmentation, compares the advantages and disadvantages of these methods, and presents a new segmentation algorithm. The method adopts the improved bidirectional Markov chain statistical method to update the word library, and then uses the Reverse Maximum Match method based on the word library and the GameTree search algorithm to cut the Chinese word strings. The experimental results show this algorithm has got better effect on veracity, efficiency and new word distinguishment.

作者吴涛张毛迪陈传波

机构地区华中科技大学软件学院

出处《计算机工程与科学》 CSCD 2008年第8期79-82,共4页 Computer Engineering & Science

基金国家863计划资助项目(2006AA04Z131)

关键词正向最大前串匹配逆向最大前串匹配统计法有穷自动机 forward maximum match reverse maximum match statistical method definite finite automation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1杨超.基于最大匹配的书面汉语自动分词研究.湖南大学学报,2005,.
2姚天顺,张桂平,吴映明.基于规则的汉语自动分词系统[J].中文信息学报,1990,4(1):37-43. 被引量：43
3费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
4Johansson M, Olofsson T. Bayesian Model Selection for Markov Hidden Markov, and Multinomial Models[J]. Signal Processing Letters, 2007,14(2) : 129-1:32.
5郭进.统计语言模型及汉语音字转换的一些新结果[J].中文信息学报,1993,7(1):18-27. 被引量：17
6S 詹姆斯.普雷斯.贝叶斯统计学原理、模型及应用[M].廖文,陈安贵,等译.北京:中国统计出版社,1992.
7魏晓宁.基于隐马尔科夫模型的中文分词研究[J].电脑知识与技术,2007(11):885-886. 被引量：13
8佟晓筠,宋国龙,刘强,张俐,姜伟.中文分词及词性标注一体化模型研究[J].计算机科学,2007,34(9):174-175. 被引量：10

二级参考文献30

1孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
2张潮生，中文信息处理国际会议论文集，1987年
3梁南元，中文信息，1986年，1期
4姚天顺，计算机的汉字信息处理，1985年
5管纪文，中文信息处理国际研讨论文集，1983年
6芍大举，中文信息，1991年，1期，33页
71991年
8新华字典，1991年
9李慧勤，1990年
10黄昌宁，中国计算机用户，1990年，11期

共引文献146

1游家兴,张哲远.文以载道——文本分析研究评述与展望[J].当代会计评论,2022(2):32-59. 被引量：1
2白晓梅,张福利.校园网中文搜索引擎系统的设计[J].鞍山师范学院学报,2006,8(6):52-54. 被引量：1
3苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
4刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
5付艳梅.智能答疑系统的中文分词[J].湖北工业大学学报,2009,24(1):65-67. 被引量：4
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
7李淑文.试论文本自动分类[J].现代计算机,2004,10(7):38-41. 被引量：2
8亢临生,张永奎.利用分词属性解决歧义切分[J].电脑开发与应用,1994,7(4):2-5. 被引量：4
9亢临生,张永奎.基于标记的分词算法[J].山西大学学报（自然科学版）,1994,17(3):283-286. 被引量：4
10张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：15

同被引文献78

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
3陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
4孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
5于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(S3):143-145. 被引量：5
6吴明礼,施水才.一种结合超链接分析的搜索引擎排序方法[J].计算机工程,2004,30(15):143-145. 被引量：10
7秦浩伟,步丰林.一个中文新词识别特征的研究[J].计算机工程,2004,30(B12):369-370. 被引量：13
8徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
9费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
10马兆丰,顾明,孙家广.基于角色的可信数字版权安全许可授权模型[J].清华大学学报（自然科学版）,2006,46(4):534-538. 被引量：8

引证文献7

1张彩琴,袁健.改进的正向最大匹配分词算法[J].计算机工程与设计,2010,31(11):2595-2597. 被引量：11
2苗利明.基于正序词典的双向最大分词法[J].信息系统工程,2010,23(6):137-137.
3段宇锋,鞠菲.基于N-Gram的专业领域中文新词识别研究[J].现代图书情报技术,2012(2):41-47. 被引量：10
4陈伟东,黄祖泉,陈传波,张伟平,吴涛.网络防御和不重复子串模式匹配算法研究实现[J].计算机技术与发展,2016,26(7):89-93. 被引量：1
5孔雪娜,孙红.中文微博文本采集与预处理综述[J].软件导刊,2017,16(2):186-189. 被引量：7
6牛率仁.面向主题的网络爬虫系统功能模块设计探析[J].电脑知识与技术（过刊）,2017,23(4X):38-39.
7赵方骋.大数据背景Python在网络爬虫框架中的应用[J].电子技术与软件工程,2022(19):13-16. 被引量：1

二级引证文献30

1包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：6
2李楚贞,余育文.中文微博数据预处理常用方法研究[J].科技经济导刊,2019,0(33):23-23. 被引量：4
3崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
4蒋建洪,赵嵩正,罗玫.词典与统计方法结合的中文分词模型研究及应用[J].计算机工程与设计,2012,33(1):387-391. 被引量：18
5胡阿明,王卫东.中文分词歧义识别算法的优化[J].现代电子技术,2012,35(8):107-109. 被引量：2
6郑阳,莫建文.基于专业术语提取的中文分词方法[J].大众科技,2012,14(4):20-23. 被引量：1
7王成平.计算机彝文自动分词技术的设计研究[J].湘潭大学自然科学学报,2012,34(3):107-113. 被引量：4
8孙海霞,李军莲,吴英杰,吴夙慧.基于混合策略的中文生物医学领域未登录词识别研究[J].现代图书情报技术,2013(1):15-21. 被引量：2
9莫建文,郑阳,首照宇,张顺岚.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(5):1802-1807. 被引量：40
10逯万辉,马建霞,范云满.基于CRFs和语块分析的中文未登录术语识别研究[J].情报科学,2013,31(11):46-50.

1舒康元,胡福乔.中国象棋计算机博弈引擎改进[J].微计算机信息,2009(29):39-41. 被引量：1
2危春波,王海瑞,文乔农.博弈树搜索算法的分析与实现[J].科技广场,2007(5):15-17. 被引量：2
3杨庆文.智能五子棋中的博弈问题[J].软件导刊,2006,5(6):75-77. 被引量：1
4刘霞,张建刚,邢胜.基于数据库自学习的中国象棋研究[J].科技创新与应用,2015,5(32):89-90. 被引量：1
5黎利辉.基于置换表技术的中国象棋搜索算法研究[J].科技视界,2014(16):23-23. 被引量：2
6王京辉,乔卫民.基于PVM的博弈树的网络并行搜索[J].计算机工程,2005,31(9):29-30. 被引量：2
7周明明,高航,赵国安.UCT算法在计算机围棋中的应用与改进[J].数据采集与处理,2012,27(S2):330-335. 被引量：3
8张培刚,陈克训.使用不同的博弈树搜索算法解决计算机围棋的吃子问题[J].智能系统学报,2007,2(3):84-90.
9纪洪生.基于残局知识库的电脑象棋设计[J].科技视界,2014(16):202-203. 被引量：1
10黎利辉.基于Alpha-Beta剪枝法的中国象棋博弈系统研究[J].福建电脑,2014,30(3):29-30. 被引量：2

计算机工程与科学

2008年第8期

浏览历史

内容加载中请稍等...

一种改进的统计与后串最大匹配的中文分词算法研究被引量：7

参考文献8

二级参考文献30

共引文献146

同被引文献78

引证文献7

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

一种改进的统计与后串最大匹配的中文分词算法研究 被引量：7

参考文献8

二级参考文献30

共引文献146

同被引文献78

引证文献7

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

一种改进的统计与后串最大匹配的中文分词算法研究被引量：7