基于改进的正向最大匹配中文分词算法研究被引量：11

The Research of Chinese Word Segmentation Algorithm Based on Forward Maximum Match

下载PDF

导出

摘要中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心。正向最大匹配算法FMM(Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初始值固定不变的问题,带来匹配次数相对较多的弊端。针对此问题提出了根据中文词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法,并用互信息统计来消除交集型歧义。最后,通过实验对算法进行了分词和验证,结果表明改进的算法与一般正向最大匹配算法相比,中文分词的准确率提高了。 The Chinese automatic word segmentation is always one key component in many fields of Chinese information processing, the Web documents mining and so on.. The Chinese word segmentation algorithm is one of the cores. Forward maximum matching（FMM） algorithm is fast, simple, easy to implement ,but there is a problem in forward maximum matching（FMM） algorithm that the initial value of the maximum word-length is immovable, this might lead to the longer words can be matched repeatedly. Aiming at this problem, this paper puts for-ward an idea for improving FMM algorithm that is to assign the maximum text-length to be treated dynamically based on the word-length in Chinese word segmentation word bank. Finally, through experiments conducted on the word algorithm and validation. Compared with normal FMM, the accuracy of Chinese word segmentation improves.

作者王惠仙龙华

机构地区昆明理工大学信息工程与自动化学院

出处《贵州大学学报（自然科学版）》 2011年第5期112-115,119,共5页 Journal of Guizhou University:Natural Sciences

关键词自动分词中文信息处理挖掘最大匹配 automatic word segmentation Chinese information processing mining maximum match

分类号 TP317.2 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1何国斌,赵晶璐.汉语文本自动分词算法的研究[J].计算机工程与应用,2010,46(3):125-127. 被引量：12
2于洪波.中文分词技术研究[J].东莞理工学院学报,2010,17(5):40-44. 被引量：2
3胡锡衡.正向最大匹配法在中文分词技术中的应用[J].鞍山师范学院学报,2008,10(2):42-45. 被引量：18

二级参考文献17

1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
2刘开瑛.歧义切分与专有名词识别软件[J].语言文字应用,2001(3):9-15. 被引量：4
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
4曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
5文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
6刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
7翟伟斌,周振柳,蒋卓明,许榕生.汉语分词词典设计[J].计算机工程与应用,2007,43(1):1-2. 被引量：11
8熊回香,夏立新.基于词索引的中文全文检索关键技术及其发展方向[J].中国图书馆学报,2007,33(4):45-49. 被引量：6
9Mohamed Elhadi,AI-Tobi.Webpage duplicate detection using combined POS and sequence alignment algorithm[C].Los Angeles,CA, United states.IEEE Computer Society,2009: 630-634.
10Zhou Yuchen,Liu Zuoda,Deng Beixing,et al.Improved fuzzy set information retrieval approach on duplicate webpage detection[J]. Journal of Information and Computational Science,2009,6(2): 1033-1041.

共引文献29

1井晓阳,罗飞,王亚棋.汉语语音合成技术综述[J].计算机科学,2012,39(S3):386-390. 被引量：13
2王舜燕,邱昌程,宁海波,张梅芬.构件搜索中需求描述关键词提取方法[J].计算机与数字工程,2009,37(11):36-39.
3杨毅,王禹桥.一种改进逐字二分中文分词词典设计[J].湘潭大学自然科学学报,2009,31(4):124-128. 被引量：5
4刘红芝.中文分词技术的研究[J].电脑开发与应用,2010,23(3):1-3. 被引量：15
5杨毅,王禹桥.中文分词词典机制:次字拼音首字母哈希机制[J].计算机工程与设计,2010,31(6):1369-1371. 被引量：2
6刘红霞,张运良,乔晓东.基于汉语科技词系统的新兴科研趋势监测研究[J].数字图书馆论坛,2010(5):9-14. 被引量：4
7李宏波.词典与统计相结合的中文分词算法研究[J].武汉理工大学学报（信息与管理工程版）,2010,32(6):907-909. 被引量：7
8綦科,谢冬青.基于数据流聚类的手机短信监管系统[J].计算机工程与设计,2011,32(9):3199-3202. 被引量：2
9张玉茹.中文分词算法之最大匹配算法的研究[J].现代计算机,2011,17(16):24-26. 被引量：5
10綦科,谢冬青.基于内容的短信分类系统的设计与实现[J].广州大学学报（自然科学版）,2011,10(5):43-47. 被引量：2

同被引文献83

1余丹.关于查全率和查准率的新认识[J].西南民族大学学报（人文社会科学版）,2009,30(2):283-285. 被引量：15
2刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
3张海泉.武器家谱[J].当代军事文摘,2005(3):19-19. 被引量：1
4黄昌宁.关于处理大规模真实文本的谈话[J].语言文字应用,1993(2):1-10. 被引量：25
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
6张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：15
7王健,陈剑云,张冬波.基于JAVA多线程的IEC60870—5—101规约分层设计[J].科技情报开发与经济,2005,15(7):249-251. 被引量：2
8陈踊,黄丙湖,蒋文明,闾国年.利用ArcIMS设计与实现WebGIS的新方法[J].测绘与空间地理信息,2005,28(2):47-50. 被引量：15
9陈耀东,王挺.基于有向图的双向匹配分词算法及实现[J].计算机应用,2005,25(6):1442-1444. 被引量：7
10凌云,陈毓芬,王英杰.基于用户认知特征的地图可视化系统自适应用户界面研究[J].测绘学报,2005,34(3):277-282. 被引量：49

引证文献11

1彭程,吴华瑞,黄锋,秦向阳,顾静秋.农产品市场行情信息的网络地图可视化方法[J].江苏农业科学,2014,42(5):363-367.
2李萌,陈毓芬,方潇.一种改进的个性化地图用户知识挖掘方法研究[J].地理空间信息,2014,12(5):162-163.
3戴上静,石春,吴刚.中文分词中的正向增字最大匹配算法研究[J].微型机与应用,2014,33(17):15-18. 被引量：7
4江华丽.中文分词算法研究与分析[J].物联网技术,2016,6(1):87-89. 被引量：9
5秦杰,曹雷,彭辉,赖俊.一种面向军事文本的领域特征词向量描述方法[J].计算机工程,2016,42(8):160-165. 被引量：7
6胡亮,夏磊,李伟.基于改进TF-IDF算法的关键词抽取系统[J].厦门理工学院学报,2017,25(5):67-72. 被引量：2
7刘鑫童,刘立波.改进的Mmseg4j分词算法在农作物病虫害搜索中的应用[J].宁夏工程技术,2017,16(3):229-232. 被引量：1
8黄定威,陈深,赖春林,李达扬,黄力鹏.中文分词在线路工作票安全措施辨识中的应用[J].中国高新科技,2018(2):79-81. 被引量：2
9冯国明,张晓冬,刘素辉.基于自主学习的专业领域文本DBLC分词模型[J].数据分析与知识发现,2018,2(5):40-47. 被引量：2
10朱钟元,杨莹,薛醒思,詹先银,王家华,范淑娟,刘艳萍.基于改进正向最大匹配算法的股票资讯新闻自动标注技术[J].宝鸡文理学院学报（自然科学版）,2019,39(1):58-62.

二级引证文献31

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：44
2陈硕,赵栋材,周欢欢.基于匹配算法的藏文自动分词[J].电子技术与软件工程,2016(1):169-170. 被引量：2
3江华丽.中文分词算法研究与分析[J].物联网技术,2016,6(1):87-89. 被引量：9
4王生生,玄雪花.基于定性空间推理的中文文本空间关系识别[J].吉林大学学报（理学版）,2016,54(3):529-534. 被引量：2
5赵云鹏,刘新贵,宋华标,吴铮,马绍龙.一种俄语地名专名快速音译方法[J].测绘与空间地理信息,2016,39(6):47-49. 被引量：7
6郭丙华,俞亚堃,李中华.基于词语搭配关系的一种中文分词歧义性消除方法[J].计算机应用与软件,2016,33(10):94-97. 被引量：3
7张海腾,翟洁,冷春霞.电子作业相似性检测技术的研究与实现[J].电子设计工程,2017,25(19):43-45. 被引量：2
8常卫东,刘完芳.网络舆情中的大数据分析方法研究[J].求知导刊,2017(28):60-61.
9汪海鹏,郑扬飞.基于特征值的律师推荐算法及改进方案[J].计算机与现代化,2018(10):18-21.
10李健龙,王盼卿,韩琪宇.面向军事领域的中文分词技术研究[J].计算机与现代化,2018(11):115-118. 被引量：2

1王瑞雷,栾静,潘晓花,卢修配.一种改进的中文分词正向最大匹配算法[J].计算机应用与软件,2011,28(3):195-197. 被引量：41
2卢志翔,蒙丽莉.文本分类中特征项权重算法的改进[J].柳州师专学报,2011,26(4):128-131. 被引量：1
3陆国丽,王小华,王荣波.最大词重降维算法与模拟退火算法相结合的文本聚类方法研究[J].现代图书情报技术,2008(12):43-47. 被引量：2
4桑农,张涛,李斌,吴翔.基于字典学习的背景建模[J].华中科技大学学报（自然科学版）,2013,41(9):28-31. 被引量：2
5陈莉,焦李成.文档挖掘与降维技术[J].西北大学学报（自然科学版）,2003,33(3):267-271. 被引量：13
6韩如冰,叶得学.问答系统的汉语分词算法研究[J].数字技术与应用,2012,30(5):114-115. 被引量：1
7朱亚东,张成,俞晓明,程学旗.基于逐点互信息的查询结构分析[J].中文信息学报,2012,26(5):33-39. 被引量：3
8邬皓天.微博在网络营销中的应用[J].河南科技,2012,31(6):16-17. 被引量：2
9火善栋.用哈希算法和二分法实现中文词典的快速查找[J].计算机时代,2014(9):16-17.
10努尔麦麦提.尤鲁瓦斯,吾守尔.斯拉木,热依曼.吐尔逊.维吾尔语大词汇语音识别系统识别单元研究[J].北京大学学报（自然科学版）,2014,50(1):149-152. 被引量：4

贵州大学学报（自然科学版）

2011年第5期

浏览历史

内容加载中请稍等...

基于改进的正向最大匹配中文分词算法研究被引量：11

参考文献3

二级参考文献17

共引文献29

同被引文献83

引证文献11

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于改进的正向最大匹配中文分词算法研究 被引量：11

参考文献3

二级参考文献17

共引文献29

同被引文献83

引证文献11

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于改进的正向最大匹配中文分词算法研究被引量：11