一种改进的基于后缀数组的无词典分词方法

An Improved Automatic and Dictionary-Free Chinese Word Segmentation Method Based on Suffix Array

下载PDF

导出

摘要文中改进了基于后缀数组的无词典分词算法。原算法通过对输入字符集建立后缀数组并按字典序进行排列来筛选汉字结合模式形成候选词集,并通过置信度的比较来筛选候选词集以获得分词集。文中改进了其计算候选词出现频率的方法并且大大减少了筛选候选词集时两两判断候选词是否具有父子关系的次数。试验表明,改进的算法能够在没有词典的情况下更快速构建候选词集和筛选候选词集。适用于对词条频度敏感,对计算速度要求较高的中文信息处理。 It improved the original algorithm of automatic and dictionary-free Chinese segmentation based on suffix array. The original algorithm gets the candidate words by filtering the co-occurrence patterns of Chinese characters extracted from the input corpus with al- phabetically sorted suffix array. And by filtering the candidate words through the confidence comparison the result set words are gotten. In this paper,improved the method that counted the frequency of the candidate words and reduced the number of judgments whether two candidate words have the father-and-son relationship when filtering the candidate words. Experiment results show that by the improved algorithm one can get and filter the candidate words more quickly without the help of the dictionary.＇ This method is particularly suitable for lexical-frequeney-sensitive as well as time-critical Chinese information processing application.

作者刘京城刘锋

机构地区安徽大学

出处《计算机技术与发展》 2011年第11期49-52,共4页 Computer Technology and Development

基金安徽省教育厅自然科学研究资助项目(KJ2009A60)

关键词自动分词无词典分词后缀数组 automatic word segmentation dictionary-free word segmentation suffix array

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1邹涛,王继成,杨文清,张福炎.文本信息检索技术[J].计算机科学,1999,26(9):72-75. 被引量：31
2邹海山,吴勇,吴月珠,陈阵.中文搜索引擎中的中文信息处理技术[J].计算机应用研究,2000,17(12):21-24. 被引量：35
3陈桂林,王永成,韩客松,王刚.一种改进的快速分词算法[J].计算机研究与发展,2000,37(4):418-424. 被引量：56
4付国宏,王晓龙.汉语词语边界自动划分的模型与算法[J].计算机研究与发展,1999,36(9):1144-1147. 被引量：14
5吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
6黄德根,杨元生,王省,张艳丽,钟万勰.基于统计方法的中文姓名识别[J].中文信息学报,2001,15(2):31-37. 被引量：34
7刘开瑛,薛翠芳,郑家恒,周晓强.中文文本中抽取特征信息的区域与技术[J].中文信息学报,1998,12(2):1-7. 被引量：45
8黄德根,朱和合,王昆仑,杨元生,钟万勰.基于最长次长匹配的汉语自动分词[J].大连理工大学学报,1999,39(6):831-835. 被引量：14
9傅赛香,袁鼎荣,黄柏雄,钟智.基于统计的无词典分词方法[J].广西科学院学报,2002,18(4):252-255. 被引量：24
10胥桂仙,苏筱蔚,陈淑艳.中文文本挖掘中的无词典分词的算法及其应用[J].吉林工学院学报（自然科学版）,2002,23(1):16-18. 被引量：26

二级参考文献48

1徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
3骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
4吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
5靳从,樊春丽,杨静宇.主题词自动标引中的知识处理方法[J].情报理论与实践,1996,19(2):30-33. 被引量：3
6孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
7潘谦红.文本信息检索模型[J].中国计算机报,1998,19.
8付国红王晓龙等.基于词形的汉语文本切分方法.第五届全国人机语音通讯学术会议论文集（NCMMSC－98）[M].哈尔滨,1998.328-332.
9潘谦红.全文检索的发展[J].中国计算机报,1998,19.
10[1]Chien Lee-Feng. PAT-tree-based adaptive keyphrase extraction for intelligent Chinese information retrieval. Information Processing and Management, 1999,35: 501～ 521.

共引文献300

1冯裕静,赵一美子.基于词频分析的国家级创新创业项目研究方向及趋势研究[J].产业科技创新,2020(6):26-27. 被引量：1
2徐海涛,杨森,柴乔林.基于统计分词的中文邮件智能分类系统[J].华中科技大学学报（自然科学版）,2003,31(S1):325-328. 被引量：1
3曲维光.汉语自动分词的方法选择[J].计算机科学,2002,29(z1):54-56. 被引量：2
4宁卓,邹阳,傅光轩.基于内容的智能EMAIL安全拦截系统模型[J].计算机工程,2000,26(S1):227-231. 被引量：1
5张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
6戴文军,朱立谷,孙志伟,任勇,曾赛峰,郝玮.一种基于搜索引擎的对象存储系统的扩展技术[J].计算机研究与发展,2007,44(z1):126-129.
7谢春发.中文信息处理在智能答疑系统中的应用研究[J].福建广播电视大学学报,2005(2):55-57.
8刘海峰,王元元,王倩.基于位置和类别结合模式的一种文本自动分类模型[J].图书情报工作,2006,50(S2):90-92.
9陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
10文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20

1张长利,赫枫龄,左万利.一种基于后缀数组的无词典分词方法[J].吉林大学学报（理学版）,2004,42(4):548-553. 被引量：14
2高晓梅,杨旭.基于自然语言网络教学答疑中无词典分词算法的研究[J].西安工程大学学报,2009,23(3):95-98.
3傅赛香,袁鼎荣,黄柏雄,钟智.基于统计的无词典分词方法[J].广西科学院学报,2002,18(4):252-255. 被引量：24
4韩客松,王永成,陈桂林.汉语语言的无词典分词模型系统[J].计算机应用研究,1999,16(10):8-9. 被引量：22
5王一蕾,吴英杰.基于数据量的文本分词算法选取的研究[J].福建电脑,2006,22(9):18-19.
6李晓红.中文文本分类中的特征词抽取方法[J].计算机工程与设计,2009,30(17):4127-4129. 被引量：16
7胥桂仙,苏筱蔚,陈淑艳.中文文本挖掘中的无词典分词的算法及其应用[J].吉林工学院学报（自然科学版）,2002,23(1):16-18. 被引量：26
8孙珠婷,顾倩颐.领域概念术语提取中特征项自动抽取方法[J].计算机工程与设计,2012,33(8):3189-3193. 被引量：3
9蔡灿民,吴晟,霍雪娜,赵莉楠.自动分词中智能词典的研究[J].科技广场,2007(3):34-36. 被引量：1
10付德宇,代成琴.一个面向文本分类的中文特征词自动抽取方法[J].计算机工程与应用,2006,42(15):165-167. 被引量：4

计算机技术与发展

2011年第11期

浏览历史

内容加载中请稍等...

一种改进的基于后缀数组的无词典分词方法

参考文献13

二级参考文献48

共引文献300

相关作者

相关机构

相关主题

浏览历史