基于汉语拼音首字母索引的混合分词算法被引量：1

Hybrid Segmentation Algorithm for Chinese Text Using First Pinyin Letter Index

下载PDF

导出

摘要中文自动分词是web文本挖掘以及其它中文信息处理应用领域的基础.蓬勃发展的中文信息处理应用对分词技术提出了更高的要求.提出了一种新的分词算法FPLS,该算法用拼音首字母作为词语表一级索引,词语的字数为二级索引构造分词词典,采用双向匹配方法,并引入规则解决歧义切分问题.与现有的快速分词算法比较,该算法分词效率高且正确率高. Chinese automatic segmentation is the basis of web text mining and other Chinese information processing applications. Booming Chinese information processing applications put forward a higher requirement for Chinese automatic segmentation. This paper presents a new segmentation algorithm FPLS, which uses a dictionary with a first letter of the Pinyin as a first level index and words count as the secondary index structure. A bidirectional matching method and rules are employed to resolve ambiguity segmentation problem in the algorithm. Comparing with the existing algorithm,algorithm FPLS gets higher accuracy and efficiency.

作者杨进才陈忠忠谢芳胡金柱

机构地区华中师范大学计算机学院湖北工业大学计算机学院

出处《计算机系统应用》 2016年第4期221-225,共5页 Computer Systems & Applications

基金教育部社科基金(13YJAZH117) 国家社科基金(14BYY093)

关键词中文分词拼音索引双向匹配歧义切分 Chinese automatic segmentation Pinyin index bidirectional match ambiguity resolve

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1王瑞雷,栾静,潘晓花,卢修配.一种改进的中文分词正向最大匹配算法[J].计算机应用与软件,2011,28(3):195-197. 被引量：41
2周俊,郑中华,张炜.基于改进最大匹配算法的中文分词粗分方法[J].计算机工程与应用,2014,50(2):124-128. 被引量：18
3张科.多次Hash快速分词算法[J].计算机工程与设计,2007,28(7):1716-1718. 被引量：22
4李振星,徐泽平,唐卫清,唐荣锡.全二分最大匹配快速分词算法[J].计算机工程与应用,2002,38(11):106-109. 被引量：39
5罗洋.一种基于双哈希二叉树的中文分词词典机制[J].计算机应用与软件,2013,30(5):251-253. 被引量：4
6张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：15
7翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42
8韩冬煦,常宝宝.中文分词模型的领域适应性方法[J].计算机学报,2015,38(2):272-281. 被引量：59
9王艳,元昌安,覃晓,彭昱忠,宋叶俊.基于VC++/MFC的中文自动分词算法及其软件的实现[J].广西师范学院学报（自然科学版）,2008,25(3):104-108. 被引量：5
10熊回香.全文检索中的汉语自动分词及其歧义处理[J].中国图书馆学报,2005,31(5):54-57. 被引量：6

二级参考文献90

1苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
2曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
3曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
4文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
5孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
6温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
7龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量：26
8马光志,李专.基于特征词的自动分词研究[J].华中科技大学学报（自然科学版）,2003,31(3):60-62. 被引量：4
9吴建胜,战学刚,迟呈英.一种基于自动机的分词方法[J].计算机工程与应用,2005,41(8):81-82. 被引量：8
10邓宏涛.中文自动分词系统的设计模型[J].计算机与数字工程,2005,33(4):138-140. 被引量：13

共引文献247

1吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：9
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
4苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
5刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
6马绍龙,刘海砚.基于文档集的文本挖掘模型研究[J].测绘与空间地理信息,2013,36(5):48-50. 被引量：1
7丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
8丁洁.基于最佳粒度匹配的中文分词算法的研究[J].自动化与仪器仪表,2016(7):169-170. 被引量：1
9张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
10金华兴,戴新宇,陈家骏.可扩展统计分词系统的构造[J].计算机工程与应用,2005,41(23):176-178.

同被引文献12

1姚兴山.基于Hash算法的中文分词研究[J].现代图书情报技术,2008(3):78-81. 被引量：5
2蔡蕊.一种改进的基于Hash的中文分词算法研究[J].福建电脑,2010,26(2):69-70. 被引量：3
3熊志斌,朱剑锋.基于改进Trie树结构的正向最大匹配算法[J].计算机应用与软件,2014,31(5):276-278. 被引量：11
4陈之彦,李晓杰,朱淑华,付丹龙,邢诒海.基于Hash结构词典的双向最大匹配分词法[J].计算机科学,2015,42(B11):49-54. 被引量：18
5丁洁.基于层次分析法的中文分词算法改进[J].信息技术,2016,40(10):190-193. 被引量：1
6张义,李治江.基于高斯词长特征的中文分词方法[J].中文信息学报,2016,30(5):89-93. 被引量：3
7刘超,王卫东.基于双哈希词典机制中文分词的研究[J].信息技术,2016,40(11):152-156. 被引量：1
8胡婕,张俊驰.双向循环网络中文分词模型[J].小型微型计算机系统,2017,38(3):522-526. 被引量：11
9刘勇,魏光泽.基于双字哈希结构的最大匹配算法机制改进[J].电子设计工程,2017,25(16):11-15. 被引量：6
10邓丽萍,罗智勇.基于半监督CRF的跨领域中文分词[J].中文信息学报,2017,31(4):9-19. 被引量：19

引证文献1

1杨光豹,杨丰赫,郑慧锦.基于字符树结构的高性能中文词库技术[J].计算机系统应用,2019,28(8):262-267.

1曹犟,邬晓钧,夏云庆,郑方.基于拼音索引的中文模糊匹配算法[J].清华大学学报（自然科学版）,2009(S1):1328-1332. 被引量：14
2刘辉.一种按拼音首字母对数据库中的汉字进行检索的方法研究[J].计算机科学,2015,42(B11):508-509.
3高进龙.用拼音首字母序列快速检索VFP数据库[J].技术与创新管理,2007,28(2):59-61.
4姜力.PB中实现中文拼音首字母提取[J].中文信息,2002,0(11):61-62.
5李群先.获取汉字串中各字的拼音首字母[J].信息技术,2002,26(3):38-39. 被引量：4
6李振星,徐泽平,唐卫清,唐荣锡.全二分最大匹配快速分词算法[J].计算机工程与应用,2002,38(11):106-109. 被引量：39
7张嘉惠,崔超艳.一种汉语拼音首字母快速查询数据库的方法[J].电脑知识与技术（过刊）,2010,0(15):3874-3877. 被引量：3
8陈桂林,王永成,韩客松,王刚.一种改进的快速分词算法[J].计算机研究与发展,2000,37(4):418-424. 被引量：56
9马志强,苏依拉.基于次优查找树的词典机制研究[J].内蒙古工业大学学报（自然科学版）,2010,29(4):274-278.
10吴晓倩,胡学钢.基于N-最短路径的中文分词技术研究[J].安徽理工大学学报（自然科学版）,2014,34(1):72-75. 被引量：5

计算机系统应用

2016年第4期

浏览历史

内容加载中请稍等...

基于汉语拼音首字母索引的混合分词算法被引量：1

参考文献11

二级参考文献90

共引文献247

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于汉语拼音首字母索引的混合分词算法 被引量：1

参考文献11

二级参考文献90

共引文献247

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于汉语拼音首字母索引的混合分词算法被引量：1