一种适用于移动搜索的中文分词算法被引量：2

A chinese word segmentation algorithm for mobile search

下载PDF

导出

摘要针对现有中文分词算法无法为移动搜索提供用户兴趣偏好信息的现状,提出一种改进的正向最大匹配中文分词算法。该算法基于逐字二分的分词词典机制,添加词分类信息,在词典中存储了每个词条的分类信息,分词时采用改进的次字区位码哈希非均匀分段机制进行正向最大匹配分词。实验结果表明,与逐字二分法相比,改进的分词算法其存储空间增加了13%,但时间效率提高了20%左右,且分词后可同时提取出词条的分类信息。 As existing Chinese word segmentation algorithm can＇t provide user interest information for mobile search, an improved FMM segmentation algorithm is proposed. Based on a new dictionary mechanism which contains words＇ classified information, the algorithm performs Forward Maximum Matching by the improved second word area code hash non-uniform segmentation mechanism. Experimental results show that compared with the Verbatim dichotomy, the storage space of the improved algorithm is increased by 13%, but the time efficiency is improved by about 20%, and the words＇ classified information is extracted simultaneously.

作者贺菲菲贺炎齐静娜

机构地区中兴通讯股份有限公司西安研发中心西安邮电大学计算机学院

出处《西安邮电大学学报》 2015年第4期62-65,共4页 Journal of Xi’an University of Posts and Telecommunications

基金国家自然科学基金资助项目(61373116) 西安邮电大学青年基金资助项目(ZL2014-27)

关键词中文分词词典机制词分类信息 chinese word segmentation, dictionary mechanism, words＇ classified information

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1梁琛,王忠民,范琳.移动搜索终端用户行为调查研究[J].西安邮电大学学报,2014,19(2):108-112. 被引量：10
2贺炎,杨爽,王忠民.我国移动搜索产业共赢合作模式探讨[J].西安邮电大学学报,2013,18(6):95-99. 被引量：4
3王忠民,史育兰,张荣,宋辉.一种移动智能搜索个性化客户端[J].西安邮电学院学报,2013,18(3):71-75. 被引量：7
4赵川,杜玲,岳鹏,刘少君,林征胜,赵荣海.基于中文的自然语言理解初探[J].现代电子技术,2007,30(6):82-85. 被引量：4
5梁喜涛,顾磊.中文分词与词性标注研究[J].计算机技术与发展,2015,25(2):175-180. 被引量：48
6林冬盛.中文分词算法的研究与实现[D].西安:西北大学,2011.
7杨毅,王禹桥.中文分词词典机制:次字拼音首字母哈希机制[J].计算机工程与设计,2010,31(6):1369-1371. 被引量：2
8焦娇.基于二次哈希并逐字二分匹配的中文分词改进算法[J].信息与电脑（理论版）,2010(9):113-113. 被引量：1
9吴晶晶,荆继武,聂晓峰,王平建.一种快速中文分词词典机制[J].中国科学院研究生院学报,2009,26(5):703-711. 被引量：16
10罗洋.一种基于双哈希二叉树的中文分词词典机制[J].计算机应用与软件,2013,30(5):251-253. 被引量：4

二级参考文献86

1郭伏良.当代汉语词汇发展变化原因探析[J].河北大学学报（哲学社会科学版）,1999,24(3):29-31. 被引量：8
2曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
3吴建胜,战学刚,迟呈英.一种基于自动机的分词方法[J].计算机工程与应用,2005,41(8):81-82. 被引量：8
4索东梅.自然语言理解研究[J].长春师范学院学报（自然科学版）,2005,24(1):110-111. 被引量：2
5祝瑞,车敏.基于HTTP协议的服务器程序分析[J].现代电子技术,2012,35(4):117-119. 被引量：46
6刘桂芳,杨晓敏.对义素分析及其困惑的几点言说[J].北方论丛,2005(6):70-73. 被引量：5
7翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：41
8王思力,张华平,王斌.双数组Trie树算法优化及其应用研究[J].中文信息学报,2006,20(5):24-30. 被引量：29
9李江波,周强,陈祖舜.汉语词典的快速查询算法研究[J].中文信息学报,2006,20(5):31-39. 被引量：25
10包家庆,李永红.基于代理的层次化信息网格模型[J].现代电子技术,2006,29(18):92-93. 被引量：1

共引文献99

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2周丰,殷丽丽,沈琼,杨怀光.基于word2vec的瓶装水线上评论智能分析[J].包装工程,2022,43(S01):48-55. 被引量：1
3曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
4丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
5丁洁.基于最佳粒度匹配的中文分词算法的研究[J].自动化与仪器仪表,2016(7):169-170. 被引量：1
6曹光忠,刘友生.基于主动服务构件的智能专业设置调查系统[J].西南大学学报（自然科学版）,2009,31(1):100-105. 被引量：1
7孙铁利,刘延吉.中文分词技术的研究现状与困难[J].信息技术,2009,33(7):187-189. 被引量：39
8张硕果,汪成亮.结合CRFs的词典分词法[J].计算机系统应用,2010,19(11):115-118. 被引量：1
9蒋才智,王浩.基于memcached的动态四字双向词典机制[J].计算机应用研究,2011,28(1):152-154. 被引量：1
10张倬,陆宇凡,沈文枫,徐炜民,郑衍衡.Blocking optimized SIMD tree search on modern processors[J].Journal of Shanghai University(English Edition),2011,15(5):437-444. 被引量：2

同被引文献15

1张妍,许云峰,张立全.基于云计算的中文分词研究[J].河北科技大学学报,2012,33(3):266-269. 被引量：5
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
3丁振国,张卓,黎靖.基于Hash结构的逆向最大匹配分词算法的改进[J].计算机工程与设计,2008,29(12):3208-3211. 被引量：26
4冯永,李华,钟将,叶春晓.基于自适应中文分词和近似SVM的文本分类算法[J].计算机科学,2010,37(1):251-254. 被引量：21
5王瑞雷,栾静,潘晓花,卢修配.一种改进的中文分词正向最大匹配算法[J].计算机应用与软件,2011,28(3):195-197. 被引量：41
6黄德根,朱和合,王昆仑,杨元生,钟万勰.基于最长次长匹配的汉语自动分词[J].大连理工大学学报,1999,39(6):831-835. 被引量：14
7李玲.基于双词典机制的中文分词系统设计[J].机械工程与自动化,2013(1):17-19. 被引量：4
8莫建文,郑阳,首照宇,张顺岚.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(5):1802-1807. 被引量：40
9王锡钢,王正,陈虎.关于搜索引擎的中文分词与页面排序的研究[J].计算机应用与软件,2013,30(9):211-214. 被引量：4
10白涛,张太红,吴乃宁.基于词典和全切分的中文农业网页分词算法的研究[J].新疆农业大学学报,2014,37(2):168-172. 被引量：1

引证文献2

1丁洁.基于最佳粒度匹配的中文分词算法的研究[J].自动化与仪器仪表,2016(7):169-170. 被引量：1
2丁洁.基于层次分析法的中文分词算法改进[J].信息技术,2016,40(10):190-193. 被引量：1

二级引证文献2

1杨光豹,杨丰赫,郑慧锦.基于字符树结构的高性能中文词库技术[J].计算机系统应用,2019,28(8):262-267.
2高毅.基于长短时神经网络的古汉语分词系统[J].自动化与仪器仪表,2020,0(2):128-131. 被引量：1

1张璐,肖创柏,陆燕.无线网络TCP拥塞控制综述[J].湖南广播电视大学学报,2010(4):71-74.
2谢春发.中文信息处理在智能答疑系统中的应用研究[J].福建广播电视大学学报,2005(2):55-57.
3许华,刘勇.中文分词词典机制的研究[J].福建电脑,2010(3):42-43.
4陈明华,殷景华,舒昌,王明江.基于正反向最大匹配分词系统的实现[J].信息技术,2009,33(6):124-127. 被引量：7
5原佳丽,杨仁广,孟祥增.快速双向中文分词算法[J].山东师范大学学报（自然科学版）,2009,24(1):75-77.
6宋鸣,纪春田,关爱芬.80386以上机器在V—86模式和保护模式下的地址变换技术[J].云南师范大学学报（对外汉语教学与研究版）,1998(5):93-94.
7彭焕峰,丁宋涛.一种基于全Hash的整词二分词典机制[J].计算机工程,2011,37(21):40-42. 被引量：2
8罗洋.一种基于双哈希二叉树的中文分词词典机制[J].计算机应用与软件,2013,30(5):251-253. 被引量：4
9张培颖,李村合.一种中文分词词典新机制——四字哈希机制[J].微型电脑应用,2006,22(10):35-36. 被引量：16
10万中英,王明文,左家莉,万剑怡.结合全局和局部信息的特征选择算法[J].山东大学学报（理学版）,2016,51(5):87-93. 被引量：2

西安邮电大学学报

2015年第4期

浏览历史

内容加载中请稍等...

一种适用于移动搜索的中文分词算法被引量：2

参考文献11

二级参考文献86

共引文献99

同被引文献15

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种适用于移动搜索的中文分词算法 被引量：2

参考文献11

二级参考文献86

共引文献99

同被引文献15

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种适用于移动搜索的中文分词算法被引量：2