基于Lucene的中文分词方法设计与实现被引量：13

Design and implementation of Chinese words segementation based on Lucene

导出

摘要本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了该方法与现有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现. This paper design and implement a Chinese words segmentation module, which mainly for dealing with Chinese words to improve the ability of full text search system. The whole module based on the most popular architecture Lucene, and implement the Maximum Matching Algorithm with the ability of eliminate different meanings. The authors also compare our method with methods in existence, and bring forward a implementation about how to construct a high efficiency Chinese searching system.

作者李颖李志蜀邓欢

机构地区四川大学计算机学院泸州医学院生物工程系

出处《四川大学学报（自然科学版）》 CAS CSCD 北大核心 2008年第5期1095-1099,共5页 Journal of Sichuan University(Natural Science Edition)

基金四川省重点科技项目(05GG021-003-2)

关键词中文分词搜索引擎 LUCENE 正向最大匹配算法 Chinese word segmentation, search engine, Lucene, forwards maximum match algorithm

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1王莉云,王华,陈刚,姚乃明.基于Lucene的全文检索系统的设计与实现[J].计算机工程与设计,2007,28(24):5959-5961. 被引量：14
2郭伟,陈蓉,周伟,熊伟,于中华.基于延迟决策和斜率的新词识别方法[J].四川大学学报（自然科学版）,2007,44(3):517-520. 被引量：3
3彭波.搜索引擎的混合索引技术[J].计算机工程与应用,2004,40(22):16-18. 被引量：6
4秦文,苑春法.基于决策树的汉语未登录词识别[J].中文信息学报,2004,18(1):14-19. 被引量：23
5费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68

二级参考文献28

1韩维良.汉语自动分词系统中切分歧义与未登录词的处理策略[J].青海师范大学学报（自然科学版）,2004,20(2):31-34. 被引量：3
2彭波.搜索引擎的混合索引技术[J].计算机工程与应用,2004,40(22):16-18. 被引量：6
3陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
4柯和平.基于全文检索和流媒体技术的素材库设计建设[J].计算机工程与设计,2004,25(9):1466-1469. 被引量：8
5秦浩伟,步丰林.一个中文新词识别特征的研究[J].计算机工程,2004,30(B12):369-370. 被引量：13
6费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
7孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
8苑春法黄昌宁等.汉语语素数据库的建造与应用[J].Communication of COLIPS,7(1):1-4.
9苑春法黄昌宁等.现代汉语语素应用研究[J].Communication of COLIPS,6(2):55-59.
10Ando R,Lee L.Mostly-Unsupervised Statistical Segmentation of Japanese[J].Application to Kanji ANLP-NAACL,2000:145～148.

共引文献107

1白晓梅,张福利.校园网中文搜索引擎系统的设计[J].鞍山师范学院学报,2006,8(6):52-54. 被引量：1
2刘高原,何伟娜,郑浩,刘觉夫.Nutch0.9中二分法中文分词的实现[J].计算机时代,2009(4):28-30.
3徐艳华.新词语结构分析在自动分词中的作用[J].烟台职业学院学报,2007,13(4):57-63.
4黄水清,程冲.基于既定词表的自适应汉语分词技术研究[J].现代图书情报技术,2006(5):13-17. 被引量：4
5孙巍.一种面向中文信息检索的汉语自动分词方法[J].现代图书情报技术,2006(7):33-36. 被引量：7
6夏天,杨瑛霞,田爱奎,张际平.学习支持系统问题理解模块的架构[J].开放教育研究,2006,12(4):80-82. 被引量：1
7康松林,施荣华.基于信息元的教学资源组织系统的设计与实现[J].电脑与信息技术,2006,14(4):20-23. 被引量：4
8张德政,李天驰,阿孜古丽.决策树C4.5算法在天然气输差分析中的应用[J].计算机工程与应用,2006,42(23):208-210. 被引量：8
9杨柳,袁方,霍亮.基于渐进式丰富词典的分词方法研究[J].计算机工程与应用,2006,42(32):164-166. 被引量：1
10曹羽中,曹勇刚,金茂忠,刘超.支持智能中文分词的互联网搜索引擎的构建[J].计算机工程与设计,2006,27(23):4395-4398. 被引量：8

同被引文献84

1何胜利,卢才武.基于Java的混合搜索引擎[J].东北大学学报（自然科学版）,2004,25(z1):197-199. 被引量：1
2胡玉农,夏正洪,王俊峰,白松浩.复杂电子信息系统效能评估方法综述[J].计算机应用研究,2009,26(3):819-822. 被引量：19
3苏武华.汉语自动分词和自动标引方法研究[J].农业图书情报学刊,2004,15(7):103-105. 被引量：4
4白松浩,马锦永,吕善伟.基于神经网络对管制中心系统的效能评估[J].电讯技术,2004,44(6):125-128. 被引量：9
5黄河燕,陈肇雄.一种智能译后编辑器的设计及其实现算法[J].软件学报,1995,6(3):129-135. 被引量：17
6张春生,关薇薇.汉语全拼码中26个英文字母出现概率研究[J].计算机工程与应用,2006,42(7):146-147. 被引量：4
7祝宇,夏诏杰,聂峰光,郭力.支持向量机在化学主题爬虫中的应用[J].计算机与应用化学,2006,23(4):329-332. 被引量：8
8丁国栋,白硕,王斌.一种基于局部共现的查询扩展方法[J].中文信息学报,2006,20(3):84-91. 被引量：43
9成华,尹宝林.一个拼音汉字自动转换系统的设计与实现[J].北京航空航天大学学报,1996,22(4):465-469. 被引量：1
10傅向华,明仲.基于P2P的个性化Web搜索系统的设计与实现[J].计算机工程与应用,2007,43(7):111-113. 被引量：2

引证文献13

1夏正洪,王俊峰,白松浩.管制中心系统效能评估系统的研究与实现[J].四川大学学报（自然科学版）,2010,47(2):251-257.
2陈黎,李志蜀,琚生根,唐小棚,梁时木,韩国辉.基于SVM预测的金融主题爬虫[J].四川大学学报（自然科学版）,2010,47(3):493-497. 被引量：7
3潘钢.移动客户投诉分析系统建设及应用[J].科技信息,2012(7):631-631. 被引量：3
4汪向征,葛彦强,栗青生,吴艳丽.甲骨文信息检索系统的设计与实现[J].煤炭技术,2012,31(4):180-182.
5王云凯,王萍.基于自然语言处理模型的多音字对汉语拼音字母排序的影响研究[J].西南民族大学学报（自然科学版）,2012,38(3):479-482.
6任文娟.基于XML的P2P网络资源检索系统[J].计算机系统应用,2013,22(1):58-61. 被引量：1
7潘钢.移动客户投诉管理系统改进和应用[J].科技信息,2013(5):106-106. 被引量：3
8汪中飞,李卫华,陶星.基于分类的ESGS矛盾问题建模的研究[J].广东工业大学学报,2014,31(4):14-19. 被引量：3
9邵发,李淑琴.Lucene的一种融合额外影响因子的排序方法[J].北京信息科技大学学报（自然科学版）,2015,30(4):71-74.
10耿锐.图书在版编目自动辅助标引方案初探[J].中国科技产业,2015(10):65-67.

二级引证文献20

1康宏建.基于大数据的智能化客服系统升级设计思路[J].电信快报,2021(8):16-21.
2祝团飞,孙婧,李益洲,李梦龙.BOS:一种用于不平衡数据学习的边界过采样方法[J].四川大学学报（自然科学版）,2012,49(3):553-559. 被引量：3
3周扬,屈武斌,卢一鸣,张成岗,杨毅.基于文本频谱的中文文本聚类方法[J].四川大学学报（自然科学版）,2012,49(6):1386-1394.
4张敏,孙敏.基于Heritrix限定爬虫的设计与实现[J].计算机应用与软件,2013,30(4):33-35. 被引量：13
5李济汉,陈博.面向电信客户投诉和建议的智能分析模型[J].现代电信科技,2013,43(5):4-7. 被引量：3
6李猛,甘新玲,李永.基于XML技术的搜索系统的设计与实现[J].中国新技术新产品,2013(20):29-29.
7张超,魏三强,朱军,赵彦,陈伟.混合加密算法的移动客户投诉预警系统的设计与实现[J].辽宁工程技术大学学报（自然科学版）,2013,32(6):822-827. 被引量：1
8何荧,唐雁,张清辰,谢松山,孙浪,苗宗霞.基于复杂网络和遗传算法的特征选择方法[J].四川大学学报（自然科学版）,2014,51(5):937-946. 被引量：1
9田雪筠.网络竞争情报主题采集技术研究[J].图书与情报,2014(5):132-137. 被引量：5
10李卫华,傅晓东.可拓创新软件体系结构研究[J].广东工业大学学报,2016,33(2):1-4. 被引量：8

1王志嘉,薛质.一种基于Lucene的中文分词的设计与测试[J].信息技术,2010,34(12):50-54. 被引量：6
2罗宁,徐俊刚,郭洪韬.基于Lucene的中文分词模块的设计和实现[J].电子技术（上海）,2012,39(9):54-56. 被引量：3
3李沫南.Coreseek：中文检索系统[J].程序员,2012(8):60-63.
4王丽君,高迎,王锡钢.中文检索系统中查询的扩展[J].小型微型计算机系统,2002,23(7):894-896. 被引量：3
5索红光,孙鑫.针对中文检索的Lucene改进策略[J].计算机应用与软件,2009,26(6):175-177. 被引量：10
6戴洪,蒋静,樊程,于雪丽.一种基于LUCENE的中文分词算法研究[J].青岛大学学报（自然科学版）,2011,24(3):53-58. 被引量：4
7张冬慧,孙波,徐照财,程显毅.文本自动分类关键技术研究[J].微计算机信息,2008,24(6):197-199. 被引量：12
8张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
9刘劲松,张彬,柴文磊,魏建行,刘振鹏.校园网园区搜索引擎的设计与实现[J].河北大学学报（自然科学版）,2011,31(4):439-444. 被引量：1
10谷瑞.对中文分词歧义消除算法的研究[J].苏州市职业大学学报,2015,26(4):25-27. 被引量：1

四川大学学报（自然科学版）

2008年第5期

浏览历史

内容加载中请稍等...

基于Lucene的中文分词方法设计与实现被引量：13

参考文献5

二级参考文献28

共引文献107

同被引文献84

引证文献13

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于Lucene的中文分词方法设计与实现 被引量：13

参考文献5

二级参考文献28

共引文献107

同被引文献84

引证文献13

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于Lucene的中文分词方法设计与实现被引量：13