基于Lucene的中文分词系统设计与实现被引量：5

Design and Implementation of Chinese Word Segmentation System Based on Lucene

导出

摘要随着信息技术的不断发展,中文分词的应用越来越广泛,例如搜索引擎、机器翻译等领域。论文介绍了对未识别部分采取检索词典的方法;对介词副词词典、姓氏词典和后缀词词典先检索,再处理介词、副词、姓名和后缀词等,处理完后再将剩余部分输出单字等。设计并实现了一个基于Lucene的中文分词系统,系统运行良好,能对待切分的文本进行相对正确、快速的切分,系统输出的结果基本符合预期的目标。 The application of word segmentation spreads more widely with the development of information technology,such as the field of research engine and machine translation.In this paper,we briefly introduce when we meet the unrecognizing parts,we adopt the methods of retrieving the dictionary to retrieve adverb preposition dictionary,name dictionary and suffix dictionary.Then we will output the remaining words.A new system of Chinese word segmentation based on Lucene is invented.The results prove that such method is effective and much accurate.Besides,the output results are basically meeting the expected results.

作者丁洁

机构地区陕西邮电职业技术学院

出处《自动化与仪器仪表》 2016年第5期208-210,共3页 Automation & Instrumentation

关键词中文分词搜索引擎检索词典基于Lucene Chinese word segmentation research engine retrieving the dictionary based on Lucene

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1梅震国.基于Lucene系统的中文分词算法设计与实现[J].电脑编程技巧与维护,2015(9):37-38. 被引量：1
2韩冬煦,常宝宝.中文分词模型的领域适应性方法[J].计算机学报,2015,38(2):272-281. 被引量：59
3周俊,郑中华,张炜.基于改进最大匹配算法的中文分词粗分方法[J].计算机工程与应用,2014,50(2):124-128. 被引量：18
4来斯惟,徐立恒,陈玉博,刘康,赵军.基于表示学习的中文分词算法探索[J].中文信息学报,2013,27(5):8-14. 被引量：34
5张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：44
6袁鼎荣,李新友,邵延振.用于中文分词的组合型歧义消解算法[J].计算机应用与软件,2011,28(6):57-58. 被引量：5
7付年钧,彭昌水,王慰.中文分词技术及其实现[J].软件导刊,2011,10(1):18-20. 被引量：10
8黄德根,焦世斗,周惠巍.基于子词的双层CRFs中文分词[J].计算机研究与发展,2010,47(5):962-968. 被引量：23
9姚兴山.基于哈希算法的中文分词算法的改进[J].图书情报工作,2008,52(6):60-62. 被引量：6

二级参考文献100

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
2刘禹孜,何中市.一种基于SVM和规则消除组合型歧义的算法[J].重庆大学学报（自然科学版）,2005,28(10):50-53. 被引量：2
3骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
4周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
5曲维光,吉根林,穗志方,周俊生.基于语境信息的组合型分词歧义消解方法[J].计算机工程,2006,32(17):74-76. 被引量：10
6秦颖,王小捷,张素香.汉语分词中组合歧义字段的研究[J].中文信息学报,2007,21(1):3-8. 被引量：11
7孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
8黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
9孙膑.现代汉语文本的词语切分技术.[2007-12-01].http://www.tinko.com/Lunwen/86087.htm.
10殷人昆.数据结构(用面向对象方法与C++描述).北京:清华大学出版社,2005:344-388.

共引文献169

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3张立岩,张世民.基于语义相似度的主观题评分算法研究[J].河北科技大学学报,2012,33(3):263-265. 被引量：2
4丁洁.基于最佳粒度匹配的中文分词算法的研究[J].自动化与仪器仪表,2016(7):169-170. 被引量：1
5刘昌,王振武.基于LINQ技术的海量数据查询匹配算法研究[J].电脑编程技巧与维护,2010(24):53-54.
6吴亮,李树广.基于关键词筛选分词算法的企业级搜索引擎[J].微型电脑应用,2010,26(7):37-40.
7王瑞雷,栾静,潘晓花,卢修配.一种改进的中文分词正向最大匹配算法[J].计算机应用与软件,2011,28(3):195-197. 被引量：41
8许旭阳,李弼程,张先飞,席耀一.基于条件随机场与自定义规则的时间表达式识别[J].情报学报,2011,30(10):1065-1071. 被引量：3
9于江德,王希杰,樊孝忠.词位标注汉语分词中特征模板定量研究[J].计算机工程与设计,2012,33(3):1239-1244. 被引量：4
10Zhang Kaixu,Sun Maosong.Unified Framework of Performing Chinese Word Segmentation and Part-of-Speech Tagging[J].China Communications,2012,9(3):1-9. 被引量：3

同被引文献40

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2丁洁.基于最佳粒度匹配的中文分词算法的研究[J].自动化与仪器仪表,2016(7):169-170. 被引量：1
3费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
4曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
5张博,姜建国,万平国.对互联网环境下中文分词系统的一种架构改进[J].计算机应用研究,2006,23(11):176-179. 被引量：3
6陈天莹,陈蓉,潘璐璐,李红军,于中华.基于前后文n-gram模型的古汉语句子切分[J].计算机工程,2007,33(3):192-193. 被引量：25
7麦范金,王挺.基于双向最大匹配和HMM的分词消歧模型[J].现代图书情报技术,2008(8):37-41. 被引量：9
8林永青.众包:网络社会的社会生产[J].IT经理世界,2009(10):82-83. 被引量：12
9孙铁利,刘延吉.中文分词技术的研究现状与困难[J].信息技术,2009,33(7):187-189. 被引量：39
10陈顺强.信息处理用彝文分词规范研究[J].西南民族大学学报（自然科学版）,2011,37(1):158-160. 被引量：4

引证文献5

1李健龙,王盼卿,韩琪宇.面向军事领域的中文分词技术研究[J].计算机与现代化,2018(11):115-118. 被引量：2
2唐晨馨,彭敏晶,李运蒙.网购情感客服机器人研究[J].电子商务,2017,18(5):17-19. 被引量：1
3高毅.基于长短时神经网络的古汉语分词系统[J].自动化与仪器仪表,2020,0(2):128-131. 被引量：1
4刘悦,孙强.众包模式客服机器人在产教融合平台及课程资源建设中的应用与开发[J].山东商业职业技术学院学报,2022,22(6):94-97.
5王承先.基于深度学习的彝文分词系统设计与实现[J].中国信息界,2024(2):228-233.

二级引证文献4

1齐玉东,丁海强,司维超,李程瑜.基于改进CNN的海军军事文本分类模型[J].电光与控制,2020,27(5):68-73. 被引量：9
2陈志锋.基于数据挖掘的网络检索自动分词系统设计[J].湖北科技学院学报,2022,42(3):117-121. 被引量：3
3邬亮,丁光正,王一囡.中文分词检索技术的现状与前景[J].通讯世界,2022,29(9):193-195.
4任健林.自然语言技术在电子商务中的应用探讨[J].中国新通信,2019,21(5):146-147.

1郑树伟.网盘如何知道你在分享侵权文件[J].计算机与网络,2014,40(7):41-41.
2刘迟时,王春华,伏奎.新的基于分组处理的射频识别标签防碰撞算法[J].计算机应用,2013,33(2):592-594. 被引量：2
3王丕景,牛润晟.基于MTK平台的手机游戏程序设计[J].电脑开发与应用,2012,25(10):24-27.
4邹智敏,郭荷清,高英.一种对英文字符串进行分词的方法[J].计算机应用研究,2007,24(7):52-54. 被引量：2
5郭颖平,杨进生,陈宗良,王志宏.一种基于修正直方图的图像增强算法[J].光学与光电技术,2014,12(6):17-20. 被引量：5
6林美.浅谈流媒体技术发展现状和应用[J].中国科技博览,2012(24):303-304.
7聂家琴.移动流媒体技术及其应用[J].中国多媒体视讯,2004(12):68-69.
8周恒忠.C语言实型数据的编码和存储[J].皖西学院学报,2007,23(5):19-21. 被引量：1
9肖民.移动流媒体中的编码技术简介[J].广播电视信息,2009,16(7):27-28. 被引量：2
10何钰,李瑞祥.多出口网络分流实例分析[J].网络运维与管理,2015,0(1):59-62.

自动化与仪器仪表

2016年第5期

浏览历史

内容加载中请稍等...

基于Lucene的中文分词系统设计与实现被引量：5

参考文献9

二级参考文献100

共引文献169

同被引文献40

引证文献5

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于Lucene的中文分词系统设计与实现 被引量：5

参考文献9

二级参考文献100

共引文献169

同被引文献40

引证文献5

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于Lucene的中文分词系统设计与实现被引量：5