Nutch中庖丁解牛中文分词的实现与评测被引量：10

Realization and Evaluation of Paodingjieniu Chinese Segmentation in Nutch

下载PDF

导出

摘要中文分词是搜索引擎面临的主要挑战之一。本文通过分析Nutch文档的评分机制,针对Nutch中文分词模块的分词不符合汉语习惯的情况,提出采用以词典分词法为基础的庖丁解牛分词模块对Nutch要采集的数据进行切分,描述在Nutch上实现庖丁解牛分词模块的方法,并对该分词模块进行测试。实验表明,庖丁解牛分词模块的分词结果更符合汉语习惯,并且在词项对文档的覆盖方面更加均衡,另外索引文件所占的存储空间节省20%～65%。 Chinese word segmentation is one of main challenges for search engine. By analyzing the scoring mechanism of the document of Nutch,for the situation that word segmentation of Chinese word segmentation module of Nutch does not conform to Chinese language habit,this paper proposes to use Paodingjieniu Chinese word segmentation module based on dictionary to segment the data collected by Nutch,describes the method that how to realize Paodingjieniu Chinese word segmentation module on Nutch, then tests the word segmentation module. Experiments show that the word segmentation result of Paodingjieniue word segmentation module more conforms to Chinese language habit,and the coverage of terms are more balanced for documents,in addition,20% ～ 65% of the storage space of index file is saved.

作者孙殿哲魏海平陈岩

机构地区辽宁石油化工大学研究生学院辽宁石油化工大学计算机与通讯工程学院

出处《计算机与现代化》 2010年第6期187-190,共4页 Computer and Modernization

关键词中文分词评分机制庖丁解牛 Chinese word segmentation scoring mechanism Paodingjieniu

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1Cafarella M, Cutting D. Building Nutch:Open source search [J]. ACM Queue,2004,2(2) :54-61.
2Cutting D. Lucene [ EB/OL ]. http ://Jakarta. apache, org/ lucene/,2009-11431.
3文振威,秦晓.个性化搜索引擎的研究与设计[J].计算机工程与设计,2009,30(2):342-344. 被引量：21
4王莉云,王华,陈刚,姚乃明.基于Lucene的全文检索系统的设计与实现[J].计算机工程与设计,2007,28(24):5959-5961. 被引量：14
5郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(4):94-96. 被引量：68
6Cohen D,Amitay E,Camlal D. Lucene and jura at trec 2007:1- million queries track[ C ]//Proceedings of the 16th Text Retrieval Conference ( TREC 21X37 ). Gaithersburg, Washington, USA ,2007:321-327.
7fan H Witten, Alistair Moffat, Timothy C Bell. Managing Gigabytes: Compressing and Indexing Documents and Images(2 Edition) [M].梁斌译.北京:电子工业出版社,2009.
8Sproat R, Gale W, Shih C. A stochastic finite-state word-segmentation algorithm for Chinese[J ]. Computational Liguistics, 1996,22(3) :377-404.
9胡长春,刘功申.面向搜索引擎Lucene的中文分析器[J].计算机工程与应用,2009,45(12):157-159. 被引量：8
10王继明,杨国林.基于Lucene的中文文本分词[J].内蒙古工业大学学报（自然科学版）,2007,26(3):185-188. 被引量：11

二级参考文献54

1胡俊华,杨波,李金屏.自然语言理解研究略述[J].济南大学学报（社会科学版）,2001,11(5):58-62. 被引量：8
2曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
3温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
4柯和平.基于全文检索和流媒体技术的素材库设计建设[J].计算机工程与设计,2004,25(9):1466-1469. 被引量：8
5张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
6左雄辉,糜麒.个性化搜索引擎研究[J].计算机工程与应用,2005,41(17):190-192. 被引量：14
7文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
8郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(4):94-96. 被引量：68
9肖红,许少华,李欣.具有三级索引词库结构的中文分词方法研究[J].计算机应用研究,2006,23(8):49-51. 被引量：16
10向晖,郭一平,王亮.基于Lucene的中文字典分词模块的设计与实现[J].现代图书情报技术,2006(8):46-50. 被引量：27

共引文献147

1吴泽彬,魏洁,李蔚清,吴慧中.面向服务架构的全文检索研究[J].华中科技大学学报（自然科学版）,2007,35(S1):202-205. 被引量：3
2于静波,余敦一,陈秋月,胡文学.互联网新闻搜索设计[J].计算机系统应用,2008,17(7):18-20.
3刘高原,何伟娜,郑浩,刘觉夫.Nutch0.9中二分法中文分词的实现[J].计算机时代,2009(4):28-30.
4刘小强.二手转让及房产租售垂直搜索引擎的设计与实现[J].三门峡职业技术学院学报,2010,9(3):107-110. 被引量：2
5何晶.图书馆智能化信息推荐服务系统性能优化技术研究[J].自动化与仪器仪表,2016(2):116-117. 被引量：1
6栾静,李军锋.基于Lucene全文检索引擎的应用研究[J].计算机与数字工程,2010,38(12):184-186. 被引量：5
7叶云,梁京章.基于Lucene的搜索引擎在远程教育平台中的应用[J].现代计算机,2007,13(4):53-55. 被引量：2
8赵峰.基于Lucene的全文检索系统初探[J].黑龙江科技信息,2007(06X):62-62. 被引量：1
9张以维.基于Open Source的全文检索框架[J].计算机系统应用,2007,16(6):56-57.
10张立彬,吴海洪,陈教料.基于Lucene的企业知识共享系统的实现[J].机电工程,2007,24(8):87-90. 被引量：1

同被引文献97

1王健,甘国辉.多维农业信息分类体系[J].农业工程学报,2004,20(4):152-156. 被引量：27
2张庆久.德国应用科技大学与我国应用型本科的比较研究[J].黑龙江高教研究,2004,22(8):31-33. 被引量：113
3宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
4章成敏,章成志.国外农业搜索引擎评析[J].农业网络信息,2004(11):31-34. 被引量：8
5张云涛,龚玲,王永成.An improved TF-IDF approach for text classification[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2005,6(1):49-55. 被引量：4
6夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24
7费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
8杨鸿雁,尚俊平,徐延华,王萌,张宇.农业专业搜索引擎建设探讨[J].农业图书情报学刊,2005,17(4):83-84. 被引量：8
9李代平,罗寿文,张信一,方海翔.网格并行计算模型研究[J].计算机工程,2005,31(8):117-119. 被引量：1
10胡金有,张健,游龙勇.我国农业信息网站现状分析[J].农机化研究,2005,27(6):38-40. 被引量：18

引证文献10

1许昊,王跃胜.基于Lucene的FTP搜索引擎的设计与实现[J].福建电脑,2012,28(7):133-135.
2时维元,林正英.复杂设备制造企业远程服务文档管理与检索系统研究[J].新技术新工艺,2013(2):42-45. 被引量：1
3彭金莲,胡祝华,郑兆华,陈显毅,钟杰卓,李淑.网络工程专业“3+1”模块化课程体系的创新研究[J].海南大学学报（自然科学版）,2013,31(1):74-79. 被引量：8
4闫娟,耿凯峰,刘丽.基于Hadoop平台的教育资源库建设[J].河南师范大学学报（自然科学版）,2013,41(2):161-164. 被引量：6
5孟池洁,王伟,耿光刚.基于统计机器学习的互联网暗链检测方法[J].计算机应用研究,2015,32(9):2779-2783. 被引量：5
6赵涛,张太红.农业搜索引擎中文分词工具对比[J].计算机系统应用,2016,25(4):226-231. 被引量：2
7林红静,黄梦醒.基于微博信息的关键词库爬虫策略[J].海南大学学报（自然科学版）,2016,34(2):112-120. 被引量：3
8赵新苗,冯向萍,李永可.改进的中心向量算法在农业信息分类中的研究[J].计算机技术与发展,2016,26(8):146-151. 被引量：1
9区卓越,覃姜维,赵峰,孙晓翠.Nutch在中医药信息融合中的应用研究[J].现代计算机,2023,29(3):9-15.
10李艳.基于统计机器学习的互联网暗链检测方法研究[J].计算机产品与流通,2019,0(10):162-162.

二级引证文献26

1邱建新.高职计算机类教学资源库平台建设思路[J].当代职业教育,2014(1):62-64. 被引量：4
2傅由甲,王勇.网络工程专业中网络应用软件开发能力培养研究[J].计算机教育,2014(11):61-63. 被引量：4
3帅小应,黄海生.新建本科院校网络工程专业课程体系探索[J].池州学院学报,2014,28(6):130-132. 被引量：1
4郭秋叶,余琦.云环境中智能教育资源管理系统设计[J].计算机教育,2015(1):45-48.
5李彦.一种基于元数据本体计算的网络信息检索方法[J].新技术新工艺,2015(3):41-43.
6张拥华.基于Hadoop的云教学资源平台设计与实现[J].企业技术开发,2015,34(6):24-27. 被引量：2
7王育坚,马楠,牛选龙.计算机科学与技术专业应用型人才培养模式改革[J].计算机教育,2015(23):61-65. 被引量：29
8王育坚,张姝,马楠.计算机科学与技术专业个性化人才培养模式的研究与实践[J].教育与教学研究,2016,30(4):61-66. 被引量：14
9蒋中云.基于能力本位的网络工程专业模块化课程体系改革与研究[J].电子测试,2016,27(3):76-77.
10李志晓.微博搜索技术及隐私安全问题的研究[J].电子世界,2016,0(21):58-59.

1博言.庖丁解牛，小说按章分割[J].计算机应用文摘,2009,25(11):31-31.
2卢弋.梆梆安全:移动安全也需庖丁解牛[J].金融电子化,2015(3):92-92.
3李展,李顺.智能搜索中中文分词模块的设计[J].福建电脑,2012,28(2):151-152.
4潘晓荣,陈悦,周晓望.庖丁解牛话贴标[J].酒．饮料技术装备,2013(2):52-55.
5刘洋.庖丁解牛——小软盘也能带走大文件[J].电脑时空,2003(5):95-96.
6黄翼彪.实现Lucene接口的中文分词器的比较研究[J].科技信息,2012(12):246-247. 被引量：11
7张思发,马永格.面向地学信息领域垂直搜索引擎设计与实现[J].计算机工程与应用,2012,48(33):85-88. 被引量：4
8庖丁解牛解析PCMark 7[J].微型计算机,2011(19):30-34.
9新庖丁解牛——机器人保护产品和工人的安全[J].现代包装,2012(2):17-17.
10展览[J].消费,2013(50):43-43.

计算机与现代化

2010年第6期

浏览历史

内容加载中请稍等...

Nutch中庖丁解牛中文分词的实现与评测被引量：10

参考文献14

二级参考文献54

共引文献147

同被引文献97

引证文献10

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

Nutch中庖丁解牛中文分词的实现与评测 被引量：10

参考文献14

二级参考文献54

共引文献147

同被引文献97

引证文献10

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

Nutch中庖丁解牛中文分词的实现与评测被引量：10