基于Lucene的英汉跨语言信息检索被引量：12

English-Chinese Cross-language Information Retrieval Using Lucene System

下载PDF

导出

摘要描述了一个英汉跨语言检索系统的设计与实现,其主要研究目的在于寻找更为有效的英汉查询翻译方法,以及提高汉语检索系统的性能。在英汉查询翻译方面,以英汉双语词典为基础,建立了查询翻译算法。在汉语检索方面,分析不同索引单元对于检索性能的影响,基于Lucene全文索引工具包建立了搜索引擎。在系统评测方面,提出了一种根据主题,快速构建评测数据的方法。 The paper describes the implementation of an English-Chinese cross-language information retrieval system (CLIR). It focuses on finding effective translation equivalents between English and Chinese, and improving the performance of Chinese IR. On English-Chinese CLIR, it adopts query translation as the dominant strategy, and utilizes English-Chinese bilingual dictionary as the important knowledge resource to acquire correct translations. On Chinese monolingual retrieval, it investigates the use of different entities as indexes and implements retrieval system based on the Lucene toolkit. On system evaluation, it presents a quick method to construct the sets of relevant documents for query topics.

作者陈士杰张玥杰

机构地区复旦大学计算机科学与工程系

出处《计算机工程》 EI CAS CSCD 北大核心 2005年第13期62-64,共3页 Computer Engineering

基金国家自然科学基金资助项目(60203010)

关键词信息检索跨语言信息检索自然语言处理机器翻译 Information retrieval (IR) Cross-language information retrieval (CLIR) Natural language processing (NLP) Machine translation (MT)

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Foo S, Li Hui. Chinese Word Segmentation and Its Effect on Information Retrieval. Information Processing & Management, 2002.
2Wu Z M, Tseng G. Chinese Text Segmentation for Text Retrieval:Achievements and Problems. Journal of the American Society for Information Science, 1993,44 (9): 532-542.
3Gao Jianfeng. An Empirical Study of CLIR at MSRCN. Shanghai:International Workshop ILT&CIP-2001 on Innovative Language Technology and Chinese Information Processing, 2001.
4Jakarta Lucene Home Page.http://jakarta.apache.org/lucene/.
5Baeza-Yates R, Ribeiro-Neto B. Modem Information Retrieval.Addison-Wesley, 1999.

同被引文献49

1胡涛,路红英.基于Nutch的搜索引擎的研究[J].计算机时代,2007(1):57-59. 被引量：16
2董慧,陈琮,雷瑛.基于J2EE规范的数字图书馆示范模型的设计与实现（下）——关键技术分析[J].情报学报,2004,23(3):289-296. 被引量：1
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
4张校乾,金玉玲,侯丽波.一种基于Lucene检索引擎的全文数据库的研究与实现[J].现代图书情报技术,2005(2):40-43. 被引量：30
5夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24
6周强.用Lucene实现MARC记录全文索引之探索[J].图书馆学刊,2005,27(2):22-24. 被引量：2
7王昊.跨语言信息检索实现方法与关键技术探讨[J].情报杂志,2005,24(7):46-49. 被引量：14
8陈庆伟,刘军.基于Lucene的网站全文搜索的设计与实现[J].科技情报开发与经济,2005,15(15):242-244. 被引量：15
9余涛,余彬.从SMS、MMS到LBS——移动增值服务的发展趋势[J].移动通信,2005,29(10):41-44. 被引量：4
10陆天波,方滨兴,孙毓忠,程学旗.点对点匿名通信协议WonGoo的性能分析[J].计算机工程,2006,32(2):26-28. 被引量：5

引证文献12

1吴家道,赵乃良.一种基于海量数据的智能信息检索系统实现[J].杭州电子科技大学学报（自然科学版）,2007,27(5):127-130.
2刘高原,何伟娜,郑浩,刘觉夫.Nutch0.9中二分法中文分词的实现[J].计算机时代,2009(4):28-30.
3张晓卫,朱巧明.一种基于Lucene的Web全文信息检索系统的设计与实现[J].计算机与现代化,2006(12):111-115. 被引量：6
4缪融.基于外文数据库的交叉语言信息检索系统的探讨[J].情报杂志,2007,26(3):118-120. 被引量：1
5曹强.基于Lucene的Web站点站内全文检索系统的设计与实现[J].图书情报工作,2007,51(9):124-126. 被引量：10
6宋佳,诸云强,刘润达.一种基于Lucene改进的全文检索工具包[J].计算机工程与应用,2008,44(4):172-175. 被引量：15
7艾菊梅,周书民,彭健.基于MMS和Web GIS的移动搜索[J].计算机工程,2008,34(22):256-257. 被引量：1
8熊定富.基于开源Lucene2.0的书目搜索引擎设计与实现[J].图书情报知识,2009,26(4):99-104. 被引量：1
9陈文君,於文雪.汉英跨语言检索系统中关键词提取方法的研究[J].电脑知识与技术,2009,5(10):7848-7849.
10朱岸青,黄杰.基于Lucene的全文检索系统模型的研究和开发[J].暨南大学学报（自然科学与医学版）,2009,30(5):504-508. 被引量：4

二级引证文献42

1申晋.基于Lucene和Nutch的林业垂直搜索引擎的研建[J].农业网络信息,2008(4):16-18. 被引量：7
2蒋维,郝文宁,杨晓恝,靳大尉.分布式数据库搜索引擎的索引建立和优化[J].计算机工程,2008,34(18):36-38. 被引量：7
3周锦程,王丹.基于Lucene的全文搜索引擎研究与应用[J].黔南民族师范学院学报,2009,29(3):7-12. 被引量：4
4刘启刚.网络课程答疑系统的研究与设计[J].江苏广播电视大学学报,2009,20(3):30-33.
5陈龙得,田青.基于CLucene和TinyXml的全文检索系统研究与实现[J].计算机与现代化,2009(9):187-190. 被引量：2
6葛振国,李建,何林糠,吴军.基于Lucene的Oracle数据库全文检索[J].信息技术,2010,34(3):156-158. 被引量：5
7龚磊,武友新.Lucene全文检索系统的研究与实现[J].计算机与数字工程,2010,38(5):64-67. 被引量：5
8周杨.基于Lucene的小型搜索引擎系统的架构与实现[J].电脑编程技巧与维护,2010(11):61-64.
9王远定,梁久祯.利用关键词倒排表实时检索中文网页[J].计算机工程与应用,2010,46(28):135-137. 被引量：4
10薛萍.基于Lucene的全文检索系统研究[J].中国科技博览,2010(33):419-419.

1李亚超,江涛,于洪志,加羊吉.基于词典的藏汉跨语言检索系统研究[J].西北民族大学学报（自然科学版）,2011,32(4):40-43. 被引量：1
2谷歌金山词霸不能正常发音[J].电脑爱好者（普及版）,2010(A02):73-73.
3罗小聪.基于专用双语词典的查询扩展[J].现代计算机,2009,15(10):4-6.
4苏依拉,窦保媛,吉亚图.基于本体的蒙古语灾害信息检索模型[J].北京工业大学学报,2016,42(7):1017-1023. 被引量：4
5徐红姣,高影繁.实用型跨语言检索查询翻译接口性能改进研究[J].图书情报工作,2014,58(1):124-129. 被引量：2
6王华风.论大型英汉双语词典数据的结构模型[J].情报学报,1999,18(S1):63-67. 被引量：1
7高影繁,徐红姣.一种实用型跨语言检索查询翻译接口的设计与实现[J].图书情报工作,2013,57(20):123-126. 被引量：3
8郭宏蕾,姚天顺.数词的语义结构及通用翻译算法[J].中文信息学报,1996,10(4):60-65. 被引量：3
9张金柱,蒋勇青.基于翻译检索一体化的跨语言信息检索研究[J].情报杂志,2009,28(11):167-171. 被引量：3
10张立 ,王茜竹 ,王朝霞 .一种有效的XML-TO-SQL查询翻译优化算法[J].后勤工程学院学报,2005,21(4):83-87.

计算机工程

2005年第13期

浏览历史

内容加载中请稍等...

基于Lucene的英汉跨语言信息检索被引量：12

参考文献5

同被引文献49

引证文献12

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于Lucene的英汉跨语言信息检索 被引量：12

参考文献5

同被引文献49

引证文献12

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于Lucene的英汉跨语言信息检索被引量：12